Skip to main content

Bert Model - Bước tiến mới của NLP

2018 là một năm đáng nhớ của NLP, một loạt mô hình mới được tạo ra đem lại những hiệu quả vượt trội chưa từng thấy. XML, Bert, GPT, GPT-2,.... khiến năm 2019 trở nên sôi động nhằm ứng dụng mô hình này vào thực tế. Nhận được sự quan tâm hơn cả từ cộng đồng là mô hình BERT, được nhóm của Google phát triển. BERT thực hiện train trên 1 bộ dữ liệu rộng lớn, đạt được độ chính xác vượt trội trên các tác vụ như trả lời câu hỏi, phân loại câu hỏi, điền từ còn thiếu,suy luận ngôn ngữ tự nhiên,... BERT  kế thừa trực tiếp từ mô hình GPT - mô hình ngôn ngữ tổng quát, và là cảm hứng cho các mạng sau này như GPT-2, XLNet, Google's TransformersXL, Roberta, etc
BERT được xây dựng dựa theo mô hình học theo ngữ cảnh đào tạo trước - bao gồm học theo trình tự bán giám sát trước (Andrew & Quoc le), ULMFiT ( fastAI), Transformers ( Startup chatboot) , the OpenAI transformers.
Điều làm cho nó khác biệt là nó là mô hình học không giám sát đầu tiên, xử dụng truy vấn nội dung 2 chiều, được đào tạo bằng một văn bản đơn giản. Vì nó có mã nguồn mở, bất cứ ai có kiến thức về máy học đều có thể truy cập ,sử dụng mà không cần quá phức tạp về code hay quá quan trọng về việc train dữ liệu. Nó đem lại sự tiện lợi, ít tốn kém tài nguyên và độ chính xác cao.
Cuối cùng, Bert được đào tạo trước bằng bộ dữ liệu 2500 triệu từ ( toàn bộ wikipedia), kho sách 800 triệu từ.

BERT hoạt động như thế nào?

  •  Từ Baget of Word -> Word embling -> BERT

Bow -> Trích xuất thông tin theo tần số xuất hiện trong văn bản. Ý nghĩa văn bản hoàn toàn bị bỏ qua
Word Embling -> Trích xuất đặc trưng theo từ. Biểu diễn trong không gian vector. Nhược điểm, ngữ cảnh bị bỏ qua, các từ được biểu diễn cố định ý nghĩa: ví dụ ( bên phải, lẽ phải)
BERT được đào tạo theo hai hướng :

  •  MLM. Văn bản đầu vào bị che khuất 15% và sau đó quá trình huấn luyện 2 chiều để dự đoán các từ bị che. Ngữ cảnh đưa vào gồm 2 chiều để dự đoán từ bị che, dựa trên các từ khác không bị che. 
  • Kĩ thuật tiếp theo là NSP. Sử dụng để dự đoán câu tiếp theo. Hệ thống học cách dự đoán xem câu thứ 2 có phù hợp là câu tiếp theo của câu gốc. Hệ thống xem xét 2 câu A, B ngẫu nhiên từ data, sau đó thực hiện train tính toán quan hệ 2 câu và đưa ra dự đoán phù hợp. 
BERT thực hiện train đồng thời 2 kĩ thuật cùng lúc, nhờ đó cân bằng được giữa 2 yếu tố



Kiến trúc


BERT là kiến trúc 2 chiều, GPT là 1 chiều và elmo là 2 chiều.
BERT có 2 biến thể được xây dựng ở tầng trên cùng Transformers:

  • BERT-base 12 layers ,với 12 attention, 110 triệu tham số
  • BERT-large 24 LAYERS, với 16 blocks attention , 340 triệu tham số 
Kết quả
Trên SQuAD v1.1, BERT đạt 93,2% điểm F1 (thước đo độ chính xác), vượt qua điểm số tối tân trước đó là 91,6% và điểm số ở mức 91,2% của con người: BERT cũng cải thiện trạng thái Nghệ thuật tuyệt đối 7,6% trên điểm chuẩn GLUE đầy thách thức, một bộ 9 nhiệm vụ Hiểu ngôn ngữ tự nhiên (NLU) đa dạng.

BERT is here — But is it ready for the real world?
  • Text Classification and Categorization
  • Chatbots
  • Question Answering (QnA) 
Các mô hình phát triển từ BERT:

  • DistilBERT Phát triển bởi HuggingFace, DistilBERT học một chưng cất (xấp xỉ) phiên bản của Bert, giữ lại 95% hiệu suất trên KEO nhưng chỉ sử dụng một nửa số lượng các thông số (chỉ có 66 triệu thông số, thay vì 110 triệu). Khái niệm này là một khi một mạng lưới thần kinh lớn đã được đào tạo, phân phối đầy đủ sản lượng của nó có thể xấp xỉ bằng một mạng lưới nhỏ hơn (như xấp xỉ sau).
  • XLM / mBERT Phát triển bởi Facebook, XLM sử dụng một kỹ thuật được gọi trước khi chế biến (BPE) và một cơ chế đào tạo song ngữ với Bert để tìm hiểu mối quan hệ giữa các từ trong ngôn ngữ khác nhau. Mô hình này nhanh hơn so với các mô hình khác trong một nhiệm vụ phân loại đa ngôn ngữ và cải thiện đáng kể máy dịch thuật khi một mô hình pre-đào tạo được sử dụng để khởi tạo các mô hình dịch.




























Comments