Mixture Of Experts

References

Key words


MoE: Tương Lai Của Mô Hình AI Lớn?

Giới Thiệu Về MoE

MoE (Mixture of Experts) là một kiến trúc đột phá trong AI, giúp mô hình trở nên linh hoạt và hiệu quả hơn so với các mô hình dense truyền thống. Các mô hình MoE như Mixtral 8x7B và DeepSeek MoE đang chứng minh rằng chúng vừa nhanh, vừa chất lượng!

Lợi ích của MoE

1. Huấn Luyện Hiệu Quả

MoE giúp giảm thiểu tài nguyên tính toán trong giai đoạn pretraining. Tuy nhiên, quá trình fine-tuning có thể gây overfitting do các experts khó tổng quát hoá.

2. Suy Luận Siêu Tốc

Dù MoE có rất nhiều tham số, nhưng chỉ một phần nhỏ trong số đó được kích hoạt khi suy luận. Việc chọn lọc experts khi xử lý giúp tăng tốc độ so với mô hình dense tương đương.

Thách Thức Của MoE

1. Yêu Cầu Bộ Nhớ Cao

Dù chỉ kích hoạt một phần nhỏ tham số khi suy luận, nhưng tất cả tham số vẫn phải được tải vào RAM. Ví dụ, Mixtral 8x7B dù chỉ dùng 13B tham số khi suy luận nhưng vẫn cần để toàn bộ 47B tham số trong RAM.

2. Phân Phối Experts Không Đồng Đều

Thực Tế: Mixtral 8x7B vs. DeepSeek MoE

Mixtral 8x7B (Mistral AI)

DeepSeek MoE

Kết Luận

MoE mang lại bước nhảy vọt trong AI, kết hợp giữa hiệu suất và tính linh hoạt. Tuy nhiên, những thách thức về bộ nhớ và tải cân bằng cần được giải quyết. Các mô hình như Mixtral 8x7B và DeepSeek MoE chứng tỏ rằng MoE là hướng đi đáng chú ý trong tương lai!


1. Công thức cơ bản của MoE Gating Network

Mô hình Mixture of Experts (MoE) sử dụng một mạng gating (G) để quyết định xem phần nào của đầu vào sẽ được gửi đến chuyên gia nào (E). Công thức chính:

y=i=1nG(x)iEi(x)

👉 Hiểu đơn giản: Gating network ( G(x) ) quyết định tỷ lệ đầu vào ( x ) được gửi đến các chuyên gia ( E_i ).


2. Gating Function Truyền Thống (Softmax)

Trong cách tiếp cận truyền thống, gating function chỉ đơn giản là một mạng nơ-ron nhỏ với hàm Softmax:

Gσ(x)=Softmax(xWg)

👉 Hiểu đơn giản: Softmax giúp chọn chuyên gia nào được kích hoạt và với tỷ lệ bao nhiêu.


3. Noisy Top-k Gating (Cơ chế chọn lọc k chuyên gia)

Shazeer et al. đề xuất một phương pháp gating khác gọi là Noisy Top-k Gating, giúp làm cho quá trình chọn chuyên gia đa dạng hơn và giảm chi phí tính toán bằng cách chỉ chọn k chuyên gia có giá trị cao nhất thay vì dùng tất cả.

Bước 1: Thêm nhiễu vào tín hiệu gating

H(x)i=(xWg)i+StandardNormal()Softplus((xWnoise)i)

👉 Hiểu đơn giản: Thêm một lượng nhiễu điều chỉnh được vào trọng số gating để tránh overfitting và giúp mô hình tổng quát hóa tốt hơn.

Bước 2: Giữ lại chỉ ( k ) chuyên gia có trọng số cao nhất

KeepTopK(v,k)i={vinếu vi là 1 trong k giá trị lớn nhất của v,ngược lại.

👉 Hiểu đơn giản: Chỉ kích hoạt một số chuyên gia tốt nhất thay vì tất cả.

Bước 3: Áp dụng Softmax chỉ trên các giá trị được giữ lại

G(x)=Softmax(KeepTopK(H(x),k))

👉 Hiểu đơn giản: Tinh chỉnh trọng số cuối cùng bằng Softmax sau khi đã lọc ra các chuyên gia tốt nhất.


4. Lợi ích của Noisy Top-k Gating

Giảm chi phí tính toán: Vì chỉ có ( k ) chuyên gia được kích hoạt thay vì tất cả.
Cải thiện tính đa dạng: Việc thêm nhiễu giúp mô hình học cách chọn chuyên gia một cách linh hoạt hơn.
Tăng hiệu suất học: Ban đầu, người ta nghĩ rằng chọn 1 chuyên gia duy nhất là đủ, nhưng thực tế cần ít nhất 2 chuyên gia để mạng có thể học cách phân loại đầu vào hợp lý.

🚀 Tóm lại:


Evaluation