MOE_V2

Note

Hiện tại đang có 3/3
Moe is chuyên mô 2 tầng , neural và gate.
- H1 expert có tín hiệu mạnh - routing , tôi cần router đến expert này.
- nó không hiểu ngữ nghĩa và mà nó truyền đến tín hiệu mạnh nhất.
- H2 : 4/2026 : Làm sao phân vùng cái cụm các học này tốt hơn.
- H3: Routing load balance cần data distribution luôn không đều
  - Được cân bằng hoàn hảo -> nếu expert sai thì khi những lĩnh vực noise hay outline(có thể phải chạm nhận data balance)
- H4: Token dropping - skip , move token qua expert khác nếu quá tải.

Scalling law

Dense: Chinchilla
Chạy labs - rule force tìm số expert cần token cho mỗi expert ? Cần tìm cho cái này.
Đang tối ưu đang thử nghiệm để cho ra các para thử nghiệm
H3 : ROuting dynamic - load toàn bộ - Lên quá trình inference thì ???
- Mình chưa dư đoán được cái routing động sẽ xài
  - COst rất lớn gpu phải giao tiếp với nhau = làm cho moe - chậm hơn 15.
  - Hardware bị đuối thì ?? thì cần kiến trúc nào - dđ

Research Gap

HÌnh 1/1
H3: active token nhiều inference - thì cần nhiều hơn. Thêm chiều sâu sử lý hơn. nếu easy: 4 , complex: 6 - > adaptive refences.
H4: Làm sao train rẻ hơn, -> Làm sao resoning tốt hơn -> làm sao routing tốt hơn? (HỌc hơn - hard code để thay vì fix cứng)

Kimi K2

H2: CHọn production giảm 128 -> 64 thì giảm: - rule ngay từ đầu
H3: Muon problem - adam w, adam. đúng tối ưu con ma trận
- Muon - Q, K, V, ma trận của gating - muon
  - Attention logit - nó bị bắn lớn, loss???-
- Moun CLip - QK Clip - rescales , Finetune không ổn định trên data lớn.
H4: Agent RL - > thu thập data để làm train chất lượng cao dự vào lỗi
- tạo train data 10k data - Loop.

H5: Gian lận phần thưởng - Token budget-Control - Gắn max - Suy nghĩ hiệu quả trong thời gian giới hạn. - Scalling law moe ?. Rule force = load balance, specialization expert.
- Vẫn đang trong quá trình tạo ra expert.