Draft viết bài dự thi thạc sĩ

Note

xin giáo viên hd: Associate Professor, Ph.D. Le Anh Cuong
Link note data : Phát triển và hướng nghiên cứu tiếp
2401.15391 - Multihop

Content

🎓 BÀI LUẬN DỰ ĐỊNH NGHIÊN CỨU TRÌNH ĐỘ THẠC SĨ

1. Mục tiêu học sau đại học (SĐH)

Mục đích trả lời câu hỏi:

Nhằm vào việc gì?
Hoặc để phục vụ cho cái gì?

**2. Lý do lựa chọn cơ sở đào tạo*

Cơ sở vật chất
Chương trình đào tạo đạt chuẩn kiểm định quốc tế
Chất lượng đội ngũ giảng viên
Chất lượng nghiên cứu khoa học
Chính sách học phí, học bổng

3. Kinh nghiệm làm việc

Những công việc, vị trí đã từng làm ở công ty, trường học, cơ quan
Tham gia những đề tài NCKH, dự án CNTT nào?
Thành thạo những ngôn ngữ lập trình nào? Có kỹ năng gì?

4. Hướng dự định nghiên cứu

Ý tưởng về dự định nghiên cứu:
Suy nghĩ, cân nhắc, chọn lọc để đi đến xác định đề tài.
Gồm 7 nội dung:

Lý do chọn đề tài
Mục tiêu đề tài
Đối tượng nghiên cứu
Phương pháp dự định nghiên cứu
Kế hoạch nghiên cứu
Kết quả dự kiến đạt được
Đề xuất giao viên hướng dẫn

4.1. Đặt tên đề tài

Ngắn gọn, rõ ràng.
Không được phép hiểu hai hay nhiều nghĩa.
Cần tránh:
Không đặt bằng những cụm từ có độ bất định cao như:
“Về…”, “Thử bàn về…”, “Một số suy nghĩ về…”, “Góp bàn về…”.
Hạn chế sử dụng cụm chỉ mục đích mở đầu như:
“Để…”, “Nhằm…”, “Góp phần…”, “Nâng cao…”, “Phát triển năng lực cạnh tranh…”.

4.2. Lý do chọn đề tài

Người nghiên cứu dẫn dắt câu chuyện để trả lời câu hỏi:
“Tại sao chủ đề ấy lại cần thiết được xem xét nghiên cứu?”
Xem xét các nghiên cứu trước đây, xác định hạn chế/khuyết điểm, mức độ cấp thiết.
Cuối đoạn, kết lại bằng lý do chọn đề tài, ví dụ:
“Vì vậy, Em chọn đề tài: [viết tên đề tài cụ thể].”

**4.3. Mục tiêu nghiên cứu*

Rõ ràng và đơn giản
Cụ thể và đo lường được
Liên quan trực tiếp đến vấn đề nghiên cứu
Khả thi và thực hiện được
Liên kết với kết quả dự kiến

4.4. Nhiệm vụ nghiên cứu

Xác định các công việc cần thực hiện để đạt mục tiêu nghiên cứu:
- Thu thập và phân tích dữ liệu
- Đề xuất mô hình / phương pháp / giải pháp
- Kiểm chứng và đánh giá kết quả

4.5. Đối tượng nghiên cứu

Miêu tả rõ ràng về đặc điểm của đối tượng nghiên cứu
Xác định phạm vi của đối tượng nghiên cứu

4.6. Phương pháp nghiên cứu

Là cách thức, con đường, phương tiện thu thập, xử lý thông tin khoa học để làm sáng tỏ vấn đề nghiên cứu, giải quyết nhiệm vụ và đạt được mục tiêu.
Ví dụ:
Nguồn dữ liệu lấy từ đâu?
Cách thu thập dữ liệu, tiền xử lý như thế nào?
Phân tích ra sao
Dùng thuật toán nào?

4.7. Kết quả dự kiến đạt được

Dự kiến kết quả sẽ đạt được là gì?
Ý nghĩa của kết quả trong việc góp phần giải quyết vấn đề thực tiễn.

5. Tài liệu tham khảo

Ví dụ trích dẫn theo APA 7th Edition:

Truong, D. T., & Cheng, G. (2016). Detecting domain-flux botnet based on DNS traffic features in managed network. Security and Communication Networks, 9(14), 2338–2347.

6. Đề xuất giảng viên hướng dẫn

Giảng viên hướng dẫn phải có trình độ Tiến sĩ trở lên
Đúng chuyên ngành
Có kinh nghiệm nghiên cứu
Học viên nên chủ động trao đổi trước với GVHD; nếu không có GVHD thì Khoa sẽ phân công giảng viên phù hợp.

MultiHop RAG (Tang and Yang, 2024) datasets.

Phát triển trợ lý tuyển sinh đại học tại Việt Nam với năng lực suy luận có thể truy vết dựa trên trí tuệ nhân tạo

2.x. Kết quả dự kiến đạt được

Phần này trình bày các kết quả dự kiến của đề tài sau khi hoàn thành toàn bộ kế hoạch nghiên cứu 6 tháng, bao gồm: (i) kết quả kỹ thuật/hệ thống; (ii) kết quả khoa học/học thuật; và (iii) giá trị ứng dụng đối với thí sinh, phụ huynh và nhà trường. Đồng thời, phần này chỉ ra những đóng góp chính mà đề tài kỳ vọng mang lại so với hiện trạng tư vấn tuyển sinh hiện nay.

1. Hệ thống trợ lý tuyển sinh có khả năng suy luận và giải thích được

Đề tài dự kiến xây dựng và vận hành được một hệ thống trợ lý tuyển sinh (chatbot) cho thí sinh Việt Nam, dựa trên kiến trúc Retrieval-Augmented Generation (RAG) và mở rộng bằng GraphRAG. Hệ thống không chỉ trả lời câu hỏi về ngành học, phương thức xét tuyển, điểm chuẩn, chỉ tiêu, học phí, thời hạn nộp hồ sơ… mà còn trả lời theo ngữ cảnh từng trường, từng năm, và từng phương thức tuyển sinh cụ thể.

Điểm quan trọng hơn là hệ thống không chỉ “trả lời” mà còn “giải thích tại sao trả lời như vậy”. Cụ thể:

Mỗi câu trả lời sẽ kèm bằng chứng (trích dẫn nguồn chính thống, URL, thời điểm công bố).
Hệ thống có thể chỉ ra chuỗi suy luận và mối liên hệ giữa các phần thông tin (ví dụ: trường A → ngành B → phương thức xét tuyển C → điều kiện học bạ D → điểm chuẩn năm 2024 là E).
Khi thông tin không tồn tại hoặc không nhất quán giữa các nguồn, hệ thống có khả năng từ chối trả lời thay vì bịa ra câu trả lời.

Điều này trực tiếp giải quyết vấn đề đã nêu ở phần Lý do chọn đề tài: thông tin tuyển sinh hiện nay phân tán, thay đổi nhanh, khó tin cậy, và người hỏi rất khó tự kiểm chứng.

Kết quả dự kiến:

Một phiên bản hoạt động được của chatbot tư vấn tuyển sinh theo hướng “tư vấn có thể kiểm chứng”.
Bộ giao diện trả lời có trích dẫn nguồn và giải thích đường suy luận (evidence path).
Khả năng trả lời cả câu hỏi đơn bước (single-hop) và câu hỏi đa bước (multi-hop), ví dụ so sánh nhiều trường/ngành hoặc phân tích thay đổi theo năm.

2. Kho dữ liệu tuyển sinh chuẩn hóa, có kiểm định và có thể tái sử dụng

Đề tài dự kiến hình thành một kho dữ liệu tuyển sinh đã được làm sạch, gắn nhãn và version hóa. Kho dữ liệu này bao gồm:

Dữ liệu chính thống từ website trường, đề án tuyển sinh, thông báo điểm chuẩn, chỉ tiêu, học phí, chính sách ưu tiên, học bổng, lịch tuyển sinh, cổng Bộ GD&ĐT… trong giai đoạn 2023–2025.
Dữ liệu được crawl có kiểm soát, làm sạch (loại bỏ nhiễu như footer/nav, chuẩn hóa encoding, chống trùng lặp), chuẩn hóa thuật ngữ, và gắn metadata (URL nguồn, thời điểm công bố, năm áp dụng, mức độ tin cậy).
Mỗi bản ghi có timestamp và có thể được truy vết trở lại nguồn gốc, hỗ trợ chứng minh tính hợp lệ.

Không chỉ dừng ở việc “thu thập”, đề tài còn tổ chức dữ liệu theo đồ thị tri thức (knowledge graph), tạo ra các thực thể như Trường (University), Ngành (Program), Phương thức xét tuyển (AdmissionMethod), Chỉ tiêu (Quota), Điểm chuẩn/Điểm sàn (CutoffScore/FloorScore), Học phí (Tuition), Học bổng (Scholarship), Mốc thời gian (Deadline), Chính sách ưu tiên (Policy), v.v.

Giá trị của đóng góp này:

Đây không chỉ là một tập dữ liệu thô, mà là một tài nguyên có cấu trúc, có thể kiểm chứng và cập nhật.
Có thể dùng lại cho các nghiên cứu sau này như cảnh báo thay đổi chỉ tiêu, phân tích xu hướng điểm chuẩn theo năm, hay phân tích chênh lệch học phí giữa các trường.
Có thể sử dụng để huấn luyện/đánh giá các hệ thống hỏi đáp chuyên ngành giáo dục tại Việt Nam.

Nói cách khác: dữ liệu không chỉ phục vụ hệ thống trong luận văn, mà còn có thể trở thành nền tảng dùng chung cho các đề tài tiếp theo (ví dụ: dự báo xu hướng tuyển sinh, hệ thống gợi ý ngành học).

3. Bộ tiêu chí đánh giá cho bài toán tư vấn tuyển sinh dựa trên RAG/GraphRAG

Đề tài không dừng ở việc xây hệ thống, mà còn đề xuất một khung đánh giá có thể lặp lại và so sánh.

Cụ thể, đề tài dự kiến xây dựng:

Bộ câu hỏi chuẩn hóa (benchmark) gồm cả:
- Câu hỏi single-hop (hỏi một thông tin cụ thể).
- Câu hỏi multi-hop (cần suy luận nhiều bước, ví dụ so sánh học phí/ngưỡng điểm chuẩn giữa hai trường).
- Câu hỏi temporal (thay đổi theo năm).
- Câu hỏi null (câu hỏi không có câu trả lời đúng trong dữ liệu, dùng để kiểm tra khả năng “từ chối trả lời” và kiểm soát ảo giác).
Bộ chỉ số đánh giá:
- Retrieval metrics: Recall@k, Precision@k, nDCG@k, MRR, độ trễ truy hồi.
- Generation metrics: accuracy, faithfulness (trung thực với bằng chứng), answerability (trả lời đúng hoặc từ chối đúng), hallucination rate, chi phí mỗi truy vấn.
- XAI metrics: độ chính xác trích dẫn, độ đầy đủ bằng chứng, mức độ bao phủ đường suy luận.

Kết quả dự kiến:

Một bộ khung đánh giá có thể so sánh các kiến trúc khác nhau: Naive RAG, Self-RAG, Corrective RAG, GraphRAG.
Một cách đo lường cụ thể cho tính “minh bạch” và “có thể kiểm chứng” của hệ thống, thay vì chỉ hỏi “trả lời có đúng hay không?”.
Đây là điểm rất quan trọng về mặt học thuật: thay vì chỉ benchmark độ chính xác câu trả lời, đề tài benchmark luôn cả khả năng giải thích và kiểm chứng bằng chứng. Điều này phù hợp với mục tiêu XAI.

4. Chứng minh định lượng rằng GraphRAG giải quyết được vấn đề thực tế

Một trong các kết quả dự kiến quan trọng là đưa ra được bằng chứng định lượng và định tính cho luận điểm: GraphRAG (có cấu trúc đồ thị tri thức + truy vết bằng chứng + ràng buộc theo timestamp mới nhất) hiệu quả hơn so với RAG truyền thống trong bối cảnh tư vấn tuyển sinh Việt Nam.

Kỳ vọng có thể chứng minh:

Giảm tỷ lệ ảo giác (hallucination rate) trong các truy vấn nhạy cảm như “trường X có tuyển ngành Y năm Z không?”.
Tăng khả năng trả lời câu hỏi so sánh đa trường (comparison queries) và câu hỏi theo thời gian (temporal queries), vốn là loại câu hỏi thí sinh hay hỏi khi phải ra quyết định.
Tăng mức độ tin tưởng từ phía người dùng (ví dụ phụ huynh tin câu trả lời hơn khi được cung cấp đường dẫn nguồn + ngày ban hành thông báo).

Điều này trả lời trực tiếp cho câu hỏi “đề tài có thật sự giải được vấn đề xã hội được nêu ở phần Lý do chọn đề tài hay không?”.

5. Đóng góp khoa học và hướng xuất bản

Từ kết quả nghiên cứu, đề tài kỳ vọng đóng góp các nội dung sau:

Đóng góp phương pháp luận
- Đề xuất một quy trình kỹ thuật đầy đủ cho việc xây dựng trợ lý tư vấn miền hẹp, từ thu thập dữ liệu chính thống → làm sạch → chuẩn hóa → xây dựng đồ thị tri thức → truy xuất đa tầng → sinh câu trả lời có giải thích.
- Áp dụng logic Multi-hop (MultiHop-RAG) vào miền tuyển sinh Việt Nam, vốn có tính chất nhiều điều kiện ràng buộc, thay đổi theo từng năm, và đòi hỏi so sánh liên trường.
Đóng góp dữ liệu
- Tập dữ liệu tuyển sinh được chuẩn hóa, có versioning, gắn nguồn, có thể audit.
- Bộ câu hỏi đánh giá (benchmark QA) phân loại theo Inference / Comparison / Temporal / Null, dùng để kiểm thử khả năng suy luận đa bước trong GraphRAG.
Đóng góp kỹ thuật XAI trong tư vấn giáo dục
- Cơ chế sinh câu trả lời kèm bằng chứng, timestamp và đường suy luận (evidence path) – tức giải thích không phải kiểu “tự suy đoán của mô hình”, mà là giải thích dựa trên nguồn chính thống.
- Cách mô hình từ chối trả lời có điều kiện khi bằng chứng mâu thuẫn hoặc thiếu, thay vì “bịa cho đầy đủ”.
Khả năng công bố / xuất bản
- Một báo cáo kỹ thuật dạng “technical report / workshop paper” mô tả pipeline và benchmark, có thể hướng tới workshop/track về RAG, LLM for education, NLP cho tiếng Việt, hoặc các diễn đàn nghiên cứu ứng dụng AI trong giáo dục đại học.
- Bộ dữ liệu (hoặc mô tả bộ dữ liệu + schema + quy trình thu thập + tiêu chí đánh giá minh bạch) có thể đóng gói thành phụ lục kỹ thuật của luận văn và, nếu cho phép công bố, có thể chia sẻ dưới dạng dataset kèm giấy phép (ví dụ: chỉ chia metadata + cấu trúc, không phát tán nguyên văn nếu có vấn đề bản quyền).
- Phần so sánh RAG truyền thống vs GraphRAG trong bối cảnh câu hỏi tuyển sinh tiếng Việt đa bước có thể trở thành một case study giá trị, vì hiện chưa có nhiều benchmark dạng multi-hop tiếng Việt trong miền giáo dục đại học.

Nói cách khác: đề tài không chỉ dừng ở một sản phẩm dùng nội bộ, mà còn có tiềm năng trở thành một đóng góp được công nhận ở dạng “cách tiếp cận + bộ đánh giá + bài toán ứng dụng thực tiễn tại Việt Nam”.

6. Giá trị ứng dụng và khả năng chuyển giao

Ngoài ý nghĩa nghiên cứu, hệ thống còn có giá trị sử dụng trực tiếp:

Có thể trở thành công cụ tham khảo cho phòng Tuyển sinh/Truyền thông của trường đại học: giảm áp lực trả lời thủ công các câu hỏi lặp đi lặp lại từ thí sinh.
Có thể hỗ trợ giáo viên tư vấn hướng nghiệp ở trường THPT: tra cứu điều kiện xét tuyển, chỉ tiêu, thời hạn nộp hồ sơ theo trường/ngành một cách nhanh và có trích nguồn.
Có thể dùng cho thí sinh và phụ huynh để giảm hiểu nhầm do đọc tin cũ, tin chắp vá hoặc tin “nghe nói”.
Có nền tảng để mở rộng sang các miền tương tự: học bổng, chương trình chất lượng cao, học phí theo ngành, cơ hội việc làm sau tốt nghiệp, v.v.