Mô hình máy học nhận diện cảm xúc từ giọng nói của Trần Bảo Toàn - Cán bộ Trung tâm Công nghệ Phần mềm (CSE) của Đại học (ĐH) Duy Tân đã được trao giải Nhất tại cuộc thi ERC2019 (Emotion Recognition Challenge).
Anh Trần Bảo Toàn (đứng giữa) đến từ ĐH Duy Tân được trao giải Nhất tại cuộc thi ERC2019
Đây là cuộc thi do trường ĐH Khoa học Tự nhiên (ĐH Quốc gia TP.HCM) tổ chức với sự đồng hành của Công ty VinTech City (trực thuộc Tập đoàn Vingroup) diễn ra trong suốt 1 tháng và kết thúc với vòng chung kết vào ngày 15-12-2019 vừa qua. Cùng trò chuyện với anh Trần Bảo Toàn để hiểu rõ hơn về mô hình rất sáng tạo và có ích cho xã hội này.
* Anh có thể chia sẻ một chút về cuộc thi này cũng như cơ duyên anh tìm đến và tham dự cuộc thi?
- Tôi mới tốt nghiệp đại học năm 2017 và ngay sau đó đã đến ĐH Duy Tân làm việc. Công việc ở đây của tôi là lập trình phần mềm, đúng như chuyên môn mà tôi đã học ở đại học.Công việc này rất phù hợp với sở thích và đam mê của tôi.
Trong quá trình làm việc, giới IT chúng tôi thường chia sẻ với nhau rất nhiều về kiến thức chuyên môn cũng như thông tin về các cuộc thi để chúng tôi thử sức. Đến với ERC2019 cũng vậy, ngay khi được bạn bè chia sẻ, tôi đã đăng ký tham dự bởi đây là cuộc thi vừa sức với chuyên môn của tôi.
Cuộc thi này rất thú vị bởi có chủ đề về "Tìm kiếm giải pháp tiên phong cho nhận diện cảm xúc". Đây là một đề tài rất rộng và được khảo sát trên nhiều dạng thức dữ liệu khác nhau như văn bản, hình ảnh, âm thanh, video,…
ERC2019 là cuộc tranh tài đầu tiên về nhận diện cảm xúc dựa trên âm thanh được tổ chức tại Việt Nam. Cuộc thi tìm kiếm tài năng không giới hạn ở các cá nhân, tổ chức, các nhóm nghiên cứu trong nước và quốc tế.
Khi đăng ký tham dự cuộc thi, các thí sinh được Ban tổ chức cung cấp Bộ Dữ liệu huấn luyện gồm có 7.442 mẫu, được tổ chức thành các cặp file wave-label như sau:
Wave: dữ liệu âm thanh/tiếng nói theo format PCM 16 Khz, 16 bits, mono; Label: là file văn bản chứa nhãn emotion của file wav tương ứng.
Có tất cả 6 lớp nhãn emotion gồm happy, sad, anger, fear, disgust, và neutral.
Các đội đoạt giải chụp hình lưu niệm cùng Ban Tổ chức cuộc thi
* Từ Bộ Dữ liệu huấn luyện nhận được, anh đã phát triển ứng dụng của mình như thế nào, thưa anh?
- Trên nền tảng là Bộ dữ liệu huấn luyện của Ban tổ chức, tôi đã xây dựng một mô hình máy học (sử dụng mạng neuron nhân tạo) có khả năng phân loại được cảm xúc của con người từ bình thường, vui vẻ, buồn bã, giận dữ, sợ hãi, cho đến chán nản thông qua giọng nói.
Sau khi hoàn thành mô hình, tôi đã "up" lên hệ thống để thi đấu cùng các thí sinh khác. Ban tổ chức đã chọn ra các mô hình có độ chính xác cao nhất để bước vào vòng chung kết.
Tại vòng chung kết diễn ra vào 15-12-2019, 9 đội thi lọt qua vòng loại đã trực tiếp thuyết trình về mô hình và cách thức thực hiện. Ban giám khảo đã kiểm tra tất cả các mô hình của thí sinh dựa trên bộ dữ liệu private test.
Mô hình do tôi thực hiện đã đạt được độ chính xác cao nhất và giành được giải nhất của cuộc thi, giải nhì và giải tiềm năng của cuộc thi thuộc về 2 mô hình của đội thi đến từ TP.HCM.
* Đích hướng đến của anh khi thiết kế mô hình này là gì, thưa anh?
- Xã hội đang phát triển mạnh mẽ, kéo theo đó là không ít những bất ổn trong quá trình làm việc cũng như về sức khỏe con người. Thiết kế mô hình nhận diện cảm xúc, tôi muốn góp phần đưa ra những cảnh báo để giúp giảm thiểu các tai nạn.
Sản phẩm này áp dụng rất tốt trong một số lĩnh vực, ví dụ, như trong sản xuất ô tô, việc đặt thiết bị nhận diện cảm xúc của các tài xế để nhận biết sự mệt mỏi, buồn ngủ, say rượu,… để lên tiếng cảnh báo sẽ giúp giảm thiểu tai nạn giao thông.
Hay trong chăm sóc sức khỏe, việc nhận diện người bệnh có các triệu chứng suy giảm sức khỏe thông qua giọng nói sẽ giúp các bác sĩ có phác đồ điều trị tốt hơn,…
Các bạn có thể xem thêm thông tin đào tạo về ngành Công nghệ thông tin tại đây: http://kcntt.duytan.edu.vn và http://kdtqt.duytan.edu.vn