Microsoft và công nghệ nhận diện giọng nói của mình đang tỏ ra ngày càng đột phá khi nay hiệu suất nhận diện và chuyển biên của nó đối với ngôn ngữ nói của người là 5,1%, sánh ngang với những gì mà các chuyên gia giỏi nhất trên thế giới làm được - theo đăng tải từ Xuedong Huang, chuyên gia kỹ thuật của Microsoft.
Microsoft thực ra đã nghĩ rằng nền tảng này đạt được điều đó từ năm ngoái, khi mà thành tích bấy giờ là 5,9%, nhưng sau đó mới biết rằng 5,1% mới là chuẩn mực đủ để so sánh với con người. Dù sao thì nay công ty công nghệ xứ Redmond đã có thể đường đường chính chính tuyên bố với thế giới về điều đó rồi. Với cách thức lập trình cho trí tuệ nhân tạo (AI) giúp nhận diện ngôn ngữ và âm học thông qua mạng lưới phân tích phức tạp, họ đã giúp giảm số lỗi sai kể từ lần trước đến 12%. Ngoài ra, một khả năng mới nữa là việc AI có thể tự suy xét đến ngữ cảnh khi nghe để có thể tự đoán được những từ ngữ bị lộn âm hoặc đồng âm, khó nghe rồi truền tải cho chính xác.
“Việc nhắm đến khả năng sánh đôi với con người trong lĩnh vực này luôn là tâm điểm nóng của nhiều dự án nghiên cứu trong suốt những năm qua,” Xuedong Huang phát biểu. Tuy nhiên, không hẳn là Microsoft được bước trên con đường màu hồng suôn sẻ trên quá trình hoàn thiện AI đó, chẳng hạn là khi họ vẫn còn phải nghĩ xem co cách nào áp dụng cho môi trường tạp âm bên ngoài nhiều, micro ở xa không thu được hết tiếng, ngữ âm bản địa… Cho nên, mỗi khi xét đến trường hợp ứng dụng thực tế một cách phức tạp, không lý tưởng thì vẫn còn nhiều yếu tố chênh lệch.
“Chúng tôi vẫn còn nhiều việc phải làm nữa ở chuyên ngành phát triển máy tính này, không chỉ để dịch thuật truyền tải lại những ngôn từ có sẵn, mà còn phải hiểu được hẳn những tầng nghĩa sâu xa chính xác hơn. 'Nhận biết' và 'Hiểu rõ' ngôn ngữ là 2 khái niệm hoàn toàn khác biệt,” trích lời nhóm nghiên cứu.