Google trình làng AI tạo video

Hoàng Long 15/05/2024 - 10:56 (GMT+7)

Công cụ AI vừa được Google trình làng có khả năng tạo video dài hơn một phút với độ phân giải Full HD.

Sự kiện Google I/O diễn ra vào rạng sáng 15/5 theo giờ Hà Nội đã chứng kiến sự ra mắt của Veo, một công cụ AI tạo video cao cấp do Google DeepMind phát triển. Demis Hassabis, CEO của Google DeepMind đã giới thiệu Veo có khả năng tạo video chất lượng cao với độ phân giải Full HD, đa dạng về phong cách hình ảnh và điện ảnh.

Động thái ra mắt Veo được cho là để cạnh tranh với Sora, một công cụ AI tạo video khác của OpenAI, vốn đã được trình làng cách đây 3 tháng trước. Veo nổi bật với khả năng hiểu ngôn ngữ tự nhiên và nắm bắt âm điệu của câu lệnh, giúp tạo ra các video phản ánh chính xác trí tưởng tượng của người dùng. AI này cũng hiểu rõ các thuật ngữ điện ảnh như "timelapse" hay "ảnh phong cảnh từ trên không", từ đó tạo ra các cảnh quay mạch lạc, sống động với con người, động vật và đồ vật chuyển động chân thực.

Các video minh họa về khả năng của Veo thường kéo dài khoảng 8 giây, nhưng Google cho biết người dùng có thể yêu cầu kéo dài thời lượng lên đến 1 phút 10 giây và tinh chỉnh video qua các câu lệnh bổ sung. Đây là yếu tố khiến Veo vượt trội hơn so với Sora của OpenAI, vốn chỉ có thể tạo ra video với thời lượng tối đa một phút.

Veo được xây dựng dựa trên nhiều mô hình tạo video, bao gồm Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, kết hợp với nhiều kỹ thuật khác để nâng cao chất lượng và độ phân giải. Google đã cải tiến kỹ thuật để giúp mô hình học cách hiểu nội dung, hiển thị hình ảnh độ phân giải cao và mô phỏng các tính chất vật lý của thế giới.

“Những kiến thức này sẽ thúc đẩy tiến bộ trong nghiên cứu AI và cho phép chúng tôi xây dựng nhiều sản phẩm hữu ích hơn, giúp mọi người tương tác và giao tiếp theo những cách mới”, đại diện Google cho biết.

Cũng tại sự kiện, Google đã giới thiệu công cụ AI tạo hình ảnh mới là Imagen 3. Sản phẩm này có khả năng tạo ra hình ảnh với độ chi tiết đáng kinh ngạc, chân thực và sống động, giảm thiểu các chi tiết gây mất tập trung so với các công cụ trước. Imagen 3 hiểu rõ ngôn ngữ tự nhiên và có thể dự đoán mục đích của người dùng từ các câu lệnh, tạo ra hình ảnh với nhiều phong cách khác nhau.

Một hình ảnh được tạo bằng công cụ Imagen 3. Ảnh Google.

Cả Veo và Imagen 3 hiện vẫn chưa được phát hành rộng rãi. Google cho biết chỉ có một số nhà sáng tạo nội dung được dùng thử các công cụ này, trong khi những người dùng quan tâm cần đăng ký vào danh sách chờ. Google cũng dự kiến tích hợp một số tính năng của Veo vào YouTube Shorts và các sản phẩm khác trong tương lai.