Google vừa thông báo triển khai mô hình tạo video bằng trí tuệ nhân tạo - Veo 3 đến người dùng Việt Nam thông qua ứng dụng Gemini. Đây là bản cập nhật quan trọng, cho phép người dùng tạo và chia sẻ video trực tiếp từ văn bản ngay trong ứng dụng.
Theo thông tin từ Google, người dùng đăng ký gói Google AI Pro có thể truy cập tính năng này bằng cách chọn mục "Công cụ" trên thanh nhắc lệnh Gemini, sau đó nhấn "Video" và nhập nội dung mô tả. Hệ thống sẽ tạo ra đoạn video dài 8 giây, độ phân giải 720p, định dạng MP4, tỷ lệ 16:9 ngang và có âm thanh.
Để đảm bảo tính minh bạch và an toàn, Google cho biết tất cả video tạo từ hình ảnh của người dùng sẽ được gắn watermark dễ nhận biết, đồng thời tích hợp công nghệ dấu ẩn kỹ thuật số SynthID nhằm nhận diện sản phẩm do AI tạo ra.
Tính năng này hiện đã được triển khai ở tất cả các quốc gia có ứng dụng Gemini, bao gồm Việt Nam.

Veo 3 là phiên bản mới nhất của mô hình tạo video bằng trí tuệ nhân tạo do Google phát triển, lần đầu được công bố tại hội nghị Google I/O 2025. Khác với các thế hệ trước, Veo 3 không chỉ dựng video từ văn bản mà còn tích hợp khả năng sinh âm thanh đồng bộ, bao gồm lời thoại, hiệu ứng nền và âm thanh môi trường.
Công nghệ cốt lõi của mô hình là hệ thống latent diffusion kết hợp với mạng nơ-ron biến đổi (transformer), cho phép mô phỏng chính xác chuyển động, ánh sáng, chất liệu và ngữ cảnh. Người dùng có thể tạo ra đoạn phim ngắn chỉ từ một mô tả văn bản đơn giản, với độ phân giải lên tới 720p hoặc cao hơn. Veo 3 cũng được trang bị công cụ nhận diện dấu ẩn kỹ thuật số (SynthID) và watermark rõ ràng để phân biệt nội dung do AI tạo ra.
Tuy nhiên, hệ thống vẫn tồn tại một số hạn chế như chất lượng đầu ra chưa ổn định và khả năng duy trì nhân vật xuyên suốt video còn hạn chế.
Việc triển khai Veo 3 trên nền tảng Gemini đánh dấu bước tiến mới trong xu hướng ứng dụng AI vào sáng tạo nội dung hình ảnh và video.