AI biến văn bản thành video thành phẩm như thế nào?

Ảnh chụp màn hình từ video do Sora tạo. Ảnh: OpenAI.

Sora là mô hình chuyển văn bản thành video mới nhất của OpenAI. Công nghệ này có thể tạo video có thời lượng tối đa một phút dựa trên mô tả được cung cấp.

Theo OpenAI, Sora sẽ hiểu rõ từng thành phần trong lệnh để tạo ra video tương ứng. Ví dụ, mô hình này có thể tạo ra cảnh mọi người đang chạy bộ trên đường phố với không gian xung quanh thay đổi một cách tự nhiên.

Trước đây, các mô hình tạo video thường gặp khó khăn trong việc đồng bộ hóa chất lượng giữa các hình ảnh. Tuy nhiên, nhờ khả năng “hiểu” ngôn ngữ, ngữ cảnh và cách diễn giải, Sora có thể duy trì tính nhất quán.

Những cách mới để đào tạo dữ liệu

Khi giới thiệu Sora, OpenAI nhấn mạnh sự khác biệt được tạo ra bởi các “bản vá lỗi không-thời gian” dựa trên nghiên cứu của Google DeepMind về ViT (Vision Transformers) – các mô hình liên quan đến thị giác máy tính và ngôn ngữ tự nhiên.

Thông thường, mô hình ViT chia hình ảnh thành một loạt các mảng có kích thước cố định, sau đó xử lý và tổng hợp thông tin để xác định và phân loại các đối tượng trong ảnh. Giải pháp này nhằm mục đích dạy các mô hình máy biến áp nhận dạng hình ảnh thay vì từ ngữ.

Sora có thể tạo video ở nhiều tốc độ khung hình và độ phân giải khác nhau. Ảnh: OpenAI.

Tuy nhiên, các mẫu ViT khá hạn chế về dữ liệu hình ảnh, đòi hỏi phải xác định rõ độ phân giải và tỷ lệ khung hình. Điều này yêu cầu xử lý hình ảnh trước khi đào tạo, dẫn đến các công cụ tạo video chỉ có thể xuất nội dung ở độ phân giải tiêu chuẩn.

Không giống như ViT, Sora sử dụng Bộ biến đổi tầm nhìn có thể điều hướng (NaViT). Về cơ bản, giải pháp này ghép nhiều mảng hình ảnh thành một chuỗi nhưng vẫn duy trì độ phân giải và tỷ lệ khung hình gốc.

Cách tiếp cận này giúp Sora xử lý dữ liệu hiệu quả và giúp mô hình hiểu rõ hơn về thế giới xung quanh, đặc biệt là khả năng mô phỏng vật lý và đồng bộ hóa trong không gian ba chiều giữa các khung hình.

Điều này giúp Sora tạo ra nội dung năng động, phức tạp và chất lượng cao. Mô hình của OpenAI cũng sử dụng giải pháp này để tạo ra những video có tốc độ khung hình linh hoạt và độ phân giải lên tới Full HD.

Mô hình khuếch tán cũng là công nghệ nổi bật của Sora. Theo OpenAI, mô hình này tạo nội dung từ đầu bằng cách sử dụng các video có độ phân giải thấp, nhiễu, sau đó trải qua giai đoạn khuếch tán để loại bỏ nhiễu, tạo ra dữ liệu giống với video thật.

Quá trình phân phối video của Sora. Ảnh: OpenAI.

Thông thường, cần rất nhiều dữ liệu được gắn nhãn để huấn luyện các mô hình học máy, chẳng hạn như một bức ảnh về con mèo cần được mô tả bằng “Đây là hình ảnh của một con mèo”. Tuy nhiên, các mô hình phổ biến có thể học hỏi từ các bộ dữ liệu không có mô tả, cho phép sử dụng lượng lớn nội dung có sẵn trên Internet để tạo ra nhiều loại video.

Nói cách khác, Sora có thể xem video và hình ảnh để tự mình tìm hiểu xem một video bình thường có những chi tiết gì.

Nhờ các kỹ thuật liên quan đến khuếch tán, bao gồm giải mã video và tích hợp hệ thống biến áp, Sora có thể xử lý mảng hình ảnh hiệu quả hơn, cho phép tạo ra nội dung chất lượng cao trong khi sử dụng nó một cách hiệu quả. Tài nguyên máy tính.

Dữ liệu đào tạo đa dạng

Mặc dù không được OpenAI công bố rõ ràng nhưng dữ liệu đào tạo Sora được cung cấp thường xuyên hơn so với các mô hình khác, bao gồm video và hình ảnh có thời lượng, độ phân giải và tốc độ khung hình khác nhau.

Cách tiếp cận này tương tự như một số mô hình ngôn ngữ lớn với tập dữ liệu huấn luyện đa dạng và phức tạp.

Một phần video được tạo bởi Sora. Ảnh: OpenAI.

Không gian 3D và tính lâu dài của vật thể được thể hiện nổi bật trong video ví dụ của OpenAI. Vì AI được đào tạo trên các tập dữ liệu thô, đa dạng nên nó có thể tạo ra thế giới vật chất với độ chính xác cao vì những gì nó “học được” đều ở dạng ban đầu.

Trong video của OpenAI, Sora có thể tạo ra một thế giới gồm các đồ vật và nhân vật chuyển động và tương tác rất chân thực. Ngay cả khi chúng bị che đi hoặc không còn trong ảnh, chúng vẫn giữ được sự tự nhiên.

Sora hiện chỉ đang trong giai đoạn thử nghiệm. Tuy nhiên, kết quả cho thấy AI tạo hình có thể còn tốt hơn nữa, đặc biệt là AI tạo video với nội dung ngày càng chân thực.

AI tạo video của OpenAI đe dọa ngành điện ảnh Mẫu Sora vừa được OpenAI ra mắt có khả năng tạo các video ngắn dưới một phút với độ chân thực cao chỉ với vài dòng mã.

Phúc Thịnh

Leave a Reply

Your email address will not be published. Required fields are marked *