Google ra mắt mô hình AI chạy nhanh hơn trên máy cá nhân

00:15 14/06/2026

Google DeepMind ra mắt DiffusionGemma, mô hình AI thử nghiệm có thể tạo văn bản nhanh hơn khi chạy trực tiếp trên máy tính cá nhân.

Google ra mắt mô hình AI chạy nhanh hơn trên máy cá nhân - Ảnh 1.

(Ảnh: Google)

Google DeepMind vừa công bố DiffusionGemma, thành viên mới trong dòng mô hình AI mở Gemma 4. Điểm khác biệt lớn của mô hình này là cách tạo văn bản không giống phần lớn công cụ AI hiện nay.

Thông thường, các mô hình AI tạo văn bản theo từng phần nhỏ, từ trái sang phải, tương tự cách con người viết từng chữ. Trong khi đó, DiffusionGemma sử dụng phương pháp gần với công nghệ tạo ảnh bằng AI: bắt đầu từ các ký hiệu tạm, sau đó nhiều lần chỉnh sửa để tạo ra một đoạn văn bản hoàn chỉnh.

Theo Google, cách làm này giúp mô hình tạo được nhiều nội dung cùng lúc, thay vì phải xử lý tuần tự từng phần. Nhờ đó, DiffusionGemma có thể chạy nhanh và hiệu quả hơn trên phần cứng cục bộ, như máy tính dùng card đồ họa cao cấp hoặc hệ thống máy chủ AI.

DiffusionGemma có tổng cộng 26 tỷ tham số, nhưng chỉ kích hoạt 3,8 tỷ tham số trong quá trình xử lý. “Tham số” có thể hiểu là các thành phần giúp mô hình học và tạo phản hồi. Cách thiết kế này giúp mô hình phù hợp hơn với bộ nhớ của các card đồ họa mạnh hiện nay.

Trong thử nghiệm với card đồ họa RTX 5090, DiffusionGemma có thể tạo khoảng 700 token mỗi giây. Token là đơn vị nhỏ mà AI dùng để xử lý văn bản, có thể là một từ, một phần của từ hoặc ký hiệu. Với bộ tăng tốc AI Nvidia H100, mô hình này có thể tạo hơn 1.000 token mỗi giây, nhanh khoảng 4 lần so với các mô hình Gemma truyền thống có quy mô tương tự.

Google cho biết DiffusionGemma đặc biệt hữu ích với những nhiệm vụ không xử lý theo một chiều đơn giản, như chỉnh sửa văn bản trực tiếp, phân tích chuỗi phân tử hoặc một số bài toán cần nhiều bước tự điều chỉnh.

Tuy nhiên, Google nhấn mạnh đây vẫn là mô hình thử nghiệm. Phương pháp tạo văn bản kiểu khuếch tán có thể nhanh hơn, nhưng cũng có hạn chế. Với văn bản, chỉ một lỗi nhỏ cũng có thể khiến cả đoạn trở nên khó hiểu, trong khi lỗi nhỏ trong ảnh thường ít nghiêm trọng hơn.

DiffusionGemma hiện được phát hành theo giấy phép Apache 2.0, tương tự các mô hình Gemma thế hệ 4 khác. Người dùng có thể tải mô hình từ Hugging Face. Google cho biết đã phối hợp với Nvidia để tối ưu DiffusionGemma cho nhiều cấu hình, từ card đồ họa RTX cao cấp đến các hệ thống AI doanh nghiệp.

Google ra mắt mô hình AI chạy nhanh hơn trên máy cá nhân

Bạn đọc liên hệ quảng cáo xin vui lòng để lại thông tin