Tháng 12 năm ngoái, Gemini 1.0 chính thức ra mắt, rồi kế đến là Gemini 1.5, với khả năng nhận diện cũng như tạo sinh nhiều hình thái nội dung ngôn ngữ tự nhiên của con người. Và tới đêm qua 11/12/2024 theo giờ Việt Nam, Gemini 2.0 đã chính thức ra mắt, đi kèm nhiều nâng cấp để Google chạy đua ra mắt một công cụ trợ lý AI thực sự, phục vụ cho hàng tỷ người dùng trên toàn thế giới.
Google gọi Gemini 2.0 là một dạng agentic model, nghĩa là có những tính năng và khả năng để trở thành một nền tảng để vận hành dịch vụ trợ lý ảo vận hành bằng mô hình ngôn ngữ. Với Gemini 2.0, Google khẳng định rằng người dùng có thể trải nghiệm những cải tiến mới trên khía cạnh nhận diện đa dạng nguồn ngôn ngữ và nội dung đầu vào, từ hình ảnh, âm thanh cho đến văn bản và cả video nữa.
Phiên bản đã ra mắt chính thức cho người dùng dịch vụ AI Gemini, là mô hình Gemini 2.0 Flash. Kết hợp với đó là một tính năng mới có tên Deep Research, ứng dụng kỹ thuật tư duy lý luận cao cấp, nhận diện được ngữ cảnh dung lượng lớn để đóng vai một trợ lý phục vụ nghiên cứu khoa học, khám phá những chủ đề phức tạp, và tổng hợp báo cáo nghiên cứu khoa học cho người dùng là những nhà nghiên cứu hàn lâm.
Gemini 2.0 Flash
Là phiên bản mô hình ngôn ngữ được nghiên cứu phát triển dựa trên những gì các kỹ sư của Google DeepMind đúc kết được ở thời điểm nghiên cứu phiên bản Gemini 1.5, Gemini 2.0 Flash tạo ra hiệu năng vượt qua 1.5 Pro ở nhiều khía cạnh đo đạc sức mạnh vận hành tạo nội dung, nhưng tốc độ tạo sinh token ngôn ngữ nhanh gấp đôi.
Bên cạnh việc nhận diện dữ liệu đầu vào dưới dạng đa chế độ ngôn ngữ (multimodal), tức là hiểu được hình ảnh, video và âm thanh, Gemini 2.0 Flash giờ cho phép tạo sinh nhiều dạng nội dung, từ hình ảnh kết hợp văn bản, cho tới nội dung âm thanh dịch sang nhiều thứ tiếng. Rồi Gemini 2.0 Flash cũng có thể tích hợp với kết quả tìm kiếm từ Google Search một cách trưc tiếp, cũng như vài tính năng do người dùng và các nhà phát triển ứng dụng tạo ra và vận hành, với mô hình ngôn ngữ 2.0 Flash làm nền móng.
Người dùng ứng dụng Gemini, công cụ được Google mô tả là trợ lý AI cho mọi người, cũng đã được tiếp cận phiên bản Gemini 2.0 Flash được tối ưu cho ứng dụng chatbot. HIện tại phiên bản này mới chỉ được ứng dụng trên Gemini nền web, trên cả máy tính lẫn điện thoại. Còn ứng dụng Gemini trên điện thoại của anh em sẽ cập nhật sau, hiện giờ ứng dụng vẫn đang chạy Gemini 1.5 Flash.
Project Astra được nâng cấp
Tại sự kiện Google I/O 2024 tổ chức hồi giữa năm nay, Google đã giới thiệu dự án nghiên cứu trợ lý AI vận hành với một cặp kính thực tế tăng cường, kết hợp hình ảnh của thế giới thật với những thông tin hiển thị ảo trên màn hình là tròng kính trong suốt. Vừa rồi, sau quá trình thử nghiệm Google Astra đối với những người làm tester bằng những chiếc điện thoại Android, Google cho biết Gemini 2.0 sẽ cho phép nâng cấp khả năng vận hành của Project Astra để nó vừa thông minh lại vừa an toàn, tuân thủ những quy định và chuẩn mực để phục vụ được cho tất cả mọi người.
Với Gemini 2.0, Project Astra được nâng cấp ở những khía cạnh sau:
- Văn bản và đối thoại tốt hơn, cho phép trợ lý AI trò chuyện với người dùng bằng nhiều thứ tiếng hơn, thậm chí đôi khi trộn lẫn ngôn ngữ cũng được, và hiểu ngữ cảnh cùng phương ngữ tốt hơn.
- Sử dụng được những công cụ mới. Với Gemini 2.0, Project Astra có thể sử dụng Google Search, Lens và Maps để phục vụ người dùng hàng ngày thuận tiện và hữu ích hơn.
- Trí nhớ của trợ lý ảo vận hành bằng mô hình AI tốt hơn, tối đa 10 phút trong mỗi cuộc trò chuyện, và có thể nhớ được những cuộc trò chuyện trong quá khứ, để công cụ được cá nhân hóa tốt hơn cho mỗi nguời dùng.
- Độ trễ được cải thiện giữa khoảng thời gian người dùng đưa ra câu lệnh hay yêu cầu, cho tới khi AI hiểu và đưa ra câu trả lời cho người dùng.
Project Mariner: Trợ lý ảo hỗ trợ những tác vụ công việc phức tạp
Đây là dự án nghiên cứu trợ lý ảo AI phục vụ nhu cầu công việc, Project Mariner dựa trên mô hình Gemini 2.0. Hiện tại, dự án đang ở thời điểm nghiên cứu sơ khai, với tham vọng khám phá tương lai, cách con người tương tác với những trợ lý AI, bắt đầu với trợ lý tích hợp trong trình duyệt.
Project Mariner, dựa trên Gemini 2.0, có khả năng đọc, hiểu và tư duy lý luận dựa trên nội dung trang web, từ những điểm ảnh cho tới những nội dung như văn bản, code, hình ảnh và mẫu điền. Rồi sau đó, trợ lý AI này sẽ sử dụng những thông tin đó để hoàn thành các tác vụ mà người dùng đưa ra, thông qua hình thái một web extension mở rộng cho Google Chrome.
Jules và Genie 2
Đầu tiên, Jules là một phiên bản trợ lý AI phục vụ các lập trình viên và nhà phát triển ứng dụng, giống như cách Microsoft ứng dụng GitHub Copilot trên nền tảng phân phối và chia sẻ code lập trình nổi tiếng. Công cụ trợ lý AI dành cho lập trình viên đang ở dạng thử nghiệm này của Google cho phép tích hợp trực tiếp vào luồng công việc của người dùng trên GitHub. Rồi sau đó, nó có thể giải quyết lỗi laajp trình, tạo ra kế hoạch và triển khai kế hoạch ấy, tất cả song hành với định hướng và sự kiểm soát của con người.
Thứ hai, Genie 2, ra mắt tuần trước, là một AI có khả năng tạo ra những thế giới ảo 3D và ngay lập tức cho phép người dùng, trong trường hợp này là các nhà phát triển game, ngay lập tức trải nghiệm việc điều khiển nhân vật trong thế giới ảo ấy. Tất cả những gì Genie 2 cần, chỉ là một tấm ảnh dùng làm tham chiếu để tạo ra thế giới ảo 3D dựa trên tông màu cũng như phong cách đồ họa mà các nhà làm game indie hay cá nhân mong muốn.
Kết hợp Genie 2 với Gemini 2.0, là những nhân vật trong thế giới ảo được tạo ra, vận hành bằng những câu lệnh điều khiển cách NPC hoạt động, sẽ có thêm khả năng tư duy lý luận để trở nên thông minh hơn. Nó hoàn toàn có thể được ứng dụng trong môi trường tự động hóa, giúp những hệ thống robot sản xuất và hỗ trợ con người vận hành hiệu quả hơn.