So sánh chi tiết ChatGPT-5 vs Gemini 2.5 pro, nói ngắn gặp nói dài
12/08/2025 20:48
So sánh chi tiết ChatGPT-5 vs Gemini 2.5 pro, nói ngắn gặp nói dài
Trong bài viết này, mình sẽ thử dùng 12 tình huống tương ứng với 12 prOmpt để thử cùng lúc 2 chatbot mới nhất làChatGPT-5của OpenAI vàGemini 2.5 Procủa Google. Đây là 2 đại diện phổ biến nhất trong thế giới chatbot mà người dùng đều sử dụng, mỗi "con" đều được phát triển và triển khai với triết lý riêng, từ đó cho những trải nghiệm rất khác nhau, tương ứng với những nhu cầu sử dụng khác nhau của người dùng. Hy vọng rằng qua bài test này, mọi người có thể chọn được 1 con phù hợp với task mà mọi người cầnAInó làm nhé.
TLTR
Nhìn chung thì ở hiện tại, ChatGPT-5:
Khả năng code rất tốt
Trả lời ngắn gọn, xúc tích và đi đúng trọng tâm của vấn đề
Cải thiện khả năng kiểm chứng thông tin, nguồn trích dẫn với các vấn đề.
Có khả năng cập nhật thông tin realtime hiệu quả hơn.
Khả năng nhận diện văn bản từ scan, nhận diện hình ảnh tốt hơn.
Khả năng tạo media rất tốt
Hiểu được sâu hơn văn hóa, tập tính của người dùng Việt Nam.
Khả năng code đang kém hơn ChatGPT-5 trong các thử nghiệm.
Trả lời dài dòng, văn vở đôi khi gây khó chịu.
Bất chấp những bình luận trái chiều xoay quanh cách trả lời của ChatGPT-5, tuy nhiên đây vẫn là con chatbot tiên tiến nhất mà OpenAI đã phát triển và cho ra mắt. Điểm hay của nó chính là chỉ 1 lựa chọn là GPT-5, bên trong có chứa 4 con model nhỏ được ẩn đi và khi người dùng nhập yêu cầu vào, nó sẽ tự phân tích coi là cần chạy model này, nhanh hay nghĩ lâu để chạy cho phù hợp. Thực chất về trải nghiệm người dùng thì phương án này khá hay, không cần người dùng phải tự lựa model, thí dụ như Pro hay Flash như bên Gemini hay các chatbot khác nữa. Tất nhiên, trải nghiệm chỉ là một phần của vấn đề, quan trọng chất lượng ra sao. Mời các bạn coi.
Test tự thay đổi model
Để minh họa cho câu chuyện trên, mình thử hỏi chatbot cùng nội dung nhưng 2 prOmpt khác khác. Đầu tiên thử hỏi ChatGPT-5 "Lợi ích của việc đọc sách là gì?" và câu trả lời được trả về rất nhanh, gần như ngay lập tức. Cho thấy nó đã sử dụng model gọn để trả lời với task này. Bây giờ mình thử lại với ChatGPT-5 một prOmpt khác "Hãy suy nghĩ thật kỹ về vấn đề này: Lợi ích của việc đọc sách đối với sự phát triển nhận thức và cảm xúc của một người là gì?". Có thể thấy lúc này nó sẽ hiện dòng chữ "đang suy nghĩ lâu hơn", câu trả lời cũng khác hơn, có chiều sâu nội dung hơn rất nhiều. Đây cũng chính là điểm mà chúng ta cần lưu ý trong cách prOmpt nếu muốn chỉ địnhChatGPTxài model lớn để xử lý task mà bạn yêu cầu. Thử tương tự với model Gemini 2.5 Pro của Google. Tất nhiên chúng ta sẽ chọn model một cách thủ công và kết quả của "Lợi ích của việc đọc sách là gì?"
QUẢNG CÁO
Và kết quả trả về của prOmpt "Hãy suy nghĩ thật kỹ về vấn đề này: Lợi ích của việc đọc sách đối với sự phát triển nhận thức và cảm xúc của một người là gì?". Có thể thấy là 2 prOmpt trên là không quá nhiều khác biệt về mặt nội dung. Khác biệt chủ yếu ở đây chỉ là chính độ chi tiết của prOmpt dẫn tới thay đổi về cách trình bày cũng như độ chi tiết của kết quả trả về.
Test khả năng cập nhật tin tức realtime
Mình thử dùng một prOmpt như bên dưới để thử xem khả năng cập nhật tin tức thời sự giữa ChatGPT-5 và Gemini 2.5 Pro sẽ ra sao nhé:Tóm tắt những sự kiện và chủ đề đang là xu hướng nổi bật nhất trên mạng ở Việt Nam và thế giới trong vòng 24 giờ qua. Phân tích xem chủ đề nào đang gây tranh cãi nhiều nhất và trích dẫn một vài ý kiến tiêu biểu từ những người có ảnh hưởng Có thể thấy về khía cạnh cập nhật thông tin thời sự, ChatGPT-5 cùi bắp quá thể. Nó đưa ra kết quả không nhiều giá trị, thậm chí là trong tình huống này còn tự lấy một tin tức Viruss gì đó từ hồi tháng 3 để trả về kết quả tin tức thời sự ngày hôm nay. Google Gemini 2.5 trả về kết quả có chất lượng cao hơn so với ChatGPT-5. Chí ít chúng ta cũng có một tin tức thời sự ở Việt Nam và thêm các tin ở Quốc tế vừa xảy ra để đọc được. Tuy nhiên, có thuyết âm mưu nói rằng Google base là công ty tìm kiếm nên Gemini cũng sẽ có khả năng update thông tin ngon. Tuy nhiên với kết quả hiện tại thì có vẻ khía cạnh tin tức thời sự nóng vẫn chưa ngon như Grok-4 mình thử gần đây.
Khả năng tổng hợp thông tin nguồn tin cậy
Thêm một thử nghiệm khác, mình thử kêu 2 chatbot đi tìm thông tin vàso sánhcon chip M4 và M3 của Apple, có trích dẫn các nguồn đáng tin cậy và báo cho mình biết: Chip Apple M4 có những cải tiến quan trọng nào về kiến trúc CPU, GPU và Neural Engine so với chip M3? Hãy cung cấp thông tin dựa trên các nguồn đáng tin cậy và trích dẫn link các nguồn đó. Đây là kết quả của ChatGPT-5 trả về. Nội dung cô đọng, xúc tích, không có nhiều thông tin dư thừa. Đặc biệt cách nó trích các nguồn khá "uy tín" như trực tiếp từ trang chủ Apple Newsroom hay Anandtech. Khá ngạc nhiên trong tình huống này của Gemini. Nội dung trả về còn khá lan man, đặc biệt là viết cho cố vào rồi các nguồn trích dẫn không cho cảm giác độ tin cậy cao. Riêng tình huống này thì mình đánh giá cao ChatGPT hơn.
Test khả năng suy luận dựa trên thông tin địa phương
Trong thí dụ này, mình thử hỏi vấn đề đang được xã hội bàn khá nhiều là xe điện, xe xăng ở VN. Mình thử kêu chatbot AI phân tích các tác động, rồi kêu nó đưa ra một lộ trình chính sách thử. Để làm được việc này, nó phải đi đọc thông tin hiện tại, rồi tự phân tích và suy luận để trả về kế hoạch cho phù hợp với ngữ cảnh người Việt Nam.
Phân tích những tác động kinh tế, xã hội và pháp lý tiềm năng khi triển khai cấm xe xăng trong vòng 5 năm tới. Hãy xem xét cả cơ hội và thách thức, đồng thời đề xuất một lộ trình chính sách sơ bộ cho chính phủ.
Đây là kết quả ChatGPT trả về. Cách tiếp cận của nó chọn là tìm thông tin từ các thị trường khác như Mỹ, Châu Âu,... rồi dựa trên đó để phân tích và đưa ra câu trả lời. Về bản chất, cách tiếp cận này lại không tối ưu bởi đặc thù văn hóa, hạ tầng,... giữa VN và các khu vực đó khác rất xa nhau nên việc áp logic sang là không nhiều giá trị. Chỗ này thì ChatGPT-5 bèo.
Cùng prOmpt và đây là kết quả của Gemini 2.5 Pro. Có thể thấy Gemini nó chọn cách phân tích tác động khá "sách giáo khoa" với các khía cạnh đầy đủ, cơ bản,... tuy nhiên cái hay là nó nêu những cái tên công ty như VF, Datbike,... rồi các vấn đề khá sát với tình hình thực tế ở Việt Nam. Từ đó, chất lượng phân tích Gemini 2.5 Pro trả về cũng cao hơn, hữu ích hơn đối với người dùng. Qua đây cho thấy Gemini có nền tảng hiểu người Việt hiệu quả hơn, từ đó gợi ý nó đưa ra cũng sát thực tế hơn.
Trong tình huống này, mình kêu chatbot: "Giải thích ý nghĩa của câu thành ngữ 'Đi một ngày đàng, học một sàng khôn'. Sau đó, hãy gợi ý 3 hoạt động hoặc trải nghiệm cụ thể mà một du khách nước ngoài nên làm khi đến Đồng bằng sông Cửu Long để thực sự học được một sàng khôn." Về mặt kỹ thuật thì để làm được điều này, LLM phải hiểu được ngữ cảnh của phép ẩn dụ ngày đàng và sàng khôn là cái gì, sau đó mới liên kết với ví dụ thực tế ở Việt Nam." Đây là cách ChatGPT-5 trả về kết quả. Ngắn gọn, đi thẳng vào trọng tâm vấn đề. Đây có thể cũng là lý do mà nhiều người dùng đang chê là ChatGPT-5 lạnh lùng, vô cảm và quá cứng nhắc trong cách trả lời. Và đây là kết quả của Gemini 2.5 Pro. Về cấu trúc nội dung thì cũng được chia làm 2 phần là giải thích ý nghĩa của câu thành ngữ và sau đó là áp dụng vào tình huống thực tế. Các tình huống Gemini đưa ra chi tiết hơn, cụ thể hơn và cũng có cảm xúc hơn khá nhiều. Ở thí dụ này thì mình nghiêng về Gemini hơn.
Test thử tạo hình ảnh, multimodal
Mình thử nhanh cách 2 chatbot tạo ra hình ảnh, đặc biệt là hình ảnh đặc thù ở Việt Nam bằng prOmpt: Tạo một hình ảnh siêu thực (photorealistic) về một quán cà phê vỉa hè ở Quận 1, Sài Gòn vào một buổi chiều mưa. Ánh đèn neon từ các cửa hàng phản chiếu trên mặt đường ướt át. Có một vài người đang ngồi dưới mái hiên. View attachment 8337042 Đây là kết quả của ChatGPT-5. Cơ bản thì hình ảnh chỉ dừng lại ở mức tạm, không nhiều dấu ấn cà phê vỉa hè, Sài Gòn như mình muốn, mặc dù kiểu này là cực kỳ kinh điển trong giới hình ảnh AI rồi. View attachment 8337043 Trong khi đó Gemini trả về kết quả có hồn hơn, cho cảm xúc và cũng sát với hình dung trong đầu của mình hơn. Chỉ nhìn cái bản hiệu quán mì "rar men" nhìn mắc cười quá thể.
Giải thích cơ chế hoạt động của lò phản ứng nhiệt hạch ITER cho học sinh cấp 3, kèm 3 phép so sánh hình ảnh trực quan dễ hình dung.
Thử khả năng tính toán
Mình thử đầu tiên bằng phép tính đơn giản nhưng cũng rất dễ làm khó các LLM: 4.9-4.11 bằng bao nhiêu? View attachment 8337044 Và đây là kết quả của ChatGPT-5. Nó hoàn thành mượt nhiệm vụ này. Khá bất ngờ là Gemini 2.5 Pro lại thua trong tình huống này.
Mình thử thêm bài toán đố 2 xe gặp nhau: Lúc 12 giờ trưa một ô tô xuất phát từ A với vận tốc 60 km/giờ để đi đến B. Cùng lúc đó từ địa điểm C trên đường từ A đến B và cách A 40km, một người đi xe máy với vận tốc 45 km/giờ cũng đi về B. Hỏi lúc mấy giờ thì hai xe gặp nhau và chỗ gặp nhau cách A bao xa? Đây là kết quả của ChatGPT-5. Đơn giản. Và đây là kết quả của Gemini 2.5 Pro. Cả 2 đều làm tốt nhiệm vụ của nó. Các bài toán này có thể là có trong data của nó nhiều rồi nên chắc chắn nó sẽ giải quyết hiệu quả hơn.
Test khả năng code
Mình thử đưa cho Chatbot một đoạn code Python khá newbie để tính tổng của các số chẵn trong một list, kêu nó tìm cách cải thiện để nhanh hơn và ít tốn bộ nhớ hơn: Và đây là kết quả của ChatGPT-5 trả về. Nó chọn cách xài generator để mã sạch và gọn hơn, pythonic hơn nữa. Sau đó cũng đưa ra giải thích ngắn gọn. Gemini 2.5 Pro cũng chọn cách giải quyết tương tự, tuy nhiên nói nhiều hơn ở phần giải thích. Chỗ này dễ giải mà người ta không thích lắm nè.
Trong thí dụ tiếp theo, mình thử kêu chatbot viết một cái script để lấy tiêu đề của 10 bài viết từ một trang báo về lưu ở file TXT: Viết một script Python sử dụng thư viện requests và BeautifulSoup để lấy tiêu đề của 10 bài viết mới nhất từ trang chủ của VnExpress (vnexpress.net). Sau đó, ghi các tiêu đề này vào một file tên là `tin_tuc.txt`. Script phải có khả năng xử lý lỗi kết nối mạng.
Đây là kết quả của ChatGPT-5 trả về. Gần 160 dòng code, nó chia ra thành từng hàm nhỏ để xử lý các tính năng khác nhau, có bao gồm cả cơ chế xử lý lỗi, session rồi exit code này nọ,... Code này thực sự chuyên nghiệp, xài được trong production luôn, lại xài mô đun nên rất dễ bảo trì sau này, chạy cũng bền do có nhiều cơ chế dự phòng khi lấy data. Và đây là kết quả của Gemini. Chúng ta có một đoạn code kiểu monolithic, tất nhiên vẫn chạy được mục đích ban đầu vạch ra, cũng có cơ chế khi gặp lỗi thì in ra console cho người dùng biết, tuy nhiên code này dừng lại ở mức cơ bản, có thể bị lỗi nếu web thay đổi. Chỗ này thì Gemini chưa ngon như ChatGPT-5.
Tóm tắt sách dài
Mình thử tải lên cuốn Effective Pandas gần 400 trang lên 2 chatbot kêu nó so sánh. Nhìn chung thì cả 2 đều có thể hỗ trợ mượt một cuốn sách dài thế này, tốc độ phân tích khá nhanh. ChatGPT-5 trả về kết quả như thế này, khá cơ bản. Thời gian phân tích của nó cũng lâu hơn. Gemini 2.5 Pro có thời gian phân tích nhanh hơn, kết quả nhìn chung cũng chi tiết hơn, liệt ra được những điểm nổi bật khá chính xác trong cuốn sách này. Mình đã đọc qua hết cuốn này khi học Pandas cơ bản, nói chung thì cách Gemini tóm tắt và pop up các nội dung chính lên khá chính xác, nêu được trọng tâm của từng phân trong cả cuốn sách, nhìn vào cũng thấy bức tranh tổng thể hiệu quả hơn.