DeepSeek ra mắt bom tấn mới: "Mắt thần AI" DeepSeek-OCR, có thể đọc hiểu như con người, hiệu quả xử lý dữ liệu tăng đến 20 lần

Để làm được điều này, mô hình AI mới được huấn luyện trên tập dữ liệu khổng lồ gồm hơn 30 triệu trang PDF bằng 100 ngôn ngữ khác nhau, cùng 10 triệu mẫu OCR cảnh tự nhiên, 10 triệu biểu đồ, 5 triệu công thức hóa học và 1 triệu bài toán hình học.

Startup AI DeepSeek lại một lần nữa khiến thế giới công nghệ rung động khi ra mắt mô hình AI đa phương thức DeepSeek-OCR với khả năng sử dụng thị giác máy tính để "đọc" thông tin văn bản, giúp giảm đáng kể số lượng token cần xử lý mà vẫn giữ độ chính xác cao. Token là đơn vị văn bản nhỏ nhất mà mô hình AI xử lý, và việc giảm số token đồng nghĩa với tiết kiệm chi phí tính toán khổng lồ.

Thay vì xử lý văn bản theo cách đọc truyền thống, mô hình này chuyển đổi nội dung thành dạng hình ảnh và sử dụng khả năng nhận thức thị giác để nén thông tin. Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không phải chịu chi phí tính toán tăng theo tỷ lệ thuận. Khả năng này cũng tương tự như việc đọc một trang sách của con người bằng cách nhìn vào toàn bộ đoạn văn hoặc trang sách thay vì đọc từng chữ.

DeepSeek ra mắt bom tấn mới: "Mắt thần AI" DeepSeek-OCR, có thể đọc hiểu như con người, hiệu quả xử lý dữ liệu tăng đến 20 lần- Ảnh 1.

Kết quả mà DeepSeek công bố thực sự ấn tượng khi mô hình có thể giảm số token từ 7 đến 20 lần so với phương pháp xử lý văn bản truyền thống, đây là bước tiến đầy hứa hẹn trong việc giải quyết thách thức về ngữ cảnh dài trong các mô hình ngôn ngữ lớn. Hơn thế nữa, mô hình này không chỉ đọc chữ, mà còn hiểu bố cục, liên kết, cấu trúc, nghĩa là ngữ nghĩa của trang tài liệu đó, bao gồm cả bảng biểu và hình ảnh bên trong.

Động thái này phù hợp với triết lý mà DeepSeek đã theo đuổi qua hai mô hình mã nguồn mở đột phá V3 và R1: nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng. Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính. Thành phần đầu tiên là DeepEncoder, động cơ cốt lõi duy trì mức kích hoạt thấp ngay cả khi xử lý đầu vào có độ phân giải cao, đồng thời đạt được tỷ lệ nén mạnh mẽ. Thành phần thứ hai là bộ giải mã DeepSeek3B-MoE-A570M, một mô hình Mixture-of-Experts với 570 triệu tham số có nhiệm vụ tái tạo lại văn bản gốc.

Kiến trúc Mixture-of-Experts hoạt động theo nguyên lý phân chia mô hình thành các mạng con chuyên xử lý một tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất mà không cần kích hoạt toàn bộ mô hình. Ngoài khả năng xử lý các tác vụ thị giác tiêu chuẩn, DeepSeek-OCR còn phân tích được nội dung trực quan có cấu trúc phức tạp như bảng biểu, công thức toán học và sơ đồ hình học, mở ra tiềm năng ứng dụng trong lĩnh vực tài chính và khoa học.

DeepSeek ra mắt bom tấn mới: "Mắt thần AI" DeepSeek-OCR, có thể đọc hiểu như con người, hiệu quả xử lý dữ liệu tăng đến 20 lần- Ảnh 2.

Mô hình AI mới của DeepSeek có thể đọc hiểu ngữ cảnh phức tạp trong hình ảnh, ví dụ nhận ra ai là cô giáo trong hình ảnh vẽ lớp học

Theo các bài kiểm tra chuẩn mà công ty công bố, khi tỷ lệ nén dưới mười lần, DeepSeek-OCR đạt được độ chính xác giải mã lên tới 97%. Thậm chí khi tỷ lệ nén lên tới 20 lần, mô hình vẫn ghi nhận độ chính xác khoảng 60%, cho thấy khả năng bảo toàn thông tin mạnh mẽ ngay cả trong điều kiện nén cực cao.

Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội hơn các mô hình OCR chính như GOT-OCR 2.0 và MinerU 2.0 trong khi sử dụng ít token hơn nhiều. Cụ thể, DeepSeek-OCR chỉ cần khoảng 100 token hình ảnh cho mỗi trang, trong khi GOT-OCR 2.0 cần 256 token và MinerU 2.0 cần tới 6.000 token.

Điểm nổi bật nhất của DeepSeek-OCR chính là tốc độ xử lý đáng kinh ngạc. Mô hình có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày trên hệ thống tính toán chỉ với một card đồ họa NVIDIA A100-40G. Con số này mở ra khả năng mở rộng quy mô chưa từng có cho việc tạo dữ liệu huấn luyện mô hình ngôn ngữ lớn. Với DeepSeek-OCR, người dùng có thể xử lý ngữ cảnh cực dài một cách linh hoạt, trong đó nội dung gần đây được giữ ở độ phân giải cao, trong khi các ngữ cảnh cũ hơn tiêu thụ ít tài nguyên tính toán hơn.

Về mặt huấn luyện, mô hình được đào tạo trên tập dữ liệu khổng lồ gồm hơn 30 triệu trang PDF bằng 100 ngôn ngữ khác nhau, cùng 10 triệu mẫu OCR cảnh tự nhiên, 10 triệu biểu đồ, 5 triệu công thức hóa học và 1 triệu bài toán hình học.

Sự đa dạng này giúp mô hình không chỉ đọc văn bản thông thường mà còn hiểu và xử lý các sơ đồ khoa học và phương trình phức tạp. DeepEncoder, trái tim của hệ thống, là sự kết hợp giữa các backbone SAM và CLIP, được tăng cường bởi bộ nén tích chập 16 lần, biến hàng nghìn mảnh hình ảnh thành chỉ 100-200 token hình ảnh tinh gọn.

DeepSeek ra mắt bom tấn mới: "Mắt thần AI" DeepSeek-OCR, có thể đọc hiểu như con người, hiệu quả xử lý dữ liệu tăng đến 20 lần- Ảnh 3.

Ngay cả những hình ảnh phức tạp như bài tập hóa học kèm với cấu tạo hóa học của hợp chất cũng được AI mới nhận biết

Mô hình còn có chế độ đa độ phân giải mở rộng từ 512x512 pixel lên tới 1280x1280 pixel, kết hợp các ô cục bộ với góc nhìn toàn cảnh để xử lý hóa đơn, bản vẽ kỹ thuật và báo giấy mà không cần đào tạo lại. Kiến trúc hai giai đoạn của DeepSeek-OCR thể hiện sự tinh tế kỹ thuật: DeepEncoder tạo ra các token, trong khi bộ giải mã Mixture-of-Experts xuất ra văn bản có cấu trúc dạng Markdown với khả năng xử lý đa ngôn ngữ.

Cần làm rõ một điểm quan trọng để tránh hiểu lầm. Mô hình này không tạo ra hoặc chỉnh sửa hình ảnh để lưu trữ dữ liệu bên trong chúng. Thuật ngữ nén quang học đề cập đến cách hiệu quả mà mô hình AI xử lý và biểu diễn thông tin trực quan từ hình ảnh hoặc tài liệu trong quá trình nhận dạng ký tự quang học.

Mô hình nhận đầu vào là hình ảnh như tài liệu được quét, trang PDF hoặc biểu đồ, sau đó nén các chi tiết trực quan thành số lượng nhỏ các token hình ảnh để AI hiểu và trích xuất nội dung. Việc nén này diễn ra bên trong quy trình xử lý nhằm làm cho nó nhanh hơn và hiệu quả hơn.

Động thái mới nhất với DeepSeek-OCR một lần nữa khẳng định cam kết của công ty trong việc đẩy mạnh hiệu suất AI trong khi giảm thiểu chi phí. Việc nén quang học có thể coi là giải pháp cho bài toán ngữ cảnh dài của các mô hình ngôn ngữ lớn. Hãy tưởng tượng một tài liệu có một triệu token được thu gọn thành bản đồ trực quan chỉ 100.000 token, mở đường cho thế hệ mô hình AI tiếp theo xử lý tài liệu như vỏ não thị giác được tăng cường.

Các ứng dụng tiềm năng của công nghệ này rất rộng lớn. Phân tích tài liệu trực tiếp, OCR theo luồng cho khả năng tiếp cận, và dịch thuật thời gian thực với ngữ cảnh trực quan giờ đây trở nên khả thi về mặt kinh tế. DeepSeek-OCR không chỉ là một nâng cấp OCR thông thường mà là sự thay đổi mang tính cách mạng trong cách máy móc nhận thức và xử lý dữ liệu, đánh dấu bước tiến quan trọng trong hành trình phát triển trí tuệ nhân tạo.

Link nội dung: https://tamnhindautu.vn/deepseek-ra-mat-bom-tan-moi-mat-than-ai-deepseek-ocr-co-the-doc-hieu-nhu-con-nguoi-hieu-qua-xu-ly-du-lieu-tang-den-20-lan-a86652.html