Le système, appelé DeepSeek-OCR, utilise la perception visuelle comme moyen de compression pour réduire considérablement le nombre de jetons, les unités minimales de texte que les modèles linguistiques traitent,
Cette méthode permet de réduire le volume de texte de sept à vingt fois, ce qui permettrait de traiter de grandes quantités d’informations sans augmenter les coûts de calcul.
Le modèle, disponible en open source sur Hugging Face et GitHub, plateformes utilisées par les développeurs pour héberger et partager des modèles et du code d’IA, se compose d’un encodeur visuel (DeepEncoder) et d’un décodeur avec une architecture Mixture-of-Experts (MoE) de 570 millions de paramètres.
En plus de reconnaître le texte, il peut interpréter des éléments visuels tels que des tableaux, des formules ou des diagrammes, élargissant ainsi son utilisation dans des domaines tels que la finance ou la recherche scientifique.
Selon les tests publiés par l’entreprise, DeepSeek-OCR a surpassé les autres modèles de reconnaissance optique de caractères, tels que GOT-OCR 2.0 et MinerU 2.0, en maintenant une précision de 97 % avec une compression inférieure à dix fois.
La société affirme que son système peut générer plus de 200 000 pages de données d’entraînement par jour avec une seule carte graphique Nvidia A100-40G.
Cette version s’inscrit dans la stratégie de DeepSeek de développer des modèles plus efficaces et moins coûteux, tels que les précédents V3 et R1, axés sur le raisonnement et l’apprentissage par renforcement.
Auteur:
Info: Sur https://github.com/deepseek-ai/DeepSeek-OCR, fin octobre 2025
Commentaires: 0