Définition OCR

OCR est l'abréviation de Optical Character Recognition, une expression en anglais pouvant être traduite par Optical Character Recognition . La notion informatique est utilisée en informatique pour nommer une procédure permettant de numériser un texte via un scanner .

Le cas de l’OCR est très particulier, car il confère à l’ordinateur une compétence de base pour la plupart des êtres humains: la lecture. Il convient de mentionner que ce n'est pas une tâche facile pour nous deux, bien que dans notre cas, nous apprenions généralement à le faire dès un très jeune âge, raison pour laquelle nous acquérons une grande compétence, même lorsque nous devons faire face à une calligraphie difficile à comprendre.

Malgré les progrès de la technologie, l' OCR fait toujours face à plusieurs problèmes. Par exemple, il est assez difficile de faire reconnaître un texte manuscrit par un système numérique. Le processus rencontre généralement des inconvénients pour segmenter les différentes unités de texte. La même chose se produit lorsque des mots apparaissent très proches les uns des autres.

D'autres défauts d' OCR peuvent apparaître lorsque le contraste entre les mots et l'arrière-plan n'est pas suffisant. Supposons qu'un texte écrit en lettres noires soit imprimé sur une feuille grise: il est probable que le processus d' OCR ne puisse pas distinguer les lettres et les mots .

N'oublions pas que, tout comme une action apparemment aussi simple que marcher dans la rue nécessite une série d'actions complémentaires pour éviter les obstacles et protéger notre intégrité, la lecture d'un texte imprimé est le résultat de plusieurs tâches de reconnaissance simultanées, que nous effectuons presque inconsciemment, mais ils nous emmènent au travail.

Lorsqu'il est confronté à un texte, notre propre système OCR est responsable de la recherche et de la reconnaissance du titre, de l'identification des paragraphes, des signes de ponctuation, des espaces entre les mots et des abréviations, entre autres éléments, ainsi que de la compréhension des sources. trop orné ou mal rangé et pour compléter les informations dans les régions qui ont subi tout type d'usure, comme une tache d'encre ou un morceau de papier manquant.

Recommandé