Riconoscimento ottico dei caratteri – Lettura OCR

Sapevate che da tempo è possibile recuperare il testo contenuto in immagini jpg, png o file pdf ?

Mica ogni volta che avete bisogno di un testo contenuto in uno di questi formati vi mettete a ribattere ogni singolo rigo a mano?

Ok, è il momento di scoprire l’OCR!

OCR - Optical Character Recognition (Riconoscimento ottico dei caratteri)
 

Che cos’è?

L’OCR è una tecnologia usata sin dagli anni 70 e serve a riconoscere dei blocchi di testo in formati raster per poi convertirli in formati editabili e ricercabili.

Come funziona

Per convertire un’immagine in testo abbiamo bisogno di uno scanner e/o di una fotocamera digitale con un programma OCR. Questi strumenti saranno in grado di selezionare i caratteri presenti sull'immagine, unirli per formare delle parole e assemblare fino a creare delle frasi.Tutto questo ci permetterà di accedere al contenuto del documento originale e di poterlo elaborare.

Su quali principi si basa

(integrità, funzionalità, adattabilità o in inglese integrity, purposefulness, adaptability; abbreviato IPA

)

Quali sono le estensioni esportabili 

Una volta elaborato il testo sarà possibile esportarlo con estensioni DOC, RTF, XLS, PDF, HTML e TXT.

Qual è stato e qual è l’impiego di questa tecnologia?

La tecnologia OCR è stata molto utilizzata nelle applicazioni commerciali sin dagli anni Settanta ed è attualmente impiegata per l’automazione di alcune attività, come l’elaborazione di passaporti, assegni, documenti finanziari, fatture, tracciatura della posta, confezionamento di merci al dettaglio con codici di partita, lettura di numeri di serie nelle strutture di assemblaggio di componenti automobilistici ed elettronici, codici di lotto e date di scadenza su confezioni di farmaci o di alimenti.

Programmi  Free e Download

Prima abbiamo detto che oltre ad uno scanner o una fotocamera digitale, per utilizzare la tecnologia OCR, abbiamo bisogno di un software, quali sono e dove possiamo scaricarli?

Fortunatamente esistono tanti programmi gratuiti, alcuni di questi sono:

Cuneiform
Kadmos
FreeOCR

Qui è possibile trovare una breve descrizione per ognuno e i relativi link ai download

e

OCR to Word

Che è possibile approfondire al seguente link OCR to Word

In questa pagina è possibile anche approfondire Cuneiform

Se non dovesse bastare esiste anche un comodissimo servizio di Google Drive spiegato nel dettaglio in questa pagina che di seguito accenniamo e sintetizziamo.

Riconoscimento ottico dei caratteri con Google Drive

Requisiti:

Risoluzione - ciascuna riga di testo deve avere almeno un'altezza di 10 pixel

Orientamento – Se i documenti salvati in google Drive sono capovolti o poggiati su un lato è importante impostarli nel verso giusto con un programma di fotoritocco altrimenti l’applicazione non può riconoscere il testo.

Lingue, tipi di carattere e set di caratteri – L’applicazione riconosce testi scritti da sinistra a destra e da destra a sinistra e testi scritti in verticale nelle lingue in cui questo orientamento è comune (cinese, giapponese, coreano). E’ possibile ottenere migliori risultati se le immagini contengono caratteri comuni come Arial e Times New Roman.

Qualità immagine - le immagini più nitide, con contrasti chiari e maggiore luminosità consentono prestazioni più affidabili. Immagini mosse o non adeguatamente messe a fuoco dalla fotocamera riducono la qualità del testo rilevato.

Tipi di file e dimensioni – E’ possibile elaborare file .jpg, .gif, .png, .pdf con una dimensione massima di 2 MB e l’estrazione dei testi per i documenti in PDF è limitata ad un numero massimo di 10 pagine.

Inoltre, il sistema di Google Drive cerca anche, per quanto è possibile, di rispettare e  conservare la formattazione del documento originale (spazi, a capo, grassetti ecc…)

Abbyy Finereader

Abbyy Finereader è uno dei principali software OCR che grazie ad un sofisticato sistema di lettura ottica offre elevate prestazioni di riconoscimento dei caratteri.

Superfluo aggiungere che, tra le nostre fotocopiatrici, disponiamo di diversi modelli già corredati di sistema OCR - Abby Finereade.