Speciale tecnologia: cosa significa la sigla OCR?

La tecnologia OCR è la più diffusa e famosa fra tutte quelle impiegate nella lettura ottica; la sigla stessa, OCR, sta semplicemente per Optical Character Recognition, ossia Riconoscimento Ottico dei Caratteri. Un sistema di lettura ottica OCR è in grado di riconoscere e digitalizzare i caratteri stampati o dattiloscritti. I software OCR sono quindi in grado di interpretare scritti e documenti cartacei di ogni genere, purchè non siano scritti a mano – nel qual caso occorre invece optare per una tecnologia ICR.

Le tipologie di software OCR per la lettura ottica

La classificazione fondamentale dei programmi OCR per il riconoscimento dei caratteri si basa essenzialmente su quanti font – ossia tipi di carattere stampato – sono in grado di riconoscere e interpretare. Avremo quindi software OCR Monofont, Multifont, e Omnifont.

I software OCR Monofont sono programmati per offrire un’accuratezza di riconoscimento elevatissima, la massima possibile, ma soltanto su un tipo di font. Questo si traduce, naturalmente, in una garanzia di eccellenti risultati di interpretazione dei caratteri, ma d’altro canto riduce i documenti interpretabili a quelli realizzati con il singolo font che il software sa riconoscere. Molto spesso questo tipo di sistema è progettato per leggere dati stampati in font OCR A e OCR B, che sono stati sviluppati appositamente per la facilità di riconoscimento ottico.

I software OCR Multifont rappresentano un passo avanti. Un sistema di questo tipo è infatti in grado di effettuare lettura ottica e riconoscimento dei caratteri su una gamma di font più ampia e numerosa rispetto alla limitatissima capacità di un Monofont; rimane il fatto, tuttavia, che la lista di font che un programma Multifont di lettura ottica sa riconoscere è limitata, e quindi restringe in ogni caso l’adottabilità del software ai documenti stampati utilizzandoli.

I software OCR Omnifont sono, per finire, l’evoluzione più alta dei sistemi di riconoscimento ottico dei caratteri. Un software di tipo Omnifont, in teoria, è progettato per riconoscere qualsiasi genere di font, interpretandone i caratteri al di là delle specifiche dimensioni, degli attributi, o dei dettagli: può leggere e digitalizzare documenti che contengano parti in corsivo, o sottolineate, o ancora scritte appunto con font diversi. A calare in questo caso, inevitabilmente, è la garanzia assoluta di accuratezza: aumentando la gamma di font da leggere, aumenta anche la possibilità d’errore.

Come funziona il riconoscimento OCR

Nella procedura di lettura ottica di un documento, un sistema OCR opera in tre fasi diverse e progressive.

  1. Segmentazione: durante la fase di segmentazione, il software OCR identifica i caratteri presenti nel documento da leggere, nonché la struttura della pagina stessa – riconoscendo ad esempio la presenza di colonne di testo e distinguendo i paragrafi.
  2. Estrazione: In fase di estrazione, il sistema OCR estrapola le caratteristiche di ciascun carattere presente nel documento. A seconda del software specifico, questa operazione può essere effettuata analizzandoli geometricamente, oppure verificando statisticamente la distribuzione dei punti che li compongono: lo scopo è in ogni caso quello di riconoscere caratteristiche che permettano – anche in presenza di inevitabili errori legati alla precisione della scansione del documento – la corretta identificazione di ogni carattere stampato.
  3. Classificazione: per concludere, il software OCR passa alla fase di classificazione. Qui viene svolta l’analisi delle caratteristiche rilevate in fase di estrazione, e queste vengono confrontate con i dati presenti nel software e relativi ai tipi di font che è in grado di leggere: il risultato è l’assegnazione ad ogni carattere di un codice ASCII, e quindi la sua conversione da segno grafico a elemento digitale riconosciuto e modificabile.

Su che documenti è opportuno usare software OCR

Il vantaggio principale dei sistemi OCR è la loro versatilità, soprattutto nelle versioni Multifont e Omnifont. Mentre le altre tecnologie di lettura ottica come il BCR o l’OMR sono sviluppate appositamente per tipologie molto specifiche di dati, infatti, un software OCR può digitalizzare qualsiasi genere di documento stampato o dattiloscritto e scansionato – o allo stesso modo su un PDF non modificabile.

Questo significa che può operare su lettere, curriculum, fatture, ma anche su qualsiasi tipo di documentazione tecnica, e inoltre su libri, manuali, articoli di giornale, e perfino su disegni o fotografie all’interno delle quali sia presente del testo. I software OCR sono tanto diffusi proprio perché rappresentano la soluzione più potente per la digitalizzazione di qualsiasi tipo di documentazione.

I limiti della tecnologia OCR

Per potente che sia, proprio per via della sua versatilità la tecnologia OCR presenta anche dei limiti, che è importante conoscere per fare le proprie scelte.

Fondamentalmente, infatti, poiché deve riconoscere i caratteri in base alla loro identità – o somiglianza – con quelli presenti nel proprio database di riferimento, un software OCR soffre molto di qualsiasi errore o deformazione dei caratteri derivante, ad esempio, dal processo di scansione. Un altro problema, soprattutto con determinate tipologie di font, è legato alla somiglianza fra caratteri differenti – la O maiuscola e il numero 0, per fare un esempio – che può naturalmente generare confusione in un programma digitale. In tutti i casi in cui la lettura ottica del carattere non sia certa, il software segnalerà tramite il dato di confidenza di lettura che la digitalizzazione deve essere verificata.

Le soluzioni a questo tipo di debolezze sono essenzialmente di due tipi.

Per prima cosa, dovunque possibile, è conveniente limitare il set di caratteri di riferimento: se “avvisiamo” il programma OCR che delle determinate stringhe di caratteri sono numeri di telefono, e quindi sono composte solo da cifre, non si potrà verificare la confusione prima segnalata fra O e 0.

Oltre a questo, laddove sia fondamentale la massima esattezza, è possibile far operare un software OCR su più sistemi di riconoscimento allo stesso tempo; in caso di discrepanze di lettura dei diversi sistemi su uno stesso carattere, la decisione verrà presa per comparazione e riconciliazione dei risultati. Questo aumento di precisione ha però un costo non trascurabile, sia in termini economici – il software diventa molto più complesso da realizzare e programmare – sia a livello di tempi di digitalizzazione, che inevitabilmente aumenteranno.

Contattateci oggi stesso per chiarimenti, informazioni, o un preventivo gratuito per il vostro nuovo software per la lettura ottica e la digitalizzazione documentale:

Datasis Group Srl - Via delle Piazzole 20 - 22070 Albiolo (CO) - Tel.+39031806519 – Email: info@softwareletturaottica.it – P.Iva 02325530133 - Rea 254748 - C.Soc. € 10.200.