L’indicizzazione automatica dei documenti è un procedimento che fa uso delle potenzialità permesse dai software/ di lettura ottica per creare un sistema di classificazione e catalogazione totale di una massa di documenti di qualsiasi entità.
In pratica, l’indicizzazione automatica dei documenti consiste nell’acquisizione del loro intero o parziale contenuto e nello sfruttamento di qualsiasi elemento rilevato – un indirizzo, un nome, un codice prodotto – come potenziale chiave di ricerca per estrarre o selezionare parte dei documenti contenuti in un archivio. Com’è facile immaginare, il processo di indicizzazione automatica dei documenti rende possibile una serie di operazioni di selezione, raggruppamento e indagine sul contenuto di un archivio che sarebbe impensabile altrimenti.
Com’è ovvio, l’indicizzazione automatica dei documenti passa inevitabilmente dall’acquisizione in formato digitale del loro contenuto tramite lettura ottica. Quando il contenuto è digitalizzato, diventa gestibile da un sistema di archiviazione ottica, in modo totalmente libero: non richiede infatti di effettuare ricerche solo in base a indici immaginati precedentemente – come un archivio che sia stato catalogato per tipo di prodotto, per nome del cliente, e per anno di fatturazione – ma permette di spaziare a qualsiasi elemento del contenuto, trasformando di fatto tutti i dati in possibili chiavi di ricerca, ossia in metadati.
Una volta che l’intero contenuto dell’archivio è digitalizzato, è possibile estrarre, ad esempio, tutti i documenti di qualsiasi natura (fatture, lettere, rapportini d’intervento, offerte) che contengono la parola “riparazione”, oppure tutte quelle offerte il cui importo superi una determinata cifra, o ancora tutti i rapporti d’intervento che abbiano richiesto più di tre ore di lavoro. Le possibilità sono infinite.
Elemento chiave nella corretta acquisizione di questi dati, per il loro successivo utilizzo come indici di ricerca, è però la comprensione di che tipo di dati siano – un computer, da solo, non ha modo di sapere che quella serie di cinque cifre nell’indirizzo è un CAP – e questo ci porta ad una distinzione fra tipologie di documenti che è fondamentale nel processo di indicizzazione automatica: quella fra documenti strutturati e documenti non strutturati.
La fondamentale differenza fra un documento non strutturato e uno strutturato, dal punto di vista dell’indicizzazione automatica, è la costanza nella collocazione spaziale di un dato specifico all’interno del documento stesso.
Prendiamo un esempio classico di documento strutturato: la prescrizione, o ricetta, medica. Tutte le ricette mediche emesse in Italia sono scritte su un modulo identico, di struttura prefissata: il codice fiscale dell’assistito è sempre nello stesso punto, la data della ricetta ha anch’essa sempre la stessa posizione, e così vale per i farmaci prescritti.
In questo caso, l’indicizzazione è più semplice, perché è sufficiente programmare il sistema di lettura ottica con un modello documentale che, appunto, indichi che il dato trovato nella posizione A va indicizzato come data, quello in posizione B come codice fiscale dell’assistito, e così via.
Ma quando passiamo ai documenti non strutturati, le cose si fanno più complesse. Un buon esempio di documento non strutturato è quello delle fatture o dei DDT. Se infatti essi devono contenere gli stessi dati – ragione sociale, importo, indirizzo, data, tanto per dirne alcuni – non è assolutamente detto che questi si trovino nello stesso punto: il modulo di fattura del cliente A può infatti mettere la data nel punto del foglio dove quello del cliente B prevede invece il CAP, o la ragione sociale, o addirittura un pezzo del disegno del logo aziendale. Come risolvere questa situazione, che di per sé sembra compromettere la possibilità di effettuare una corretta indicizzazione automatica dei documenti?
La prima soluzione è quella di trovare un modo di rendere “strutturato” il documento in questione, insegnando al computer che nel modulo di fattura di quello specifico cliente la data è in posizione A, l’importo totale in B, la ragione sociale in C, e così via; questo richiede sì di creare tanti moduli documentali quanti sono i tipi di documento che si ricevono regolarmente, (e di avere la certezza che il documento venga identificato come del tipo corretto) ma poi rende l’indicizzazione semplice e sicura come nel primo caso descritto.
Ma come fare per quei documenti – pensiamo alle lettere, o ai curriculum vitae – nei quali la posizione dei dati è completamente casuale? Non è pensabile, né utile, immaginare di creare un modello documentale diverso per ogni singolo documento: in questi casi, invece, si procederà tramite un’identificazione logica, e non più spaziale, dei dati. Un certo formato – GG/MM/AAAA, ad esempio – dovrà essere considerato con ogni probabilità una data; le parole che seguono espressioni contenenti la parola “indirizzo”, e che sono precedute dalla parola “Via”, “Viale” o “Piazza” e seguite da un numero andranno catalogate appunto come indirizzo, le due parole scritte in fondo a destra in una lettera saranno da considerare nome e cognome del mittente, e così via. Tali regole permetteranno al sistema di indicizzazione automatica, se ben scritte, di operare un “ragionamento” molto simile a quello che un operatore umano mette in atto istintivamente quando scorre un documento alla ricerca di un’informazione.
Nonostante le complessità intrinseche alla sua adozione, l’indicizzazione automatica dei documenti rappresenta senza alcun dubbio un’operazione di grande utilità per l’azienda, che comporta vantaggi molto significativi, specie in quelle realtà dove il flusso documentale è molto massiccio.
Datasis Group Srl - Via Paolo Veronese 202 - 10148 Torino (TO) - Tel.+390110658075 – Email: info@softwareletturaottica.it – P.Iva 02325530133 - Rea TO-1315667 - C.Soc. € 10.200 i.v.
Cookie | Durata | Descrizione |
---|---|---|
cookielawinfo-checkbox-analytics | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". |
cookielawinfo-checkbox-functional | 11 months | The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". |
cookielawinfo-checkbox-others | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other. |
cookielawinfo-checkbox-performance | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". |
viewed_cookie_policy | 11 months | The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. |