Linguaggio computazionale
È la disciplina che studia lo sviluppo dei formalismi descrittivi del funzionamento di una lingua naturale che possono essere trasformati in programmi eseguibili da computer.
Il processo di trasformazione trova una mediazione fra il linguaggio umano, oggetto di studio in costante evoluzione, e le capacità di comprensione della macchina, limitate a quanto può essere descritto mediante regole formali.
Il problema principale, quando si vuole avviare l’analisi computazionale del testo, è stabilire dei criteri di identificazione per quella che è la sua unità di base: la parola.
La soluzione è stata quella di suddividere il testo in token lessicali (blocchi di testo categorizzato, costituito da caratteri indivisibili chiamati lessemi, cioè l’unità minima che costituisce il lessico di una lingua, quindi, la registrazione di una singola voce di dizionario: vocabolo), un elemento di aiuto per la divisione sono gli spazi vuoti tra i vocaboli (un vocabolo rappresenta un gruppo di caratteri e per ongi gruppo si crea un token) ma nel caso di lingue a sistema ortografico continuo l’operazione richiede algoritmi estremamente complicati.
La procedura di creazione del token lessicali risulta molto più complessa a causa della punteggiatura (che cambia in base alla lingua) ed + per questo che una volta creato il token lessicale si procede alla ricerca e definizione delle stringhe (sequenze di caratteri che soddisfino certi criteri) effettuata per mezzo delle espressioni regolari (sequenza di simboli che identificano un insieme di stringhe) per creare dei pattern di stringhe (disegno, modello, schema, schema ricorrente, struttura ripetitiva).
Nei vari linguaggi di programmazione vengono specificati i pattern di stringhe tramite la sintassi delle espressioni regolari, questo consente di verificare se in un testo esistono pattern corrispondenti.