## introduzione all'eborazione del linguagio naturale (NPL) usando l'apprendimento non supervisato

### Cos' é NPL ?

NPL d'all inglese Natural Language Processing, rappresenta l'insieme di metodi e tecniche che permettono ai computer di capire, interpretare e generare un linguagio simile a quello umano.

Per qualsiasi progetto, è importante sceglier corretamente i dati e di fare una pre-elaboration, prima di usare dei modelli di IA

Esiste un processo di pre-elaboratione chiamato __Data cleaning__ ovvero __Pulizia dei dati__

### Pre-elaborazion: Data cleaning

il Data cleaning si fa i 6 passi:

* Eliminazione della puntuazione
* Tokenization (tokenizzazione)
* Eliminazione delle parole vuote
* Stemming
* Lemmatisation
* Part of Speech Tagging

#### Eliminazione della puntuazione

La puntuazione non è utile, non aguinge senso alla frase, al linguagio. allora vengono cancelli tutti segni di puntuazione.

Esempio con Python:

Per inziare occore cambiare il giocco di dati.

In [3]:
import pandas as pd

In [9]:
dataframe = pd.read_csv("../../../../data/NLP/Corona_NLP_train.csv", encoding='latin1')

print(dataframe)

FileNotFoundError: [Errno 2] No such file or directory: '../../../../data/NLP/Corona_NLP_train.csv'

Cancelleremo la puntuazione nei tweets originals

Per quello creeremo una funzione Cancella_Puntuazione che dovra usae dei Regex per la cancellazione. Prima, dobiamo importare la libreria python che gestisce i regx.

In [5]:
import re

In [6]:
def Cancella_Puntuazione(testo):
    return re.sub(r'[^\w\s]', '', testo)

andremo poi a uasare questa funzione per cancellare tutti segni di puntuazione nei testi

In [7]:
testo_senza_puntuazione = [Cancella_Puntuazione(testo) for testo in dataframe['OriginalTweet']]
print(testo_senza_puntuazione[:5])

NameError: name 'dataframe' is not defined

Dopo la cancellazione di tutti segni di puntuazione possiamo passare alla __Tokenization__


#### Tokenization

La tokenizzazione (Tokenization) consente di separare le parole della stringa di caratteri in un elenco di parole separate. Questo sarà molto importante per il trattamento dei nostri dati nei diversi modelli.

per fare la tokenizzazione si puo usare divese librerie come NLTK specialisata nell'elaborazione del liguagio Naturale 

In [2]:
import nltk
from nltk.tokenize import word_tokenize

# dati necissarie pe la tokenizzaziione con nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Ryan\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Scriviamo la funzione tokenize

In [None]:
def tokenize(testo_senza_Puntuazione):
    testo_tokenized = []
    for testo in testo_senza_Puntuazione:
        testo_tokenized.append(word_tokenize(testo))
    return testo_tokenized

In [None]:
testo_tokenized = tokenize(testo_senza_puntuazione)
print(testo_tokenized)

Dopo la tokenizzazione si cancellera le parole vuote

#### Eliminazione delle parole vuote

L' elimonazione delle parole vuote permette di togiliere le parole per la struttura del linguagio ( detto Liguagio strutturante), ma che non contribuisce al contenuto o  alla suo comprensione

Ad esempio: il, la, un, una ...


per farlo possiamo usare l'elenco dei stop_words della libreria nltk

In [3]:
from nltk.corpus import stopwords

# i dati per aver un'elenco di stop_words
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Ryan\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

Poi definiremo la nostra funzione

In [None]:
def Cancellazione_ParoleVuote(testo_tokenized):
    testo_senza_parolevuote = []
    stop_words = set(stopwords.words('english'))
    for testo in testo_tokenized:
        testo_senza_parolevuote.append([parola for parola in testo if parola not in stop_words])
    return testo_senza_parolevuote

In [None]:
testo_senza_parolevuote = Cancellazione_parolevuote(testo_tokenized)

print(testo_senza_parolevuote)

Dopo la cancellazione delle parole vuote possiamo realizare una pre-elaborazione permettente di mettere tutte le parole in minuscolo

Ecco una funzione per farlo

In [None]:
def Metti_in_minuscolo(testo_senza_parolevuote):
    testo_minuscolo = []
    for testo in testo_senza_parolevuote:
        testo_minuscolo.append([parola.lower() for parola in testo])
    return testo_minuscolo

 #### Stemming

 Lo stemming è il processo di reduzione della forma flessa di una parola alla sua forma radice detta anche "tema". le parole non honna necessaraimente un significato proprio nella nostra lingua

 Ecco una funzione per realizarlo, sempre con nltk

In [None]:
from nltk.stem import PorterStemmer

In [None]:
def Stemming( testo_minuscolo):
    testo_stemming = []
    for testo in testo_minuscolo:
        testo_stemming.append([PorterStemmer().stem(parola) for parola in testo])
    return testo_stemming

In [None]:
testo_stemming = Stemming(testo_minuscolo)

print(testo_stemming)

#### Lemmatization

La Lemmatizzazione ( Lemmentization in inglese) è il processo algoritmico  che determina automaticamente il __lemma__ ( forma canonica) di una parola.
la forma cononica è la forma di rifermento per cercare la parola all'interno di un dizionario.


*è preferabile fare una lemmatizzazion invece di uno stemming quando il testo fornito è abbastanza puilito o contiene meno errori
esempio, lo stemming non fara mai la differenza tra le parole "est" e "Grand-est"*

*il testo deve quindi essere pulito, altrminmento se essistono errori di ortografa il seginifica della parola puo essere cambiata e mal interprettata dopo la lemmatizzazione gli errori possonno anche essere grammatica o di sintasse o altri*

⚠️ La lemmatizzazione deve essere fata prima del retiro delle stop_words!
Se vogliammo che la __Lemmatizzazione__ sia meglio dello __Stemming__ dobbiamo fare il __POS tagging__ .
*In questa sezion esporremo solo  comme implementare le tecniche di cui avremo bisogno in futuro per pre-elaborare i dati*

Ecco una funzione per realizzare la __Lemmatizzazione__



In [None]:
from nltk.stem import WordNetLemmatizer

nltk.download('wordnet')

In [None]:
def Lemmatizzazione(testo_minuscolo):
    testo_lemmatized = []
    for testo in testo_minuscolo:
        testo_lemmatized.append([WordNetLemmatizer().lemmatize(parola) in testo])
    return testo_lemmatized

In [None]:
testo_lemmatized = Lemmatizzazione(testo_minuscolo)

print(testo_lemmatized)

#### Part of Speech Tagging ( POS tagging)

Il __part of speech tagging__ ovvero l'analisi gammaticale di testo è uno dei task piu classici dell' __NPL__ che consiste all'attribuzione ad ogni parola della relativa carrateristica lessicale (Nome, verbo, pronome etc..)

In quasi tutte le funzione che permettono le Lemmatizzazione, il POS Tagging si fa sempre.Tuttavia nella libreria nltk con la funzione utilizzata il POS Tagging non vienne realizzato. vi invito a leggere la documentazione delle librerie che volete usare per la pre_elaborazione.

Il POS Tagging è fatto dopo la fase de Tokenizzazione, quindi ricomminceremo la su.

Realizzazione del __POS Tagging__:

In [None]:
nltk.download('averaged_perceptron_tagger')

In [None]:
def Pos_tagging(testo):
    testo_tagged = []
    for text in testo:
        testo_tagged.append(nltk.pos_tag(testo))
    return testo_tagged

In [None]:
testo_tagged =  Pos_tagging(testo_tokenized)

print(testo_tagged[1])

Di norma è dopo questa fase che vienne realizzata la __Lemmatizzazione__. in questo cas dobbiamo implementare un' altra funzione.

In [None]:
def Pos_taggin_lemmatizzazione(testo):
    testo_lemmatized = []
    for text in testo:
        lemma_tags = []
        for token, tag in testo:
            if tag.startswith('N'):
               lemma = WordNetLemmatizer().lemmatize(token, pos='n')
            elif tag.startswith('V'):
                lemma = WordNetLemmatizer().lemmatize(token, pos='v')
            elif tag.startswith('J'):
                lemma = WordNetLemmatizer().lemmatize(token, pos='a')
            elif tag.startswith('R'):
                lemma = WordNetLemmatizer().lemmatize(token, pos='r')
            else:
                lemma = WordNetLemmatizer().lemmatize(token)
            lemma_tags.append(lemma)
        testo_lemmatized.append(lemma_tags)
    return testo_lemmatized

In [None]:
testo_lemmatized = Pos_taggin_lemmatizzazione(testo_tag)

print(testo_lemmatized[1])

### In breve

per realizzare la __lemmatizzazione dobbiamo seguire un certo ordine di passagi:

__1° caso__

Tokenizzazione --> POS Tagging ( se non incluso nella Lemmatizzazione) --> Lemmatizzazione --> Eliminazione della Puntuazione --> Casting ( minuscolo o maiuscolo) --> Eliminazione dei stop-words

__2° caso__
Cancellazione della puntuazione --> Tokenizzazione --> Casting --> Cnacellazione dei stop-words --> Stemming


### Concluzione

Questo tipo di per-elaborazione di dati riguarda il text-mining, vedere il corso sul __Text-mining__