<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/05%20-%20Analisi%20del%20testo/pos_tagging.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Part-of-speech Tagging
Il part-of-speech tagging è un processo che consiste nell'identificazione del tipo delle parole del testo. I tipi solitamente possono essere raggruppati in queste macro categorie.
<br>
<table>
  <tr>
    <th>Tipo</th>
    <th>Tag</th> 
    <th>Esempi</th>
  </tr>
    <tr>
    <th>Aggettivi</th>
    <th>ADJ</th> 
    <th>nuovo, buono, alto</th>
  </tr>
    <tr>
      <th>Preposizione</th>
      <th>ADP</th> 
      <th>su, di, a, con, da</th>
  </tr>
  <tr>
      <th>Avverbi</th>
      <th>ADV</th> 
      <th>presto, adesso, davvero</th>
  </tr>
  <tr>
      <th>Congiunzioni</th>
      <th>CONJ</th> 
      <th>e, o, ma, mentre, se</th>
  </tr>
  <tr>
      <th>Articoli determinativi</th>
      <th>DET</th> 
      <th>il, la, tutti, alcuni</th>
  </tr>
  <tr>
      <th>Nomi</th>
      <th>NOUN</th> 
      <th>casa, cane, uomo</th>
  </tr>
  <tr>
      <th>Numeri</th>
      <th>NUM</th> 
      <th>10, cento, 13:30</th>
  </tr>
  <tr>
      <th>Particella</th>
      <th>PRT</th> 
      <th>ti, ci, vi</th>
  </tr>
  <tr>
      <th>Pronomi</th>
      <th>PRON</th> 
      <th>Lei, esso, io, egli</th>
  </tr>
   <tr>
      <th>Verbi</th>
      <th>VERB</th> 
      <th>ha, era, potrebbe</th>
  </tr>
    <tr>
      <th>Punteggiatura</th>
      <th>.</th> 
      <th>. , ! ? : ; </th>
  </tr>
    <tr>
      <th>Altro</th>
      <th>X</th> 
      <th>lol, xke, cmq</th>
  </tr>
  </table>

Oltre a queste, esistono anche delle microcategorie che tengono conto di ulteriori informazioni, come tempo di un verbo, genere di una parola ecc..

## POS Tagging con NLTK
Vediamo come eseguire il POS Tagging con NLTK, cominicamo importando il modulo e scaricando il modulo 'punkt', per eseguire il tagging dobbiamo scaricare anche il modulo 'averaged_perceptron_tagger'. Scarichiamo anche il modulo 'tagset' che non ci servirà per eseguire il tagging ma per ottenere lista e descrizione dei tag di NLTK.

In [0]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

Possiamo eseguire il POS Tagging con NLTK usando la funzione pos_tag

In [0]:
text = "Every day is a new day for me"

tokens = nltk.word_tokenize(text)

tags = nltk.pos_tag(tokens)

print(type(tags))
print("TOKEN\t\tTAG")

for tag in tags:
  print(tag[0]+"\t\t"+tag[1])

<class 'list'>
TOKEN		TAG
Every		DT
day		NN
is		VBZ
a		DT
new		JJ
day		NN
for		IN
me		PRP


I tags che utilizza NLTK sono diversi da quelli della nostra tabella e sono davvero tanti, possiamo accedere alla lista completa in ordine alfabetico con tanto di descrizione usando la funzione *help.upenn_tagset()*.

In [0]:
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

Il POS tagging di NLTK supporta solo la lingua inglese.

## POS Tagging con Spacy

Passiamo Spacy, importiamo il modulo per la lingua inglese.

In [0]:
import spacy

nlp = spacy.load("en_core_web_sm")

anche nel caso del POS Tagging non dobbiamo fare nulla, dato che anche questa informazione viene elaborata durante il processing del documento. Possiamo accedere al tag contenente la macro categoria della parola tramite l'attributo *pos_* (e anche in questo caso fai attenzione all'utlizzo del trattino basso se non vuoi ottenere l'hash), mentre possiamo accedere al tag più specifico usando l'attributo *.tag*.

In [0]:
doc = nlp("Every day is a new day for me")

print("TOKEN\t\tPOS\t\tTAG")

for token in doc:
  print(token.text+"\t\t"+token.pos_+"\t\t"+token.tag_)

TOKEN		POS		TAG
Every		DET		DT
day		NOUN		NN
is		VERB		VBZ
a		DET		DT
new		ADJ		JJ
day		NOUN		NN
for		ADP		IN
me		PRON		PRP


[A questo link](https://spacy.io/api/annotation) possiamo trovare la descrizione di ogni tag, Spacy ci viene in aiut con la funzione *explain(tag)* che possiamo utilizzare per ottenere la descrizione relativa ad un tag.

In [0]:
doc = nlp("Every day is a new day for me")

print("TOKEN\t\tPOS\t\tTAG\t\tDESCRIZIONE")

for token in doc:
  print(token.text+"\t\t"+token.pos_+"\t\t"+token.tag_+"\t\t"+spacy.explain(token.tag_))

TOKEN		POS		TAG		DESCRIZIONE
Every		DET		DT		determiner
day		NOUN		NN		noun, singular or mass
is		VERB		VBZ		verb, 3rd person singular present
a		DET		DT		determiner
new		ADJ		JJ		adjective
day		NOUN		NN		noun, singular or mass
for		ADP		IN		conjunction, subordinating or preposition
me		PRON		PRP		pronoun, personal


Proviamo ora con un esempio in italiano, scarichiamo il modulo per la lingua italiana.

In [0]:
!python -m spacy download it_core_news_sm

Collecting it_core_news_sm==2.0.0 from https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-2.0.0/it_core_news_sm-2.0.0.tar.gz#egg=it_core_news_sm==2.0.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-2.0.0/it_core_news_sm-2.0.0.tar.gz (36.5MB)
[K    100% |████████████████████████████████| 36.5MB 1.6MB/s 
[?25hInstalling collected packages: it-core-news-sm
  Running setup.py install for it-core-news-sm ... [?25ldone
[?25hSuccessfully installed it-core-news-sm-2.0.0

[93m    Linking successful[0m
    /usr/local/lib/python3.6/dist-packages/it_core_news_sm -->
    /usr/local/lib/python3.6/dist-packages/spacy/data/it_core_news_sm

    You can now load the model via spacy.load('it_core_news_sm')



e proviamo con una recensione del Signore degli Enigmi, i tag dettagliati per la lingua italiana sono differenti e purtroppo per essi non possiamo usare la funzione *explain(tag)* però sono abbastanza esplicativi, possiamo ottenere lista completa e il relativo tag per la lingua inglese dando uno sguardo al [codice sorgente](https://github.com/explosion/spaCy/blob/master/spacy/lang/it/tag_map.py).

In [0]:
import spacy

nlp = spacy.load("it_core_news_sm")

doc = nlp("un pò troppo difficile ci sto mettendo tantissimo tempo solo per il primo livello")

print("TOKEN\t\tPOS\t\tTAG")

for token in doc:
  print(token.text+"\t\t"+token.pos_+"\t\t"+token.tag_)

TOKEN		POS		TAG
un		DET		RI__Definite=Ind|Gender=Masc|Number=Sing|PronType=Art
pò		NOUN		S___
troppo		ADV		B___
difficile		ADJ		A__Number=Sing
ci		PRON		PC__Clitic=Yes|Number=Plur|Person=1|PronType=Prs
sto		AUX		VA__Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
mettendo		VERB		V__VerbForm=Ger
tantissimo		ADJ		A__Degree=Abs|Gender=Masc|Number=Sing
tempo		NOUN		S__Gender=Masc|Number=Sing
solo		ADV		B___
per		ADP		E___
il		DET		RD__Definite=Def|Gender=Masc|Number=Sing|PronType=Art
primo		ADJ		NO__Gender=Masc|Number=Sing|NumType=Ord
livello		NOUN		S__Gender=Masc|Number=Sing


## LINK UTILI
 - https://www.nltk.org/book/ch05.html