# NLP: pre-processing italian textual contents
Use of NLP tools to elaborate italian texts.

## spaCy
More info at: 
- https://spacy.io/api
- https://spacy.io/models/it 
- https://spacy.io/usage/linguistic-features

In [114]:
import spacy
from spacy.lang.it.examples import sentences 
from spacy import displacy
from spacy.tokens import Doc

Italian language

In [115]:
# download and load 'it_core_news_lg' to get the large version
# spacy.cli.download('it_core_news_md')  # uncomment if you need to download the trained pipelines for Italian
nlp = spacy.load('it_core_news_md')

In [116]:
spacy.prefer_gpu()

def spaCyNLP(text: str) -> Doc:
    """Natural language processing.
    :param text: text to process
    :return: spacy Doc object
    """
    doc = nlp(text)
    return doc

# show dependency tree
def showSpaCyDependencyTree(doc: Doc):
    """Visualize dependency tree.
    :param doc: spacy Doc object
    """
    sentence_spans = list(doc.sents)
    # displacy.serve(sentence_spans, style="dep")  # no jupyter
    displacy.render(sentence_spans, style='dep', jupyter=True)

def showSpaCyNER(doc: Doc):
    """Visualize entities.
    :param doc: spacy Doc object"""
    # displacy.serve(doc, style="ent")  # no jupyter
    displacy.render(doc, style='ent', jupyter=True)

def cleaningTokens(doc: Doc) -> list:
    """Return a list of main tokens.
    :param doc: spacy Doc object
    :return: list of tokens"""
    return [token for token in doc if not token.is_stop and not token.is_punct and not token.is_space]

def cleaningLemmas(doc: Doc) -> list:
    """Return a list of main lemmas.
    :param doc: spacy Doc object
    :return: list of lemmas"""
    return [token.lemma_ for token in cleaningTokens(doc)]

### Pre-processing test

In [117]:
doc = spaCyNLP('Ciao Mario! Luigi è partito per una nuova avventura, la sua passione è la montagna.')
print(f'{doc.text}\n')
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.dep_)

print('\nToken (no stopwords):', cleaningTokens(doc))
print('Lemma (no stopwords):', cleaningLemmas(doc))

Ciao Mario! Luigi è partito per una nuova avventura, la sua passione è la montagna.

Ciao ciao INTJ ROOT
Mario Mario PROPN nsubj
! ! PUNCT punct
Luigi Luigi PROPN nsubj
è essere AUX aux
partito partire VERB ROOT
per per ADP case
una uno DET det
nuova nuovo ADJ amod
avventura avventura NOUN obl
, , PUNCT punct
la il DET det
sua suo DET det:poss
passione passione NOUN nsubj
è essere AUX cop
la il DET det
montagna montagna NOUN conj
. . PUNCT punct

Token (no stopwords): [Ciao, Mario, Luigi, partito, nuova, avventura, passione, montagna]
Lemma (no stopwords): ['ciao', 'Mario', 'Luigi', 'partire', 'nuovo', 'avventura', 'passione', 'montagna']


### Visualizers

In [118]:
showSpaCyDependencyTree(doc)

In [119]:
showSpaCyNER(doc)  # TODO: fix
print([(X.text, X.label_) for X in doc.ents])

[('Ciao Mario!', 'MISC')]


## NLTK

In [120]:
# TODO: same as spaCy