# Elaborazione di testi in linguaggio naturale con Python
L'elaborazione del linguaggio naturale (NLP) è un campo dell'intelligenza artificiale che si occupa dell'interazione tra computer e linguaggio umano. Utilizzando Python e librerie come **NLTK** (Natural Language Toolkit), possiamo analizzare, comprendere e generare linguaggio umano in modo efficace.

Un testo scritto in un linguaggio naturale non ha tag, non ha delimitatori e non ha tipi di dati, ma può comunque essere una ricchissima fonte di informazioni.

Esploreremo vari corpus forniti da NLTK, inclusi **Gutenberg, Stopwords, WordNet e Inaugural**, e vedremo come possiamo utilizzare questi strumenti per il processamento del linguaggio naturale.

In [1]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


Quando installate il modulo NLTK, in realtà installate solo le classi, no i corpus. I corpus sono considerati troppo estesi per poter essere inclusi nella distribuzione. Quando importate il modulo per la prima volta, ricordatevi di richiamare la funzione download() e di installare le parti mancanti, a seconda delle vostre esigenze.

In [2]:
# Importazione delle librerie necessarie
import nltk
from nltk.corpus import gutenberg, stopwords, wordnet, inaugural

nltk.download('gutenberg')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('inaugural')

[nltk_data] Downloading package gutenberg to
[nltk_data]     C:\Users\gzile\AppData\Roaming\nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\gzile\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\gzile\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package inaugural to
[nltk_data]     C:\Users\gzile\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\inaugural.zip.


True

### Che cos'è un Corpus?
Un corpus è una collezione strutturata o non strutturata di testi che possono essere utilizzati per l'analisi del linguaggio naturale. In NLTK, tutti i corpus sono disponibili nel modulo `nltk.corpus`.

### Corpus Gutenberg
NLTK fornisce accesso al **Gutenberg Corpus**, una collezione di testi classici della letteratura.

In [3]:
# Lista dei file nel corpus Gutenberg
print(gutenberg.fileids())

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt', 'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt', 'whitman-leaves.txt']


In [7]:
# Lettura del contenuto del primo paragrafo di 'Emma' di Jane Austen
emma_text = gutenberg.raw('bible-kjv.txt')[:1000]
print(emma_text)

[The King James Bible]

The Old Testament of the King James Bible

The First Book of Moses:  Called Genesis


1:1 In the beginning God created the heaven and the earth.

1:2 And the earth was without form, and void; and darkness was upon
the face of the deep. And the Spirit of God moved upon the face of the
waters.

1:3 And God said, Let there be light: and there was light.

1:4 And God saw the light, that it was good: and God divided the light
from the darkness.

1:5 And God called the light Day, and the darkness he called Night.
And the evening and the morning were the first day.

1:6 And God said, Let there be a firmament in the midst of the waters,
and let it divide the waters from the waters.

1:7 And God made the firmament, and divided the waters which were
under the firmament from the waters which were above the firmament:
and it was so.

1:8 And God called the firmament Heaven. And the evening and the
morning were the second day.

1:9 And God said, Let the waters under the heav

### Stopwords Corpus
Le **stopwords** sono parole comuni (come 'il', 'e', 'di') che vengono spesso rimosse nell'elaborazione del linguaggio naturale.

In [9]:
# Lista delle stopwords in lingua inglese
stop_words = stopwords.words('english')
print(stop_words[:20])  # Mostra le prime 20 stopwords

['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been']


### WordNet Corpus
WordNet è un lessico per la lingua inglese che collega le parole secondo relazioni semantiche come sinonimi e iponimi.

In [10]:
# Sinonimi della parola 'happy'
synonyms = wordnet.synsets('happy')
for syn in synonyms:
    print(syn.name(), '->', syn.definition())

happy.a.01 -> enjoying or showing or marked by joy or pleasure
felicitous.s.02 -> marked by good fortune
glad.s.02 -> eagerly disposed to act or to be of service
happy.s.04 -> well expressed and to the point


### Corpus Inaugural
Il corpus **Inaugural** contiene i discorsi inaugurali dei presidenti degli Stati Uniti.

In [11]:
# Lista dei file nel corpus Inaugural
print(inaugural.fileids())

['1789-Washington.txt', '1793-Washington.txt', '1797-Adams.txt', '1801-Jefferson.txt', '1805-Jefferson.txt', '1809-Madison.txt', '1813-Madison.txt', '1817-Monroe.txt', '1821-Monroe.txt', '1825-Adams.txt', '1829-Jackson.txt', '1833-Jackson.txt', '1837-VanBuren.txt', '1841-Harrison.txt', '1845-Polk.txt', '1849-Taylor.txt', '1853-Pierce.txt', '1857-Buchanan.txt', '1861-Lincoln.txt', '1865-Lincoln.txt', '1869-Grant.txt', '1873-Grant.txt', '1877-Hayes.txt', '1881-Garfield.txt', '1885-Cleveland.txt', '1889-Harrison.txt', '1893-Cleveland.txt', '1897-McKinley.txt', '1901-McKinley.txt', '1905-Roosevelt.txt', '1909-Taft.txt', '1913-Wilson.txt', '1917-Wilson.txt', '1921-Harding.txt', '1925-Coolidge.txt', '1929-Hoover.txt', '1933-Roosevelt.txt', '1937-Roosevelt.txt', '1941-Roosevelt.txt', '1945-Roosevelt.txt', '1949-Truman.txt', '1953-Eisenhower.txt', '1957-Eisenhower.txt', '1961-Kennedy.txt', '1965-Johnson.txt', '1969-Nixon.txt', '1973-Nixon.txt', '1977-Carter.txt', '1981-Reagan.txt', '1985-Reaga

In [12]:
# Leggere le prime righe del discorso di George Washington nel 1789
washington_1789 = inaugural.raw('1789-Washington.txt')[:500]
print(washington_1789)

Fellow-Citizens of the Senate and of the House of Representatives:

Among the vicissitudes incident to life no event could have filled me with greater anxieties than that of which the notification was transmitted by your order, and received on the 14th day of the present month. On the one hand, I was summoned by my Country, whose voice I can never hear but with veneration and love, from a retreat which I had chosen with the fondest predilection, and, in my flattering hopes, with an immutable dec


## Normalizzazione del Testo in Python
La normalizzazione del testo è una procedura essenziale nel Natural Language Processing (NLP) che prepara un testo in linguaggio naturale per le successive elaborazioni.

In [13]:
# Importazione delle librerie necessarie
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer

### Tokenizzazione del Testo
I **token** sono le unità fondamentali in cui viene suddiviso un testo durante l'elaborazione del linguaggio naturale. 
Possono essere parole, frasi o altri elementi significativi.
La **tokenizzazione** suddivide il testo in parole o frasi.

In [14]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

# Testo di esempio
testo = "La normalizzazione del testo è fondamentale nel NLP! Vediamo come funziona."

# Tokenizzazione in parole
tokens = word_tokenize(testo.lower())
print(tokens)

['la', 'normalizzazione', 'del', 'testo', 'è', 'fondamentale', 'nel', 'nlp', '!', 'vediamo', 'come', 'funziona', '.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gzile\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\gzile\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


### Rimozione della Punteggiatura e Stopwords
Le **stopwords** sono parole comuni che vengono spesso rimosse per migliorare l'analisi del testo.

In [36]:
# Definizione delle stopwords
stop_words = set(stopwords.words('italian'))

# Pulizia del testo
tokens_filtrati = [word for word in tokens if word.isalnum() and word not in stop_words]
print(tokens_filtrati)

['normalizzazione', 'testo', 'fondamentale', 'nlp', 'vediamo', 'funziona']


### Stemming
Lo **stemming** riduce le parole alla loro radice base.

In [37]:
# Creazione dello stemmer
stemmer = PorterStemmer()

# Applicazione dello stemming
stemmed_words = [stemmer.stem(word) for word in tokens_filtrati]
print(stemmed_words)

['normalizzazion', 'testo', 'fondamental', 'nlp', 'vediamo', 'funziona']


### Lemmatizzazione
La **lemmatizzazione** riduce le parole alla loro forma base, tenendo conto del significato.

In [38]:
# Creazione del lemmatizer
lemmatizer = WordNetLemmatizer()

# Applicazione della lemmatizzazione
lemmatized_words = [lemmatizer.lemmatize(word) for word in tokens_filtrati]
print(lemmatized_words)

['normalizzazione', 'testo', 'fondamentale', 'nlp', 'vediamo', 'funziona']


# Conclusione
In questo notebook abbiamo esplorato alcuni dei principali corpus forniti da NLTK, inclusi **Gutenberg, Stopwords, WordNet e Inaugural**. 
Questi strumenti sono essenziali per il processamento del linguaggio naturale insieme a tecniche di normalizzazione del testo in Python: **tokenizzazione, rimozione delle stopwords, stemming e lemmatizzazione**