# Imports

In [None]:
# queste sono alcuni moduli di Python necessari per la gestione dei files e delle cartelle
# drive monta il proprio spazio Google Drive e lo rende accessibile all'istanza di Python su cui sta girando questo notebook
# Eseguendo questa cella sarà necessario autorizzare Colab ad accedere a Drive

from google.colab import drive
drive.mount('/gdrive')

# Cambio la cartella default per comodità. In questa cartella, di cui bisogna conoscere il percorso all'interno del proprio spazio Drive,
# verranno salvati alcuni dei files che verranno scaricati dalla rete.

import os
# os.chdir('nomedellacartelladesiderata')

Drive already mounted at /gdrive; to attempt to forcibly remount, call drive.mount("/gdrive", force_remount=True).


# Word2vec
## Text8

In [None]:
# Questo consente di scaricare dataset e modelli preaddestrati usando il modulo gensim
import gensim.downloader as api
# text8 è una piccola porzione (20M di parole) da Wikipedia
text8 = api.load('text8')
# Word2Vec è l'oggetto che consente di addestrare il modello
from gensim.models.word2vec import Word2Vec
# Questo è l'addestramento del modello vero e proprio, che viene salvato nella variabile mt8
mt8 = Word2Vec(text8)

In [None]:
# queste sono le 20 parole più simili alla parola 'cat', secondo questo modello
mt8.wv.most_similar('cat', topn=20)

[('dog', 0.8496007323265076),
 ('pig', 0.8202006816864014),
 ('goat', 0.8035016059875488),
 ('bee', 0.8019393682479858),
 ('panda', 0.800677478313446),
 ('hamster', 0.7719034552574158),
 ('bird', 0.7654104828834534),
 ('blonde', 0.761848509311676),
 ('pet', 0.7596496343612671),
 ('ass', 0.757304847240448),
 ('rat', 0.7557088732719421),
 ('flower', 0.7396717071533203),
 ('eyed', 0.7377806305885315),
 ('stuffed', 0.7367633581161499),
 ('deer', 0.7358433604240417),
 ('llama', 0.7346656918525696),
 ('leopard', 0.727406919002533),
 ('rabbit', 0.7237824201583862),
 ('aloe', 0.7236571907997131),
 ('dogs', 0.7221463918685913)]

## Google News


In [None]:
# Scarichiamo il modello word2vec addestrato con google news.
gnews = api.load('word2vec-google-news-300')




**NB**: si tratta di un file piuttosto grande. SE lo si vuole salvare in una cartella Google Drive. Si può eseguire il comando 'save', eseguendo in una cella di codice questa istruzione:

```python
gnews.save('word2vec-google-news-300.model')
```

Una volta salvato, il modello si può recuperare, senza che lo si debba scaricare un'altra volta, usando questa istruzione:

```python
from gensim.models import KeyedVectors
modello = KeyedVectors.load('word2vec-google-news-300.model')
```

In [None]:
# Questo modello ha una performance più convincente
gnews.most_similar('cat')

[('cats', 0.8099379539489746),
 ('dog', 0.760945737361908),
 ('kitten', 0.7464985251426697),
 ('feline', 0.7326234579086304),
 ('beagle', 0.7150582671165466),
 ('puppy', 0.7075453400611877),
 ('pup', 0.6934291124343872),
 ('pet', 0.6891531348228455),
 ('felines', 0.6755931973457336),
 ('chihuahua', 0.6709762215614319)]

In [None]:
# All'interno del modello, i concetti associati ai termini di una lingua, sono rappresentati come vettori
gnews.get_vector('dog')

array([ 5.12695312e-02, -2.23388672e-02, -1.72851562e-01,  1.61132812e-01,
       -8.44726562e-02,  5.73730469e-02,  5.85937500e-02, -8.25195312e-02,
       -1.53808594e-02, -6.34765625e-02,  1.79687500e-01, -4.23828125e-01,
       -2.25830078e-02, -1.66015625e-01, -2.51464844e-02,  1.07421875e-01,
       -1.99218750e-01,  1.59179688e-01, -1.87500000e-01, -1.20117188e-01,
        1.55273438e-01, -9.91210938e-02,  1.42578125e-01, -1.64062500e-01,
       -8.93554688e-02,  2.00195312e-01, -1.49414062e-01,  3.20312500e-01,
        3.28125000e-01,  2.44140625e-02, -9.71679688e-02, -8.20312500e-02,
       -3.63769531e-02, -8.59375000e-02, -9.86328125e-02,  7.78198242e-03,
       -1.34277344e-02,  5.27343750e-02,  1.48437500e-01,  3.33984375e-01,
        1.66015625e-02, -2.12890625e-01, -1.50756836e-02,  5.24902344e-02,
       -1.07421875e-01, -8.88671875e-02,  2.49023438e-01, -7.03125000e-02,
       -1.59912109e-02,  7.56835938e-02, -7.03125000e-02,  1.19140625e-01,
        2.29492188e-01,  

In [None]:
# A questo punto, una volta ottenuto il modello, si possono fare varie operazione, tra cui quelle delle analogie
gnews.most_similar(positive=['king', 'woman'], negative = ['man'], topn=20)

[('queen', 0.7118193507194519),
 ('monarch', 0.6189674139022827),
 ('princess', 0.5902431011199951),
 ('crown_prince', 0.5499460697174072),
 ('prince', 0.5377321839332581),
 ('kings', 0.5236844420433044),
 ('Queen_Consort', 0.5235945582389832),
 ('queens', 0.5181134343147278),
 ('sultan', 0.5098593831062317),
 ('monarchy', 0.5087411999702454),
 ('royal_palace', 0.5087166428565979),
 ('throne', 0.5005807876586914),
 ('royal', 0.493820458650589),
 ('Princess_Sikhanyiso', 0.4936617612838745),
 ('ruler', 0.4909275770187378),
 ('empress', 0.4887814223766327),
 ('Prince_Paras', 0.4832945168018341),
 ('princes', 0.4810815751552582),
 ('King_Ahasuerus', 0.47894206643104553),
 ('very_pampered_McElhatton', 0.47636350989341736)]


# Alia


## Modello per l'italiano
Possiamo creare un nostro spazio semantico a partire da testi in italiano. Per farlo basta usare del testo liberamente accessibile (useremo Wikipedia via un modulo di Python che si chiama `plainstream`) e il modulo `gensim` per addestrare il modello.




In [None]:
# È necessario separare il testo in parole, cioè tokenizzare.
from nltk import word_tokenize, download
download('punkt')
# È anche necessario installare plainstream e per farlo bisogna installare da un repository github
!pip install git+https://github.com/lucaducceschi/plainstream.git
import plainstream

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Collecting git+https://github.com/lucaducceschi/plainstream.git
  Cloning https://github.com/lucaducceschi/plainstream.git to /tmp/pip-req-build-cjb6gfql
  Running command git clone --filter=blob:none --quiet https://github.com/lucaducceschi/plainstream.git /tmp/pip-req-build-cjb6gfql
  Resolved https://github.com/lucaducceschi/plainstream.git to commit 229b08d3f6065aa2c02a47fb6ed113eebac15097
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: plainstream
  Building wheel for plainstream (setup.py) ... [?25l[?25hdone
  Created wheel for plainstream: filename=plainstream-0.1.0-py3-none-any.whl size=11205 sha256=edf6068f94c07693e699cca34c21459f45b0be922e31e0d37266bae590d7acae
  Stored in directory: /tmp/pip-ephem-wheel-cache-15chpwci/wheels/9e/bf/1c/486573bbf492caa682a5a0578cfca368d524c3c1f645ff1c09
Successfully built plainstream
Installing collected packages: plainstream
Successfully installed plainstream-0.1.0


In [None]:
# Prendiamo del testo da wikipedia (in questo intorno alle 2M parole. Basta modificare il parametro max_words per avere quantità diverse.)
# Assegnare ad una variabile tutto il testo di wikipedia non è strategia particolarmente ottimale, ma finché non si usano gb di spazio,
# il processo non dovrebbe dare problemi.

# Basta incrementare il numero di parole prelevate da wikipeida, settando max_words=100000000, ad esempio, per ottenere uno spazio semantico di qualità maggiore.
wikit =[article for article in plainstream.get_text("it", max_words=2000000, tokenize=True)]

In [None]:
# Questo addestra il modello
modelit= Word2Vec(wikit)

In [None]:
modelit.wv.most_similar(positive = ['re', 'donna'], negative = ['uomo'])

[('moglie', 0.7632821798324585),
 ('famiglia', 0.7491347193717957),
 ('battaglia', 0.7433005571365356),
 ('figlia', 0.7411913871765137),
 ('dinastia', 0.7341787219047546),
 ('tappa', 0.7341780066490173),
 ('vittoria', 0.7307442426681519),
 ('madre', 0.7267773747444153),
 ('Roma', 0.7245209217071533),
 ('Repubblica', 0.7225853204727173)]