#### ***“Language is a process of free creation; its laws and principles are fixed, but the manner in which the principles of generation are used is free and infinitely varied. Even the interpretation and use of words involves a process of free creation.”***


[Noam Chomsky](https://it.wikipedia.org/wiki/Noam_Chomsky) 

## **L'approccio di Chomsky: Grammatiche Generative**

Chomsky sviluppò il concetto di grammatiche generative, un approccio formale per descrivere le regole sintattiche che governano le lingue. Questo metodo rappresenta il linguaggio come un sistema gerarchico, in cui frasi grammaticalmente corrette sono generate da un insieme finito di regole ricorsive.

Le grammatiche generative sono spesso rappresentate come grammatiche libere dal contesto (CFG - Context-Free Grammars). Una CFG è composta da:

- Simboli terminali: le parole del linguaggio.
- Simboli non terminali: rappresentano categorie sintattiche (es. frase nominale, frase verbale).
- Produzioni: regole che descrivono come i simboli non terminali possono essere espansi.
- Simbolo iniziale: il punto di partenza per generare una frase.

![image](./Cgisf-tgg.png)

In [4]:
import random

# Definiamo una grammatica generativa con regole di produzione
grammatica = {
    "S": [["SN", "SV"]],  # Frase = Sintagma Nominale + Sintagma Verbale
    "SN": [["Det", "N"], ["NomeProprio"]],  # Sintagma Nominale = Determinante + Nome O Nome Proprio
    "SV": [["V", "SN"], ["V", "SP"], ["V"]],  # Sintagma Verbale = Verbo + Sintagma Nominale O Verbo + Sintagma Preposizionale O Verbo
    "SP": [["P", "SN"]],  # Sintagma Preposizionale = Preposizione + Sintagma Nominale
    "Det": ["il", "la", "un", "una"],  # Determinanti
    "N": ["gatto", "cane", "uomo", "donna", "telescopio", "parco"],  # Nomi
    "V": ["vide", "camminò", "ammirò"],  # Verbi
    "P": ["nel", "con", "da"],  # Preposizioni
    "NomeProprio": ["Alice", "Bob", "Carlo"]  # Nomi propri
}

# Funzione per generare una frase ricorsivamente
def genera_frase(simbolo):
    if simbolo not in grammatica:  # Caso base: simbolo terminale
        return simbolo
    regola = random.choice(grammatica[simbolo])  # Scegli una regola di produzione casuale
    # Genera ricorsivamente ogni parte della regola di produzione
    return " ".join(genera_frase(sym) for sym in regola)

# Genera e stampa alcune frasi
for _ in range(5):  # Genera 5 frasi
     print(genera_frase("S"))

A l i c e a m m i r ò d a A l i c e
A l i c e v i d e d a A l i c e
A l i c e c a m m i n ò n e l C a r l o
C a r l o c a m m i n ò u n a p a r c o
A l i c e c a m m i n ò n e l i l t e l e s c o p i o


## **Word2Vec**

[Tomas Mikolov et al. - 2013](https://arxiv.org/abs/1301.3781)

Word2Vec è un modello di embedding sviluppato da Google che rappresenta le parole come vettori in uno spazio vettoriale continuo. Questo modello utilizza reti neurali per catturare le relazioni semantiche e sintattiche tra le parole basandosi sul contesto in cui appaiono nei testi. Esistono due architetture principali:

- Continuous Bag of Words (CBOW): Predice una parola dato il contesto circostante.
  È più veloce da addestrare ed efficace su dataset piccoli.

- Skip-Gram: Predice il contesto dato una parola.
  Più lento, ma cattura meglio parole rare.

L'output è un vettore per ogni parola nel vocabolario, dove parole con significati simili avranno vettori vicini nello spazio vettoriale.

#### ***“You shall know a word by the company it keeps” J.R. Firth***


 ![image](./skip_cbow.png)

In [None]:
from gensim.models import Word2Vec
from gensim.utils import simple_preprocess

# Dati di esempio (piccolo corpus)
corpus = [
    "Il gatto salta sul tappeto",
    "Il cane corre nel parco",
    "I bambini giocano con la palla",
    "La palla è sul tappeto",
    "Il gatto e il cane sono amici"
]

# Pre-processamento: tokenizzazione
tokenized_corpus = [simple_preprocess(sentence) for sentence in corpus]

# Addestramento del modello Word2Vec
model = Word2Vec(sentences=tokenized_corpus, vector_size=50, window=3, min_count=1, workers=4, sg=1)  # sg=1 per Skip-Gram

# Esempio di utilizzo: parole più "vicine" a "gatto"
similar_words = model.wv.most_similar("gatto", topn=5)
print("Parole simili a 'gatto':")
for sw in similar_words:
    print(sw)

# Vettore per la parola "gatto"
vector = model.wv['gatto']
print("\nVettore per 'gatto':", vector)

Parole simili a 'gatto':
('sul', 0.18338043987751007)
('giocano', 0.16944551467895508)
('amici', 0.11253979057073593)
('con', 0.08992018550634384)
('la', 0.0887191891670227)

Vettore per 'gatto': [-0.0164842   0.0185973  -0.00039535 -0.00393404  0.00920712 -0.00818939
  0.00548756  0.0138809   0.01213075 -0.01502045  0.01876344  0.00934409
  0.00793155 -0.01248777  0.01692049 -0.00429953  0.01765153 -0.01072486
 -0.01625774  0.0136501   0.00334184 -0.00439831  0.01902801  0.01898867
 -0.01954821  0.00500946  0.01231233  0.00774454  0.00404634  0.00086046
  0.00134587 -0.00764071 -0.01427978 -0.0041787   0.00784797  0.01763706
  0.0185183  -0.01195334 -0.01880494  0.01952805  0.00685973  0.010332
  0.01256502 -0.00560969  0.014645    0.00566094  0.0057428  -0.00476109
 -0.00625791 -0.00473962]
