## Nomi di animali e algebra lineare

Inizieremo considerando un piccolo sottoinsieme di parole inglesi: parole di animali. Il nostro obiettivo è riuscire a scrivere un programma per trovare somiglianze tra queste parole e le creature che designano. Per fare questo, potremmo iniziare creando un foglio di calcolo di alcuni animali e delle loro caratteristiche. Per esempio:

![Foglio di calcolo degli animali](http://static.decontextualize.com/snaps/animal-spreadsheet.png)

Questo foglio di calcolo associa un animale a due numeri: la loro carineria e la loro taglia, entrambi in un intervallo da zero a cento. (I valori si basano semplicemente su un giudizio arbitrario. Il tuo gusto per la carineria e la valutazione delle dimensioni può differire in modo significativo dal mio. Come con tutti i dati, questi dati sono semplicemente un riflesso speculare della persona che li ha raccolti.)

Questi valori ci danno tutto ciò di cui abbiamo bisogno per determinare quali animali sono simili (almeno, simili nelle proprietà che abbiamo incluso nei dati). Prova a rispondere alla seguente domanda: quale animale è più simile a un capibara? Potresti passare attraverso i valori uno per uno e fare la matematica per fare quella valutazione, ma visualizzare i dati come punti nello spazio bidimensionale rende molto intuitivo trovare la risposta:

![Spazio animale](http://static.decontextualize.com/snaps/animal-space.png)

La trama ci mostra che l'animale più vicino al capibara è l'orso panda (di nuovo, in termini di dimensioni soggettive e dolcezza). Un modo per calcolare quanto "distanti" sono due punti è trovare la loro *distanza euclidea*. (Questa è semplicemente la lunghezza della linea che collega i due punti.) Per i punti in due dimensioni, la distanza euclidea può essere calcolata con la seguente funzione Python:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
vect_capybara = np.array([70,30])
vect_panda_bear = np.array([75,40])
vect_elephant = np.array([65,90])

In [None]:
import matplotlib.pyplot as plt

plt.arrow(0,0, vect_capybara[0], vect_capybara[1], color='blue',  linewidth=2, \
          head_width=3, head_length=4, length_includes_head=True, label="Capybara")
plt.arrow(0,0, vect_panda_bear[0], vect_panda_bear[1], color='red', linewidth=2, \
          head_width=3, head_length=4, length_includes_head=True, label="Panda Bear")
plt.arrow(0,0, vect_elephant[0], vect_elephant[1], color='orange', linewidth=2, \
          head_width=3, head_length=4, length_includes_head=True, label="Eephant")


plt.scatter(vect_capybara[0], vect_capybara[1], s=50, c='blue', marker='o')
plt.scatter(vect_panda_bear[0], vect_panda_bear[1], s=50, c='red', marker='o')
plt.scatter(vect_elephant[0], vect_elephant[1], s=50, c='orange', marker='o')

plt.xlim(0, 100)
plt.ylim(0, 100)
plt.legend()
plt.show()

Quanto vale la distanza tra "capybara" (70, 30) e "elefante" (74, 40)?

In [None]:
diff=vect_elephant-vect_capybara

plt.arrow(vect_capybara[0], vect_capybara[1], diff[0], diff[1], color='green', linewidth=2, \
          head_width=3, head_length=4, length_includes_head=True, label="Difference")

plt.arrow(0,0, vect_capybara[0], vect_capybara[1], color='blue',  linewidth=2, \
          head_width=3, head_length=4, length_includes_head=True, label="Capybara")
plt.arrow(0,0, vect_panda_bear[0], vect_panda_bear[1], color='red', linewidth=2, \
          head_width=3, head_length=4, length_includes_head=True, label="Panda Bear")
plt.arrow(0,0, vect_elephant[0], vect_elephant[1], color='orange', linewidth=2, \
          head_width=3, head_length=4, length_includes_head=True, label="Eephant")


plt.scatter(vect_capybara[0], vect_capybara[1], s=50, c='blue', marker='o')
plt.scatter(vect_panda_bear[0], vect_panda_bear[1], s=50, c='red', marker='o')
plt.scatter(vect_elephant[0], vect_elephant[1], s=50, c='orange', marker='o')

plt.xlim(0, 100)
plt.ylim(0, 100)
plt.legend()
plt.show()

Come calcoliamo la distanza tra l'Elefante e il Capybara?
Considero la **differenza** tra il **vettore Elefante** e il **vettore Capybara**
Poi valuto il **Modulo** di questo vettore:

| vect_elephant - vect_capybara |

Come faccio a calcolarlo con Numpy ?
Noto che il modulo di un vettore $\vec v = (v_x,v_y,v_z)$ è:
$ |{\vec v}| = \sqrt {v_x^2 + v_y^2 + v_z^2} $.

Ricordando che il PRODOTTO SCALARE tra due vettori è

$(\vec a, \vec b) = a_xb_x +a_yb_y + a_zb_z $

risulta che $(\vec v,\vec v)= v_x^2 + v_y^2 + v_z^2$
deduco quindi che

$ |{\vec v}| = \sqrt (\vec v,\vec v) $.

Cioè il modulo di un vettore è la radice quadrata del prodotto scalare con se stesso


In [None]:
distance1 = np.sqrt(np.dot(diff,diff))
distance1

Modellare gli animali in questo modo ha alcune altre proprietà interessanti. Ad esempio, puoi scegliere un punto arbitrario nello "spazio animale" e quindi trovare l'animale più vicino a quel punto. Se immagini un animale di taglia 25 e carineria 30, puoi facilmente guardare lo spazio per trovare l'animale che si adatta meglio a quella descrizione: il pollo.

Ragionando visivamente, puoi anche rispondere a domande del tipo: cosa c'è a metà strada tra un pollo e un elefante? Traccia semplicemente una linea da "elefante" a "pollo", segna il punto medio e trova l'animale più vicino. (Secondo la nostra tabella, a metà strada tra un elefante e un pollo c'è un cavallo.)

Puoi anche chiedere: qual è la *differenza* tra un criceto e una tarantola? Secondo la nostra trama, sono circa settantacinque unità di carino (e poche unità di dimensione).

La relazione di "differenza" è interessante, perché ci permette di ragionare su relazioni *analogiche*. Nella tabella qui sotto, ho disegnato una freccia da "tarantola" a "criceto" (in blu):

![Analogia animale](http://static.decontextualize.com/snaps/animal-space-analogy.png)

Puoi interpretare questa freccia come la *relazione* tra una tarantola e un criceto, in termini di dimensioni e carineria (ad esempio, criceti e tarantole hanno all'incirca le stesse dimensioni, ma i criceti sono molto più carini). Nello stesso diagramma, ho anche trasposto la stessa freccia (questa volta in rosso) in modo che il suo punto di origine sia "pollo". La freccia termina più vicino a "gattino". Quello che abbiamo scoperto è che l'animale che ha all'incirca le stesse dimensioni di un pollo ma molto più carino è... un gattino. Per dirla in termini di analogia:

     Le tarantole stanno ai criceti come le galline stanno ai gattini.
    
Una sequenza di numeri usata per identificare un punto è chiamata *vettore*, e il tipo di matematica che abbiamo fatto finora è chiamato *algebra lineare* (l'algebra lineare è sorprendentemente utile in molti domini: è lo stesso tipo di matematica che potresti fare, ad esempio, per simulare la velocità e l'accelerazione di uno sprite in un videogioco.)

Un insieme di vettori che fanno tutti parte dello stesso insieme di dati è spesso chiamato *spazio vettoriale*. Lo spazio vettoriale degli animali in questa sezione ha due *dimensioni*, con cui intendo che ogni vettore nello spazio ha due numeri ad esso associati (cioè due colonne nel foglio di calcolo). Il fatto che questo spazio abbia due dimensioni rende facile *visualizzare* lo spazio disegnando una trama 2D. Ma la maggior parte degli spazi vettoriali con cui lavorerai avrà più di due dimensioni, a volte molte centinaia. In quei casi, è più difficile visualizzare lo "spazio", ma la matematica funziona più o meno allo stesso modo.

## Linguaggio con vettori: colori

Fin qui tutto bene. Abbiamo un sistema in atto, sebbene altamente soggettivo, per parlare di animali e delle parole usate per nominarli. Voglio parlare di un altro spazio vettoriale che ha a che fare con il linguaggio: lo spazio vettoriale dei colori.

I colori sono spesso rappresentati nei computer come vettori con tre dimensioni: rosso, verde e blu. Proprio come con gli animali nella sezione precedente, possiamo usare questi vettori per rispondere a domande come: quali colori sono simili? Qual è il nome di colore più probabile per un insieme di valori scelti arbitrariamente per rosso, verde e blu? Dati i nomi di due colori, qual è il nome della "media" di quei colori?

Lavoreremo con questi [dati sui colori](https://github.com/dariusk/corpora/blob/master/data/colors/xkcd.json)
dal [sondaggio sui colori xkcd](https://blog.xkcd.com/2010/05/03/color-survey-results/).

I dati mettono in relazione un nome di colore con il valore RGB associato a quel colore.

[Ecco una pagina che mostra l'aspetto dei colori](https://xkcd.com/color/rgb/). Scarica i dati sui colori e inseriscili nella stessa directory di questo taccuino.

In [None]:
import json
import requests
import pandas as pd

In [None]:
url = "https://raw.githubusercontent.com/dariusk/corpora/master/data/colors/xkcd.json"
response = requests.get(url)

if response.status_code == 200:
    color_data = json.loads(response.content)
    print(color_data)
else:
    print("Errore durante la richiesta del file JSON")

In [None]:
color_data

In [None]:
# creo il dataframe con i colori
dataframe_color=pd.DataFrame(color_data['colors'])

In [None]:
dataframe_color

The following function converts colors from hex format (`#1a2b3c`) to a tuple of integers:

In [None]:
def hex_to_int(s):
    s = s.lstrip("#")
    return int(s[:2], 16), int(s[2:4], 16), int(s[4:6], 16)

And the following cell creates a dictionary and populates it with mappings from color names to RGB vectors for each color in the data:

In [None]:
colors = dict()
red=[];green=[];blue=[]
for item in color_data['colors']:
    a,b,c = hex_to_int(item["hex"])
    colors[item["color"]] = np.array([a,b,c])
    red.append(a)
    green.append(b)
    blue.append(c)
dataframe_color['R']=red
dataframe_color['G']=green
dataframe_color['B']=blue

In [None]:
colors

In [None]:
dataframe_color

Testing it out:

Proviamo a visualizzare il nostro spazio vettoriale dei colori.
Ogni colore è un vettore di dim 3

In [None]:
from mpl_toolkits.mplot3d import Axes3D
%matplotlib inline

color_matrix=dataframe_color.iloc[:,2:5].values

col = dataframe_color['hex'].values
# Crea i dati per il grafico di dispersione 3D
x2 = color_matrix[:,0]
y2 = color_matrix[:,1]
z2 = color_matrix[:,2]
# Crea il grafico di dispersione 3D
fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x2, y2, z2, c=col, alpha=0.6)

# Imposta le etichette degli assi
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')

# Mostra il grafico
plt.show()

Proviamo ora ad utilizzare un po' di algebra vettoriale sui colori

Dimostriamo che la distanza da "rosso" a "verde" è maggiore della distanza da "rosso" a "rosa":

In [None]:
np.sqrt(np.dot(colors['red']-colors['green'],colors['red']-colors['green']))

In [None]:
np.sqrt(np.dot(colors['red']-colors['pink'],colors['red']-colors['pink']))

Utilizzo una funzione più comoda

In [None]:
np.linalg.norm(colors['red']- colors['green'])

In [None]:
np.linalg.norm(colors['red']- colors['pink'])

In [None]:
np.linalg.norm(colors['red']- colors['green']) > np.linalg.norm(colors['red']- colors['pink'])

### Trovare l'oggetto più vicino

Proprio come volevamo trovare l'animale che più si avvicinava a un punto arbitrario nello spazio carineria/dimensione, vorremmo trovare il nome del colore più vicino a un punto arbitrario nello spazio RGB. Il modo più semplice per trovare l'elemento più vicino a un vettore arbitrario è semplicemente trovare la distanza tra il vettore di destinazione e ogni elemento nello spazio, a turno, quindi ordinare l'elenco dal più vicino al più lontano. La funzione `closest()` qui sotto fa proprio questo. Per impostazione predefinita, restituisce un elenco dei dieci elementi più vicini al vettore specificato.

> Nota: il calcolo dei "vicini più vicini" in questo modo va bene per gli esempi in questo quaderno, ma ingestibile lento per spazi vettoriali di qualsiasi dimensione apprezzabile. Man mano che il tuo spazio vettoriale cresce, vorrai passare a una soluzione più veloce, come [kdtree](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.spatial.KDTree) di SciPy .html) o [Annoy](https://pypi.python.org/pypi/annoy).

In [None]:
points = dataframe_color.iloc[:,2:5].values
points

In [None]:
# funzione che ci restituisce gli n vettori più vicini ad un vettore dato
def closest_indices(ref_vector, vectors,n):
    distances = np.sqrt(np.sum((vectors - ref_vector)**2, axis=1))
    # ordiniamo gli indici dei punti in base alla distanza dal vettore di riferimento e prendiamo i primi 10
    closest_indices = np.argsort(distances)[:n]
    return closest_indices

In [None]:
colors['red']

In [None]:
color_matrix=dataframe_color.iloc[:,2:5].values
ref_vector = colors['red']
k_nearest= 10

cind = closest_indices(ref_vector,color_matrix,k_nearest)

# stampiamo i punti più vicini
print(cind)

In [None]:
dataframe_color.iloc[cind,:]

A questo punto possiamo chiederci quali sono i colori più vicini a (10,50,150)

In [None]:
from matplotlib.colors import to_hex
%matplotlib inline

ref_vector=np.array([10,50,150]) # colore scelto da noi
ref_color = 1/255.0*ref_vector # specifica RGB del colore scalato di 255.0
plt.scatter(1, 1, s=550,color=to_hex(ref_color))


In [None]:
k_nearest = 20
cind = closest_indices(ref_vector,color_matrix,k_nearest)
extraction = dataframe_color.iloc[cind,:]
extraction

In [None]:
x=0;y=0
%matplotlib inline

plt.scatter(x, y+1, s=800, color=to_hex(ref_color))

for i in range(0,extraction.shape[0]):
    colorname = extraction.iloc[i,0]
    rgb_vect=extraction.iloc[i,1]  # estrae i codici rgb
    print(colorname)
    plt.scatter(x, y, s=800,c=rgb_vect, label=colorname)
    x=x+20
plt.legend()
plt.show()

In [None]:
from mpl_toolkits.mplot3d import Axes3D

%matplotlib inline
col = dataframe_color['hex'].values

# Crea i dati per il grafico di dispersione 3D
x1 = extraction.iloc[:,2].values
y1 = extraction.iloc[:,3].values
z1 = extraction.iloc[:,4].values

x2 = color_matrix[:,0]
y2 = color_matrix[:,1]
z2 = color_matrix[:,2]

# Crea il grafico di dispersione 3D
fig = plt.figure(figsize=(12,8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x2, y2, z2, c=col, alpha=0.1)
ax.scatter(x1, y1, z1, color='blue')
ax.scatter(ref_vector[0], ref_vector[1], ref_vector[2], s=100, color=to_hex(ref_color))



# Imposta le etichette degli assi
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')

# Mostra il grafico
plt.show()


# ORA PROVA TU
- Plotta i 15 colori più vicini all'arancione
- Scegli un colore rgb (r,g,b) e trova i 15 colori più vicini

### Magia dei colori

La parte magica della rappresentazione con vettori è che le operazioni vettoriali che abbiamo definito in precedenza sembrano operare sul linguaggio nello stesso modo in cui operano sui numeri.

Ad esempio, se troviamo la risultante dalla sottrazione di "rosso" da "viola", otteniamo una serie di colori "blu":

In [None]:
diff1 = colors['purple'] - colors['red']

In [None]:
k_nearest=10
cind2 = closest_indices(diff1,color_matrix,k_nearest)
dataframe_color.iloc[cind2,:]

Ciò corrisponde alla nostra intuizione sui colori RGB, ovvero che il viola è una combinazione di rosso e blu. Togli il rosso e il blu è tutto ciò che ti rimane.

Puoi fare qualcosa di simile con l'addizione. Cos'è il blu più il verde?

In [None]:
k_nearest=10
cind2 = closest_indices(colors['blue']+colors['green'],color_matrix,k_nearest)
dataframe_color.iloc[cind2,:]

Esatto, è qualcosa come il turchese o il ciano!

E se calcoliamo la MEDIA del bianco e nero? Com'era prevedibile, otteniamo il grigio:

In [None]:
average = 1/2*(colors['black']+colors['white'])
average

In [None]:
average

In [None]:
k_nearest=10
cind2 = closest_indices(average,color_matrix,k_nearest)
dataframe_color.iloc[cind2,:]

Proprio come con l'esempio tarantola/criceto della sezione precedente, possiamo usare i vettori di colore per ragionare sulle relazioni tra i colori.

Nella cella in basso, trovare la differenza tra "rosa" e "rosso" e poi aggiungerla a "blu" sembra darci un elenco di colori che stanno al blu come il rosa sta al rosso (cioè una tonalità leggermente più chiara, meno satura ):

In [None]:
dist3 = np.linalg.norm(colors['red']-colors['pink'])
dist3

In [None]:
distances = np.sqrt(np.sum((color_matrix - colors['red'])**2, axis=1))
dataframe1 = dataframe_color
dataframe1['distances']=distances
dataframe1[(dataframe1['distances']>(dist3-1))&(dataframe1['distances']<(dist3+1))]

In [None]:
distances = np.sqrt(np.sum((color_matrix - colors['blue'])**2, axis=1))
dataframe1 = dataframe_color
dataframe1['distances']=distances
dataframe1[(dataframe1['distances']>(dist3-1))&(dataframe1['distances']<(dist3+1))]

In [None]:
x=0;y=0
%matplotlib inline

plt.scatter(x, y+1, s=800, color=to_hex(ref_color))

for i in range(0,extraction.shape[0]):
    colorname = extraction.iloc[i,0]
    rgb_vect=extraction.iloc[i,1]  # estrae i codici rgb
    print(colorname)
    plt.scatter(x, y, s=800,c=rgb_vect, label=colorname)
    x=x+20
plt.legend()
plt.show()

### Interlude: A Love Poem That Loses Its Way

In [None]:
import random
red = colors['red']
blue = colors['blue']
for i in range(14):
    ind1 = closest_indices(red,color_matrix,10)
    rednames = dataframe_color.iloc[ind1,:]['color'].values
    ind2 = closest_indices(blue,color_matrix,10)
    bluenames = dataframe_color.iloc[ind2,:]['color'].values
   # bluenames = closest(colors, blue)
    print ("Roses are " + rednames[0] + ", violets are " + bluenames[0])
    red = colors[random.choice(rednames[1:])]
    blue = colors[random.choice(bluenames[1:])]

### Fare brutte discipline umanistiche digitali con i vettori di colore

Con gli strumenti di cui sopra in mano, possiamo iniziare a utilizzare la nostra conoscenza vettorializzata del linguaggio per fini accademici. Nell'esempio seguente, calcolerò il colore medio di *Dracula* di Bram Stoker.

(Prima di procedere, assicurati di [scaricare il file di testo dal Progetto Gutenberg](http://www.gutenberg.org/cache/epub/345/pg345.txt) e posizionarlo nella stessa directory di questo taccuino.)

Innanzitutto, caricheremo [spaCy](https://spacy.io/):

In [None]:
#! pip install spacy

In [None]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [None]:
import urllib.request

url = "https://raw.githubusercontent.com/giandopal/Artificial-Intelligence-with-Python/main/data/pg345.txt"  # URL del file da scaricare
filename = "pg345.txt"  # Nome del file in locale
urllib.request.urlretrieve(url, filename)  # Scarica il file e salva in locale

In [None]:
doc = nlp(open("./pg345.txt", encoding="utf8").read())

In [None]:
doc

Cerchiamo nel testo le parole corrispondenti ai colori. Se le troviamo le mettiamo in una lista

In [None]:
a = [word.lower_ for word in doc if word.lower_ in colors]

In [None]:
a

In [None]:
# se voglio vedere i nomi estratti
# a = [word.lower_ for word in doc if word.lower_ in colors]

In [None]:
# use word.lower_ to normalize case
drac_colors = [colors[word.lower_] for word in doc if word.lower_ in colors]
drac_colors

Calcolo il colore medio

In [None]:
total = np.zeros(3)
for colorl in drac_colors:
    total = total + colorl

avg_color = 1/(len(drac_colors))*total
print (avg_color)

Ora, passeremo il vettore di colore medio alla funzione `closest()`, ottenendo... beh, è solo una poltiglia marrone, che è un po' quello che ti aspetteresti sommando un mucchio di colori insieme, volenti o nolenti.

In [None]:
k_nearest = 5
cind4 = closest_indices(avg_color,color_matrix,k_nearest)
dataframe_color.iloc[cind4,:]


D'altra parte, ecco cosa otteniamo quando calcoliamo la media dei colori del classico *The Yellow Wallpaper* di Charlotte Perkins Gilman. ([Scarica da qui](http://www.gutenberg.org/cache/epub/1952/pg1952.txt) e salva nella stessa directory di questo taccuino se vuoi seguire.) Il risultato riflette decisamente il contenuto della storia, quindi forse siamo a qualcosa qui.

In [None]:
import urllib.request

url = "https://raw.githubusercontent.com/giandopal/Artificial-Intelligence-with-Python/main/data/pg1952.txt"  # URL del file da scaricare
filename = "pg1952.txt"  # Nome del file in locale
urllib.request.urlretrieve(url, filename)  # Scarica il file e salva in locale

In [None]:
doc2 = nlp(open("pg1952.txt", encoding="utf8").read())

In [None]:
a = [word.lower_ for word in doc2 if word.lower_ in colors]

In [None]:
a

In [None]:
# use word.lower_ to normalize case
drac_colors1 = [colors[word.lower_] for word in doc2 if word.lower_ in colors]
drac_colors1

In [None]:
total = np.zeros(3)
for colorl in drac_colors1:
    total = total + colorl

avg_color = 1/(len(drac_colors1))*total
print (avg_color)

In [None]:
k_nearest = 5
cind4 = closest_indices(avg_color,color_matrix,k_nearest)
dataframe_color.iloc[cind4,:]

Exercise for the reader: Use the vector arithmetic functions to rewrite a text, making it...

* more blue (i.e., add `colors['blue']` to each occurrence of a color word); or
* more light (i.e., add `colors['white']` to each occurrence of a color word); or
* darker (i.e., attenuate each color. You might need to write a vector multiplication function to do this one right.)

## Distributional Semantics

Nella sezione precedente, gli esempi sono interessanti per un semplice fatto: i colori che consideriamo simili sono "più vicini" tra loro nello spazio vettoriale RGB. Nel nostro spazio vettoriale dei colori, o nel nostro spazio degli animali, puoi pensare alle parole identificate da vettori vicini l'uno all'altro come *sinonimi*, nel senso che "significano" la stessa cosa. Sono anche, per molti versi, *funzionalmente identici*.

Se estendiamo questa similitudine alla scrittura, per es. pensiamo ad un motore di ricerca, se qualcuno cerca "mauve trousers" (pantaloni color malva), probabilmente potrebbe andare bene anche mostrare i risultati come di seguito proposto:

In [None]:
ind5 = closest_indices(colors['mauve'], color_matrix,10)
for cname in dataframe_color.iloc[ind5,0].values:
    print (cname + " trouser")

In [None]:
extraction = dataframe_color.iloc[ind5,:]
x=0;y=0
%matplotlib inline
ref_vector = colors['mauve']
ref_color = 1/255.0*ref_vector
plt.scatter(x, y+1, s=800, color=to_hex(ref_color))

for i in range(0,extraction.shape[0]):
    colorname = extraction.iloc[i,0]
    rgb_vect=extraction.iloc[i,1]  # estrae i codici rgb
    print(colorname)
    plt.scatter(x, y, s=800,c=rgb_vect, label=colorname)
    x=x+20

plt.legend()
plt.show()

Va tutto bene per le parole che si riferiscono ai colori, che intuitivamente sembrano esistere in un continuum multidimensionale relativo alla percezione. Ma che dire delle... parole arbitrarie? È possibile creare uno spazio vettoriale per tutte le parole inglesi che abbia la stessa proprietà "più vicino nello spazio significa più vicino nel significato"?

Per rispondere a questa domanda, dobbiamo fare un passo indietro e porci la domanda: cosa significa *significato*?

Nessuno lo sa veramente, ma una teoria diffusa tra linguisti computazionali, informatici e altri ricercatori che creano motori di ricerca è l'[Ipotesi distributiva](https://en.wikipedia.org/wiki/Distributional_semantics), che afferma che:

     Gli elementi linguistici con distribuzioni simili hanno significati simili.
    
Ciò che si intende per "distribuzioni simili" è *contesti simili*. Prendiamo ad esempio le seguenti frasi:

    It was really cold yesterday.
    It will be really warm today, though.
    It'll be really hot tomorrow!
    Will it be really cool Tuesday?
    
Secondo l'ipotesi distributiva, le parole "cold", "warm", "hot" e "cool" devono essere correlate in qualche modo (cioè avere un significato vicino) perché ricorrono in un contesto simile, cioè tra la parola "really" e una parola che indica un giorno particolare. (Allo stesso modo, le parole "yesterday", "today", "tomorrow" e "tuesday" devono essere correlate, poiché ricorrono nel contesto di una parola che indica una temperatura.)

In altre parole, secondo l'ipotesi distributiva, il significato di una parola è solo un lungo elenco di tutti i contesti in cui ricorre. Due parole hanno un significato più vicino se condividono i contesti.