![Colegio Bourbaki](./Images/Bourbaki.png)

## Machine Learning

### Medida del Coseno

La medida del coseno calcula el producto punto normalizado L2 de dos vectores. Es decir, si A y B son vectores fila, su similitud de coseno se define como:

$\text{similitud de coseno} = \frac{\|A\|_2 \cdot \|B\|_2}{A \cdot B}$


Esto se llama similitud de coseno porque la normalización Euclidiana (L2) proyecta los vectores sobre la esfera unitaria, y su producto punto es entonces el coseno del ángulo entre los puntos denotados por los vectores.

Este método es una elección popular para calcular la similitud de documentos representados como vectores tf-idf (scikit-learn).

Puede entenderse de manera intuitiva considerando los siguientes puntos:

* **Dirección en el Espacio Vectorial:** Imagina que los vectores representan puntos en un espacio vectorial. La similitud de coseno se centra en la dirección más que en la magnitud de los vectores. Dos vectores que apuntan en la misma dirección tendrán una similitud de coseno cercana a 1, mientras que vectores 
perpendiculares tendrán una similitud cercana a 0.

* **Ángulo entre Vectores:** La similitud de coseno mide el coseno del ángulo entre los vectores. Un coseno de 1 indica que los vectores están en la misma dirección, un coseno de 0 significa que son ortogonales (forman un ángulo de 90 grados), y un coseno de -1 indica que están en direcciones opuestas.

* **Independencia de la Magnitud:** Una ventaja importante de la similitud de coseno es que es independiente de la magnitud de los vectores. Solo se enfoca en la orientación, no en la escala. Esto es útil en casos como la comparación de documentos, donde la longitud de los documentos puede variar.

En resumen, la similitud de coseno cuantifica la similitud direccional entre dos vectores, ignorando la magnitud. Es particularmente útil en tareas como la recuperación de información, clasificación de texto y sistemas de recomendación. Cuanto más cercano a 1 sea el valor de similitud de coseno, más similares son los vectores en términos de dirección.

**Ventajas de la Similitud de Coseno:**

* **Invariancia a la Magnitud:** La similitud de coseno es invariante a la magnitud de los vectores. Esto significa que no importa cuánto difieran en magnitud, siempre y cuando apunten en la misma dirección, la similitud de coseno será alta.

* **Eficiencia en Espacios de Alta Dimensión:** La similitud de coseno funciona bien en espacios vectoriales de alta dimensión, como en el caso de representaciones vectoriales de documentos. Otros métodos pueden sufrir en dimensiones altas debido a la maldición de la dimensionalidad.

* **Interpretación Geométrica Clara:** La interpretación geométrica de la similitud de coseno como el coseno del ángulo entre los vectores es intuitiva y fácil de entender.

* **Utilidad en Texto y Minería de Datos:** Es ampliamente utilizado en minería de texto, sistemas de recomendación y recuperación de información, ya que puede capturar similitudes semánticas entre documentos o términos.

**Desventajas de la Similitud de Coseno:**

* **Sensibilidad a Vectores Cero:** Si un vector tiene muchos elementos iguales a cero, la similitud de coseno puede ser sensible a pequeños cambios, ya que la magnitud del vector se vuelve crítica en esos casos.

* **No Considera Significado Semántico:** La similitud de coseno solo se basa en la dirección de los vectores, por lo que puede no capturar completamente el significado semántico en algunos contextos. Métodos más avanzados, como embeddings semánticos, pueden abordar esto mejor.

* **No Considera Interacciones no Lineales:** No tiene en cuenta las interacciones no lineales entre las dimensiones de los vectores. En algunos casos, modelos más complejos pueden ser necesarios para capturar relaciones más sofisticadas.

* **Sensible a Ruido y Palabras Comunes:** En aplicaciones de procesamiento de lenguaje natural, la similitud de coseno puede ser sensible a palabras comunes y ruido. Métodos avanzados que ponderan términos según su importancia, como TF-IDF, pueden ser preferibles en tales casos.

### Librerías

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

### Carga de datos

In [2]:
df = pd.read_csv('./Data/winemag-data_first150k.csv')

In [3]:
df

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
4,4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,,Provence red blend,Domaine de la Bégude
...,...,...,...,...,...,...,...,...,...,...,...
150925,150925,Italy,Many people feel Fiano represents southern Ita...,,91,20.0,Southern Italy,Fiano di Avellino,,White Blend,Feudi di San Gregorio
150926,150926,France,"Offers an intriguing nose with ginger, lime an...",Cuvée Prestige,91,27.0,Champagne,Champagne,,Champagne Blend,H.Germain
150927,150927,Italy,This classic example comes from a cru vineyard...,Terre di Dora,91,20.0,Southern Italy,Fiano di Avellino,,White Blend,Terredora
150928,150928,France,"A perfect salmon shade, with scents of peaches...",Grand Brut Rosé,90,52.0,Champagne,Champagne,,Champagne Blend,Gosset


### Análisis exploratorio

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150930 entries, 0 to 150929
Data columns (total 11 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Unnamed: 0   150930 non-null  int64  
 1   country      150925 non-null  object 
 2   description  150930 non-null  object 
 3   designation  105195 non-null  object 
 4   points       150930 non-null  int64  
 5   price        137235 non-null  float64
 6   province     150925 non-null  object 
 7   region_1     125870 non-null  object 
 8   region_2     60953 non-null   object 
 9   variety      150930 non-null  object 
 10  winery       150930 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 12.7+ MB


In [5]:
df.isna().sum()

Unnamed: 0         0
country            5
description        0
designation    45735
points             0
price          13695
province           5
region_1       25060
region_2       89977
variety            0
winery             0
dtype: int64

### Vectorización de textos

Para poder comparar las descripciones necesitamos vectorizar los textos de descripción para poder utilizar la similtud del coseno:

**Encaje de palabras (Word Embedding)**


El encaje de palabras es una técnica en procesamiento del lenguaje natural (PLN) que asigna representaciones numéricas a las palabras de un vocabulario. 

Estas representaciones, también conocidas como vectores de palabras, capturan las relaciones semánticas y sintácticas entre las palabras. Ejemplos comunes son BoW, TF-IDF, CBOW, Word2Vec, GloVe o encajes preentrenados como FastText. 

Por lo tanto, nos permiten que las palabras similares tengan vectores cercanos en el espacio, facilitando así la captura de significados y contextos semánticos.

**Bolsa de palabras (Bag of Words - BoW)**

BoW es una técnica de vectorización que representa un documento como un conjunto desordenado de palabras y su frecuencia en ese documento. 

Cada palabra se asigna a una posición única en un vector, y el valor en esa posición indica cuántas veces aparece esa palabra en el documento. 

***BoW no captura el orden de las palabras ni las relaciones semánticas, pero es simple y efectivo para tareas básicas.***

In [6]:
# unigram vector representation
vectorizer = CountVectorizer(stop_words='english',
                     binary=False,
                     lowercase=True,
                     max_df=0.95, 
                     min_df=0.15,
                     ngram_range = (1,2),
                     )


In [7]:
doc_vectors = vectorizer.fit_transform(df['description'])

In [8]:
doc_vectors.shape

(150930, 13)

In [9]:
features = vectorizer.get_feature_names_out()

In [10]:
features, len(features)

(array(['acidity', 'aromas', 'black', 'cherry', 'drink', 'dry', 'finish',
        'flavors', 'fruit', 'palate', 'ripe', 'tannins', 'wine'],
       dtype=object),
 13)

### Búsqueda en base de datos

In [11]:
def comparison_description(query, results_number=20):
    results = []
    
    # Vectorize the query
    q_vector = vectorizer.transform([query])
    
    print(f"Comparable Description: {query} \n")
    
    # Calculate cosine similarity with all document vectors
    results.append(cosine_similarity(q_vector, doc_vectors))
    
    elem_list = []
    
    for i, elem in enumerate(results[0][0][:results_number]):
        elem_list.append(elem)
        print(f"Review {i+1} Similarity: {elem}")

    if sum(elem_list) / len(elem_list) == 0.0:
        print("\nNo similar descriptions")
    else:
        max_similarity_index = elem_list.index(max(elem_list))
        print(f"\nThe Review Most similar to the Comparable Description is Description #, {max_similarity_index}")
        print("Similarity:", max(elem_list))
        print(f"Comparison found: {df['description'].loc[max_similarity_index]}")

In [12]:
comparison_description(df['description'][0])

Comparable Description: This tremendous 100% varietal wine hails from Oakville and was aged over three years in oak. Juicy red-cherry fruit and a compelling hint of caramel greet the palate, framed by elegant, fine tannins and a subtle minty tone in the background. Balanced and rewarding from start to finish, it has years ahead of it to develop further nuance. Enjoy 2022–2030. 

Review 1 Similarity: 1.0000000000000002
Review 2 Similarity: 0.3086066999241838
Review 3 Similarity: 0.2886751345948129
Review 4 Similarity: 0.5773502691896258
Review 5 Similarity: 0.36927447293799825
Review 6 Similarity: 0.3086066999241838
Review 7 Similarity: 0.3333333333333334
Review 8 Similarity: 0.3872983346207417
Review 9 Similarity: 0.2357022603955159
Review 10 Similarity: 0.4082482904638631
Review 11 Similarity: 0.5477225575051662
Review 12 Similarity: 0.4082482904638631
Review 13 Similarity: 0.2357022603955159
Review 14 Similarity: 0.5477225575051662
Review 15 Similarity: 0.4629100498862757
Review 16 S

In [13]:
comparison_description("Bright, fresh fruit aromas of cherry, raspberry, and blueberry. Youthfully with lots of sweet fruit on the palate with hints of spice and vanilla.")

Comparable Description: Bright, fresh fruit aromas of cherry, raspberry, and blueberry. Youthfully with lots of sweet fruit on the palate with hints of spice and vanilla. 

Review 1 Similarity: 0.6172133998483676
Review 2 Similarity: 0.28571428571428564
Review 3 Similarity: 0.0
Review 4 Similarity: 0.5345224838248487
Review 5 Similarity: 0.0
Review 6 Similarity: 0.28571428571428564
Review 7 Similarity: 0.4629100498862757
Review 8 Similarity: 0.47809144373375745
Review 9 Similarity: 0.0
Review 10 Similarity: 0.3779644730092272
Review 11 Similarity: 0.50709255283711
Review 12 Similarity: 0.1889822365046136
Review 13 Similarity: 0.4364357804719848
Review 14 Similarity: 0.3380617018914066
Review 15 Similarity: 0.14285714285714282
Review 16 Similarity: 0.0
Review 17 Similarity: 0.26726124191242434
Review 18 Similarity: 0.50709255283711
Review 19 Similarity: 0.2182178902359924
Review 20 Similarity: 0.40089186286863654

The Review Most similar to the Comparable Description is Description #, 0

In [14]:
comparison_description('A semi-dry white wine with pear, citrus, and tropical fruit flavors; crisp and refreshing.')

Comparable Description: A semi-dry white wine with pear, citrus, and tropical fruit flavors; crisp and refreshing. 

Review 1 Similarity: 0.4082482904638631
Review 2 Similarity: 0.1889822365046136
Review 3 Similarity: 0.7071067811865475
Review 4 Similarity: 0.35355339059327373
Review 5 Similarity: 0.45226701686664544
Review 6 Similarity: 0.1889822365046136
Review 7 Similarity: 0.4082482904638631
Review 8 Similarity: 0.31622776601683794
Review 9 Similarity: 0.2886751345948129
Review 10 Similarity: 0.75
Review 11 Similarity: 0.4472135954999579
Review 12 Similarity: 0.5
Review 13 Similarity: 0.5773502691896258
Review 14 Similarity: 0.7826237921249264
Review 15 Similarity: 0.0
Review 16 Similarity: 0.35355339059327373
Review 17 Similarity: 0.35355339059327373
Review 18 Similarity: 0.6708203932499369
Review 19 Similarity: 0.5773502691896258
Review 20 Similarity: 0.35355339059327373

The Review Most similar to the Comparable Description is Description #, 13
Similarity: 0.7826237921249264
Com

In [15]:
comparison_description('BLENDED CANADIAN WHISKY ARE EXPERTLY BLENDED AND PATIENTLY AGED.')

Comparable Description: BLENDED CANADIAN WHISKY ARE EXPERTLY BLENDED AND PATIENTLY AGED. 

Review 1 Similarity: 0.0
Review 2 Similarity: 0.0
Review 3 Similarity: 0.0
Review 4 Similarity: 0.0
Review 5 Similarity: 0.0
Review 6 Similarity: 0.0
Review 7 Similarity: 0.0
Review 8 Similarity: 0.0
Review 9 Similarity: 0.0
Review 10 Similarity: 0.0
Review 11 Similarity: 0.0
Review 12 Similarity: 0.0
Review 13 Similarity: 0.0
Review 14 Similarity: 0.0
Review 15 Similarity: 0.0
Review 16 Similarity: 0.0
Review 17 Similarity: 0.0
Review 18 Similarity: 0.0
Review 19 Similarity: 0.0
Review 20 Similarity: 0.0

No similar descriptions


**Ejercicios:**

1) ¿Cuál es la interpretación geométrica de la similitud de coseno?
2) ¿Cómo afecta la magnitud de los vectores a la similitud de coseno?
3) ¿Puedes pensar en un caso donde la magnitud de los vectores es importante y la similitud de coseno no sería la mejor opción?
4) Compara la similitud de coseno con la distancia euclidiana. ¿En qué escenarios podrías preferir una sobre la otra?
5) ¿Cuál podría ser un desafío al aplicar la similitud de coseno a documentos de texto?
6) Explica cómo la similitud de coseno maneja la presencia de ceros en vectores dispersos. ¿En qué situación podrías tener problemas con vectores que contienen muchos ceros?
7) Busque un vino de su interés en ingreselo como argumento en la notebook para ver si encuentra algún vino similar.
8) Diseñe desde 0 la función similitud_coseno que tenga como argumento dos vectores y pueda solucionar el mismo problema que hemos resuelto en esta notebook. Tenga en cuenta que los vectores pueden llegar a dispersos.

![Lenguaje Matemático](./Images/Matematicas.png)

![Contacto](./Images/Contacto.png)