## **Cosine Similarity**

La **similitud coseno** es una *métrica* o *función* que mide cuán parecidos son dos vectores en función del ángulo entre ellos, **no su magnitud**.

La similitud del coseno varía de -1 a 1, donde: 

- 1 indica que los vectores están perfectamente alineados (apuntando en la misma dirección),
- 0 indica que los vectores son ortogonales (perpendiculares entre sí) y
- -1 indica que los vectores apuntan en direcciones opuestas.

### **📐 Fórmula**:
![Descripción opcional](https://www.ibm.com/content/dam/connectedassets-adobe-cms/worldwide-content/creative-assets/s-migr/ul/g/7b/91/vector-search-cosine.png)

- A . B : producto punto
- \||A\||: norma (longitud) del vector

## **✅ Casos de uso recomendados**

1. 🧾 Recomendaciones de texto o contenido

    - Comparar descripciones de productos, películas o reseñas.
    - Buscar documentos similares en un corpus.
    - Sistemas de recomendación basados en contenido (ej: TF-IDF + cosine).

2. 📄 Clasificación y clustering de documentos

    - Agrupar documentos similares por su contenido.
    - Clasificación de texto usando KNN o clustering jerárquico.

3. 🔍 Motores de búsqueda

    - Rankear documentos según similitud con la consulta.
    - Matching semántico en NLP.

4. 🧬 Biología computacional

    - Comparar secuencias de genes representadas como vectores.

5. 🤖 Detección de plagio o duplicados

    - Verificar si dos textos o documentos son muy similares.



## ⚠️ Cuándo **NO es recomendable usar** similitud coseno

Cuando la magnitud importa

- Coseno **ignora completamente la magnitud**.
- No detecta que un vector es más largo o más corto, solo si apunta en la misma dirección.

> Ejemplo:  
> `A = [10, 10]` y `B = [1, 1]` → Similitud = 1  
> Pero en muchos casos, esa diferencia de escala **sí importa** (ej: volumen de compra).


In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

### **Teoría**

In [55]:
# Vectores
a = np.array([1, 2, 0])
b = np.array([2, 5, 0])

dot_product = np.dot(a, b) 

norm_a = np.linalg.norm(a)
norm_b = np.linalg.norm(b) 

print(dot_product, norm_a, norm_b)
cos_similarity = dot_product / (norm_a * norm_b)
print(np.round(cos_similarity, 6))

12 2.23606797749979 5.385164807134504
0.996546


In [49]:
# Crear matriz
X = np.array([a, b])

# Calcular producto punto entre todos los pares
dot_matrix = X @ X.T
print('\nMatriz de productos punto:')
print(dot_matrix)

# Calcular normas (magnitud) de cada vector
norms = np.linalg.norm(X, axis=1)
print('\nNormas de los vectores:')
print(norms)

# Expande las normas en filas y columnas para operar por pares
norm_matrix = np.outer(norms, norms)
print('\nMatriz de normas:')
print(norm_matrix)

# División elemento a elemento
cosine_sim_matrix = dot_matrix / norm_matrix
print('\nMatriz de similitud coseno:')
print(cosine_sim_matrix)


Matriz de productos punto:
[[ 5 12]
 [12 29]]

Normas de los vectores:
[2.23606798 5.38516481]

Matriz de normas:
[[ 5.         12.04159458]
 [12.04159458 29.        ]]

Matriz de similitud coseno:
[[1.         0.99654576]
 [0.99654576 1.        ]]


In [56]:
# Calculamos la similitud coseno usando sklearn
cos_sim = cosine_similarity(X)

# Mostramos la matriz de similitud
print(np.round(cos_sim, 6))

[[1.       0.996546]
 [0.996546 1.      ]]


## **Ejercicio práctico - Similitud Coseno**

#### **📄 Recomendación basada en contenido (Content-Based)**

🔧 Usa las características del ítem (descripción, género, duración, director, etc.) para encontrar similitudes con otros ítems.

Métrica común: similitud coseno

Representación: TF-IDF, embeddings, one-hot, etc.

**Ejemplo:** "Si te gustó Narcos, te gustará El Chapo porque ambas son de crimen, política y drogas."

    ✅ Ventaja: no necesita información de otros usuarios.

    ⚠️ Desventaja: puede quedarse en una "burbuja de preferencias" (no descubre cosas nuevas).

In [3]:
df = pd.read_csv('../datasets/netflix-shows/netflix_titles.csv')

df = df[(df['title'].notna()) & (df['title'] != '')]
df = df[(df['description'].notna()) & (df['description'] != '')]

df['metadata'] = (
    df['type'].fillna('') + ' ' +
    df['director'].fillna('') + ' ' +
    df['listed_in'].fillna('') + ' ' +
    df['country'].fillna('') + ' ' +
    df['rating'].fillna('') + ' ' +
    df['duration'].fillna('') + ' ' +
    df['description'].fillna('')
)

df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,metadata
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Movie Kirsten Johnson Documentaries United Sta...
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...","TV Show International TV Shows, TV Dramas, TV..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,"TV Show Julien Leclercq Crime TV Shows, Intern..."
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...","TV Show Docuseries, Reality TV TV-MA 1 Seaso..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,"TV Show International TV Shows, Romantic TV S..."


In [8]:
# vect_col = 'description'
vect_col = 'metadata'

# Vectorizar descripciones con TF-IDF, eliminando stopwords en inglés
vectorizer = TfidfVectorizer(stop_words='english')
tfidf_matrix = vectorizer.fit_transform(df[vect_col])
tfidf_matrix

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 214356 stored elements and shape (8807, 24098)>

In [9]:
# Función para recomendar películas similares
def recommend_movies(title: str, top_n=5):
    try:
        # Buscar el índice de la película por título
        idx_list = df[df['title'].str.lower() == title.lower()].index
        if len(idx_list) == 0:
            print(f"Title '{title}' not found in dataset.")
            return
        
        idx = idx_list[0]
        print(f"Title: {title}\nDescription: {df.iloc[idx][vect_col]}\n")

        # Calcular solo la fila de similitud para ese índice
        sim_vector = []
        sim_vector = cosine_similarity(tfidf_matrix[idx], tfidf_matrix).flatten()

        # Obtener las puntuaciones de similitud
        sim_scores = list(enumerate(sim_vector))
        sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

        # Excluir la película original
        sim_scores = sim_scores[1:top_n + 1]
        # print(sim_scores)

        # Recuperar los títulos recomendados
        recommended = df.iloc[[i[0] for i in sim_scores]]#[['title', 'description']]
        for title, descr in recommended[['title', vect_col]].values:
            print(f"Title: {title}\nDescription: {descr}\n")
        return recommended.reset_index(drop=True)

    except Exception as e:
        print(f"Error while recommending movies: {e}")
        return None


In [10]:
# Ejemplo de uso
results = recommend_movies("The Conjuring")
results

Title: The Conjuring
Description: Movie James Wan Horror Movies, Thrillers United States R 112 min When a family starts experiencing supernatural terrors after moving into a Rhode Island farmhouse, they seek the help of a pair of noted demonologists.

Title: Insidious
Description: Movie James Wan Horror Movies, Thrillers United States, Canada PG-13 103 min A family moves into a new home, where their son falls into a coma and eerie events begin to reveal something far more sinister is lurking in the house.

Title: The Conjuring 2
Description: Movie James Wan Horror Movies Canada, United States, United Kingdom R 134 min After her daughter unwittingly releases a malevolent spirit in their house in London, a woman enlists the Warrens' help to confront the evil presence.

Title: All Light Will End
Description: Movie Chris Blake Horror Movies, Thrillers United States TV-MA 84 min A horror novelist with a traumatic past returns to her childhood hometown, where she revisits her night terrors a

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,metadata
0,s1119,Movie,Insidious,James Wan,"Patrick Wilson, Rose Byrne, Lin Shaye, Ty Simp...","United States, Canada","April 1, 2021",2010,PG-13,103 min,"Horror Movies, Thrillers","A family moves into a new home, where their so...","Movie James Wan Horror Movies, Thrillers Unite..."
1,s1285,Movie,The Conjuring 2,James Wan,"Patrick Wilson, Vera Farmiga, Madison Wolfe, F...","Canada, United States, United Kingdom","February 21, 2021",2016,R,134 min,Horror Movies,After her daughter unwittingly releases a male...,"Movie James Wan Horror Movies Canada, United S..."
2,s6120,Movie,All Light Will End,Chris Blake,"Ashley Pereira, Alexandra Harris, Ted Welch, S...",United States,"February 2, 2019",2018,TV-MA,84 min,"Horror Movies, Thrillers",A horror novelist with a traumatic past return...,"Movie Chris Blake Horror Movies, Thrillers Uni..."
3,s6656,Movie,Dumb and Dumberer: When Harry Met Lloyd,Troy Miller,"Eric Christian Olsen, Derek Richardson, Rachel...",United States,"October 1, 2019",2003,PG-13,85 min,Comedies,This wacky prequel to the 1994 blockbuster goe...,Movie Troy Miller Comedies United States PG-13...
4,s8298,Movie,The Figurine (Araromire),Kunle Afolayan,"Ramsey Nouah, Omoni Oboli, Kunle Afolayan, Fun...",Nigeria,"October 1, 2019",2009,TV-14,121 min,"Horror Movies, International Movies, Thrillers",When a pair of friends discovers a mystical sc...,"Movie Kunle Afolayan Horror Movies, Internatio..."
