# **Samsung Innovation Campus**

**Nombre:** Alan Palma

### Ejercicio 1: Aprendizaje no supervisado. (Unsupervised Learning)


1. Defina brevemente el concepto de aprendizaje no supervisado.

  El aprendizaje no supervisado se trata de un modelo de aprendizaje automático. El modelo se encarga de descubrir patrones ocultos, estructuras internas o relaciones naturales dentro de los datos sin que haya la necesidad de decirle cuál es la respuesta correcta.

2. Enumere algunas de las diferencias entre aprendizaje supervisado y no supervisado.

  
| **Aprendizaje Supervisado**                           | **Aprendizaje No Supervisado**                       |
| ----------------------------------------------------- | ---------------------------------------------------- |
| Usa datos etiquetados.      | Usa datos sin etiquetas.                         |
| El objetivo es predecir algo (clase o valor).     | El objetivo es descubrir patrones o estructuras. |
| Ejemplos: regresión lineal, SVM, árboles de decisión. | Ejemplos: K-means, PCA, clustering jerárquico.       |
| El modelo aprende una relación entrada - salida.      | El modelo solo analiza la estructura de los datos.   |
| Más fácil evaluar el desempeño (accuracy).        | Más difícil medir el desempeño. |

3. Defina con sus propias palabras los siguientes conceptos:
  - Agrupación.

      Dividir un conjunto de elemetos en diferentes grupos con características similares.

      **Ejemplo:** Clasificar el comportamiento de clientes de la base de datos de una tienda.

  - Asociación.

      Descrubrir reglas o relaciones que pueden aparecer con frecuencia.

      **Ejemplo:** Si un cliente compra pan también debe comprar leche.

  - Reducción de dimensionalidad.

      Se trata de reducir el número de variables de un conjunto de datos. Esto sin alterar la cantidad de información extraible.

      **Ejemplo:** Sin un dataset tiene 100 características, esta podría reducirse a 20 manteniendo un porcentaje considerable de la inforamción.

Recuerde usar sus propias palabras y agrege explicaciones adicionales, incluya ejemplos en su explicación.


## Ejercicio 2: DBSCAN agrupación.

DBSCAN (agrupación espacial basada en la densidad de aplicaciones con ruido)
1. Explique cómo funciona el algoritmo DBSCAN para generar agrupaciones.

    Este algortimo tiene dos parametros importantes: radio (eps) y mínimo de puntos (minPts). Primero, slecciona un punto y cuenta el número de puntos dentro de una circunferencia con radio eps. Si el número de puntos es mayor que minPts se incluyen en el mismo grupo. Esto se repite hasta tener todos los puntos cubiertos. Además, el mismo proceso se lleva a cabo para los puntos que no han sido agrupados. Es decir, luego de que se termine con el primer grupo se continua con la calsificación del siguiente y así sucesivamente.  

2. Enumere algunas de las ventajas de este algoritmo.

    - Puede revelar estructuras que el método k-means y el agrupamiento jerárquico no pueden.
    - Esta basado en la densidad.
    - A priori no es necesario especificar el número de clusters.

3. Enumere algunos ejemplos donde se podria aplicar.
    - Agrupar puntos de interes en una ciudad.
    - En bioinformática se puede usar para identificar células o tejidos anormales.
    - Identificar lugares de alta densidad de usuarios para una empresa en específico.

## Ejercicio 3: Sistema de recomendación.

Objetivo crear motor de recomendaciones similar al usado por Netflix.

1. Describa cómo funciona los sistemas de recomendación.

    Los sitemas de recomendacion son algoritmo que identifican patrones y sugieren a los usuarios características relevantes del programa. Esto puede tomar diferentes enfoques ya que se pueden filtrar en base a la información de un usuario en específico o de varios usuarios similares.

2. Describa cuáles serian los pasos a seguir para desarrollar los sistemas de recomendación.

    1. Recolección y comprensión de datos

    2. Preprocesamiento y limpieza

    3. Ingeniería de características

    4. Selección del algoritmo

    5. Entrenamiento del modelo

    6. Evaluación y métricas
    
3. Descargue la información relacionada a Netflix del siguiente link: [NETFLIX](https://www.kaggle.com/datasets/satpreetmakhija/netflix-movies-and-tv-shows-2021)
4. Realice la primera exploración de la data.
5. Usando algunas de las técnicas usadas NLP, elimine las palabras no necesarias.
6. Explique el funcionamiento del cosine similarity, de ser necesario integre en su código.

    Mide la similitud entre dos vectores calculando el coseno del ángulo entre estos dos vectores. 

7. Desarrolle pruebas sobre su funcionalidad, recuerde agregar los comentarios necesarios en el código.


In [1]:
# Exploracion de los datos
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el conjunto de datos
data = pd.read_csv('netflixData.csv')
print(data.head())

# Columnas disponibles
print(data.columns)

                                Show Id                          Title  \
0  cc1b6ed9-cf9e-4057-8303-34577fb54477                       (Un)Well   
1  e2ef4e91-fb25-42ab-b485-be8e3b23dedb                         #Alive   
2  b01b73b7-81f6-47a7-86d8-acb63080d525  #AnneFrank - Parallel Stories   
3  b6611af0-f53c-4a08-9ffa-9716dc57eb9c                       #blackAF   
4  7f2d4170-bab8-4d75-adc2-197f7124c070               #cats_the_mewvie   

                                         Description  \
0  This docuseries takes a deep dive into the luc...   
1  As a grisly virus rampages a city, a lone man ...   
2  Through her diary, Anne Frank's story is retol...   
3  Kenya Barris and his family navigate relations...   
4  This pawesome documentary explores how our fel...   

                      Director  \
0                          NaN   
1                       Cho Il   
2  Sabina Fedeli, Anna Migotto   
3                          NaN   
4             Michael Margolis   

             

In [2]:
# 2. Tecnicas NLP: eliminar palabras no necesarias
import re

def preprocess_text(text):
    # Normalization
    text = text.lower()

    # Limpieza
    text = re.sub(r'[^\w\s]', '', text)

    return text.strip()

# Aplicar la preprocesamiento al campo 'description'
data['cleaned_description'] = data['Description'].apply(preprocess_text)
print(data[['Description', 'cleaned_description']].head())

                                         Description  \
0  This docuseries takes a deep dive into the luc...   
1  As a grisly virus rampages a city, a lone man ...   
2  Through her diary, Anne Frank's story is retol...   
3  Kenya Barris and his family navigate relations...   
4  This pawesome documentary explores how our fel...   

                                 cleaned_description  
0  this docuseries takes a deep dive into the luc...  
1  as a grisly virus rampages a city a lone man s...  
2  through her diary anne franks story is retold ...  
3  kenya barris and his family navigate relations...  
4  this pawesome documentary explores how our fel...  


In [3]:
# Eliminar palabras vacías
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

def remove_stopwords(text):
    words = text.split()
    filtered_words = [word for word in words if word not in ENGLISH_STOP_WORDS]
    return ' '.join(filtered_words)

data['cleaned_description'] = data['cleaned_description'].apply(remove_stopwords)
print(data[['Description', 'cleaned_description']].head())

                                         Description  \
0  This docuseries takes a deep dive into the luc...   
1  As a grisly virus rampages a city, a lone man ...   
2  Through her diary, Anne Frank's story is retol...   
3  Kenya Barris and his family navigate relations...   
4  This pawesome documentary explores how our fel...   

                                 cleaned_description  
0  docuseries takes deep dive lucrative wellness ...  
1  grisly virus rampages city lone man stays lock...  
2  diary anne franks story retold alongside holoc...  
3  kenya barris family navigate relationships rac...  
4  pawesome documentary explores feline friends o...  


In [4]:
# Cosine Similarity
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Vectorización TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(data['cleaned_description'])

# Calcular la similitud del coseno
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print(cosine_sim)

[[1.         0.         0.         ... 0.         0.         0.03143222]
 [0.         1.         0.         ... 0.         0.02049447 0.        ]
 [0.         0.         1.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 1.         0.06667028 0.        ]
 [0.         0.02049447 0.         ... 0.06667028 1.         0.        ]
 [0.03143222 0.         0.         ... 0.         0.         1.        ]]


In [12]:
# Sistema de recomendación simple

# 1. Cargar datos
df = pd.read_csv('netflixData.csv')
print(f"Dataset: {df.shape}")

# 2. Combinar características importantes
df['features'] = df['Title'] + ' ' + df['Director'].fillna('') + ' ' + df['Content Type'] + ' ' + df['Description']

# 3. Crear matriz TF-IDF

tfidf = TfidfVectorizer(stop_words='english') # Use palabras vacías en inglés (remover palabras comunes)
tfidf_matrix = tfidf.fit_transform(df['features']) # Crear matriz TF-IDF

# 4. Calcular similitud coseno
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

# 5. Crear índice de títulos
indices = pd.Series(df.index, index=df['Title']).drop_duplicates()

def recomendar(titulo, n=5):
    """Función simple para recomendar contenido similar"""
    if titulo not in indices:
        return f"'{titulo}' no encontrado"
    
    idx = indices[titulo]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:n+1]
    
    print(f"Recomendaciones similares a '{titulo}':")
    for i, (movie_idx, score) in enumerate(sim_scores, 1):
        movie = df.iloc[movie_idx]
        print(f"{i}. {movie['Title']} ({movie['Content Type']}) - Similitud: {score:.3f}")
    
    return "Recomendaciones generadas"

Dataset: (5967, 13)


In [13]:
# 6. Probar el sistema
print("\nProbando sistema...")
recomendar("Stranger Things")
print()
recomendar("The Social Dilemma")


Probando sistema...
Recomendaciones similares a 'Stranger Things':
1. Rowdy Rathore (Movie) - Similitud: 0.229
2. THE STRANGER (TV Show) - Similitud: 0.190
3. Beyond Stranger Things (TV Show) - Similitud: 0.187
4. Sakho & Mangane (TV Show) - Similitud: 0.178
5. Safe Haven (Movie) - Similitud: 0.171

Recomendaciones similares a 'The Social Dilemma':
1. Chasing Coral (Movie) - Similitud: 0.114
2. Day of the Dead: Bloodline (Movie) - Similitud: 0.109
3. The 10 Sins (TV Show) - Similitud: 0.108
4. Skins (Movie) - Similitud: 0.101
5. Surviving R. Kelly: The Impact (Movie) - Similitud: 0.100


'Recomendaciones generadas'