<a href="https://colab.research.google.com/github/matogperez/Diplomado_CdD.25/blob/main/MGP_P3_Practica_Clasificacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://colab.research.google.com/github/DCDPUAEM/DCDP/blob/main/03%20Machine%20Learning/notebooks/P3-Practica-Clasificacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ⭕ Parte I: Clasificación

Este conjunto de datos, proporcionado por Avazu, contiene registros de publicidad en línea (como impresiones de anuncios y clicks) recolectados durante 11 días. El objetivo es predecir la probabilidad de que un usuario haga clic en un anuncio (CTR), una métrica crítica para optimizar campañas de sponsored search y real-time bidding. La práctica consiste en desarrollar un modelo de clasificación para este fin, utilizando características como el tipo de dispositivo, contexto de la página y datos anónimos del usuario.

La descripción completa de las features se proporciona a continuación:

| Nombre Columna      | Tipo (Ejemplo)           | Descripción                                                                 | ¿Relevante para Modelo? |
|---------------------|--------------------------|-----------------------------------------------------------------------------|-------------------------|
| `id`               | String (ej: "100000")    | Identificador único del registro (anuncio).                                 | ❌ No                   |
| **`click`**        | **Binaria (0/1)**        | **Variable target**: 0 = No hubo clic, 1 = Sí hubo clic.                    | ✅ **Sí**               |
| `year`, `month`, `hour`             | Int        | Año, mes y hora           | ✅ Sí  |
| `C1`               | Categórica anónima       | Variable categórica encriptada (sin contexto definido).                     | ✅ Sí                   |
| `banner_pos`       | Numérica/Categórica      | Posición del banner en la página (ej: 0, 1, 2...).                          | ✅ Sí                   |
| `site_id`          | Categórica (ej: "1fbe01")| ID del sitio web donde se muestra el anuncio.                               | ✅ Sí (alta cardinalidad) |
| `site_domain`      | Categórica (ej: "f38457")| Dominio del sitio web.                                                      | ⚠️ Tal vez (redundante con `site_id`) |
| `site_category`    | Categórica (ej: "28905b")| Categoría del sitio (ej: noticias, deportes...).                            | ✅ Sí                   |
| `app_id`           | Categórica (ej: "ecadf6")| ID de la aplicación (si el anuncio se muestra en una app móvil).             | ✅ Sí (alta cardinalidad) |
| `app_domain`       | Categórica (ej: "7801e8")| Dominio de la aplicación.                                                   | ⚠️ Tal vez (redundante con `app_id`) |
| `app_category`     | Categórica (ej: "07d7df")| Categoría de la aplicación (ej: juegos, redes sociales...).                 | ✅ Sí                   |
| `device_id`        | Categórica (ej: "a99f2a")| ID del dispositivo del usuario.                                             | ⚠️ Alta cardinalidad (¿agrupar?) |
| `device_ip`        | Categórica (ej: "d1b8b4")| Dirección IP del dispositivo.                                               | ❌ No (a menos que se agrupe por región) |
| `device_model`     | Categórica (ej: "8a4875")| Modelo del dispositivo (ej: iPhone X, Samsung Galaxy S10...).               | ✅ Sí                   |
| `device_type`      | Categórica (ej: 1, 2)    | Tipo de dispositivo (ej: 1 = móvil, 2 = tablet, etc.).                      | ✅ Sí                   |
| `device_conn_type` | Categórica (ej: 0, 2)    | Tipo de conexión (ej: 0 = WiFi, 2 = 4G...).                                 | ✅ Sí                   |
| `C14` - `C21`      | Categóricas anónimas     | Variables categóricas encriptadas (sin contexto definido).                   | ✅ Sí (evaluar importancia) |

Dataset: https://www.kaggle.com/competitions/avazu-ctr-prediction/data

In [2]:
import pandas as pd

url = 'https://github.com/DCDPUAEM/DCDP/raw/refs/heads/main/03%20Machine%20Learning/data/ctr_prediction.csv'

df = pd.read_csv(url)
df

Unnamed: 0.1,Unnamed: 0,click,C1,banner_pos,site_id,site_category,app_id,app_category,device_model,device_type,...,C15,C16,C17,C18,C19,C20,C21,year,month,day
0,0,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,44956a24,1,...,320,50,1722,0,35,-1,79,2014,10,21
1,1,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,711ee120,1,...,320,50,1722,0,35,100084,79,2014,10,21
2,2,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,8a4875bd,1,...,320,50,1722,0,35,100084,79,2014,10,21
3,3,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,6332421a,1,...,320,50,1722,0,35,100084,79,2014,10,21
4,4,0,1005,1,fe8cc448,0569f928,ecad2386,07d7df22,779d90c2,1,...,320,50,2161,0,35,-1,157,2014,10,21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,99995,0,1005,0,85f751fd,50e219e0,5e3f096f,0f2161f8,be74e6fe,1,...,320,50,2480,3,297,100111,61,2014,10,21
99996,99996,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,711ee120,1,...,320,50,1722,0,35,-1,79,2014,10,21
99997,99997,1,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,293291c1,1,...,320,50,1722,0,35,-1,79,2014,10,21
99998,99998,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,8a4875bd,1,...,320,50,1722,0,35,-1,79,2014,10,21


## Instrucciones

0. Verifica si hay valores faltantes.
1. Extrae la variable target `click`. Verifica el balanceo de clases.
2. Quita las variables que consideres necesarias de acuerdo a la tabla anterior.
3. Forma la matriz de features `X`.
4. Convierte las variables categóricas en variables binarias mediante el one-hot encoding ([`get_dummies`](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html) de pandas). No olvides el hiperparámetro `drop_first=True` y `dtype=int`. Vas a obtener un dataframe con muchas columnas, es decir, ahora tenemos una muy alta dimensionalidad.
5. Divide en train/test
6. Verifica los rangos de las variables numéricas que tienes para la tarea de clasificación.
7. Realiza reducción de dimensionalidad con PCA con todas las componentes principales.
8. Escoge un número de componentes principales de manera que te quedes con el $\sim$80% de varianza.
9. Entrena un clasificador de tu elección en el conjunto de prueba. Evalua con la métrica F1-score
10. Reporta, además, la matriz de confusión.

In [3]:
df.drop(['Unnamed: 0'], axis=1, inplace=True)
df



Unnamed: 0,click,C1,banner_pos,site_id,site_category,app_id,app_category,device_model,device_type,device_conn_type,...,C15,C16,C17,C18,C19,C20,C21,year,month,day
0,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,44956a24,1,2,...,320,50,1722,0,35,-1,79,2014,10,21
1,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,711ee120,1,0,...,320,50,1722,0,35,100084,79,2014,10,21
2,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,8a4875bd,1,0,...,320,50,1722,0,35,100084,79,2014,10,21
3,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,6332421a,1,0,...,320,50,1722,0,35,100084,79,2014,10,21
4,0,1005,1,fe8cc448,0569f928,ecad2386,07d7df22,779d90c2,1,0,...,320,50,2161,0,35,-1,157,2014,10,21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,0,1005,0,85f751fd,50e219e0,5e3f096f,0f2161f8,be74e6fe,1,0,...,320,50,2480,3,297,100111,61,2014,10,21
99996,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,711ee120,1,0,...,320,50,1722,0,35,-1,79,2014,10,21
99997,1,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,293291c1,1,0,...,320,50,1722,0,35,-1,79,2014,10,21
99998,0,1005,0,1fbe01fe,28905ebd,ecad2386,07d7df22,8a4875bd,1,0,...,320,50,1722,0,35,-1,79,2014,10,21


In [4]:
y=df['click']
X=df.drop('click', axis=1)

print(y.value_counts())

X.describe()

click
0    82510
1    17490
Name: count, dtype: int64


Unnamed: 0,C1,banner_pos,device_type,device_conn_type,C14,C15,C16,C17,C18,C19,C20,C21,year,month,day
count,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0
mean,1005.03441,0.1983,1.05573,0.19927,17682.1459,318.33396,56.81892,1964.03438,0.78935,131.73448,37874.22761,88.55567,2014.0,10.0,21.0
std,1.088741,0.40264,0.583993,0.635268,3237.735265,11.931939,36.924104,394.962696,1.223761,244.076787,48546.274316,45.482841,0.0,0.0,0.0
min,1001.0,0.0,0.0,0.0,375.0,120.0,20.0,112.0,0.0,33.0,-1.0,13.0,2014.0,10.0,21.0
25%,1005.0,0.0,1.0,0.0,15704.0,320.0,50.0,1722.0,0.0,35.0,-1.0,61.0,2014.0,10.0,21.0
50%,1005.0,0.0,1.0,0.0,17654.0,320.0,50.0,1993.0,0.0,35.0,-1.0,79.0,2014.0,10.0,21.0
75%,1005.0,0.0,1.0,0.0,20362.0,320.0,50.0,2306.0,2.0,39.0,100083.0,156.0,2014.0,10.0,21.0
max,1010.0,5.0,5.0,5.0,21705.0,728.0,480.0,2497.0,3.0,1835.0,100248.0,157.0,2014.0,10.0,21.0


In [15]:
X.columns

Index(['C1', 'banner_pos', 'site_id', 'site_category', 'app_id',
       'app_category', 'device_model', 'device_type', 'device_conn_type',
       'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21', 'year', 'month',
       'day'],
      dtype='object')

In [16]:
X=pd.get_dummies(X, drop_first=True, dtype=int)
X

Unnamed: 0,C1,banner_pos,device_type,device_conn_type,C14,C15,C16,C17,C18,C19,...,device_model_ff3242b8,device_model_ff503cfe,device_model_ff607a1a,device_model_ff717dd1,device_model_ff91ea03,device_model_ffb16766,device_model_ffcd1497,device_model_ffe3ae81,device_model_ffe69079,device_model_ffeafe15
0,1005,0,1,2,15706,320,50,1722,0,35,...,0,0,0,0,0,0,0,0,0,0
1,1005,0,1,0,15704,320,50,1722,0,35,...,0,0,0,0,0,0,0,0,0,0
2,1005,0,1,0,15704,320,50,1722,0,35,...,0,0,0,0,0,0,0,0,0,0
3,1005,0,1,0,15706,320,50,1722,0,35,...,0,0,0,0,0,0,0,0,0,0
4,1005,1,1,0,18993,320,50,2161,0,35,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,1005,0,1,0,21611,320,50,2480,3,297,...,0,0,0,0,0,0,0,0,0,0
99996,1005,0,1,0,15702,320,50,1722,0,35,...,0,0,0,0,0,0,0,0,0,0
99997,1005,0,1,0,15702,320,50,1722,0,35,...,0,0,0,0,0,0,0,0,0,0
99998,1005,0,1,0,15708,320,50,1722,0,35,...,0,0,0,0,0,0,0,0,0,0


# ⭕ Parte II: Segmentación y Recomendación

El dataset MovieLens 100K contiene información de 1682 películas, cada una representada por su título y 18 géneros cinematográficos (Action, Adventure, Drama, etc.), codificados como variables binarias. Estos datos, recolectados de calificaciones de 943 usuarios, permiten analizar las características intrínsecas de las películas independientemente de las preferencias de los usuarios.

El objetivo de esta práctica es realizar segmentación de películas mediante técnicas de clustering (como K-Means o clustering jerárquico) para identificar grupos naturales basados en sus géneros. Esto podría revelar patrones como *películas de acción con toques de sci-fi* o *dramas románticos con elementos musicales*, útiles para sistemas de recomendación o catálogos personalizados.

[Dataset completo en Kaggle](https://www.kaggle.com/datasets/prajitdatta/movielens-100k-dataset/data)

In [None]:
import os
import pandas as pd
import kagglehub
import numpy as np

path = kagglehub.dataset_download("prajitdatta/movielens-100k-dataset")
path = '/root/.cache/kagglehub/datasets/prajitdatta/movielens-100k-dataset/versions/1/ml-100k'
fname = os.path.join(path, 'u.item')

movies_df = pd.read_csv(fname, sep='|', encoding='latin-1', names=[
    'movie_id', 'title', 'release_date', 'video_release_date', 'IMDb_URL',
    'unknown', 'Action', 'Adventure', 'Animation', 'Children\'s', 'Comedy', 'Crime',
    'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery',
    'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western'
])

def get_year(date):
    try:
        return int(date.split('-')[-1])
    except:
        return np.nan

movies_df.drop(['video_release_date', 'unknown','IMDb_URL','movie_id'], axis=1, inplace=True)
movies_df['date'] = movies_df['release_date'].apply(get_year)
movies_df.drop('release_date', axis=1, inplace=True)
movies_df

## Instrucciones

1. Verifica si hay variables faltantes.
2. Extraer las variables numéricas para formar la matriz de caracteristicas $X$.
3. Verifica los rangos de las variables, aplica re-escalamiento si lo consideras necesario.
4. Usa K-Means con algún valor $K$ de tu elección, haz clustering y mide el valor de silueta.
5. Encuentra el valor de codo y con ese valor, vuelve a hacer clustering y mide el valor de silueta.
6. Con el valor de $K$ que consideres mejor, extrae las etiquetas de los clusters y añadelas al dataframe `movies_df`.
7. Muestra un dataframe por cada cluster mostrando los títulos de las películas de cada cluster. ¿Es posible identificar, visualmente, qué define a cada cluster?
