# Universidad de las Ciencias Inform√°ticas 
## Facultad de Tecnologias Educativas 
### Asignatura: Aprendizaje Automatico

---

# **Informe del Proceso KDD aplicado al Dataset "Netflix Titles" para la Tarea Extraclase**

## **Autor:** Frank Ernesto Corti√±as Pe√±a  
## **Carrera:** Ingenier√≠a en Ciencias Inform√°ticas  
## **A√±o:** 2025  

---

## Profesor(a): Stephani de la Caridad   
## Grupo: 401  

---




# 1. Introducci√≥n

El presente proyecto aplica la metodolog√≠a KDD (Knowledge Discovery in Databases) al dataset *Netflix Titles*, el cual contiene informaci√≥n descriptiva sobre series y pel√≠culas disponibles en la plataforma Netflix. El objetivo principal es desarrollar un proceso de descubrimiento de conocimiento que permita construir modelos capaces de clasificar si un t√≠tulo corresponde a una pel√≠cula (*Movie*) o una serie (*TV Show*).

El conjunto de datos contiene 8 807 registros y 12 atributos, incluyendo t√≠tulo, reparto, director, pa√≠s, duraci√≥n, rating, a√±o de lanzamiento y g√©neros asociados. La naturaleza de estos atributos combina datos categ√≥ricos, num√©ricos y texto, por lo que es necesario aplicar t√©cnicas de limpieza y transformaci√≥n.

El problema a resolver es de **clasificaci√≥n supervisada**, utilizando tres algoritmos de miner√≠a de datos:

- **K-Nearest Neighbors (K-NN)**  
  - *Ventajas:* simple, no param√©trico, buena precisi√≥n con datos bien distribuidos.  
  - *Desventajas:* sensible al ruido, lento con grandes vol√∫menes.  
  - *Aplicaciones:* sistemas de recomendaci√≥n, reconocimiento de patrones.

- **ID3 (DecisionTreeClassifier)**  
  - *Ventajas:* f√°cil de interpretar, no requiere escalamiento, maneja variables categ√≥ricas.  
  - *Desventajas:* propenso al sobreajuste, sensible a cambios m√≠nimos en los datos.  
  - *Aplicaciones:* clasificaci√≥n en marketing, salud, detecci√≥n de fraude.

- **Random Forest** (algoritmo elegido adicionalmente)  
  - *Ventajas:* robusto, reduce sobreajuste, maneja alta dimensionalidad.  
  - *Desventajas:*


# 2. Selecci√≥n del Conjunto de Datos

El dataset empleado proviene del repositorio p√∫blico de Kaggle y contiene informaci√≥n sobre t√≠tulos publicados en Netflix. Este dataset es adecuado para tareas de clasificaci√≥n debido a la variable `type` que especifica si un registro es una pel√≠cula (*Movie*) o serie (*TV Show*).

A continuaci√≥n, se cargan y describen las caracter√≠sticas principales del conjunto de datos.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.offline import plot
import warnings
warnings.filterwarnings('ignore')
#import time

df = pd.read_csv("Data/netflix_titles.csv")
df.head()


In [None]:

df.shape


In [None]:
df.info()


# 2.1 An√°lisis Exploratorio de Datos (EDA)

Antes de proceder con el preprocesamiento y modelado, es fundamental comprender la estructura, calidad y caracter√≠sticas del conjunto de datos. Este an√°lisis exploratorio nos permitir√° identificar patrones, valores at√≠picos, relaciones entre variables y posibles problemas de calidad de datos que deber√°n abordarse en las etapas posteriores.

In [None]:

plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# 2.2 Informaci√≥n general del dataset

In [None]:
# Dimensiones del dataset
print(f"Dimensiones del dataset: {df.shape[0]} filas y {df.shape[1]} columnas")

# Informaci√≥n b√°sica sobre las columnas
print("\nInformaci√≥n detallada de las columnas:")
df.info()

# Estad√≠sticas descriptivas b√°sicas
print("\nEstad√≠sticas descriptivas b√°sicas:")
display(df.describe(include='all').T)

# Tipos de contenido √∫nicos
print("\nTipos de contenido √∫nicos:")
print(df['type'].value_counts())
print("\nProporci√≥n de tipos de contenido:")
print(df['type'].value_counts(normalize=True))

# 2.3 An√°lisis de valores faltantes

In [None]:
# Visualizaci√≥n de valores faltantes
plt.figure(figsize=(14, 8))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de calor de valores faltantes', fontsize=16)
plt.tight_layout()
plt.savefig('missing_values_heatmap.png')
plt.show()

# Porcentaje de valores faltantes por columna
missing_values = df.isnull().sum().sort_values(ascending=False)
missing_percent = (missing_values / len(df)) * 100
missing_df = pd.DataFrame({'Valores faltantes': missing_values, 'Porcentaje (%)': missing_percent})
missing_df = missing_df[missing_df['Valores faltantes'] > 0]

print("Columnas con valores faltantes:")
display(missing_df)

# Visualizaci√≥n del porcentaje de valores faltantes
plt.figure(figsize=(12, 6))
sns.barplot(x=missing_df.index, y=missing_df['Porcentaje (%)'])
plt.title('Porcentaje de valores faltantes por columna', fontsize=16)
plt.ylabel('Porcentaje (%)')
plt.xlabel('Columnas')
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('missing_values_percentage.png')
plt.show()

# 2.4 An√°lisis de variables categ√≥ricas

In [None]:
# An√°lisis de la variable 'country' (pa√≠ses de producci√≥n)
# Limpieza y preparaci√≥n para el an√°lisis
country_data = df['country'].dropna().str.split(',').explode().str.strip()
top_countries = country_data.value_counts().head(10)

plt.figure(figsize=(14, 8))
sns.barplot(x=top_countries.values, y=top_countries.index, palette='viridis')
plt.title('Top 10 pa√≠ses productores de contenido en Netflix', fontsize=16)
plt.xlabel('N√∫mero de t√≠tulos')
plt.tight_layout()
plt.savefig('top_countries.png')
plt.show()

# An√°lisis de 'rating' (clasificaci√≥n por edades)
rating_counts = df['rating'].value_counts().sort_values(ascending=False)
plt.figure(figsize=(14, 8))
sns.barplot(x=rating_counts.values, y=rating_counts.index, palette='viridis')
plt.title('Distribuci√≥n de clasificaciones por edades', fontsize=16)
plt.xlabel('N√∫mero de t√≠tulos')
plt.tight_layout()
plt.savefig('rating_distribution.png')
plt.show()

# An√°lisis de 'listed_in' (g√©neros)
categories = df['listed_in'].str.split(',').explode().str.strip().value_counts().head(15)
plt.figure(figsize=(14, 8))
sns.barplot(x=categories.values, y=categories.index, palette='viridis')
plt.title('Top 15 g√©neros/categor√≠as en Netflix', fontsize=16)
plt.xlabel('N√∫mero de t√≠tulos')
plt.tight_layout()
plt.savefig('top_genres.png')
plt.show()

# 2.5 An√°lisis comparativo entre pel√≠culas y series

In [None]:
# Contenido por tipo (pel√≠culas vs series)
type_counts = df['type'].value_counts()
plt.figure(figsize=(10, 8))
plt.pie(type_counts.values, labels=type_counts.index, autopct='%1.1f%%', 
        colors=['#E50914', '#221F1F'], startangle=90, explode=(0.05, 0))
plt.title('Proporci√≥n de pel√≠culas y series en Netflix', fontsize=16)
plt.tight_layout()
plt.savefig('content_type_pie.png')
plt.show()

# Duraci√≥n promedio por tipo de contenido
# Convertir duraci√≥n a formato num√©rico para an√°lisis
df['duration_clean'] = df['duration'].str.extract('(\d+)').astype(float)

# Comparar duraci√≥n entre pel√≠culas y series
movie_duration = df[df['type'] == 'Movie']['duration_clean']
tv_show_seasons = df[df['type'] == 'TV Show']['duration_clean']

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 8))

# Histograma para pel√≠culas (duraci√≥n en minutos)
sns.histplot(movie_duration.dropna(), bins=30, kde=True, ax=ax1, color='#E50914')
ax1.set_title('Distribuci√≥n de duraci√≥n de pel√≠culas (minutos)', fontsize=14)
ax1.set_xlabel('Duraci√≥n (minutos)')
ax1.set_ylabel('Frecuencia')

# Histograma para series (n√∫mero de temporadas)
sns.histplot(tv_show_seasons.dropna(), bins=15, kde=True, ax=ax2, color='#221F1F')
ax2.set_title('Distribuci√≥n de temporadas en series', fontsize=14)
ax2.set_xlabel('N√∫mero de temporadas')
ax2.set_ylabel('Frecuencia')

plt.tight_layout()
plt.savefig('duration_comparison.png')
plt.show()

# Pa√≠ses de producci√≥n por tipo de contenido
country_data_type = df.dropna(subset=['country']).copy()
country_data_type['country_list'] = country_data_type['country'].str.split(',')
country_data_type = country_data_type.explode('country_list')
country_data_type['country_clean'] = country_data_type['country_list'].str.strip()

top_countries_by_type = country_data_type.groupby('type')['country_clean'].value_counts().groupby(level=0).nlargest(5).reset_index(level=0, drop=True).reset_index()

plt.figure(figsize=(14, 10))
sns.barplot(data=top_countries_by_type, x='country_clean', y='country_clean', hue='type', estimator=lambda x: len(x), errorbar=None)
plt.title('Top 5 pa√≠ses de producci√≥n por tipo de contenido', fontsize=16)
plt.xlabel('Pa√≠s')
plt.ylabel('N√∫mero de t√≠tulos')
plt.xticks(rotation=45)
plt.legend(title='Tipo de contenido')
plt.tight_layout()
plt.savefig('countries_by_type.png')
plt.show()

# 2.6 An√°lisis de relaciones entre variables

In [None]:
# Correlaci√≥n entre variables num√©ricas
num_df = df[['release_year', 'duration_clean']].dropna()
num_df['type_encoded'] = df['type'].map({'Movie': 0, 'TV Show': 1})

plt.figure(figsize=(10, 8))
sns.heatmap(num_df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de correlaci√≥n entre variables num√©ricas', fontsize=16)
plt.tight_layout()
plt.savefig('correlation_matrix.png')
plt.show()



# 2.7 Conclusiones del EDA

In [None]:
# Resumen de hallazgos clave
print("Resumen de hallazgos clave del An√°lisis Exploratorio:\n")

# 1. Calidad de datos
missing_summary = df.isnull().mean() * 100
high_missing = missing_summary[missing_summary > 20]
if not high_missing.empty:
    print(f"1. Calidad de datos: Se identificaron columnas con m√°s del 20% de valores faltantes:")
    for col, percent in high_missing.items():
        print(f"   - {col}: {percent:.1f}% de valores faltantes")
else:
    print("1. Calidad de datos: No se encontraron columnas con m√°s del 20% de valores faltantes")

# 2. Distribuci√≥n de contenido
movie_pct = (df['type'].value_counts()['Movie'] / len(df)) * 100
tvshow_pct = (df['type'].value_counts()['TV Show'] / len(df)) * 100
print(f"\n2. Distribuci√≥n de contenido:")
print(f"   - Pel√≠culas: {movie_pct:.1f}% del cat√°logo")
print(f"   - Series: {tvshow_pct:.1f}% del cat√°logo")



# 3. Pa√≠ses productores
top_country = country_data.value_counts().index[0]
top_country_count = country_data.value_counts().iloc[0]
print(f"\n4. Producci√≥n global:")
print(f"   - {top_country} es el principal pa√≠s productor con {top_country_count} t√≠tulos")
print(f"   - Netflix muestra una diversidad significativa de contenido internacional")

# 5. Distribuci√≥n de g√©neros
top_genre = categories.index[0]
top_genre_count = categories.iloc[0]
print(f"\n5. G√©neros predominantes:")
print(f"   - '{top_genre}' es el g√©nero m√°s com√∫n con {top_genre_count} t√≠tulos")

# 6. Recomendaciones para preprocesamiento
print("\n6. Recomendaciones para preprocesamiento:")
print("   - Manejo de valores faltantes en columnas cr√≠ticas como 'director', 'country' y 'cast'")
print("   - Procesamiento de texto para columnas con m√∫ltiples valores (country, listed_in, cast)")
print("   - Transformaci√≥n de variables temporales para an√°lisis m√°s detallado")
print("   - Codificaci√≥n de variables categ√≥ricas para modelado")

El an√°lisis exploratorio realizado ha proporcionado una comprensi√≥n profunda del conjunto de datos de Netflix, identificando sus caracter√≠sticas principales, calidad de datos y patrones significativos. Estos hallazgos ser√°n fundamentales para guiar las decisiones en la etapa de preprocesamiento y para la selecci√≥n de caracter√≠sticas relevantes para el modelo de clasificaci√≥n.

# 3. Preprocesamiento de los Datos

En esta etapa se identifican valores faltantes, se eliminan o transforman atributos no √∫tiles, y se prepara la base para su modelado.

Se realizaron los siguientes pasos:
- Eliminaci√≥n de columnas irrelevantes para la clasificaci√≥n.
- Limpieza de valores nulos.
- Transformaci√≥n de variables categ√≥ricas.
- Conversi√≥n de `duration` a formato num√©rico (minutos).


In [None]:
df.isnull().sum()

## Eliminaci√≥n de columnas irrelevantes para la clasificaci√≥n.

In [None]:
# eliminacion de columnas irrelevantes
df_clean = df.drop(columns=["show_id", "description", "cast", "director"])


## Limpieza de valores nulos.

In [None]:
# nulos
df_clean = df_clean.dropna()


## Transformaci√≥n de variables categ√≥ricas.

In [None]:
# asegurar que la columna sea string
df_clean["duration"] = df_clean["duration"].astype(str)

# extraer el numero (sin warnings)
df_clean["duration"] = df_clean["duration"].str.extract(r"(\d+)")

# convertir a entero (coerce evita errores)
df_clean["duration"] = pd.to_numeric(df_clean["duration"], errors='coerce')

# eliminar valores NaN reventao
df_clean = df_clean.dropna(subset=["duration"])


## Muestrario de Avance

In [None]:
df_clean.head()


# 4. Transformaci√≥n de los Datos

Para poder entrenar los modelos de aprendizaje autom√°tico, es necesario transformar los datos a un formato num√©rico que los algoritmos puedan procesar. Las variables categ√≥ricas, como type, country, rating y listed_in, deben ser codificadas adecuadamente ya que los modelos no pueden interpretar valores de texto directamente. En esta etapa se aplican dos t√©cnicas fundamentales de codificaci√≥n:

- Label Encoding a type: Dado que la variable objetivo (type) es binaria (solo contiene dos categor√≠as: "Movie" y "TV Show"), se utiliza Label Encoding para convertirla a valores num√©ricos (0 y 1). Esta t√©cnica asigna un valor entero √∫nico a cada categor√≠a, transformando "Movie" en 0 y "TV Show" en 1. Es apropiada para la variable objetivo en problemas de clasificaci√≥n binaria ya que mantiene la informaci√≥n de clase sin aumentar la dimensionalidad del dataset.
- One Hot Encoding al resto de variables categ√≥ricas: Para las variables predictoras categ√≥ricas (country, rating, listed_in, etc.), se aplica One Hot Encoding, que crea nuevas columnas binarias (0/1) para cada posible valor de la variable original. Por ejemplo, para la variable country, se crear√≠an columnas como country_United States, country_India, country_Spain, etc., donde un 1 indica que el t√≠tulo pertenece a ese pa√≠s y 0 en caso contrario. Esta t√©cnica es preferible para variables predictoras porque evita que el modelo interprete relaciones ordinales inexistentes entre categor√≠as (como si "Estados Unidos" > "M√©xico" num√©ricamente).

### Este proceso de transformaci√≥n tiene importantes implicaciones:

- Aumento dimensional: One Hot Encoding puede incrementar significativamente el n√∫mero de caracter√≠sticas, especialmente para variables con muchos valores √∫nicos como country o listed_in.
- Eliminaci√≥n de multicolinealidad: Se aplica el par√°metro drop_first=True para eliminar una columna de cada variable categ√≥rica transformada, evitando problemas de multicolinealidad donde una columna puede predecirse perfectamente a partir de otras.
- Preservaci√≥n de informaci√≥n: A diferencia de otras t√©cnicas de codificaci√≥n, One Hot Encoding preserva completamente la informaci√≥n categ√≥rica sin introducir relaciones num√©ricas artificiales.

### Finalmente se separan los conjuntos X e Y:

X contiene todas las caracter√≠sticas predictoras (variables independientes) transformadas num√©ricamente
y contiene √∫nicamente la variable objetivo (type) codificada con Label Encoding
Esta separaci√≥n es fundamental para el proceso de entrenamiento supervisado, permitiendo que los algoritmos aprendan la relaci√≥n entre las caracter√≠sticas de entrada (X) y la variable objetivo (y) que se desea predecir. El resultado es un dataset completamente num√©rico, listo para ser procesado por los algoritmos de aprendizaje autom√°tico en la siguiente etapa del proceso KDD.


In [None]:
from sklearn.preprocessing import LabelEncoder

# codificaci√≥n de la variable objetivo ()
encoder = LabelEncoder()
df_clean["type"] = encoder.fit_transform(df_clean["type"])


In [None]:
# One Hot Encoding
df_model = pd.get_dummies(df_clean, drop_first=True)


In [None]:
X = df_model.drop(columns=["type"])
y = df_model["type"]


# 5. Miner√≠a de Datos

En esta etapa se entrenan los tres algoritmos seleccionados para el problema de clasificaci√≥n binaria (distinguir entre pel√≠culas y series de TV):

- **K-Nearest Neighbors (KNN)**
- **√Årbol de Decisi√≥n (ID3)**
- **Random Forest**

Todos los modelos son evaluados sobre el mismo conjunto de entrenamiento y prueba para garantizar una comparaci√≥n justa. A continuaci√≥n, se detalla cada algoritmo con sus fundamentos matem√°ticos, ventajas, desventajas y aplicaciones pr√°cticas.

## K-Nearest Neighbors (KNN)

**Fundamentos matem√°ticos:**  
KNN es un algoritmo de aprendizaje supervisado basado en instancia. Para clasificar un nuevo punto, KNN identifica los K puntos m√°s cercanos en el espacio de caracter√≠sticas y asigna la clase predominante entre ellos. La distancia se calcula com√∫nmente usando la distancia euclidiana:

$$d(x, x_i) = \sqrt{\sum_{j=1}^{n}(x_j - x_{i,j})^2}$$

Donde $x$ es el vector de caracter√≠sticas del nuevo punto, $x_i$ es el vector de caracter√≠sticas del punto $i$ en el conjunto de entrenamiento, y $n$ es el n√∫mero de caracter√≠sticas.

**Ventajas:**
- Simple de implementar e interpretar
- No requiere fase de entrenamiento expl√≠cita (perezoso)
- Funciona bien con fronteras de decisi√≥n no lineales
- Adaptable a nuevos datos sin reentrenamiento completo

**Desventajas:**
- Costo computacional alto durante la predicci√≥n (O(n))
- Sensible a caracter√≠sticas irrelevantes o con diferentes escalas
- Requiere normalizaci√≥n de datos
- Elecci√≥n cr√≠tica del par√°metro K

**Aplicaciones pr√°cticas:**  
KNN se utiliza frecuentemente en sistemas de recomendaci√≥n (como Netflix), reconocimiento de patrones, diagn√≥stico m√©dico y clasificaci√≥n de im√°genes. Por ejemplo, Netflix podr√≠a usar KNN para recomendar pel√≠culas similares bas√°ndose en las caracter√≠sticas de visualizaci√≥n de usuarios con gustos similares.

**Relevancia para este problema:**  
KNN es adecuado para nuestro problema porque puede identificar patrones en las caracter√≠sticas de pel√≠culas y series (duraci√≥n, pa√≠s de origen, g√©neros) sin asumir una distribuci√≥n espec√≠fica de los datos.

## √Årbol de Decisi√≥n (ID3)

**Fundamentos matem√°ticos:**  
ID3 (Iterative Dichotomiser 3) construye un √°rbol de decisi√≥n mediante divisi√≥n recursiva de los datos usando el concepto de entrop√≠a e informaci√≥n ganada. La entrop√≠a mide la impureza de un conjunto:

$$H(S) = -\sum_{i=1}^{c} p_i \log_2 p_i$$

Donde $S$ es el conjunto de datos, $c$ es el n√∫mero de clases y $p_i$ es la proporci√≥n de elementos de clase $i$ en $S$.

La ganancia de informaci√≥n para un atributo $A$ se calcula como:

$$IG(S, A) = H(S) - \sum_{v \in Values(A)} \frac{|S_v|}{|S|} H(S_v)$$

Donde $S_v$ es el subconjunto de $S$ para el cual el atributo $A$ tiene valor $v$.

**Ventajas:**
- F√°cil de entender e interpretar visualmente
- No requiere normalizaci√≥n de datos
- Maneja tanto variables num√©ricas como categ√≥ricas
- Identifica caracter√≠sticas importantes para la predicci√≥n
- Robusto a valores at√≠picos

**Desventajas:**
- Propenso al sobreajuste sin poda adecuada
- Inestable (peque√±os cambios en datos causan √°rboles diferentes)
- Puede crear √°rboles sesgados con variables dominantes
- No siempre genera el √°rbol √≥ptimo globalmente

**Aplicaciones pr√°cticas:**  
Los √°rboles de decisi√≥n se utilizan en diagn√≥stico m√©dico (identificar enfermedades basadas en s√≠ntomas), evaluaci√≥n crediticia (aprobar/rechazar pr√©stamos), miner√≠a de datos empresariales y detecci√≥n de fraude. Por ejemplo, un banco podr√≠a usar un √°rbol de decisi√≥n para determinar si aprobar un pr√©stamo bas√°ndose en ingresos, historial crediticio y edad del solicitante.

**Relevancia para este problema:**  
ID3 es √∫til para nuestro problema porque puede capturar reglas interpretables como "si la duraci√≥n es mayor a 60 minutos y el pa√≠s es Estados Unidos, entonces es probable que sea una pel√≠cula", lo que permite comprender los factores que distinguen pel√≠culas de series.

## Random Forest

**Fundamentos matem√°ticos:**  
Random Forest es un ensemble method que combina m√∫ltiples √°rboles de decisi√≥n entrenados con muestras bootstrap del conjunto de datos original (bagging) y seleccionando aleatoriamente un subconjunto de caracter√≠sticas en cada divisi√≥n. La predicci√≥n final se obtiene por votaci√≥n mayoritaria:

$$f_{RF}(x) = \text{mode}\{f_{T_1}(x), f_{T_2}(x), \dots, f_{T_n}(x)\}$$

Donde $f_{T_i}(x)$ es la predicci√≥n del √°rbol $i$ y $n$ es el n√∫mero total de √°rboles.

El error del ensemble se relaciona con la correlaci√≥n entre √°rboles y su fuerza individual:

$$Error_{RF} \approx \bar{\rho} \sqrt{E_i(1-E_i)}$$

Donde $\bar{\rho}$ es la correlaci√≥n promedio entre pares de √°rboles y $E_i$ es el error promedio de cada √°rbol individual.

**Ventajas:**
- Alta precisi√≥n y robustez
- Reduce significativamente el sobreajuste respecto a √°rboles individuales
- Maneja alta dimensionalidad y caracter√≠sticas irrelevantes
- Proporciona m√©tricas de importancia de caracter√≠sticas
- Paralelizable (entrenamiento eficiente)
- No requiere validaci√≥n cruzada para selecci√≥n de par√°metros

**Desventajas:**
- Menos interpretable que un solo √°rbol de decisi√≥n
- Requiere m√°s recursos computacionales
- Puede sobreajustar en datos ruidosos o con alta dimensionalidad
- Tiempo de predicci√≥n m√°s lento que modelos m√°s simples

**Aplicaciones pr√°cticas:**  
Random Forest se utiliza ampliamente en bioinform√°tica (identificaci√≥n de genes relevantes), finanzas (detecci√≥n de fraudes), visi√≥n por computadora (reconocimiento de im√°genes), y sistemas de recomendaci√≥n. Un ejemplo concreto es la detecci√≥n de transacciones fraudulentas en tarjetas de cr√©dito, donde m√∫ltiples √°rboles pueden identificar patrones complejos de comportamiento fraudulento.

**Relevancia para este problema:**  
Random Forest es particularmente adecuado para nuestro problema debido a la naturaleza heterog√©nea de las caracter√≠sticas del dataset (categ√≥ricas como pa√≠s y g√©nero, num√©ricas como duraci√≥n y a√±o de lanzamiento). Su capacidad para manejar caracter√≠sticas correlacionadas y su robustez ante valores faltantes lo hacen ideal para analizar el cat√°logo diverso de Netflix.

## Proceso de Evaluaci√≥n

Para garantizar una comparaci√≥n justa, todos los modelos se entrenan y eval√∫an usando la misma divisi√≥n de datos (70% entrenamiento, 30% prueba) y las mismas m√©tricas de evaluaci√≥n (precision, recall, F1-score, accuracy). La aleatoriedad en la divisi√≥n de datos se controla mediante una semilla fija (random_state=42) para garantizar reproducibilidad de los resultados.

Este enfoque sistem√°tico permite identificar qu√© algoritmo proporciona el mejor rendimiento para la tarea espec√≠fica de clasificaci√≥n de contenido de Netflix, considerando tanto la precisi√≥n como la capacidad de generalizaci√≥n a nuevos datos.


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42)


### En esta etapa se entrenan los tres algoritmos seleccionados con visualizaciones que muestran su funcionamiento interno:

- K-Nearest Neighbors (KNN): Visualizaci√≥n de fronteras de decisi√≥n y vecinos m√°s cercanos
- √Årbol de Decisi√≥n (ID3): Representaci√≥n gr√°fica de la estructura del √°rbol
- Random Forest: An√°lisis de importancia de caracter√≠sticas y visualizaci√≥n de √°rboles individuales

Todos los modelos son evaluados sobre el mismo conjunto de entrenamiento y prueba. Las visualizaciones se generan autom√°ticamente durante el entrenamiento para facilitar la comprensi√≥n de c√≥mo cada algoritmo procesa los datos.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier, plot_tree, export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
import graphviz
from IPython.display import Image, display
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n visual
plt.style.use('seaborn-v0_8')
sns.set_palette("Set2")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Divisi√≥n de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Escalado de datos para visualizaci√≥n
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Reducci√≥n de dimensionalidad para visualizaci√≥n
pca = PCA(n_components=2, random_state=42)
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)

# Colores para las clases
colors = ['red', 'blue']  # Movie=0 (rojo), TV Show=1 (azul)
class_names = ['Movie', 'TV Show']

## K-Nearest Neighbors (KNN)

In [None]:
print("="*60)
print("ENTRENANDO MODELO KNN (K=5)")
print("="*60)

# Entrenamiento del modelo
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)

# Evaluaci√≥n
acc_knn = accuracy_score(y_test, y_pred_knn)
print(f"\nPrecisi√≥n del modelo KNN: {acc_knn:.6f}")
print("\nReporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred_knn, target_names=class_names))

# === VISUALIZACIONES KNN ===
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(20, 16))

# 1. Visualizaci√≥n de los datos en el espacio PCA
scatter = ax1.scatter(X_train_pca[:, 0], X_train_pca[:, 1], 
                     c=y_train, cmap='coolwarm', alpha=0.6, s=30)
ax1.set_title('Distribuci√≥n de datos en espacio PCA (Entrenamiento)', fontsize=14)
ax1.set_xlabel('Componente Principal 1')
ax1.set_ylabel('Componente Principal 2')
ax1.legend(handles=scatter.legend_elements()[0], labels=class_names)

# 2. Fronteras de decisi√≥n (con cuadr√≠cula reducida y muestreo para evitar problemas de memoria)
# Aumentar el tama√±o del paso para reducir el n√∫mero de puntos en la cuadr√≠cula
h = 0.1  # paso de la cuadr√≠cula m√°s grande (menos puntos)
x_min, x_max = X_train_pca[:, 0].min() - 1, X_train_pca[:, 0].max() + 1
y_min, y_max = X_train_pca[:, 1].min() - 1, X_train_pca[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

# Crear matriz para los resultados (inicializada con un valor por defecto)
Z = np.zeros_like(xx)

# Muestrear puntos estrat√©gicos para la predicci√≥n
# Convertir los puntos de la cuadr√≠cula a formato adecuado
grid_points = np.c_[xx.ravel(), yy.ravel()]

# Limitar el n√∫mero de puntos para predecir (muestreo aleatorio)
max_points = 5000  # L√≠mite razonable para evitar problemas de memoria
if len(grid_points) > max_points:
    indices = np.random.choice(len(grid_points), max_points, replace=False)
    sampled_points = grid_points[indices]
    
    # Predecir solo para los puntos muestreados
    original_space_samples = pca.inverse_transform(sampled_points)
    Z_sampled = knn.predict(original_space_samples)
    
    # Crear una matriz completa con los resultados muestreados
    Z_flat = np.zeros(len(grid_points))
    Z_flat[indices] = Z_sampled
    Z = Z_flat.reshape(xx.shape)
else:
    # Si hay pocos puntos, predecir para todos
    original_space_samples = pca.inverse_transform(grid_points)
    Z_flat = knn.predict(original_space_samples)
    Z = Z_flat.reshape(xx.shape)

# Contorno de las fronteras de decisi√≥n (basado en muestreo)
contour = ax2.contourf(xx, yy, Z, cmap='coolwarm', alpha=0.3)
ax2.scatter(X_train_pca[:, 0], X_train_pca[:, 1], 
           c=y_train, cmap='coolwarm', alpha=0.8, s=30)
ax2.set_title('Fronteras de Decisi√≥n de KNN (k=5) - Muestreo', fontsize=14)
ax2.set_xlabel('Componente Principal 1')
ax2.set_ylabel('Componente Principal 2')
ax2.legend(handles=scatter.legend_elements()[0], labels=class_names)

# 3. Ejemplo de vecinos m√°s cercanos para un punto de prueba
sample_idx = 0
sample_point = X_test_pca[sample_idx].reshape(1, -1)
sample_class = y_test.iloc[sample_idx]

# Encontrar los 5 vecinos m√°s cercanos en el espacio original
distances, indices = knn.kneighbors(X_test.iloc[sample_idx:sample_idx+1])
neighbors_classes = y_train.iloc[indices[0]]

# Mostrar el punto de prueba y sus vecinos
ax3.scatter(X_train_pca[:, 0], X_train_pca[:, 1], 
           c=y_train, cmap='coolwarm', alpha=0.3, s=20)
ax3.scatter(X_test_pca[sample_idx, 0], X_test_pca[sample_idx, 1], 
           c='green', marker='X', s=200, label='Punto de prueba')
    
# Marcar los vecinos m√°s cercanos
for i, idx in enumerate(indices[0]):
    ax3.scatter(X_train_pca[idx, 0], X_train_pca[idx, 1], 
               edgecolor='black', facecolor='none', s=200, linewidth=2,
               label=f'Vecino {i+1} ({class_names[neighbors_classes.iloc[i]]})')

ax3.set_title(f'KNN: Vecinos m√°s cercanos para un punto de prueba\nClase real: {class_names[sample_class]}', fontsize=14)
ax3.set_xlabel('Componente Principal 1')
ax3.set_ylabel('Componente Principal 2')
ax3.legend(loc='best')

# 4. Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred_knn)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax4,
            xticklabels=class_names, yticklabels=class_names)
ax4.set_title('Matriz de Confusi√≥n - KNN', fontsize=14)
ax4.set_xlabel('Predicci√≥n')
ax4.set_ylabel('Valor Real')

plt.tight_layout()
plt.savefig('knn_visualizations.png', dpi=300, bbox_inches='tight')
plt.show()

# 5. Gr√°fico interactivo adicional: Distancia promedio por clase
# Optimizar c√°lculo limitando el n√∫mero de puntos a comparar
plt.figure(figsize=(10, 6))

# Limitar el n√∫mero de puntos para calcular distancias (para evitar problemas de memoria)
max_samples = 1000
if len(X_train_pca) > max_samples:
    indices = np.random.choice(len(X_train_pca), max_samples, replace=False)
    X_sample = X_train_pca[indices]
    y_sample = y_train.iloc[indices].values
else:
    X_sample = X_train_pca
    y_sample = y_train.values

# Calcular distancias promedio entre puntos de la misma clase y de clases diferentes
same_class_dists = []
diff_class_dists = []

# L√≠mite adicional para evitar bucles muy grandes
max_comparisons = 50000
count = 0

for i in range(len(X_sample)):
    if count >= max_comparisons:
        break
    for j in range(i+1, len(X_sample)):
        if count >= max_comparisons:
            break
        dist = np.linalg.norm(X_sample[i] - X_sample[j])
        if y_sample[i] == y_sample[j]:
            same_class_dists.append(dist)
        else:
            diff_class_dists.append(dist)
        count += 1

plt.hist(same_class_dists, bins=30, alpha=0.7, label='Distancia entre misma clase', color='green')
plt.hist(diff_class_dists, bins=30, alpha=0.7, label='Distancia entre diferentes clases', color='red')
plt.title('Distribuci√≥n de distancias entre puntos (muestreo)', fontsize=14)
plt.xlabel('Distancia euclidiana')
plt.ylabel('Frecuencia')
plt.legend()
plt.grid(alpha=0.3)
plt.savefig('knn_distance_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

## √Årbol de Decisi√≥n (ID3)

In [None]:
print("="*60)
print("ENTRENANDO MODELO √ÅRBOL DE DECISI√ìN (ID3)")
print("="*60)

# Entrenamiento del modelo con l√≠mite de profundidad para mejor visualizaci√≥n
id3 = DecisionTreeClassifier(criterion="entropy", max_depth=4, random_state=42)
id3.fit(X_train, y_train)
y_pred_id3 = id3.predict(X_test)

# Evaluaci√≥n
acc_id3 = accuracy_score(y_test, y_pred_id3)
print(f"\nPrecisi√≥n del modelo √Årbol de Decisi√≥n: {acc_id3:.6f}")
print("\nReporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred_id3, target_names=class_names))

# === VISUALIZACIONES √ÅRBOL DE DECISI√ìN ===
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(24, 10))

# 1. Gr√°fico de la estructura del √°rbol
plot_tree(id3, 
          feature_names=X_train.columns.tolist(),
          class_names=class_names,
          filled=True,
          rounded=True,
          ax=ax1,
          fontsize=8)
ax1.set_title('Estructura del √Årbol de Decisi√≥n (ID3)', fontsize=16)

# 2. Importancia de caracter√≠sticas
feature_importance = pd.Series(id3.feature_importances_, index=X_train.columns)
feature_importance = feature_importance.sort_values(ascending=False).head(15)  # Top 15 caracter√≠sticas

sns.barplot(x=feature_importance.values, y=feature_importance.index, palette='viridis', ax=ax2)
ax2.set_title('Importancia de Caracter√≠sticas - √Årbol de Decisi√≥n', fontsize=14)
ax2.set_xlabel('Importancia')
ax2.set_ylabel('Caracter√≠sticas')

plt.tight_layout()
plt.savefig('decision_tree_visualizations.png', dpi=300, bbox_inches='tight')
plt.show()

# 3. Visualizaci√≥n de la evoluci√≥n de la pureza por nivel del √°rbol
plt.figure(figsize=(14, 8))
depths = range(1, 6)  # Profundidades de 1 a 5
accuracies = []
training_errors = []

for depth in depths:
    tree_temp = DecisionTreeClassifier(max_depth=depth, random_state=42)
    tree_temp.fit(X_train, y_train)
    y_pred_temp = tree_temp.predict(X_test)
    accuracies.append(accuracy_score(y_test, y_pred_temp))
    
    # Calcular error de entrenamiento
    y_train_pred = tree_temp.predict(X_train)
    training_errors.append(1 - accuracy_score(y_train, y_train_pred))

plt.plot(depths, accuracies, 'bo-', linewidth=2.5, markersize=10, label='Precisi√≥n en Prueba')
plt.plot(depths, training_errors, 'ro-', linewidth=2.5, markersize=10, label='Error en Entrenamiento')
plt.title('Evoluci√≥n del rendimiento por profundidad del √°rbol', fontsize=14)
plt.xlabel('Profundidad m√°xima del √°rbol')
plt.ylabel('Precisi√≥n / Error')
plt.grid(alpha=0.3)
plt.legend()
plt.savefig('decision_tree_depth_analysis.png', dpi=300, bbox_inches='tight')
plt.show()

# 4. Matriz de confusi√≥n
plt.figure(figsize=(10, 8))
cm = confusion_matrix(y_test, y_pred_id3)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=class_names, yticklabels=class_names)
plt.title('Matriz de Confusi√≥n - √Årbol de Decisi√≥n', fontsize=14)
plt.xlabel('Predicci√≥n')
plt.ylabel('Valor Real')
plt.savefig('decision_tree_confusion_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

# 5. Visualizaci√≥n detallada con Graphviz (requiere tener Graphviz instalado)





## Random Forest

In [None]:
#Radnom Forest
print("="*60)
print("ENTRENANDO MODELO RANDOM FOREST")
print("="*60)

# Entrenamiento del modelo
rf = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

# Evaluaci√≥n
acc_rf = accuracy_score(y_test, y_pred_rf)
print(f"\nPrecisi√≥n del modelo Random Forest: {acc_rf:.6f}")
print("\nReporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred_rf, target_names=class_names))

# === VISUALIZACIONES RANDOM FOREST ===
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(20, 16))

# 1. Importancia de caracter√≠sticas promediada
feature_importance_rf = pd.Series(rf.feature_importances_, index=X_train.columns)
feature_importance_rf = feature_importance_rf.sort_values(ascending=False).head(20)  # Top 20

sns.barplot(x=feature_importance_rf.values, y=feature_importance_rf.index, palette='viridis', ax=ax1)
ax1.set_title('Importancia de Caracter√≠sticas - Random Forest', fontsize=14)
ax1.set_xlabel('Importancia')
ax1.set_ylabel('Caracter√≠sticas')

# 2. Comparaci√≥n de importancia con el √°rbol de decisi√≥n
common_features = list(set(feature_importance.head(15).index) & set(feature_importance_rf.head(15).index))
if common_features:
    comparison_data = pd.DataFrame({
        '√Årbol de Decisi√≥n': feature_importance.loc[common_features].values,
        'Random Forest': feature_importance_rf.loc[common_features].values
    }, index=common_features)
    
    comparison_data.plot(kind='barh', ax=ax2, width=0.8)
    ax2.set_title('Comparaci√≥n de Importancia de Caracter√≠sticas Comunes', fontsize=14)
    ax2.set_xlabel('Importancia')
    ax2.legend(title='Modelo')
else:
    ax2.text(0.5, 0.5, 'No hay caracter√≠sticas comunes en el top 15', 
             ha='center', va='center', fontsize=12)
    ax2.set_title('Comparaci√≥n de Importancia de Caracter√≠sticas Comunes', fontsize=14)
    ax2.axis('off')

# 3. Distribuci√≥n de profundidades de los √°rboles
depths = [estimator.tree_.max_depth for estimator in rf.estimators_]
ax3.hist(depths, bins=20, color='skyblue', edgecolor='black')
ax3.set_title('Distribuci√≥n de Profundidades de los √Årboles', fontsize=14)
ax3.set_xlabel('Profundidad')
ax3.set_ylabel('N√∫mero de √Årboles')
ax3.grid(alpha=0.3)

# 4. Precisi√≥n por n√∫mero de √°rboles
accuracies = []
for i in range(1, 101, 5):
    rf_temp = RandomForestClassifier(n_estimators=i, random_state=42, n_jobs=-1)
    rf_temp.fit(X_train, y_train)
    y_pred_temp = rf_temp.predict(X_test)
    accuracies.append(accuracy_score(y_test, y_pred_temp))

ax4.plot(range(1, 101, 5), accuracies, 'b.-', linewidth=2, markersize=10)
ax4.set_title('Precisi√≥n vs N√∫mero de √Årboles', fontsize=14)
ax4.set_xlabel('N√∫mero de √Årboles')
ax4.set_ylabel('Precisi√≥n')
ax4.grid(alpha=0.3)
ax4.set_ylim(min(accuracies)-0.01, max(accuracies)+0.01)

plt.tight_layout()
plt.savefig('random_forest_visualizations.png', dpi=300, bbox_inches='tight')
plt.show()

# 5. Visualizaci√≥n de un √°rbol individual del bosque
plt.figure(figsize=(20, 10))
sample_tree_idx = 0  # √çndice del √°rbol que queremos visualizar
sample_tree = rf.estimators_[sample_tree_idx]

plot_tree(sample_tree,
          feature_names=X_train.columns.tolist(),
          class_names=class_names,
          filled=True,
          rounded=True,
          fontsize=6)
plt.title(f'√Årbol #{sample_tree_idx+1} del Bosque Aleatorio', fontsize=16)
plt.savefig('random_forest_sample_tree.png', dpi=300, bbox_inches='tight')
plt.show()

# 6. Matriz de confusi√≥n
plt.figure(figsize=(10, 8))
cm = confusion_matrix(y_test, y_pred_rf)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=class_names, yticklabels=class_names)
plt.title('Matriz de Confusi√≥n - Random Forest', fontsize=14)
plt.xlabel('Predicci√≥n')
plt.ylabel('Valor Real')
plt.savefig('random_forest_confusion_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

# 7. Visualizaci√≥n de la distribuci√≥n de votos para muestras incorrectas
incorrect_indices = np.where(y_test != y_pred_rf)[0]
if len(incorrect_indices) > 0:
    plt.figure(figsize=(14, 8))
    
    # Tomar las primeras 5 predicciones incorrectas
    sample_size = min(5, len(incorrect_indices))
    sample_indices = incorrect_indices[:sample_size]
    
    vote_distributions = []
    for idx in sample_indices:
        votes = []
        for tree in rf.estimators_:
            vote = tree.predict(X_test.iloc[idx:idx+1])[0]
            votes.append(vote)
        
        movie_votes = votes.count(0)/len(votes)
        tvshow_votes = votes.count(1)/len(votes)
        vote_distributions.append([movie_votes, tvshow_votes])
    
    vote_df = pd.DataFrame(vote_distributions, 
                          columns=class_names,
                          index=[f'Muestra {i+1}\n(Real: {class_names[y_test.iloc[i]]})' 
                                 for i in sample_indices])
    
    vote_df.plot(kind='bar', stacked=True, ax=plt.gca(), colormap='coolwarm')
    plt.title('Distribuci√≥n de Votos para Predicciones Incorrectas', fontsize=14)
    plt.xlabel('Muestras incorrectamente clasificadas')
    plt.ylabel('Proporci√≥n de votos')
    plt.ylim(0, 1)
    plt.legend(title='Clase votada')
    plt.xticks(rotation=0)
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.savefig('random_forest_vote_distribution.png', dpi=300, bbox_inches='tight')
    plt.show()
else:
    print("\n‚úÖ ¬°Excelente! No hay predicciones incorrectas para visualizar la distribuci√≥n de votos.")

# 6. Evaluaci√≥n y Validaci√≥n

Se utilizan m√©tricas de evaluaci√≥n para comparar el rendimiento de los tres modelos:

- Accuracy (Precisi√≥n global): Representa la proporci√≥n de predicciones correctas (tanto verdaderos positivos como verdaderos negativos) respecto al total de predicciones realizadas. Se calcula como (TP + TN) / (TP + TN + FP + FN), donde TP son verdaderos positivos, TN verdaderos negativos, FP falsos positivos y FN falsos negativos. En este contexto, mide el porcentaje total de t√≠tulos clasificados correctamente como pel√≠culas o series.
- Precision (Precisi√≥n): Mide la proporci√≥n de predicciones positivas que son realmente correctas. Se calcula como TP / (TP + FP). En nuestro caso, para la categor√≠a "Movie", indica qu√© porcentaje de los t√≠tulos clasificados como pel√≠culas son realmente pel√≠culas. Una alta precisi√≥n significa pocos falsos positivos (pocas series clasificadas err√≥neamente como pel√≠culas).
- Recall (Sensibilidad o Exhaustividad): Representa la proporci√≥n de instancias positivas reales que fueron identificadas correctamente. Se calcula como TP / (TP + FN). Para la categor√≠a "TV Show", mide qu√© porcentaje de todas las series existentes fueron correctamente identificadas como tales. Un alto recall significa pocos falsos negativos (pocas series clasificadas err√≥neamente como pel√≠culas).
- F1-score: Es la media arm√≥nica entre la precisi√≥n y el recall, proporcionando una m√©trica balanceada que considera ambos aspectos. Se calcula como 2 * (Precision * Recall) / (Precision + Recall). Es especialmente √∫til cuando hay un desbalance en las clases o cuando se busca un equilibrio entre minimizar falsos positivos y falsos negativos.

Estas m√©tricas permiten determinar cu√°l algoritmo presenta mejor desempe√±o para este dataset, considerando no solo la precisi√≥n global sino tambi√©n el equilibrio entre los diferentes tipos de errores de clasificaci√≥n, lo cual es crucial para aplicaciones pr√°cticas donde los costos de diferentes tipos de errores pueden variar significativamente.


In [None]:
print("KNN:")
print(classification_report(y_test, y_pred_knn, digits=10))

print("√Årbol ID3:")
print(classification_report(y_test, y_pred_id3, digits=10))

print("Random Forest:")
print(classification_report(y_test, y_pred_rf, digits=10))


In [None]:
import matplotlib.pyplot as plt
import numpy as np


metrics = {
    "KNN": {
        "precision": 0.9979708323,
        "recall":    0.9979708323,
        "f1":        0.9979708323
    },
    "ID3": {
        "precision": 0.9969562485,
        "recall":    0.9969562485,
        "f1":        0.9969562485
    },
    "Random Forest": {
        "precision": 0.9978510029,
        "recall":    0.9991145218,
        "f1":        0.9984800559
    }
}



models = list(metrics.keys())

precision_errors = [1 - metrics[m]["precision"] for m in models]
recall_errors    = [1 - metrics[m]["recall"]    for m in models]
f1_errors        = [1 - metrics[m]["f1"]        for m in models]



x = np.arange(len(models))
width = 0.25

plt.figure(figsize=(10, 6))

plt.bar(x - width, precision_errors, width, label='Error Precision')
plt.bar(x,         recall_errors,    width, label='Error Recall')
plt.bar(x + width, f1_errors,        width, label='Error F1-score')

plt.xticks(x, models)
plt.ylabel('Error (1 - m√©trica)')
plt.title('Comparaci√≥n de errores por modelo (valores ampliados)')
plt.legend()
plt.tight_layout()
plt.show()


# 7. Validaci√≥n Cruzada para Evaluaci√≥n Robusta de los Modelos

La evaluaci√≥n anterior se realiz√≥ utilizando una √∫nica divisi√≥n de los datos en conjuntos de entrenamiento y prueba. Para obtener una evaluaci√≥n m√°s robusta y confiable del rendimiento de los modelos, aplicamos validaci√≥n cruzada k-fold, que permite utilizar todos los datos para entrenamiento y prueba en diferentes iteraciones, reduciendo la varianza en las m√©tricas de evaluaci√≥n y minimizando el riesgo de sobreajuste o subajuste debido a una partici√≥n espec√≠fica de los datos.

En este caso, utilizamos 5-fold cross-validation, donde los datos se dividen en 5 partes iguales. En cada iteraci√≥n, 4 partes se utilizan para entrenar el modelo y la parte restante para evaluarlo. Este proceso se repite 5 veces, asegurando que cada muestra se utilice exactamente una vez para la validaci√≥n.

In [None]:
from sklearn.model_selection import cross_validate, StratifiedKFold
from sklearn.metrics import make_scorer, precision_score, recall_score, f1_score
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm

# Configuraci√≥n de la validaci√≥n cruzada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# M√©tricas a evaluar
scoring = {
    'accuracy': 'accuracy',
    'precision': 'precision',
    'recall': 'recall',
    'f1': 'f1'
}

# Inicializar diccionario para almacenar resultados
cv_results = {}

# Modelos a evaluar
models = {
    'KNN': KNeighborsClassifier(n_neighbors=5),
    'ID3': DecisionTreeClassifier(criterion="entropy", max_depth=5, random_state=42),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42)
}

print("Ejecutando validaci√≥n cruzada para todos los modelos...")
print("="*60)

# Ejecutar validaci√≥n cruzada para cada modelo
for name, model in tqdm(models.items(), desc="Progreso de Validaci√≥n Cruzada"):
    print(f"\nEvaluando modelo: {name}")
    
    # Ejecutar cross-validation
    results = cross_validate(
        model, 
        X, 
        y, 
        cv=cv,
        scoring=scoring,
        return_train_score=False,
        n_jobs=-1,
        verbose=0
    )
    
    # Almacenar resultados
    cv_results[name] = {
        'accuracy': results['test_accuracy'],
        'precision': results['test_precision'],
        'recall': results['test_recall'],
        'f1': results['test_f1']
    }
    
    # Mostrar resultados por fold
    print(f"\nResultados por fold para {name}:")
    for i in range(5):
        print(f"Fold {i+1}:")
        print(f"  Accuracy:  {results['test_accuracy'][i]:.6f}")
        print(f"  Precision: {results['test_precision'][i]:.6f}")
        print(f"  Recall:    {results['test_recall'][i]:.6f}")
        print(f"  F1-score:  {results['test_f1'][i]:.6f}")
    
    # Mostrar promedios y desviaciones est√°ndar
    print(f"\nPromedio ¬± Desviaci√≥n est√°ndar para {name}:")
    print(f"  Accuracy:  {np.mean(results['test_accuracy']):.6f} ¬± {np.std(results['test_accuracy']):.6f}")
    print(f"  Precision: {np.mean(results['test_precision']):.6f} ¬± {np.std(results['test_precision']):.6f}")
    print(f"  Recall:    {np.mean(results['test_recall']):.6f} ¬± {np.std(results['test_recall']):.6f}")
    print(f"  F1-score:  {np.mean(results['test_f1']):.6f} ¬± {np.std(results['test_f1']):.6f}")
    print("-"*40)

# Convertir resultados a DataFrame para visualizaci√≥n
results_df = []
for model_name, metrics in cv_results.items():
    for i in range(5):
        results_df.append({
            'Modelo': model_name,
            'Fold': i+1,
            'Accuracy': metrics['accuracy'][i],
            'Precision': metrics['precision'][i],
            'Recall': metrics['recall'][i],
            'F1-score': metrics['f1'][i]
        })

results_df = pd.DataFrame(results_df)

# Visualizaci√≥n de resultados
plt.figure(figsize=(14, 10))

# 1. Boxplot de F1-score para comparar modelos
plt.subplot(2, 2, 1)
sns.boxplot(x='Modelo', y='F1-score', data=results_df, palette='Set2')
sns.stripplot(x='Modelo', y='F1-score', data=results_df, color='black', alpha=0.4, size=4)
plt.title('Distribuci√≥n de F1-score por Modelo (5-fold CV)', fontsize=14)
plt.ylabel('F1-score')
plt.ylim(0.95, 1.0)
plt.grid(axis='y', linestyle='--', alpha=0.7)

# 2. Gr√°fico de barras con promedios y error bars
plt.subplot(2, 2, 2)
metrics_avg = []
for model_name, metrics in cv_results.items():
    metrics_avg.append({
        'Modelo': model_name,
        'Accuracy': np.mean(metrics['accuracy']),
        'Precision': np.mean(metrics['precision']),
        'Recall': np.mean(metrics['recall']),
        'F1-score': np.mean(metrics['f1'])
    })

metrics_avg_df = pd.DataFrame(metrics_avg)
metrics_std_df = pd.DataFrame({
    'Modelo': list(cv_results.keys()),
    'Accuracy': [np.std(cv_results[model]['accuracy']) for model in cv_results.keys()],
    'Precision': [np.std(cv_results[model]['precision']) for model in cv_results.keys()],
    'Recall': [np.std(cv_results[model]['recall']) for model in cv_results.keys()],
    'F1-score': [np.std(cv_results[model]['f1']) for model in cv_results.keys()]
})

metrics_melted = pd.melt(metrics_avg_df, id_vars='Modelo', var_name='M√©trica', value_name='Valor')
std_melted = pd.melt(metrics_std_df, id_vars='Modelo', var_name='M√©trica', value_name='Desviaci√≥n')

sns.barplot(x='Modelo', y='Valor', hue='M√©trica', data=metrics_melted, 
            palette='viridis', errorbar=None)
plt.title('M√©tricas Promedio por Modelo (5-fold CV)', fontsize=14)
plt.ylabel('Valor de la m√©trica')
plt.ylim(0.95, 1.0)
plt.legend(title='M√©trica', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(axis='y', linestyle='--', alpha=0.7)

# 3. An√°lisis de estabilidad (desviaci√≥n est√°ndar)
plt.subplot(2, 2, 3)
std_melted = std_melted[std_melted['M√©trica'] == 'F1-score']
sns.barplot(x='Modelo', y='Desviaci√≥n', data=std_melted, palette='coolwarm')
plt.title('Estabilidad de los Modelos (Desviaci√≥n est√°ndar del F1-score)', fontsize=14)
plt.ylabel('Desviaci√≥n est√°ndar')
plt.grid(axis='y', linestyle='--', alpha=0.7)

# 4. Comparaci√≥n detallada de F1-score por fold
plt.subplot(2, 2, 4)
sns.lineplot(data=results_df, x='Fold', y='F1-score', hue='Modelo', 
             marker='o', linewidth=2.5, markersize=10, palette='Set2')
plt.title('F1-score por Fold para cada Modelo', fontsize=14)
plt.ylabel('F1-score')
plt.ylim(0.95, 1.0)
plt.grid(linestyle='--', alpha=0.7)
plt.legend(title='Modelo', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.savefig('cross_validation_results.png', dpi=300, bbox_inches='tight')
plt.show()

# An√°lisis detallado de resultados
print("\n" + "="*70)
print("AN√ÅLISIS DETALLADO DE RESULTADOS DE VALIDACI√ìN CRUZADA")
print("="*70)

# Identificar el mejor modelo seg√∫n F1-score promedio
best_model = max(cv_results.keys(), 
                key=lambda x: np.mean(cv_results[x]['f1']))
best_score = np.mean(cv_results[best_model]['f1'])
best_std = np.std(cv_results[best_model]['f1'])

print(f"\nüèÜ MEJOR MODELO: {best_model}")
print(f"F1-score promedio: {best_score:.6f} ¬± {best_std:.6f}")

print("\nüìä AN√ÅLISIS COMPARATIVO:")
for model_name, metrics in cv_results.items():
    f1_avg = np.mean(metrics['f1'])
    f1_std = np.std(metrics['f1'])
    acc_avg = np.mean(metrics['accuracy'])
    acc_std = np.std(metrics['accuracy'])
    
    print(f"\n{model_name}:")
    print(f"  ‚Ä¢ F1-score: {f1_avg:.6f} (¬±{f1_std:.6f})")
    print(f"  ‚Ä¢ Accuracy: {acc_avg:.6f} (¬±{acc_std:.6f})")
    print(f"  ‚Ä¢ Estabilidad: {'ALTA' if f1_std < 0.001 else 'MEDIA' if f1_std < 0.005 else 'BAJA'}")
    
    # An√°lisis de consistencia
    min_f1 = np.min(metrics['f1'])
    max_f1 = np.max(metrics['f1'])
    consistency = max_f1 - min_f1
    
    print(f"  ‚Ä¢ Rango F1-score: [{min_f1:.6f}, {max_f1:.6f}] (Œî = {consistency:.6f})")
    if consistency < 0.001:
        print(f"    ‚Üí Modelo muy consistente en todos los folds")
    elif consistency < 0.005:
        print(f"    ‚Üí Modelo consistente con ligeras variaciones")
    else:
        print(f"    ‚Üí Modelo presenta variaciones significativas entre folds")

# An√°lisis de sesgo-varianza
print("\nüîç AN√ÅLISIS SESGO-VARIANZA:")
for model_name, metrics in cv_results.items():
    f1_avg = np.mean(metrics['f1'])
    f1_std = np.std(metrics['f1'])
    
    bias = 1 - f1_avg
    variance = f1_std
    
    print(f"\n{model_name}:")
    print(f"  ‚Ä¢ Sesgo (Bias): {bias:.6f}")
    print(f"  ‚Ä¢ Varianza: {variance:.6f}")
    
    if bias < 0.01 and variance < 0.001:
        print(f"    ‚Üí Modelo ideal: bajo sesgo y baja varianza")
    elif bias < 0.01 and variance > 0.005:
        print(f"    ‚Üí Alto riesgo de sobreajuste (overfitting)")
    elif bias > 0.01 and variance < 0.001:
        print(f"    ‚Üí Alto riesgo de subajuste (underfitting)")
    else:
        print(f"    ‚Üí Equilibrio razonable entre sesgo y varianza")

# Recomendaciones basadas en validaci√≥n cruzada
print("\nüí° RECOMENDACIONES BASADAS EN VALIDACI√ìN CRUZADA:")
best_model_f1 = max(cv_results.keys(), key=lambda x: np.mean(cv_results[x]['f1']))
best_model_std = min(cv_results.keys(), key=lambda x: np.std(cv_results[x]['f1']))

if best_model_f1 == best_model_std:
    print(f"  ‚Ä¢ {best_model_f1} es el mejor modelo tanto en rendimiento como en estabilidad")
else:
    print(f"  ‚Ä¢ {best_model_f1} tiene el mejor rendimiento promedio")
    print(f"  ‚Ä¢ {best_model_std} es el modelo m√°s estable (menor variaci√≥n entre folds)")

if np.std(cv_results[best_model_f1]['f1']) > 0.002:
    print(f"  ‚Ä¢ Se recomienda ajustar hiperpar√°metros de {best_model_f1} para mejorar su estabilidad")

if 'Random Forest' in cv_results and np.mean(cv_results['Random Forest']['f1']) > 0.998:
    print("  ‚Ä¢ Los resultados extremadamente altos sugieren que las caracter√≠sticas son muy predictivas")
    print("    para distinguir entre pel√≠culas y series, lo que es consistente con el an√°lisis EDA.")

# Tabla resumen para incluir en el informe
print("\n" + "="*70)
print("TABLA RESUMEN PARA INFORME")
print("="*70)
summary_table = pd.DataFrame({
    'Modelo': list(cv_results.keys()),
    'F1-score Promedio': [np.mean(cv_results[model]['f1']) for model in cv_results.keys()],
    'F1-score Std': [np.std(cv_results[model]['f1']) for model in cv_results.keys()],
    'Accuracy Promedio': [np.mean(cv_results[model]['accuracy']) for model in cv_results.keys()],
    'Accuracy Std': [np.std(cv_results[model]['accuracy']) for model in cv_results.keys()],
})

summary_table = summary_table.sort_values('F1-score Promedio', ascending=False)
summary_table['F1-score Promedio'] = summary_table['F1-score Promedio'].apply(lambda x: f"{x:.6f}")
summary_table['F1-score Std'] = summary_table['F1-score Std'].apply(lambda x: f"{x:.6f}")
summary_table['Accuracy Promedio'] = summary_table['Accuracy Promedio'].apply(lambda x: f"{x:.6f}")
summary_table['Accuracy Std'] = summary_table['Accuracy Std'].apply(lambda x: f"{x:.6f}")

print(summary_table.to_string(index=False))
print("="*70)

# 8. Conclusiones

Tras aplicar la metodolog√≠a KDD al conjunto de datos *Netflix Titles*, se comprob√≥ que el problema de clasificaci√≥n entre pel√≠culas y series puede ser abordado mediante distintos algoritmos supervisados.

Los resultados obtenidos indican que:

- **KNN** presenta un rendimiento aceptable, aunque sensible a la cantidad de atributos.
- **ID3** ofrece interpretabilidad, pero su exactitud es inferior al de modelos m√°s robustos.
- **Random Forest** obtuvo el mejor desempe√±o global, debido a su capacidad para reducir el sobreajuste y manejar gran cantidad de caracter√≠sticas categ√≥ricas transformadas.

Aunque las m√©tricas son muy elevadas para todos los modelos, la visualizaci√≥n de las tasas de error permite identificar de manera m√°s clara que Random Forest presenta el menor error promedio, consolid√°ndose como el mejor clasificador en este experimento.

Por tanto, se concluye que **Random Forest** es el algoritmo m√°s adecuado para este dataset, proporcionando un equilibrio √≥ptimo entre precisi√≥n y generalizaci√≥n.


# 9. Bibliograf√≠a

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). *The KDD process for extracting useful knowledge from volumes of data*. Communications of the ACM, 39(11), 27‚Äì34.

Han, J., Kamber, M., & Pei, J. (2011). *Data Mining: Concepts and Techniques* (3rd ed.). Morgan Kaufmann.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ‚Ä¶ Duchesnay, E. (2011). *Scikit-learn: Machine Learning in Python*. Journal of Machine Learning Research, 12, 2825‚Äì2830.

Netflix Titles Dataset. (2020). *Kaggle*. Recuperado de https://www.kaggle.com/shivamb/netflix-shows

Breiman, L. (2001). *Random forests*. Machine Learning, 45(1), 5‚Äì32.

Cover, T., & Hart, P. (1967). *Nearest neighbor pattern classification*. IEEE Transactions on Information Theory, 13(1), 21‚Äì27.

Quinlan, J. R. (1986). *Induction of decision trees*. Machine Learning, 1, 81‚Äì106.


# 10. Recursos

El repositorio del proyecto se encuentra en este enlace:

üîó **https://github.com/FrankHenkourth/KDD_Netflix**

