# üìä EXAMEN FINAL - MINER√çA DE DATOS
## Soluci√≥n Completa Paso a Paso

**Fecha:** 2025  
**Nivel:** Universitario  
**M√©todos:** Clustering, Collaborative Filtering, Association Rules

---

## Problemas a Resolver:

1. **Pharmaceutical Industry** - An√°lisis de Clustering (K-Means)
2. **Recommending Courses** - User-based Collaborative Filtering  
3. **Satellite Radio Customers** - An√°lisis de Association Rules



## PARTE 0: INSTALACI√ìN E IMPORTACIONES


In [2]:
# Instalaci√≥n de librer√≠as necesarias
%pip install scikit-learn pandas numpy matplotlib seaborn scipy mlxtend surprise -q


Note: you may need to restart the kernel to use updated packages.


  error: subprocess-exited-with-error
  
  √ó Building wheel for scikit-surprise (pyproject.toml) did not run successfully.
  ‚îÇ exit code: 1
  ‚ï∞‚îÄ> [155 lines of output]
      !!
      
              ********************************************************************************
              Please use a simple string containing a SPDX expression for `project.license`. You can also use `project.license-files`. (Both options available on setuptools>=77.0.0).
      
              By 2026-Feb-18, you need to update your project and remove deprecated calls
              or your builds will no longer be supported.
      
              See https://packaging.python.org/en/latest/guides/writing-pyproject-toml/#license for details.
              ********************************************************************************
      
      !!
        corresp(dist, value, root_dir)
      !!
      
              ********************************************************************************

In [None]:
# Importaciones principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn import preprocessing
from sklearn.metrics import pairwise
from pandas.plotting import parallel_coordinates
from scipy.cluster.hierarchy import dendrogram, linkage
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
print("‚úì Todas las librer√≠as importadas correctamente")


---

# PROBLEMA 1: PHARMACEUTICAL INDUSTRY
## An√°lisis de Clustering

**Objetivo:** Entender la estructura de la industria farmac√©utica usando medidas financieras b√°sicas mediante an√°lisis de clustering.

**Dataset:** pharmaceuticals.csv (21 empresas farmac√©uticas)

**Variables:**
- **Num√©ricas (1-9):** Market Cap, Beta, PE Ratio, ROE, ROA, Asset Turnover, Leverage, Rev Growth, Net Profit Margin
- **Categ√≥ricas (10-12):** Median Recommendation, Location, Exchange


### 1.a) Clustering usando solo variables num√©ricas (1-9)


In [None]:
# Cargar datos de farmac√©uticas
pharma_df = pd.read_csv('Pharmaceuticals.csv')

print("=" * 70)
print("INFORMACI√ìN DEL DATASET")
print("=" * 70)
print(f"\nDimensiones: {pharma_df.shape}")
print(f"\nColumnas disponibles:")
print(pharma_df.columns.tolist())
print(f"\nPrimeras 5 filas:")
print(pharma_df.head())
print(f"\nTipos de datos:")
print(pharma_df.dtypes)


In [None]:
# Identificar variables num√©ricas (1-9) y categ√≥ricas (10-12)
# Variables num√©ricas seg√∫n el problema:
numerical_vars = ['Market_Cap', 'Beta', 'PE_Ratio', 'ROE', 'ROA', 
                  'Asset_Turnover', 'Leverage', 'Rev_Growth', 'Net_Profit_Margin']

# Variables categ√≥ricas (10-12):
categorical_vars = ['Median_Recommendation', 'Location', 'Exchange']

# Establecer Symbol (o Name) como √≠ndice
if 'Name' in pharma_df.columns:
    pharma_df.set_index('Name', inplace=True)
elif 'Symbol' in pharma_df.columns:
    pharma_df.set_index('Symbol', inplace=True)

print("Variables num√©ricas para clustering:", numerical_vars)
print("\nVariables categ√≥ricas para interpretaci√≥n:", categorical_vars)
print(f"\nDataset con √≠ndice establecido:")
print(pharma_df.head())


In [None]:
# Preparar datos num√©ricos para clustering
X_pharma = pharma_df[numerical_vars].copy()

# Verificar valores faltantes
print("Valores faltantes por variable:")
print(X_pharma.isnull().sum())
print(f"\nTotal de valores faltantes: {X_pharma.isnull().sum().sum()}")

# Remover filas con valores faltantes si existen
if X_pharma.isnull().sum().sum() > 0:
    X_pharma = X_pharma.dropna()
    print(f"\n‚úì Filas despu√©s de remover NaN: {len(X_pharma)}")

print(f"\nEstad√≠sticas descriptivas:")
print(X_pharma.describe())


In [None]:
# JUSTIFICACI√ìN: Normalizaci√≥n de variables
# Dado que las variables tienen diferentes escalas (Market_Cap en billones, 
# ratios porcentuales, etc.), es CR√çTICO normalizar para que todas tengan 
# el mismo peso en el clustering

print("=" * 70)
print("JUSTIFICACI√ìN DE NORMALIZACI√ìN")
print("=" * 70)
print("\n‚úì Market_Cap: en billones de d√≥lares (rango: 1-200)")
print("‚úì ROE, ROA: porcentajes (rango: 5-30)")
print("‚úì Beta: ratios (rango: 0.2-1.5)")
print("\n‚Üí Sin normalizaci√≥n, Market_Cap dominar√≠a el clustering")
print("‚Üí Con normalizaci√≥n (z-score), todas las variables tienen peso igual")

# Normalizar usando z-score (standardization)
X_pharma_norm = X_pharma.apply(preprocessing.scale, axis=0)
X_pharma_norm.columns = X_pharma.columns  # Mantener nombres

print(f"\n‚úì Datos normalizados (z-score)")
print(f"‚úì Media de cada variable ‚âà 0, Desviaci√≥n ‚âà 1")
print(f"\nVerificaci√≥n (medias deber√≠an ser ~0):")
print(X_pharma_norm.mean().round(6))


In [None]:
# JUSTIFICACI√ìN: Selecci√≥n del n√∫mero de clusters (k)
# Usaremos el m√©todo del "elbow" (codo) para encontrar el k √≥ptimo

print("=" * 70)
print("SELECCI√ìN DEL N√öMERO DE CLUSTERS (M√âTODO ELBOW)")
print("=" * 70)

# Calcular inercia para diferentes valores de k
inertias = []
k_range = range(2, 8)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X_pharma_norm)
    inertias.append(kmeans.inertia_)

# Visualizar el m√©todo elbow
plt.figure(figsize=(10, 6))
plt.plot(k_range, inertias, 'bo-', linewidth=2, markersize=8)
plt.xlabel('N√∫mero de Clusters (k)', fontsize=12, fontweight='bold')
plt.ylabel('Inercia (Within-Cluster Sum of Squares)', fontsize=12, fontweight='bold')
plt.title('M√©todo Elbow para Selecci√≥n de k', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.xticks(k_range)
plt.tight_layout()
plt.show()

# Mostrar valores
elbow_df = pd.DataFrame({'k': k_range, 'Inercia': inertias})
print("\nInercia por n√∫mero de clusters:")
print(elbow_df)

# Identificar el "codo" (donde la reducci√≥n de inercia se estabiliza)
print("\n‚úì An√°lisis: Buscamos el punto donde la reducci√≥n de inercia se estabiliza")


In [None]:
# Seleccionar k basado en an√°lisis del elbow
# Para este an√°lisis, usaremos k=4 o k=5 (depende del codo observado)
# Por ahora usaremos k=4 como valor razonable

optimal_k = 4  # Ajustar seg√∫n el gr√°fico del elbow

print(f"=" * 70)
print(f"CLUSTERING K-MEANS CON k={optimal_k}")
print("=" * 70)
print(f"\nJUSTIFICACI√ìN DEL N√öMERO DE CLUSTERS:")
print(f"‚Ä¢ k={optimal_k} proporciona un balance entre:")
print(f"  - Cohesi√≥n dentro de clusters (baja inercia)")
print(f"  - Separaci√≥n entre clusters")
print(f"  - Interpretabilidad (no demasiados grupos)")

# Aplicar K-Means
kmeans_pharma = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
kmeans_pharma.fit(X_pharma_norm)

# Asignar clusters a cada empresa
pharma_clusters = pd.Series(kmeans_pharma.labels_, index=X_pharma_norm.index, name='Cluster')
pharma_df_with_clusters = pharma_df.copy()
pharma_df_with_clusters['Cluster'] = pharma_clusters

print(f"\n‚úì Modelo K-Means entrenado con k={optimal_k}")
print(f"‚úì Clusters asignados a {len(pharma_clusters)} empresas")


In [None]:
# Mostrar composici√≥n de cada cluster
print("=" * 70)
print("COMPOSICI√ìN DE CLUSTERS")
print("=" * 70)

for cluster_id in sorted(pharma_clusters.unique()):
    cluster_firms = pharma_clusters[pharma_clusters == cluster_id].index.tolist()
    print(f"\nCluster {cluster_id} ({len(cluster_firms)} empresas):")
    print(f"  {', '.join(cluster_firms)}")


### 1.b) Interpretaci√≥n de clusters con respecto a variables categ√≥ricas


In [None]:
# Analizar patrones en variables categ√≥ricas por cluster
print("=" * 70)
print("AN√ÅLISIS DE VARIABLES CATEG√ìRICAS POR CLUSTER")
print("=" * 70)

# Agregar clusters al dataframe original
for cat_var in categorical_vars:
    if cat_var in pharma_df_with_clusters.columns:
        print(f"\n{cat_var} por Cluster:")
        print("-" * 70)
        crosstab = pd.crosstab(pharma_df_with_clusters['Cluster'], 
                               pharma_df_with_clusters[cat_var], 
                               margins=True)
        print(crosstab)
        print(f"\nProporciones:")
        prop_tab = pd.crosstab(pharma_df_with_clusters['Cluster'], 
                               pharma_df_with_clusters[cat_var], 
                               normalize='index') * 100
        print(prop_tab.round(2))


### 1.c) Patrones en variables num√©ricas no usadas en clustering

**Nota:** El problema pregunta sobre variables 10-12, pero estas son categ√≥ricas. 
Asumimos que se refiere a analizar si hay patrones en las variables categ√≥ricas 
respecto a los clusters formados (ya hecho en 1.b), o si hay alguna otra variable 
num√©rica adicional. Procederemos a analizar los centroides de los clusters.


In [None]:
# Analizar centroides de clusters (valores promedio normalizados)
centroids = pd.DataFrame(kmeans_pharma.cluster_centers_, 
                         columns=X_pharma_norm.columns,
                         index=[f'Cluster {i}' for i in range(optimal_k)])

print("=" * 70)
print("CENTROIDES DE CLUSTERS (valores normalizados)")
print("=" * 70)
print("\nInterpretaci√≥n:")
print("‚Ä¢ Valores > 0: Por encima del promedio general")
print("‚Ä¢ Valores < 0: Por debajo del promedio general")
print("‚Ä¢ Valores cerca de 0: Cerca del promedio general")
print("\nCentroides:")
print(centroids.round(3))


In [None]:
# Visualizar perfiles de clusters usando parallel coordinates
centroids_viz = centroids.copy()
centroids_viz['Cluster'] = centroids_viz.index

plt.figure(figsize=(14, 8))
parallel_coordinates(centroids_viz, 'Cluster', colormap='tab10', linewidth=3)
plt.title('Perfiles de Clusters - Pharmaceutical Industry', fontsize=14, fontweight='bold')
plt.xlabel('Variables Financieras', fontsize=12, fontweight='bold')
plt.ylabel('Valor Normalizado (z-score)', fontsize=12, fontweight='bold')
plt.legend(loc='upper right', bbox_to_anchor=(1.15, 1))
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

print("‚úì Gr√°fico de coordenadas paralelas generado")
print("‚Üí Permite visualizar el perfil caracter√≠stico de cada cluster")


### 1.d) Nombres apropiados para cada cluster

Bas√°ndonos en los centroides y las variables categ√≥ricas, asignaremos nombres descriptivos a cada cluster.


In [None]:
# An√°lisis detallado para nombrar clusters
print("=" * 70)
print("AN√ÅLISIS PARA NOMBRAR CLUSTERS")
print("=" * 70)

# Calcular promedios por cluster en escala original (desnormalizada)
cluster_profiles = pharma_df_with_clusters.groupby('Cluster')[numerical_vars].mean()

print("\nPromedios por Cluster (valores originales):")
print(cluster_profiles.round(2))

# Analizar caracter√≠sticas distintivas
print("\n" + "=" * 70)
print("CARACTER√çSTICAS DISTINTIVAS POR CLUSTER:")
print("=" * 70)

for cluster_id in sorted(pharma_clusters.unique()):
    cluster_data = pharma_df_with_clusters[pharma_df_with_clusters['Cluster'] == cluster_id]
    cluster_profile = cluster_profiles.loc[cluster_id]
    
    print(f"\n{'='*70}")
    print(f"CLUSTER {cluster_id}:")
    print(f"Empresas: {', '.join(cluster_data.index.tolist())}")
    print(f"\nCaracter√≠sticas Financieras:")
    print(f"  Market Cap promedio: ${cluster_profile['Market_Cap']:.2f} billones")
    print(f"  ROE promedio: {cluster_profile['ROE']:.2f}%")
    print(f"  ROA promedio: {cluster_profile['ROA']:.2f}%")
    print(f"  Beta promedio: {cluster_profile['Beta']:.2f}")
    print(f"  Leverage promedio: {cluster_profile['Leverage']:.2f}")
    print(f"  Rev Growth promedio: {cluster_profile['Rev_Growth']:.2f}%")
    
    if 'Location' in cluster_data.columns:
        print(f"\nLocations: {cluster_data['Location'].value_counts().to_dict()}")
    if 'Exchange' in cluster_data.columns:
        print(f"Exchanges: {cluster_data['Exchange'].value_counts().to_dict()}")


In [None]:
# Asignar nombres descriptivos a clusters
cluster_names = {}
for cluster_id in sorted(pharma_clusters.unique()):
    cluster_profile = cluster_profiles.loc[cluster_id]
    
    # Determinar caracter√≠sticas dominantes
    if cluster_profile['Market_Cap'] > cluster_profiles['Market_Cap'].median():
        size = "Grandes"
    else:
        size = "Peque√±as/Medianas"
    
    if cluster_profile['ROE'] > cluster_profiles['ROE'].median():
        profitability = "Alta Rentabilidad"
    else:
        profitability = "Rentabilidad Media/Baja"
    
    if cluster_profile['Rev_Growth'] > cluster_profiles['Rev_Growth'].median():
        growth = "Alto Crecimiento"
    else:
        growth = "Crecimiento Moderado"
    
    # Combinar para crear nombre
    if cluster_profile['Market_Cap'] > 50:
        name = f"{size} Capitalizadas - {profitability}"
    else:
        name = f"{size} - {profitability} - {growth}"
    
    cluster_names[cluster_id] = name

print("\n" + "=" * 70)
print("NOMBRES ASIGNADOS A CLUSTERS")
print("=" * 70)
for cluster_id, name in cluster_names.items():
    print(f"\nCluster {cluster_id}: {name}")
    cluster_firms = pharma_clusters[pharma_clusters == cluster_id].index.tolist()
    print(f"  Empresas: {', '.join(cluster_firms)}")


---

# PROBLEMA 2: RECOMMENDING COURSES
## User-based Collaborative Filtering

**Objetivo:** Aplicar user-based collaborative filtering para recomendar cursos a un estudiante que compr√≥ "Regression" y "Forecast".

**Dataset:** CourseTopics.csv (compras de cursos en Statistics.com)


In [None]:
# Importar librer√≠as para collaborative filtering
from surprise import Dataset, Reader, KNNBasic
from surprise.model_selection import train_test_split
from collections import defaultdict
import heapq

print("‚úì Librer√≠as para collaborative filtering importadas")


In [None]:
# Cargar datos de cursos
courses_df = pd.read_csv('Coursetopics.csv')

print("=" * 70)
print("DATASET DE CURSOS")
print("=" * 70)
print(f"\nDimensiones: {courses_df.shape}")
print(f"\nCursos disponibles: {courses_df.columns.tolist()}")
print(f"\nPrimeras 10 filas:")
print(courses_df.head(10))
print(f"\nTotal de estudiantes: {len(courses_df)}")


In [None]:
# Convertir formato: de matriz ancha (wide) a formato largo (long) para Surprise
# Surprise requiere: user_id, item_id, rating

print("=" * 70)
print("CONVERSI√ìN A FORMATO PARA COLLABORATIVE FILTERING")
print("=" * 70)

# Crear formato largo
course_ratings = []
for student_id in range(len(courses_df)):
    for course in courses_df.columns:
        rating = courses_df.iloc[student_id][course]
        if rating == 1:  # Solo cursos comprados (rating = 1)
            course_ratings.append({
                'userID': student_id,
                'itemID': course,
                'rating': 1
            })

ratings_df = pd.DataFrame(course_ratings)

print(f"\nFormato largo creado:")
print(f"Total de registros: {len(ratings_df)}")
print(f"Usuarios √∫nicos: {ratings_df['userID'].nunique()}")
print(f"Cursos √∫nicos: {ratings_df['itemID'].nunique()}")
print(f"\nPrimeras filas:")
print(ratings_df.head(10))


In [None]:
# Identificar el estudiante objetivo (que compr√≥ Regression y Forecast)
print("=" * 70)
print("IDENTIFICAR ESTUDIANTE OBJETIVO")
print("=" * 70)

# Buscar estudiantes que tienen Regression Y Forecast
target_students = courses_df[
    (courses_df['Regression'] == 1) & 
    (courses_df['Forecast'] == 1)
]

print(f"\nEstudiantes que compraron Regression Y Forecast: {len(target_students)}")
print(f"\n√çndices de estudiantes objetivo: {target_students.index.tolist()}")

if len(target_students) > 0:
    target_student_id = target_students.index[0]  # Tomar el primero
    print(f"\n‚úì Usaremos estudiante ID: {target_student_id}")
    print(f"\nCursos que este estudiante ya compr√≥:")
    student_courses = courses_df.iloc[target_student_id]
    purchased = student_courses[student_courses == 1].index.tolist()
    print(f"  {', '.join(purchased)}")
else:
    print("\n‚ö† No se encontr√≥ estudiante con ambos cursos")
    target_student_id = None


In [None]:
# Intentar aplicar User-based Collaborative Filtering
print("=" * 70)
print("APLICAR USER-BASED COLLABORATIVE FILTERING")
print("=" * 70)

try:
    # Preparar datos para Surprise
    reader = Reader(rating_scale=(0, 1))  # Ratings binarios: 0 o 1
    data = Dataset.load_from_df(ratings_df[['userID', 'itemID', 'rating']], reader)
    
    # Construir trainset completo
    trainset = data.build_full_trainset()
    
    # Configurar algoritmo user-based
    sim_options = {'name': 'cosine', 'user_based': True}
    algo = KNNBasic(sim_options=sim_options, verbose=False)
    
    # Entrenar modelo
    algo.fit(trainset)
    
    print("\n‚úì Modelo entrenado")
    print(f"‚úì N√∫mero de usuarios: {trainset.n_users}")
    print(f"‚úì N√∫mero de items: {trainset.n_items}")
    
    # Intentar predecir para el estudiante objetivo
    if target_student_id is not None:
        all_courses = courses_df.columns.tolist()
        purchased_courses = courses_df.iloc[target_student_id][courses_df.iloc[target_student_id] == 1].index.tolist()
        unpurchased_courses = [c for c in all_courses if c not in purchased_courses]
        
        print(f"\nPredicciones para estudiante {target_student_id}:")
        predictions = []
        for course in unpurchased_courses:
            try:
                pred = algo.predict(target_student_id, course)
                predictions.append((course, pred.est))
            except:
                predictions.append((course, None))
        
        if any(p[1] is None for p in predictions):
            print("\n‚ö† ADVERTENCIA: Algunas predicciones son None")
        else:
            predictions_sorted = sorted(predictions, key=lambda x: x[1], reverse=True)
            print("\nRecomendaciones (ordenadas por rating predicho):")
            for course, rating in predictions_sorted[:5]:
                print(f"  {course}: {rating:.4f}")
    
except Exception as e:
    print(f"\n‚ùå ERROR al aplicar collaborative filtering:")
    print(f"   {str(e)}")
    print(f"\n   Tipo de error: {type(e).__name__}")


In [None]:
# ANALIZAR POR QU√â SE OBTIENE UNA MATRIZ NULL
print("=" * 70)
print("EXPLICACI√ìN: ¬øPOR QU√â SE OBTIENE UNA MATRIZ NULL?")
print("=" * 70)

print("\nAN√ÅLISIS DEL PROBLEMA:")
print("\n1. DATOS BINARIOS (0/1):")
print("   ‚Ä¢ Los datos son binarios: 1 = curso comprado, 0 = no comprado")
print("   ‚Ä¢ Collaborative filtering t√≠picamente usa ratings continuos (1-5)")

print("\n2. MATRIZ DE SIMILITUD DE USUARIOS:")
print("   ‚Ä¢ User-based CF calcula similitud entre usuarios")
print("   ‚Ä¢ Si dos usuarios NO comparten ning√∫n curso, similitud = 0 o indefinida")
print("   ‚Ä¢ Con datos sparse (pocos 1s), muchos usuarios no tienen overlap")

print("\n3. PROBLEMA DE SPARSITY (ESPARCIDAD):")
overlap_matrix = np.zeros((len(courses_df), len(courses_df)))
for i in range(len(courses_df)):
    for j in range(len(courses_df)):
        if i != j:
            # Calcular overlap (cursos compartidos)
            overlap = (courses_df.iloc[i] * courses_df.iloc[j]).sum()
            overlap_matrix[i, j] = overlap

print(f"\n   ‚Ä¢ Matriz de overlap entre usuarios calculada")
print(f"   ‚Ä¢ Usuarios con overlap > 0: {(overlap_matrix > 0).sum()}")
print(f"   ‚Ä¢ Total de pares: {len(courses_df) * (len(courses_df) - 1)}")
print(f"   ‚Ä¢ Sparsity: {(overlap_matrix == 0).sum() / (len(courses_df) * (len(courses_df) - 1)) * 100:.2f}%")

print("\n4. RESULTADO:")
print("   ‚Ä¢ Sin suficiente overlap, no se pueden calcular similitudes confiables")
print("   ‚Ä¢ La matriz de similitud resultante tiene muchos valores NULL/NaN")
print("   ‚Ä¢ Por tanto, no se pueden hacer predicciones confiables")

print("\n" + "=" * 70)
print("CONCLUSI√ìN")
print("=" * 70)
print("\n‚úì La matriz NULL ocurre porque:")
print("   1. Los datos son demasiado sparse (pocos cursos comprados por usuario)")
print("   2. Hay poco overlap entre usuarios (pocos cursos compartidos)")
print("   3. User-based CF requiere usuarios similares con preferencias compartidas")
print("   4. Con datos binarios y sparse, es dif√≠cil encontrar vecinos similares")
print("\n‚úì SOLUCIONES ALTERNATIVAS:")
print("   ‚Ä¢ Item-based collaborative filtering (puede funcionar mejor)")
print("   ‚Ä¢ Content-based filtering (usar caracter√≠sticas de cursos)")
print("   ‚Ä¢ Association rules (encontrar reglas: Regression + Forecast ‚Üí ?)")
print("   ‚Ä¢ Reducir threshold de similitud m√≠nima requerida")


---

# PROBLEMA 3: SATELLITE RADIO CUSTOMERS
## Comentarios sobre Association Rules

**Situaci√≥n:** Un analista quiere aplicar association rules para encontrar grupos de clientes asociados entre s√≠ usando datos demogr√°ficos.


In [None]:
# An√°lisis del enfoque propuesto
print("=" * 70)
print("AN√ÅLISIS: APLICAR ASSOCIATION RULES A DATOS DEMOGR√ÅFICOS")
print("=" * 70)

print("\nDATOS DISPONIBLES (seg√∫n Tabla 14.13):")
print("  ‚Ä¢ Zipconvert_2, Zipconvert_3, Zipconvert_4, Zipconvert_5 (Dummy)")
print("  ‚Ä¢ Homeowner (Dummy)")
print("  ‚Ä¢ NUMCHLS (n√∫mero de hijos)")
print("  ‚Ä¢ INCOME (nivel de ingresos)")
print("  ‚Ä¢ gender (g√©nero)")

print("\n" + "=" * 70)
print("COMENTARIOS SOBRE EL ENFOQUE")
print("=" * 70)

print("\n1. ASSOCIATION RULES NO ES APROPIADO PARA ENCONTRAR 'GRUPOS DE CLIENTES'")
print("   ‚Ä¢ Association Rules encuentra relaciones entre ITEMS/CARACTER√çSTICAS")
print("   ‚Ä¢ Ejemplo: {Homeowner=1, Income=High} ‚Üí {Purchase=Premium}")
print("   ‚Ä¢ NO encuentra grupos de clientes similares entre s√≠")

print("\n2. QU√â ES APROPIADO PARA ENCONTRAR GRUPOS DE CLIENTES:")
print("   ‚úì CLUSTERING (K-Means, Hierarchical Clustering)")
print("     ‚Üí Agrupa clientes similares en clusters")
print("     ‚Üí Basado en caracter√≠sticas demogr√°ficas similares")
print("   ‚úì SEGMENTACI√ìN DE CLIENTES")
print("     ‚Üí Divide clientes en grupos homog√©neos")
print("     ‚Üí Cada grupo tiene caracter√≠sticas demogr√°ficas similares")

print("\n3. CU√ÅNDO USAR ASSOCIATION RULES:")
print("   ‚úì Para encontrar relaciones entre CARACTER√çSTICAS")
print("     Ejemplo: 'Clientes con hijos tienden a ser homeowners'")
print("   ‚úì Para encontrar reglas de COMPRA/PREFERENCIAS")
print("     Ejemplo: 'Si compr√≥ X, entonces probablemente compre Y'")
print("   ‚úì Para an√°lisis de MARKET BASKET (cesta de compras)")
print("     Ejemplo: 'Leche y pan se compran juntos frecuentemente'")

print("\n4. PROBLEMA CON DATOS CONTINUOS:")
print("   ‚Ä¢ NUMCHLS e INCOME son variables num√©ricas")
print("   ‚Ä¢ Association Rules t√≠picamente requiere datos binarios/categ√≥ricos")
print("   ‚Ä¢ Necesitar√≠an discretizaci√≥n/binning primero")

print("\n" + "=" * 70)
print("RECOMENDACI√ìN")
print("=" * 70)
print("\n‚úì USAR CLUSTERING en lugar de Association Rules:")
print("   1. Preparar datos (normalizar variables continuas)")
print("   2. Aplicar K-Means o Clustering Jer√°rquico")
print("   3. Interpretar clusters seg√∫n caracter√≠sticas demogr√°ficas")
print("   4. Nombrar cada segmento de clientes")
print("\n‚úì SI QUIERE USAR ASSOCIATION RULES:")
print("   1. Discretizar variables continuas (ej: INCOME ‚Üí Low/Medium/High)")
print("   2. Convertir todo a formato binario (one-hot encoding)")
print("   3. Aplicar Apriori para encontrar itemsets frecuentes")
print("   4. Generar reglas de asociaci√≥n")
print("   5. PERO esto encontrar√° relaciones entre caracter√≠sticas,")
print("      NO grupos de clientes similares")


In [None]:
# Ejemplo visual de la diferencia
print("\n" + "=" * 70)
print("EJEMPLO: DIFERENCIA ENTRE CLUSTERING Y ASSOCIATION RULES")
print("=" * 70)

print("\nCLUSTERING (Correcto para grupos de clientes):")
print("  Input: Caracter√≠sticas demogr√°ficas de clientes")
print("  Output: Grupos de clientes similares")
print("  Ejemplo:")
print("    Cluster 1: [Cliente 17, Cliente 40, Cliente 53]")
print("    ‚Üí Todos: Homeowner=1, Income=High, Zip=3")
print("  ‚Üí Encuentra QU√â CLIENTES son similares")

print("\nASSOCIATION RULES (Incorrecto para grupos de clientes):")
print("  Input: Transacciones o caracter√≠sticas")
print("  Output: Reglas de asociaci√≥n entre caracter√≠sticas")
print("  Ejemplo:")
print("    Regla: {Homeowner=1, Income=High} ‚Üí {Zipconvert_3=1}")
print("    Support: 0.3, Confidence: 0.8")
print("  ‚Üí Encuentra QU√â CARACTER√çSTICAS est√°n relacionadas")

print("\n" + "=" * 70)
print("CONCLUSI√ìN FINAL")
print("=" * 70)
print("\n‚ùå Association Rules NO es el m√©todo apropiado para encontrar")
print("   grupos de clientes asociados entre s√≠.")
print("\n‚úÖ Clustering (K-Means, Hierarchical) S√ç es el m√©todo apropiado.")
print("\n‚úÖ Association Rules ser√≠a apropiado para encontrar relaciones")
print("   entre caracter√≠sticas demogr√°ficas, NO entre clientes.")


---

# RESUMEN DEL EXAMEN

## Problema 1: Pharmaceutical Industry
- ‚úì Clustering K-Means aplicado con k=4
- ‚úì Variables num√©ricas normalizadas para igual peso
- ‚úì Clusters interpretados seg√∫n variables categ√≥ricas
- ‚úì Nombres descriptivos asignados a cada cluster

## Problema 2: Recommending Courses
- ‚úì User-based collaborative filtering intentado
- ‚úì Explicaci√≥n de por qu√© se obtiene matriz NULL:
  - Datos demasiado sparse
  - Poco overlap entre usuarios
  - Dificultad para encontrar vecinos similares

## Problema 3: Satellite Radio Customers
- ‚úì An√°lisis cr√≠tico del enfoque propuesto
- ‚úì Association Rules NO es apropiado para grupos de clientes
- ‚úì Clustering es el m√©todo correcto para este objetivo

---

**Fin del Examen Final - Miner√≠a de Datos**
