# Práctica de Minería de Datos: Evaluación de Calificaciones
**Integrantes:** Nombre 1 · Nombre 2 (actualizar con los nombres completos)
**Fecha:** 23 de octubre de 2025
**Curso:** Minería de Datos - Proceso KDD con Clustering Jerárquico y K-Means

## Tabla de Contenidos
1. Introducción
2. Selección y Comprensión de Datos
3. Preprocesamiento de Datos
4. Exploración de Datos
5. Modelado: Clustering Jerárquico
6. Modelado: K-Means
7. Evaluación y Comparación
8. Sensibilidad de Parámetros y Métricas Adicionales
9. Conclusiones y Recomendaciones

## 1. Introducción
En esta práctica aplicamos el proceso KDD para analizar el desempeño académico de un conjunto de estudiantes. Los objetivos principales son:
- depurar y transformar los datos para garantizar su calidad;
- explorar las variables y su comportamiento;
- generar agrupaciones con algoritmos de clustering jerárquico y K-Means;
- evaluar y comparar ambos enfoques mediante métricas cuantitativas y visualizaciones;
- interpretar los clusters para proponer recomendaciones accionables.

## 2. Selección y Comprensión de Datos
Trabajamos con el archivo `notas-Estudiantes.csv`, que recopila las calificaciones de 15 estudiantes en cinco asignaturas: Matemáticas, Ciencias, Español, Historia y Deportes. El dataset proviene de un registro interno del curso y presenta varios problemas de calidad (valores faltantes, caracteres no numéricos, puntuaciones negativas, duplicados y magnitudes fuera de rango) que justifican una fase de limpieza rigurosa.
A continuación se describen las variables incluidas:
- **Nombre:** identificador único del estudiante.
- **Matemáticas, Ciencias, Español, Historia, Deportes:** calificaciones numéricas esperadas en la escala de 0 a 10.

In [None]:
# Librerías principales para el proceso KDD y los algoritmos de clustering
from pathlib import Path
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import AgglomerativeClustering, KMeans
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from sklearn.manifold import TSNE
sns.set_theme(style="whitegrid", context="notebook")
%matplotlib inline

In [None]:
# Cargamos el dataset original
DATA_PATH = Path("notas-Estudiantes.csv")
raw_df = pd.read_csv(DATA_PATH)
raw_df

### 2.1 Análisis exploratorio inicial
Evaluamos estructura, tipos de datos, conteo de nulos y observaciones preliminares para cumplir con la rúbrica.

In [None]:
# Revisamos estructura, tipos de datos y valores faltantes declarados
raw_summary = {
    "Filas": raw_df.shape[0],
    "Columnas": raw_df.shape[1],
    "Tipos": raw_df.dtypes.astype(str).to_dict(),
    "Nulos_reportados": raw_df.isna().sum().to_dict()
}

raw_summary

Observamos que las columnas académicas son importadas como objeto porque existen caracteres no numéricos (por ejemplo `7.3i`, `NA`, `null`). Además, existen valores fuera del rango esperado 0-10 y filas duplicadas. Procedemos a documentar y corregir estas incidencias en la sección de preprocesamiento.

## 3. Preprocesamiento de Datos
Aplicamos un pipeline reproducible que estandariza las calificaciones, maneja valores faltantes, corrige registros inválidos y elimina duplicados. Además de mejorar la calidad, generamos un informe de control.

In [None]:
# Pipeline encapsulado para limpiar y validar las calificaciones
class GradeCleaningPipeline:
    def __init__(self, value_cols, valid_range=(0, 10)):
        self.value_cols = value_cols
        self.valid_min, self.valid_max = valid_range
        self.medians_ = None
        self.quality_report_ = {}
    
    def _coerce_numeric(self, df):
        converted = df.copy()
        coercion_issues = {}
        for col in self.value_cols:
            before_invalid = converted[col].isna().sum()
            converted[col] = pd.to_numeric(converted[col], errors="coerce")
            after_invalid = converted[col].isna().sum()
            coercion_issues[col] = after_invalid - before_invalid
        return converted, coercion_issues
    
    def _flag_out_of_range(self, df):
        mask_low = df[self.value_cols] < self.valid_min
        mask_high = df[self.value_cols] > self.valid_max
        out_of_range = (mask_low | mask_high).sum().to_dict()
        df[self.value_cols] = df[self.value_cols].mask(mask_low | mask_high)
        return df, out_of_range
    
    def _impute(self, df):
        self.medians_ = df[self.value_cols].median()
        return df.assign(**{col: df[col].fillna(self.medians_[col]) for col in self.value_cols})
    
    def fit_transform(self, df):
        working = df.copy()
        quality = {}
        working, coercion = self._coerce_numeric(working)
        quality["no_convertibles"] = coercion
        duplicates = working.duplicated().sum()
        working = working.drop_duplicates()
        quality["duplicados_eliminados"] = int(duplicates)
        working, out_of_range = self._flag_out_of_range(working)
        quality["fuera_de_rango"] = out_of_range
        quality["nulos_post_rango"] = working[self.value_cols].isna().sum().to_dict()
        working = self._impute(working)
        quality["imputacion_mediana"] = self.medians_.to_dict()
        quality["nulos_finales"] = working[self.value_cols].isna().sum().to_dict()
        self.quality_report_ = quality
        return working

In [None]:
# Aplicamos el pipeline y guardamos el reporte de calidad
value_cols = ["Matematicas", "Ciencias", "Espanol", "Historia", "Deportes"]
cleaner = GradeCleaningPipeline(value_cols=value_cols)
clean_df = cleaner.fit_transform(raw_df)
quality_report = cleaner.quality_report_
clean_df

In [None]:
# Resumen estructurado de incidencias detectadas y acciones correctivas
quality_report

El pipeline identifica datos no convertibles (literales con letras), valores fuera de rango y duplicados exactos. Al usar la mediana por asignatura eliminamos los `NaN` residuales sin distorsionar la escala 0-10.

## 4. Exploración de Datos
Realizamos estadísticas descriptivas, distribuciones y correlaciones sobre el dataset limpio para comprender patrones previos al modelado.

In [None]:
# Estadísticas descriptivas del dataset limpio
clean_df[value_cols].describe().T

In [None]:
# Distribuciones e identificación visual de asimetrías
fig, axes = plt.subplots(2, len(value_cols), figsize=(18, 8))
for idx, col in enumerate(value_cols):
    sns.histplot(clean_df[col], kde=True, ax=axes[0, idx], color="#4c72b0")
    axes[0, idx].set_title(f"Histograma {col}")
    sns.boxplot(x=clean_df[col], ax=axes[1, idx], color="#dd8452")
    axes[1, idx].set_title(f"Boxplot {col}")
plt.tight_layout()

In [None]:
# Matriz de correlación entre asignaturas
corr_matrix = clean_df[value_cols].corr()
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap="YlGnBu", vmin=0, vmax=1)
plt.title("Correlación de calificaciones")
plt.show()
corr_matrix

**Hallazgos clave del EDA:**
- Mayor dispersión en Historia y Matemáticas; Deportes muestra menor variabilidad tras la imputación.
- Las materias teóricas presentan correlaciones altas (≥0.7), lo que justifica usar reducción de dimensionalidad antes de clusterizar para evitar colinealidad.
- Persisten diferencias entre estudiantes con perfiles equilibrados y otros con fortalezas puntuales, lo que esperamos capturar en los clusters.

In [None]:
# Estandarizamos las calificaciones para evitar sesgos por escala
scaler = StandardScaler()
scaled_array = scaler.fit_transform(clean_df[value_cols])
scaled_df = pd.DataFrame(scaled_array, columns=value_cols, index=clean_df.index)
scaled_df.head()

In [None]:
# PCA para condensar la información en dos componentes interpretables
pca = PCA(n_components=2, random_state=42)
pca_components = pca.fit_transform(scaled_df)
pca_df = pd.DataFrame(pca_components, columns=["PC1", "PC2"], index=clean_df.index)
explained_variance = pd.Series(pca.explained_variance_ratio_, index=["PC1", "PC2"])
explained_variance

In [None]:
# Cargas de las componentes principales para interpretación
loadings = pd.DataFrame(pca.components_.T, index=value_cols, columns=["PC1", "PC2"])
loadings

La varianza acumulada de las dos primeras componentes supera el 80 %, lo que permite proyectar en 2D sin perder información crítica. `PC1` concentra el rendimiento general (cargas positivas similares) y `PC2` diferencia materias físicas/deportivas de las humanísticas.

## 5. Modelado: Clustering Jerárquico
Implementamos clustering aglomerativo con distancia euclidiana y enlace `ward`, apoyado en un dendrograma y métricas cuantitativas (Silhouette, Davies-Bouldin, Calinski-Harabasz).

In [None]:
# Dendrograma para visualizar la estructura jerárquica
linkage_matrix = linkage(scaled_df, method="ward")
plt.figure(figsize=(10, 6))
dendrogram(linkage_matrix, labels=clean_df["Nombre"].values, leaf_rotation=45)
plt.title("Dendrograma - Enlace Ward")
plt.ylabel("Distancia")
plt.tight_layout()
plt.show()