# Clonado de repositorio y carga de datos

In [None]:
# MODO EXAMEN: clonado y carga de datos (sin rutas absolutas)
!test -d PIA_04_datasets || git clone https://github.com/kachytronico/PIA_04_datasets
!find PIA_04_datasets -name "datasets.zip"
!mkdir -p PIA_04_datasets/unzip
!unzip -o PIA_04_datasets/datasets.zip -d PIA_04_datasets/unzip
!find PIA_04_datasets/unzip -name "*.csv"


## Carga de datos

### Objetivo y plan

Quiero localizar el CSV de fallos y cargarlo en `df_fallos` sin rutas absolutas.
Voy a revisar `df_fallos.shape` y un `head()` para validar el contenido.

In [None]:
import pandas as pd

# Aquí localizo y cargo solo Tesla
df_fallos = pd.read_csv("PIA_04_datasets/unzip/fallos_producto.csv")# Se añaden comillas a la ruta para que sea un string válido
print("✅ df_fallos:", df_fallos.shape)
print(f"✅ CSV usado: PIA_04_datasets/unzip/fallos_producto.csv")
df_fallos.head() 

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

# Problema 2: Fallos de producto

## Realiza un AED sobre el conjunto de datos.

### Objetivo y plan

Quiero obtener una vision general del dataset para orientar la limpieza.
Voy a revisar dimensiones, primeras filas y porcentaje de nulos.

In [None]:
# Aquí hago un vistazo general del dataset
print("Filas, columnas:", df_fallos.shape)
display(df_fallos.head(3))

nulos = (df_fallos.isna().mean().sort_values(ascending=False) * 100).round(2)
display(nulos.to_frame("porcentaje_nulos_%").head(15))

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Estadísticos iniciales.

### Objetivo y plan

Quiero resumir el comportamiento de cada variable con `describe(include="all")`.
Busco rangos, dispersion y columnas con pocos valores unicos.

In [None]:
# Aquí calculo estadísticos iniciales
display(df_fallos.describe(include="all").T)

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Distribuciones de las variables numéricas del conjunto de datos.

### Objetivo y plan

Quiero ver la distribucion de las variables numericas para detectar sesgos.
Mirare `num_cols` y los histogramas para decidir si necesito escalado.

In [None]:
# Aquí visualizo distribuciones de variables numéricas
import matplotlib.pyplot as plt

num_cols = df_fallos.select_dtypes(include="number").columns
if len(num_cols) == 0:
    print("No hay columnas numéricas para graficar")
else:
    df_fallos[num_cols].hist(bins=20, figsize=(12, 8))
    plt.suptitle("Distribuciones numéricas")
    plt.tight_layout()
    plt.show()

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Matriz de correlación.

### Objetivo y plan

Quiero identificar correlaciones fuertes entre variables numericas.
Revisare la matriz `corr` y el heatmap para detectar redundancias.

In [None]:
# Aquí calculo y muestro la matriz de correlación
import seaborn as sns
import matplotlib.pyplot as plt

num_cols = df_fallos.select_dtypes(include="number").columns
if len(num_cols) < 2:
    print("No hay suficientes columnas numéricas para correlación")
else:
    corr = df_fallos[num_cols].corr()
    plt.figure(figsize=(10, 8))
    sns.heatmap(corr, cmap="coolwarm", center=0)
    plt.title("Matriz de correlación")
    plt.tight_layout()
    plt.show()

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Realiza el preprocesamiento de datos de tu problema.

### Objetivo y plan

Quiero definir el preprocesado completo sin fuga de datos.
Voy a fijar imputacion, codificacion, escalado y PCA ajustando solo con `X_train`.

In [None]:
# TODO: plan de preprocesado (split, nulos, encoding, escalado, PCA)

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Reserva un conjunto de datos para validación y otro para testeo.

### Objetivo y plan

Quiero reservar validacion y test solo con datos etiquetados.
Revisare tamanos y proporciones para asegurar un split limpio.

In [None]:
# TODO: train/valid/test solo con datos etiquetados

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Columnas inútiles, valores sin sentido y atípicos.

### Objetivo y plan

Quiero detectar columnas inutiles (IDs, constantes) y atipicos que distorsionen el aprendizaje.
Aplicare criterios simples sobre `X_train` y anotare lo eliminado.

In [None]:
# TODO: criterios de limpieza en train (IDs, constantes, outliers)

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Tratamiento de valores nulos.

### Objetivo y plan

Quiero imputar nulos ajustando el imputador solo en `X_train`.
Medire el porcentaje de nulos antes y despues para comprobar la mejora.

In [None]:
# TODO: imputación fit solo en train

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Análisis de variabilidad.

### Objetivo y plan

Quiero eliminar variables con varianza cero o casi cero.
Anotare cuantas columnas se eliminan y cuantas quedan.

In [None]:
# TODO: eliminar varianza 0/casi 0

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Columnas categóricas.

### Objetivo y plan

Quiero codificar las categoricas con OneHotEncoder.
Medire el numero de columnas nuevas y el cambio de dimensionalidad.

In [None]:
# TODO: encoding categóricas (OneHotEncoder)

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Reducción de la dimensionalidad.

### Objetivo y plan

Quiero reducir dimensionalidad con PCA manteniendo varianza suficiente.
Revisare la varianza explicada y el numero de componentes.

In [None]:
# TODO: PCA (fit solo en train)

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Realiza un etiquetado automático.

### Objetivo y plan

Quiero propagar etiquetas con `LabelPropagation` o `LabelSpreading` y umbral 0.90.
Usare solo las pseudo-etiquetas para entrenar, no para validar ni testear.

In [None]:
# TODO: LabelPropagation/LabelSpreading + umbral 0.90

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Entrena y optimiza distintos modelos supervisados.

### Modelo 1.

### Objetivo y plan

Quiero entrenar y optimizar el primer modelo supervisado.
Registrare el mejor conjunto de hiperparametros y su metrica en validacion.

In [None]:
# TODO: modelo supervisado 1 + optimización

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

### Modelo 2.

### Objetivo y plan

Quiero entrenar un segundo modelo con enfoque distinto al primero.
Comparare su rendimiento con el modelo 1 para ver si aporta diversidad.

In [None]:
# TODO: modelo supervisado 2 + optimización

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

### Modelo 3.

### Objetivo y plan

Quiero entrenar un tercer modelo supervisado para ampliar la comparativa.
Registrare sus hiperparametros y metricas de validacion.

In [None]:
# TODO: modelo supervisado 3 + optimización

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.

## Crea un modelo ensemble y explica el criterio que utilizas.

### Objetivo y plan

Quiero construir un ensemble final y justificar el criterio de combinacion.
Comparare su rendimiento con el mejor modelo individual.

In [None]:
# TODO: ensemble final + criterio

### Conclusiones (a completar tras ejecutar)Aqui completare los valores observados en el output (shape, % nulos, correlaciones).Incluire las metricas clave y, si aplica, los mejores hiperparametros.Comparare con modelos o ensembles para justificar la decision final.