# Clonado de repositorio y carga de datos

In [None]:
# MODO EXAMEN: clonado y carga de datos (sin rutas absolutas)
!test -d PIA_04_datasets || git clone https://github.com/kachytronico/PIA_04_datasets
!find PIA_04_datasets -name "datasets.zip"
!mkdir -p PIA_04_datasets/unzip
!unzip -o PIA_04_datasets/datasets.zip -d PIA_04_datasets/unzip
!find PIA_04_datasets/unzip -name "*.csv"

from pathlib import Path
import pandas as pd

# Aquí cargo solo fallos
df_fallos = pd.read_csv("PIA_04_datasets/unzip/fallos_producto.csv") # Se añaden comillas a la ruta para que sea un string válido
print("✅ df_fallos:", "PIA_04_datasets/unzip/fallos_producto.csv", df_fallos.shape)

## Carga de datos

In [None]:
# Aquí localizo y cargo el CSV del problema con rutas encontradas
def _find_csv(name_contains):
    for p in csv_paths:
        if name_contains in os.path.basename(p):
            return p
    return None

fallos_path = _find_csv("fallos_producto")
if fallos_path is None:
    raise FileNotFoundError("No encontré un CSV con 'fallos_producto' en el repositorio")

df_fallos = dfs.get("fallos_producto", pd.read_csv(fallos_path))
print(f"✅ CSV usado: {fallos_path}")
print("Filas, columnas:", df_fallos.shape)
display(df_fallos.head())

### Texto para la captura

- Título: Carga inicial de datos
- Qué hice y por qué: Aquí localicé el CSV de fallos con `find` y lo cargué en `df_fallos` para trabajar con rutas reales. También mostré el tamaño y las primeras filas para verificar el contenido.
- Cómo lo comprobé: Lo comprobé viendo `df_fallos.shape` y `df_fallos.head()` en la salida.

# Problema 2: Fallos de producto

## Realiza un AED sobre el conjunto de datos.

In [None]:
# Aquí hago un vistazo general del dataset
print("Filas, columnas:", df_fallos.shape)
display(df_fallos.head(3))

nulos = (df_fallos.isna().mean().sort_values(ascending=False) * 100).round(2)
display(nulos.to_frame("porcentaje_nulos_%").head(15))

### Texto para la captura

- Título: Panorama del dataset
- Qué hice y por qué: Aquí revisé tamaño, primeras filas y porcentaje de nulos para entender la estructura. Lo hice para detectar variables con muchos vacíos antes del análisis detallado.
- Cómo lo comprobé: Lo comprobé con el `head()` y la tabla de nulos en la salida.

## Estadísticos iniciales.

In [None]:
# Aquí calculo estadísticos iniciales
display(df_fallos.describe(include="all").T)

### Texto para la captura

- Título: Resumen estadístico
- Qué hice y por qué: Aquí calculé estadísticas descriptivas de todas las columnas. Lo hice para tener una línea base de medias, dispersión y valores frecuentes.
- Cómo lo comprobé: Lo comprobé revisando la tabla de `describe()`.

## Distribuciones de las variables numéricas del conjunto de datos.

In [None]:
# Aquí visualizo distribuciones de variables numéricas
import matplotlib.pyplot as plt

num_cols = df_fallos.select_dtypes(include="number").columns
if len(num_cols) == 0:
    print("No hay columnas numéricas para graficar")
else:
    df_fallos[num_cols].hist(bins=20, figsize=(12, 8))
    plt.suptitle("Distribuciones numéricas")
    plt.tight_layout()
    plt.show()

### Texto para la captura

- Título: Distribuciones numéricas
- Qué hice y por qué: Aquí graficqué histogramas de variables numéricas para observar formas y posibles asimetrías. Lo hice para anticipar transformaciones o outliers.
- Cómo lo comprobé: Lo comprobé observando los gráficos generados.

## Matriz de correlación.

In [None]:
# Aquí calculo y muestro la matriz de correlación
import seaborn as sns
import matplotlib.pyplot as plt

num_cols = df_fallos.select_dtypes(include="number").columns
if len(num_cols) < 2:
    print("No hay suficientes columnas numéricas para correlación")
else:
    corr = df_fallos[num_cols].corr()
    plt.figure(figsize=(10, 8))
    sns.heatmap(corr, cmap="coolwarm", center=0)
    plt.title("Matriz de correlación")
    plt.tight_layout()
    plt.show()

### Texto para la captura

- Título: Correlaciones principales
- Qué hice y por qué: Aquí calculé la correlación entre variables numéricas y la visualicé en un heatmap. Lo hice para detectar relaciones fuertes o redundancias.
- Cómo lo comprobé: Lo comprobé con el mapa de calor y sus valores.

## Realiza el preprocesamiento de datos de tu problema.

In [None]:
# TODO: plan de preprocesado (split, nulos, encoding, escalado, PCA)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Reserva un conjunto de datos para validación y otro para testeo.

In [None]:
# TODO: train/valid/test solo con datos etiquetados

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Columnas inútiles, valores sin sentido y atípicos.

In [None]:
# TODO: criterios de limpieza en train (IDs, constantes, outliers)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Tratamiento de valores nulos.

In [None]:
# TODO: imputación fit solo en train

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Análisis de variabilidad.

In [None]:
# TODO: eliminar varianza 0/casi 0

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Columnas categóricas.

In [None]:
# TODO: encoding categóricas (OneHotEncoder)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Reducción de la dimensionalidad.

In [None]:
# TODO: PCA (fit solo en train)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Realiza un etiquetado automático.

In [None]:
# TODO: LabelPropagation/LabelSpreading + umbral 0.90

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Entrena y optimiza distintos modelos supervisados.

### Modelo 1.

In [None]:
# TODO: modelo supervisado 1 + optimización

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Modelo 2.

In [None]:
# TODO: modelo supervisado 2 + optimización

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Modelo 3.

In [None]:
# TODO: modelo supervisado 3 + optimización

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Crea un modelo ensemble y explica el criterio que utilizas.

In [None]:
# TODO: ensemble final + criterio

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 