# Clonado de repositorio y carga de datos

In [None]:
# MODO EXAMEN: clonado y carga de datos (sin rutas absolutas)
!test -d PIA_04_datasets || git clone https://github.com/kachytronico/PIA_04_datasets
!find PIA_04_datasets -name "datasets.zip"
!mkdir -p PIA_04_datasets/unzip
!unzip -o PIA_04_datasets/datasets.zip -d PIA_04_datasets/unzip
!find PIA_04_datasets/unzip -name "*.csv"

import pandas as pd

# Aquí localizo y cargo solo Tesla
df_tesla = pd.read_csv("PIA_04_datasets/unzip/sistema_de_arranque.csv")# Se añaden comillas a la ruta para que sea un string válido
print("✅ df_tesla:", df_tesla.shape)
df_tesla.head()

"test" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
Cloning into 'PIA_04_datasets'...
Acceso denegado: PIA_04_DATASETS
No se encuentra el archivo: -NAME
La sintaxis del comando no es correcta.
"unzip" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
No se encuentra el archivo: PIA_04_DATASETS/UNZIP
No se encuentra el archivo: -NAME


ModuleNotFoundError: No module named 'pandas'

## Carga de datos

In [None]:
# Aquí localizo y cargo el CSV del problema con rutas encontradas
def _find_csv(name_contains):
    for p in csv_paths:
        if name_contains in os.path.basename(p):
            return p
    return None

tesla_path = _find_csv("sistema_de_arranque")
if tesla_path is None:
    raise FileNotFoundError("No encontré un CSV con 'sistema_de_arranque' en el repositorio")

df_tesla = dfs.get("sistema_de_arranque", pd.read_csv(tesla_path))
print(f"✅ CSV usado: {tesla_path}")
print("Filas, columnas:", df_tesla.shape)
display(df_tesla.head())

### Texto para la captura

- Título: Carga inicial de datos
- Qué hice y por qué: Aquí localicé el CSV del sistema de arranque con `find` y lo cargué en `df_tesla` para trabajar con rutas reales. También mostré el tamaño y las primeras filas para verificar el contenido.
- Cómo lo comprobé: Lo comprobé viendo `df_tesla.shape` y `df_tesla.head()` en la salida.

# Problema 1: Sistema de arranque Tesla

## Realiza un AED sobre el conjunto de datos.

In [None]:
# Aquí hago un vistazo general del dataset
print("Filas, columnas:", df_tesla.shape)
display(df_tesla.head(3))

nulos = (df_tesla.isna().mean().sort_values(ascending=False) * 100).round(2)
display(nulos.to_frame("porcentaje_nulos_%").head(15))

### Texto para la captura

- Título: Panorama del dataset
- Qué hice y por qué: Aquí revisé tamaño, primeras filas y porcentaje de nulos para entender la estructura. Lo hice para detectar variables con muchos vacíos antes del análisis detallado.
- Cómo lo comprobé: Lo comprobé con el `head()` y la tabla de nulos en la salida.

## Estadísticos iniciales.

In [None]:
# Aquí calculo estadísticos iniciales
display(df_tesla.describe(include="all").T)

### Texto para la captura

- Título: Resumen estadístico
- Qué hice y por qué: Aquí calculé estadísticas descriptivas de todas las columnas. Lo hice para tener una línea base de medias, dispersión y valores frecuentes.
- Cómo lo comprobé: Lo comprobé revisando la tabla de `describe()`.

## Distribuciones de las variables numéricas del conjunto de datos.

In [None]:
# Aquí visualizo distribuciones de variables numéricas
import matplotlib.pyplot as plt

num_cols = df_tesla.select_dtypes(include="number").columns
if len(num_cols) == 0:
    print("No hay columnas numéricas para graficar")
else:
    df_tesla[num_cols].hist(bins=20, figsize=(12, 8))
    plt.suptitle("Distribuciones numéricas")
    plt.tight_layout()
    plt.show()

### Texto para la captura

- Título: Distribuciones numéricas
- Qué hice y por qué: Aquí graficqué histogramas de variables numéricas para observar formas y posibles asimetrías. Lo hice para anticipar transformaciones o outliers.
- Cómo lo comprobé: Lo comprobé observando los gráficos generados.

## Matriz de correlación.

In [None]:
# Aquí calculo y muestro la matriz de correlación
import seaborn as sns
import matplotlib.pyplot as plt

num_cols = df_tesla.select_dtypes(include="number").columns
if len(num_cols) < 2:
    print("No hay suficientes columnas numéricas para correlación")
else:
    corr = df_tesla[num_cols].corr()
    plt.figure(figsize=(10, 8))
    sns.heatmap(corr, cmap="coolwarm", center=0)
    plt.title("Matriz de correlación")
    plt.tight_layout()
    plt.show()

### Texto para la captura

- Título: Correlaciones principales
- Qué hice y por qué: Aquí calculé la correlación entre variables numéricas y la visualicé en un heatmap. Lo hice para detectar relaciones fuertes o redundancias.
- Cómo lo comprobé: Lo comprobé con el mapa de calor y sus valores.

## Realiza el preprocesamiento de datos de tu problema.

In [None]:
# TODO: plan de preprocesado (split, nulos, encoding, escalado, PCA)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Reserva un conjunto de datos para validación y otro para testeo.

In [None]:
# TODO: train/valid/test con estratificación y tamaños

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Columnas inútiles, valores sin sentido y atípicos.

In [None]:
# TODO: criterios de limpieza en train (IDs, constantes, outliers)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Tratamiento de valores nulos.

In [None]:
# TODO: imputación fit solo en train

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Análisis de variabilidad.

In [None]:
# TODO: eliminar varianza 0/casi 0

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Columnas categóricas.

In [None]:
# TODO: encoding categóricas (OneHotEncoder)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Reducción de la dimensionalidad.

In [None]:
# TODO: PCA (fit solo en train)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Entrena y optimiza un modelo de KNN.

### Entrenar un KNN.

In [None]:
# TODO: entrenamiento KNN

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Optimizar el KNN con la técnica GridSearch.

In [None]:
# TODO: GridSearchCV para KNN

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Entrena y optimiza un modelo de DT.

### Entrenar un DT.

In [None]:
# TODO: entrenamiento DT

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Explicar el DT.

In [None]:
# TODO: explicación DT (antes)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Optimizar el DT con la técnica RandomSearch.

In [None]:
# TODO: RandomizedSearchCV para DT

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Explicar el DT.

In [None]:
# TODO: explicación DT (después)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Entrena y optimiza un modelo de SVM.

### Entrenar un SVM.

In [None]:
# TODO: entrenamiento SVM

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Optimizar el SVM con la técnica GridSearch.

In [None]:
# TODO: GridSearchCV para SVM

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Entrena y optimiza un modelo de NL.

### Entrenar un NL.

In [None]:
# TODO: entrenamiento NL (MLPClassifier)

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Optimizar el NL con la técnica RandomSearch.

In [None]:
# TODO: RandomizedSearchCV para NL

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

## Crear modelos ensemble usando:

### Los tres mejores modelos obtenidos, usando el siguiente criterio: media aritmética de todos los modelos que tengan una fiabilidad superior al 80%.

In [None]:
# TODO: ensemble por fiabilidad > 0.80

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 

### Todos los modelos, usando como criterio un modelo de Regresión Lineal.

In [None]:
# TODO: ensemble con LinearRegression

### Texto para la captura

- Título: 
- Qué hice y por qué: 
- Cómo lo comprobé: 