[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](
https://colab.research.google.com/github/juliopez/Taller-Fundamentos-Data-Science-Python/blob/main/06_Actividad_Final/Taller_Integrador_STEM_PLANTILLA.ipynb)

# Taller integrador – Notebook de trabajo  
**Curso:** Fundamentos de Data Science con Python  
**Sesión 6 – Taller integrador**  

En este notebook trabajarás en grupo para desarrollar el taller:

1. Cargar y explorar el dataset  
2. Limpiar y preprocesar los datos  
3. Realizar un análisis exploratorio (EDA) con visualizaciones  
4. Preparar los datos para modelar  
5. Implementar y entrenar una red neuronal MLP (obligatoria)  
6. Evaluar el modelo y extraer conclusiones  
7. Redactar una breve reflexión ética  

> **Nota:** Este notebook es una **plantilla**. Completa cada sección con tu propio código y comentarios.


## 1. Importar librerías y cargar el dataset  

- Importa las librerías que necesitas (pandas, numpy, matplotlib, scikit-learn, keras, etc.).  
- Carga el archivo `datos_taller_integrador_STEM.csv`.  
- Muestra las primeras filas para tener una idea general del contenido.


In [None]:
# TODO: importar librerías principales

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Sugerencia: puedes necesitar también:
# from sklearn.model_selection import train_test_split
# from sklearn.pipeline import Pipeline
# from sklearn.compose import ColumnTransformer
# from sklearn.preprocessing import OneHotEncoder, StandardScaler
# from sklearn.impute import SimpleImputer
# from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
# from tensorflow import keras
# from tensorflow.keras import layers

pd.set_option("display.max_columns", None)

# TODO: cargar el dataset
ruta = "datos_taller_integrador_STEM.csv"  # ajustar ruta si es necesario
df = pd.read_csv(ruta)

# TODO: mostrar las primeras filas
df.head()

## 2. Exploración inicial de los datos  

Objetivo: obtener una visión general de la estructura del dataset.

- Revisa el número de filas y columnas.  
- Inspecciona los tipos de datos.  
- Obtén un resumen estadístico de las variables numéricas y categóricas.  


In [None]:
# TODO: tamaño del dataset
df.shape

In [None]:
# TODO: información general de tipos de datos y valores nulos
df.info()

In [None]:
# TODO: resumen descriptivo (numérico y, si quieres, categórico)
df.describe(include="all").T

## 3. Limpieza y preprocesamiento de los datos  

En el diccionario de datos se indicó que el dataset contiene:

- Valores faltantes  
- Outliers (horas de estudio, asistencia, edad, etc.)  
- Valores categóricos inconsistentes (por ejemplo, distintas formas de escribir la misma categoría)  
- Valores fuera de dominio (por ejemplo, 0/5 en nivel de álgebra, 2 en uso de plataforma, etc.)  

**Tareas sugeridas:**

1. Detectar los problemas más evidentes en cada variable.  
2. Decidir una estrategia de tratamiento (corregir, imputar, recodificar, truncar, etc.).  
3. Aplicar las transformaciones y documentar tus decisiones en comentarios.  


### 3.1 Ejemplo: revisar variables categóricas (`sexo`, `dependencia_colegio`)

In [None]:
# TODO: revisar distribución de 'sexo'
df['sexo'].value_counts(dropna=False)

# TODO: decidir qué hacer con valores como 'No responde' o 'X' y aplicar la transformación correspondiente
# df['sexo'] = ...

In [None]:
# TODO: revisar distribución de 'dependencia_colegio'
df['dependencia_colegio'].value_counts(dropna=False)

# TODO: unificar formato (minúsculas, mayúsculas) y recodificar categorías de forma consistente
# df['dependencia_colegio'] = ...

### 3.2 Revisar y corregir variables numéricas (`nivel_algebra`, `horas_estudio_semanal`, `asistencia_porcentaje`, etc.)

In [None]:
# TODO: revisar valores únicos de nivel_algebra
df['nivel_algebra'].value_counts(dropna=False)

# TODO: convertir valores fuera de [1, 2, 3, 4] en NaN o corregir según criterio
# df.loc[...] = ...

In [None]:
# TODO: revisar distribución de horas_estudio_semanal
df['horas_estudio_semanal'].describe()

# TODO: tratar valores negativos o muy altos
# df.loc[...] = ...

In [None]:
# TODO: revisar distribución de asistencia_porcentaje
df['asistencia_porcentaje'].describe()

# TODO: truncar o corregir valores fuera de [0, 100]
# df.loc[...] = ...

### 3.3 Resumen de valores faltantes después de tus correcciones

In [None]:
# TODO: calcular proporción de valores faltantes por columna
df.isna().mean().sort_values(ascending=False)

## 4. Análisis exploratorio de datos (EDA)  

Realiza un EDA que te permita responder preguntas como:

- ¿Cómo se distribuye la `nota_final`?  
- ¿Cuál es la proporción de estudiantes que aprueban?  
- ¿Cómo se relaciona la nota de diagnóstico con la nota final?  
- ¿Hay diferencias en la nota final según la dependencia de colegio u otras variables?  

Incluye al menos **3 visualizaciones** (histogramas, boxplots, scatter plots, etc.).


In [None]:
# TODO: distribución de la nota final
# Ejemplo:
# plt.figure()
# df['nota_final'].hist(bins=20)
# plt.show()

In [None]:
# TODO: proporción de estudiantes que aprueban/reprueban
# df['aprueba'].value_counts(normalize=True)

In [None]:
# TODO: relación entre nota_diagnostico_matematica y nota_final (scatter)
# plt.figure()
# plt.scatter(df['nota_diagnostico_matematica'], df['nota_final'])
# plt.show()

In [None]:
# TODO: nota_final por alguna variable categórica (por ejemplo, dependencia_colegio)
# df.boxplot(column='nota_final', by='dependencia_colegio', rot=45)
# plt.show()

## 5. Preparación de datos para el modelo MLP  

En este taller utilizaremos como **variable objetivo** la columna `aprueba` (clasificación binaria).  

**Pasos sugeridos:**

1. Seleccionar las variables que usarás como *features* (X).  
2. Separar X (features) e y (target).  
3. Identificar columnas numéricas y categóricas.  
4. Definir un `ColumnTransformer` con:
   - Imputación + estandarización para variables numéricas.  
   - Imputación + One-Hot Encoding para variables categóricas.  
5. Dividir en conjuntos de entrenamiento y prueba.


In [None]:
# TODO: definir lista de columnas de entrada
features = [
    'sexo',
    'edad',
    'dependencia_colegio',
    'nota_diagnostico_matematica',
    'nivel_algebra',
    'promedio_lab_fisica',
    'quizzes_estadistica',
    'horas_estudio_semanal',
    'asistencia_porcentaje',
    'participacion_clases',
    'entregas_atrasadas',
    'uso_plataforma_aprendizaje',
    'asiste_tutorias'
]

X = df[features].copy()
y = df['aprueba'].copy()

# TODO: identificar columnas numéricas y categóricas
num_cols = X.select_dtypes(include=['int64', 'float64']).columns.tolist()
cat_cols = [c for c in X.columns if c not in num_cols]

num_cols, cat_cols

In [None]:
# TODO: construir preprocesador (ColumnTransformer) con pipelines numéricos y categóricos
# from sklearn.pipeline import Pipeline
# from sklearn.compose import ColumnTransformer
# from sklearn.impute import SimpleImputer
# from sklearn.preprocessing import OneHotEncoder, StandardScaler

# numeric_transformer = Pipeline(steps=[
#     ('imputer', SimpleImputer(strategy='median')),
#     ('scaler', StandardScaler())
# ])

# categorical_transformer = Pipeline(steps=[
#     ('imputer', SimpleImputer(strategy='most_frequent')),
#     ('onehot', OneHotEncoder(handle_unknown='ignore'))
# ])

# preprocessor = ColumnTransformer(
#     transformers=[
#         ('num', numeric_transformer, num_cols),
#         ('cat', categorical_transformer, cat_cols)
#     ]
# )

# TODO: dividir en train/test, ajustar el preprocesador y transformar los datos
# from sklearn.model_selection import train_test_split
# X_train, X_test, y_train, y_test = train_test_split(...)

# X_train_prep = preprocessor.fit_transform(X_train)
# X_test_prep = preprocessor.transform(X_test)

## 6. Implementación de la red neuronal MLP (obligatoria)  

Recuerda los elementos básicos vistos en la sesión de redes neuronales:

- Capa de entrada con tantas neuronas como columnas de X transformada.  
- Una o dos capas ocultas con activación ReLU.  
- Capa de salida con activación sigmoide (para clasificación binaria).  
- Función de pérdida: `binary_crossentropy`.  
- Optimizador: `adam`.  

Entrena el modelo (por ejemplo, 20–50 épocas) y registra las métricas.  


In [None]:
# TODO: construir el modelo MLP usando Keras
# from tensorflow import keras
# from tensorflow.keras import layers

# input_dim = X_train_prep.shape[1]

# model = keras.Sequential([
#     layers.Input(shape=(input_dim,)),
#     layers.Dense(16, activation='relu'),
#     layers.Dense(8, activation='relu'),
#     layers.Dense(1, activation='sigmoid')
# ])

# model.compile(
#     optimizer='adam',
#     loss='binary_crossentropy',
#     metrics=['accuracy']
# )

# model.summary()

In [None]:
# TODO: entrenar el modelo y guardar el historial
# history = model.fit(
#     X_train_prep, y_train,
#     validation_split=0.2,
#     epochs=30,
#     batch_size=32,
#     verbose=1
# )

### 6.1 Curvas de entrenamiento  

Grafica la evolución de la pérdida y de la exactitud para entrenamiento y validación.


In [None]:
# TODO: graficar curvas de pérdida y exactitud
# plt.figure()
# plt.plot(history.history['loss'], label='loss')
# plt.plot(history.history['val_loss'], label='val_loss')
# plt.legend()
# plt.show()

# plt.figure()
# plt.plot(history.history['accuracy'], label='acc')
# plt.plot(history.history['val_accuracy'], label='val_acc')
# plt.legend()
# plt.show()

## 7. Evaluación del modelo  

- Calcula accuracy en el conjunto de prueba.  
- Obtén la matriz de confusión.  
- Genera un `classification_report`.  


In [None]:
# TODO: evaluar el modelo en el conjunto de prueba
# y_pred_proba = model.predict(X_test_prep).ravel()
# y_pred = (y_pred_proba >= 0.5).astype(int)

# from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# acc = accuracy_score(y_test, y_pred)
# cm = confusion_matrix(y_test, y_pred)

# print('Accuracy:', acc)
# print('Matriz de confusión:\n', cm)
# print(classification_report(y_test, y_pred))

## 8. Comentarios finales y reflexión ética  

En esta sección, discutan en grupo:

- ¿Qué variables parecen tener mayor peso en la predicción de aprobación?  
- ¿Qué riesgos existen al usar modelos como este para tomar decisiones sobre estudiantes?  
- ¿Qué tipo de sesgos podrían introducirse si se usan variables como sexo o dependencia del colegio?  
- ¿Cómo debería complementarse este tipo de modelo con el criterio pedagógico del docente?  

Escribe aquí un breve párrafo con las conclusiones de tu grupo.


In [None]:
# TODO: redactar comentarios finales y reflexión ética (como texto multilínea)
comentarios_finales = """
Escribe aquí las conclusiones de tu grupo sobre el desempeño del modelo,
sus limitaciones y las implicancias éticas de su uso en contextos educativos.
"""

print(comentarios_finales)