# Proyecto de Aprendizaje de Máquina Aplicado



## 👤 Integrantes

- José Manuel Camargo Hoyos
- John Alexander Acevedo Serna
- Santiago Rodríguez Duque
___

## 📋 Tabla de Contenidos

1. **Objetivo General**
2. **Objetivos Específicos**
3. **Entrega 1**
    - Comprensión del Negocio
    - Obtención y Comprensión de Datos
___    





## 🏷️ Objetivo General

Desarrollar un modelo de machine learning que permita predecir si un estudiante aprobará el examen de matemáticas a partir de variables demográficas y académicas (género, nivel educativo de los padres, tipo de almuerzo, preparación previa, entre otras), con el fin de identificar tempranamente a estudiantes en riesgo académico y apoyar la toma de decisiones en intervenciones educativas.
___

## 🎯 Objetivos Específicos

- Analizar y caracterizar el conjunto de datos *Students Performance in Exams*, identificando la calidad de la información, variables relevantes y posibles sesgos.
- Definir y preparar la variable objeto *pass_math*, que indica si un estudiante aprueba o no matemáticas.
- Realizar un análisis exploratorio de datos (EDA) que permita entender patrones, correlaciones y factores asociados al desempeño.
- Construir un modelo baseline que sirva como punto de referencia inicial.
- Establecer métricas de evaluación adecuadas para clasificación binaria, considerando posibles desbalances de clases.
___

## 1️⃣ Entrega 1

### 💼 Comprensión del Negocio

El rendimiento en matemáticas es un indicador clave del desempeño académico y puede afectar el futuro educativo y laboral de los estudiantes. Instituciones educativas necesitan herramientas para detectar tempranamente a quienes podrían reprobar, de modo que puedan ofrecer apoyo adicional y reducir la deserción o el bajo rendimiento.

En la actualidad, los docentes o coordinadores identifican estudiantes en riesgo principalmente con base en observación subjetiva o [análisis tardío de calificaciones](https://www.rededuca.net/contexto-educativo/d/desempe%C3%B1o-academico#:~:text=De%20forma%20general%20en%20el,parciales%20o%20calificaciones%20de%20tareas.). Esto puede llevar a intervenciones poco oportunas o ineficaces en el proceso y formación académica de los estudiantes.

A través de este proyecto se quiere implementar aprendizaje automático para predecir si un estudiante aprobará matemáticas a partir de información disponible antes o al inicio del curso (demografía, preparación previa, tipo de almuerzo, nivel educativo de los padres...). Con un modelo predictivo se podrían priorizar recursos, tutorías y acompañamiento a quienes más lo necesitan.

#### 📐 KPIs
- **Métrica del Negocio:** Detectar oportunamente al menos un 80% de estudiantes que reprobaráin matemáticas antes de su examen final. (revisar)
- **Métrica Técnica:** ??
- **ROI:** ??

#### 🚗 Viabilidad
- **¿Hay datos suficientes y de calidad?** El dataset cuenta con 1000 registros y variables relevantes sin valores nulos significativos, lo que permite entrenar modelos básicos de clasificación.
- **¿Realmente se necesita Machine Learning?** Si se utilizaran reglas simples (por ejemplo, umbrales fijos en calificaciones previas), serían muy limitadas porque no consideran relaciones entre variables (por ejemplo, que la educación de los padres y la preparación influyan en la nota final). Usando Machine Learning se pueden capturar dichas interacciones y mejoraría la precisión.
- **¿Existe capacidad técnica para mantener la solución?** El modelo puede desarrollarse y mantenerse usando Python, scikit-learn y Jupyter, tecnologías accesibles para un equipo académico con conocimientos básicos en ciencia de datos.

### 📊 Obtención y Comprensión de Datos

**Origen del Dataset "*Students Performance in Exams*":** Notas obtenidas por estudiantes en varias asignaturas Estos datos se basan en la demografía de la población. Los datos contienen varias características como el tipo de comida que se le da al estudiante, el nivel de preparación para el examen, el nivel de educación de los padres y el rendimiento de los estudiantes en Matemáticas, Lectura y Escritura.

**Librerías a Utilizar**

- **NumPy:** El motor matemático de Python. Maneja arrays y operaciones numéricas eficientemente
- **Pandas:** Como Excel con superpoderes. Organiza datos en DataFrames (tablas)
- **Matplotlib/Seaborn:** Nuestros artistas. Crean visualizaciones profesionales
- **Scikit-learn:** La navaja suiza del ML. Contiene algoritmos, métricas y utilidades

In [1]:
# Configuración inicial del entorno
import sys
import warnings
warnings.filterwarnings('ignore')

# Verificar versión de Python
assert sys.version_info >= (3, 7), "Este notebook requiere Python 3.7 o superior"

print(f"✅ Python {sys.version_info.major}.{sys.version_info.minor} instalado correctamente")

✅ Python 3.12 instalado correctamente


In [17]:
# Importar librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import urllib.request
from pathlib import Path
from scipy import stats

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12
sns.set_palette("husl")

# Configuración de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("✅ Librerías importadas correctamente")

✅ Librerías importadas correctamente


**Carga de Datos al Notebook**

In [18]:
RAW_URL = "https://raw.githubusercontent.com/JoseCamargo10/machinelearning-project/main/data/StudentsPerformance.csv"

def load_data():
    data_path = Path("datasets")
    data_path.mkdir(parents=True, exist_ok=True)
    csv_path = data_path / "StudentsPerformance.csv"

    # Si existe pero es inválido (p.ej. HTML guardado), forzamos redescarga
    def looks_like_html(p: Path) -> bool:
        try:
            head = p.read_text(encoding="utf-8", errors="ignore")[:200]
            return "<!DOCTYPE html>" in head or "<html" in head.lower()
        except Exception:
            return False

    if csv_path.is_file() and csv_path.stat().st_size > 0 and not looks_like_html(csv_path):
        print("📁 Cargando datos desde caché local…")
        return pd.read_csv(csv_path)
    else:
        print("📥 Descargando dataset…")
        urllib.request.urlretrieve(RAW_URL, csv_path)
        print("✅ Descarga completada")
        return pd.read_csv(csv_path)

df = load_data()
print(f"\n📊 Dataset cargado: {df.shape[0]:,} filas × {df.shape[1]} columnas")

📥 Descargando dataset…
✅ Descarga completada

📊 Dataset cargado: 1,000 filas × 8 columnas


#### 🔎 Análisis Exploratorio de Datos

**Primera inspección de datos**

In [25]:
# Vista general del dataset
print("=" * 80)
print("INFORMACIÓN GENERAL DEL DATASET".center(80))
print("=" * 80)

# Mostrar primeras filas con mapa de calor de la media en notas
display(df.head().style.background_gradient(cmap='coolwarm'))

# Información detallada
print("\n" + "=" * 80)
print("ESTRUCTURA DE DATOS".center(80))
print("=" * 80)
df.info()

# Estadísticas descriptivas
print("\n" + "=" * 80)
print("ESTADÍSTICAS DESCRIPTIVAS".center(80))
print("=" * 80)
display(df.describe().round(2).T)

                        INFORMACIÓN GENERAL DEL DATASET                         


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75



                              ESTRUCTURA DE DATOS                               
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB

                           ESTADÍSTICAS DESCRIPTIVAS                            


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
math score,1000.0,66.09,15.16,0.0,57.0,66.0,77.0,100.0
reading score,1000.0,69.17,14.6,17.0,59.0,70.0,79.0,100.0
writing score,1000.0,68.05,15.2,10.0,57.75,69.0,79.0,100.0


**Pendientes:**
- Entender y registrar cada variable del dataset (qué es y que dice cada columna).
- Hay valores faltantes? Si si explicar (pero 99% seguro que no faltan valores).
- Sacar estadísticas hasta Correlación.