# Parcial 1 · Machine Learning (Primer Corte)
**Formato:** Notebook de Python (Colab/Jupyter)

**Instrucciones**
- Responde directamente en las celdas indicadas con *Tu respuesta aquí*.
- No borres el enunciado de las preguntas.
- No uses gráficos; solo filtros, agrupaciones y cálculos básicos.
- Mantén el código y comentarios en **español**.
- **Entrega**: sube este `.ipynb` resuelto a la plataforma indicada.

**Dataset esperado (`students.csv`)**
Columnas: `gender, race/ethnicity, parental level of education, lunch, test preparation course, math score, reading score, writing score`.

**Estructura del parcial**
- **Sección A — Fundamentos (6 preguntas)**
- **Sección B — EDA con filtros y agrupaciones (6 preguntas)**

**Puntaje**: 100 puntos (≈ 8.3 por pregunta).

---

In [3]:
!wget https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/StudentsPerformance.csv

--2025-09-17 20:55:45--  https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/StudentsPerformance.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 72036 (70K) [text/plain]
Saving to: ‘StudentsPerformance.csv’


2025-09-17 20:55:45 (2.73 MB/s) - ‘StudentsPerformance.csv’ saved [72036/72036]



### Dependencias (ejecuta esta celda primero)

In [1]:
import pandas as pd
import numpy as np

## Carga del dataset
Sube un archivo **`students.csv`** (mismo directorio del notebook) o ajusta la ruta en la celda. Si no tienes el archivo, puedes **generar una muestra mínima** con la celda opcional.


In [4]:
df = pd.read_csv("StudentsPerformance.csv")

#### (Opcional) Generar una muestra mínima si no tienes el CSV

## Sección A — Fundamentos de Machine Learning (Conceptual, sin métricas ni gráficos)

### A1. Supervisado vs No Supervisado
**Describe** con tus palabras la diferencia entre **aprendizaje supervisado** y **no supervisado**. Da **1 ejemplo** de cada uno aplicado a educación o negocios.

_Tu respuesta aquí (Markdown):_

El **aprendizaje supervisado** implica entrenar un modelo con datos etiquetados, donde se conoce la variable objetivo (dependiente) y se usan datos de entrada (independientes) para predecir resultados. Requiere supervisión humana para guiar el proceso. Ejemplo: En educación, predecir las calificaciones de matemáticas de estudiantes basándose en horas de estudio y asistencia (datos etiquetados).

El **aprendizaje no supervisado** trabaja con datos no etiquetados, buscando patrones o agrupaciones sin una variable objetivo predefinida. Ejemplo: En negocios, segmentar clientes en grupos según sus patrones de compra para personalizar marketing, sin saber de antemano las categorías.

### A2. Variable dependiente e independientes
Si queremos predecir `math score`, ¿cuál es la **variable dependiente**? Menciona **dos** posibles **variables independientes** justificando por qué.

_Tu respuesta aquí (Markdown):_

La **variable dependiente** es `math_score`, ya que es la que queremos predecir.

Dos posibles **variables independientes** son:
- `hours_studied` (horas de estudio): Justificación: Más horas de estudio suelen correlacionarse con mejores puntajes en matemáticas.
- `parental_level_of_education` (nivel de educación de los padres): Justificación: Un mayor nivel educativo de los padres puede influir positivamente en el apoyo académico y, por ende, en el `math_score`.

### A3. Clasificación binaria
Si clasificamos estudiantes en **Aprobado** (≥ 60) vs **No aprobado**, ¿qué tipo de aprendizaje es? Justifica brevemente.

_Tu respuesta aquí (Markdown):_

Este es un caso de **aprendizaje supervisado**. Justificación: Se utiliza una variable objetivo predefinida (Aprobado/No aprobado) basada en un umbral (≥ 60), y el modelo se entrena con datos etiquetados para clasificar a los estudiantes.

### A4. Casos de negocio (supervisado)
Da **dos** ejemplos de problemas de negocio donde usarías aprendizaje **supervisado** y explica por qué.

_Tu respuesta aquí (Markdown):_

- **Predicción de ventas**: En una empresa, se puede usar aprendizaje supervisado para predecir las ventas futuras basándose en datos históricos de ventas, publicidad y temporadas. Razón: Se tienen datos etiquetados (ventas pasadas) para entrenar el modelo.
- **Detección de fraude**: En banca, se puede clasificar transacciones como fraudulentas o legítimas usando datos etiquetados de transacciones previas. Razón: Requiere un objetivo claro (fraude/no fraude) basado en ejemplos etiquetados.

### A5. Casos de negocio (no supervisado)
Da **dos** ejemplos de problemas de negocio donde usarías aprendizaje **no supervisado** y explica por qué.

_Tu respuesta aquí (Markdown):_

- **Segmentación de clientes**: En marketing, se puede agrupar a clientes según sus hábitos de compra sin una categoría predefinida. Razón: No hay etiquetas, se busca descubrir patrones ocultos.
- **Reducción de dimensionalidad**: En análisis de datos de inventario, se puede reducir variables para simplificar modelos sin una variable objetivo. Razón: Se trabaja con datos no etiquetados para encontrar relaciones.

### A6. Segmentación por similitud
Si quieres segmentar estudiantes por similitud de `reading score` y `writing score`, ¿qué tipo de aprendizaje usarías y por qué?

_Tu respuesta aquí (Markdown):_

Usaría **aprendizaje no supervisado**. Justificación: No se tiene una variable objetivo predefinida, y el objetivo es agrupar estudiantes basándose en similitudes entre `reading_score` y `writing_score` usando técnicas como clustering (e.g., k-means).

## Sección B — EDA (solo filtros y agrupaciones, foco de negocio)

### B7. Promedio de matemáticas por género
Calcula el **promedio de `math score` por `gender`**.
- ¿Qué género tiene mejor promedio?
- **Conclusión de negocio**: en 1–2 líneas, ¿qué harías con esta información?

_Escribe tu código y comentarios:_

In [16]:
avg_math_by_gender = df.groupby('gender')['math score'].mean().sort_values(ascending=False)
print(avg_math_by_gender)
max_gender = avg_math_by_gender.idxmax()
print(f"El género con mayor promedio es: {max_gender}")

gender
male      68.728216
female    63.633205
Name: math score, dtype: float64
El género con mayor promedio es: male


### B8. Lectura por grupo étnico
Calcula el **promedio de `reading score` por `race/ethnicity`**.
- ¿Qué grupo tiene mejor desempeño?
- **Aplicación**: ¿cómo usarías esto en un programa de apoyo escolar?

_Escribe tu código y comentarios:_

In [17]:
avg_reading_by_race = df.groupby('race/ethnicity')['reading score'].mean().sort_values(ascending=False)
print(avg_reading_by_race)
max_race = avg_reading_by_race.idxmax()
print(f"El grupo con mejor desempeño es: {max_race}")

race/ethnicity
group E    73.028571
group D    70.030534
group C    69.103448
group B    67.352632
group A    64.674157
Name: reading score, dtype: float64
El grupo con mejor desempeño es: group E


### B9. Impacto del tipo de almuerzo
Filtra estudiantes con `lunch = free/reduced` y calcula el **promedio de `math score` y `reading score`**. Compáralo con `lunch = standard`.
- **Conclusión de negocio**: ¿qué acción propones?

_Escribe tu código y comentarios:_

In [10]:
free_reduced = df[df['lunch'] == 'free/reduced'].agg({'math score': 'mean', 'reading score': 'mean'})
standard = df[df['lunch'] == 'standard'].agg({'math score': 'mean', 'reading score': 'mean'})
print("Promedio free/reduced:", free_reduced)
print("Promedio standard:", standard)

Promedio free/reduced: math score       58.921127
reading score    64.653521
dtype: float64
Promedio standard: math score       70.034109
reading score    71.654264
dtype: float64


### B10. Educación parental y rendimiento
Agrupa por `parental level of education` y calcula el **promedio de `math score`**.
- ¿Qué nivel se asocia con mejores resultados?
- **Acción**: ¿qué intervención o programa harías basado en esto?

_Escribe tu código y comentarios:_

In [18]:
avg_math_by_education = df.groupby('parental level of education')['math score'].mean().sort_values(ascending=False)
print(avg_math_by_education)
max_education = avg_math_by_education.idxmax()
print(f"El nivel con mejores resultados es: {max_education}")

parental level of education
master's degree       69.745763
bachelor's degree     69.389831
associate's degree    67.882883
some college          67.128319
some high school      63.497207
high school           62.137755
Name: math score, dtype: float64
El nivel con mejores resultados es: master's degree


### B11. Curso de preparación y puntaje
Filtra estudiantes que **completaron** `test preparation course` y calcula el **promedio de `math score`**. Compáralo con quienes **no** lo completaron.
- **Decisión**: ¿financiarías este curso? Explica.

_Escribe tu código y comentarios:_

In [12]:
completed = df[df['test preparation course'] == 'completed']['math score'].mean()
not_completed = df[df['test preparation course'] == 'none']['math score'].mean()
print(f"Promedio con curso: {completed}")
print(f"Promedio sin curso: {not_completed}")

Promedio con curso: 69.69553072625699
Promedio sin curso: 64.0778816199377


### B12. Doble agrupación (negocio)
Crea una **tabla** agrupada por `gender` y `test preparation course` con el **promedio de `writing score`**.
- ¿Qué combinación muestra mejores resultados?
- **Recomendación**: ¿a quién priorizas para una beca del curso?

_Escribe tu código y comentarios:_

In [15]:
avg_writing_by_gender_course = df.groupby(['gender', 'test preparation course'])['writing score'].mean().unstack()
result = avg_writing_by_gender_course.sort_values(by='completed', ascending=False)
print(result)
best_combo = result['completed'].idxmax()
print(f"La mejor combinación es: {best_combo}")

test preparation course  completed       none
gender                                       
female                   78.793478  68.982036
male                     69.793103  59.649351
La mejor combinación es: female
