# 🎓 Predicción de notas finales con PySpark

En este análisis queremos predecir la **nota final (G3)** de los estudiantes utilizando variables socio-académicas del dataset `oot`. El flujo de trabajo se organiza en un **pipeline** para mayor claridad.

## 1. Selección de variables
Elegimos características numéricas que pueden influir en el rendimiento académico. La variable **objetivo** será `G3` (nota final).

In [None]:
features = ["age", "Medu", "Fedu", "traveltime", "studytime", 
            "failures", "famrel", "freetime", "goout", 
            "Dalc", "Walc", "health", "absences", "G1", "G2"]

from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=features, outputCol="features")

## 2. Definir el modelo
Usaremos una **Regresión Lineal**, simple e interpretable.

In [None]:
from pyspark.ml.regression import LinearRegression
lr = LinearRegression(featuresCol="features", labelCol="G3")

## 3. Construcción del Pipeline
El pipeline asegura que los pasos se ejecuten en orden:
1. Ensamblar las variables en un vector.
2. Entrenar el modelo.

In [None]:
from pyspark.ml import Pipeline
pipeline = Pipeline(stages=[assembler, lr])

## 4. División de datos
Separamos los datos en **80% entrenamiento** y **20% prueba**.

In [None]:
train_data, test_data = oot.randomSplit([0.8, 0.2], seed=42)

## 5. Entrenamiento del modelo

In [None]:
model = pipeline.fit(train_data)

## 6. Predicciones y evaluación
Evaluamos el modelo con métricas de regresión:
- **RMSE**: error promedio de las predicciones.
- **R²**: proporción de variabilidad explicada por el modelo.

In [None]:
from pyspark.ml.evaluation import RegressionEvaluator

predictions = model.transform(test_data)

evaluator_rmse = RegressionEvaluator(labelCol="G3", predictionCol="prediction", metricName="rmse")
evaluator_r2 = RegressionEvaluator(labelCol="G3", predictionCol="prediction", metricName="r2")

rmse = evaluator_rmse.evaluate(predictions)
r2 = evaluator_r2.evaluate(predictions)

print(f"📊 RMSE: {rmse:.2f}")
print(f"📊 R²: {r2:.2f}")

## 7. Visualización de resultados
Mostramos un gráfico comparando las **notas reales** con las **predichas**. La línea roja indica la predicción perfecta (real = predicción).

In [None]:
import matplotlib.pyplot as plt

pdf = predictions.select("G3", "prediction").toPandas()

plt.figure(figsize=(6,6))
plt.scatter(pdf["G3"], pdf["prediction"], alpha=0.5)
plt.plot([0,20], [0,20], color="red", linestyle="--")
plt.xlabel("Nota real (G3)")
plt.ylabel("Nota predicha")
plt.title("🎓 Predicción de notas finales")
plt.show()

# 📝 Tarea: Explorando el modelo de predicción

Ahora que ya vimos un pipeline básico de predicción de la nota final **G3**, vamos a realizar un ejercicio práctico.

## Instrucciones:
1. Escoge un subconjunto diferente de variables predictoras.
2. Entrena nuevamente el modelo.
3. Evalúa el **Error Cuadrático Medio (RMSE)**.
4. Compara con el modelo original:
   - ¿Mejoró o empeoró la predicción?
   - ¿Qué variables parecen más relevantes?

In [None]:
# === 1. Selección de nuevas variables ===
mis_features = ["age", "Medu", "Fedu", "studytime", "failures"]

assembler_new = VectorAssembler(inputCols=mis_features, outputCol="features")

# === 2. Definir modelo y pipeline ===
lr_new = LinearRegression(featuresCol="features", labelCol="G3")
pipeline_new = Pipeline(stages=[assembler_new, lr_new])

# === 3. Entrenar con los mismos conjuntos de train/test ===
model_new = pipeline_new.fit(train_data)

# === 4. Evaluar ===
predictions_new = model_new.transform(test_data)

evaluator = RegressionEvaluator(labelCol="G3", predictionCol="prediction", metricName="rmse")
rmse_new = evaluator.evaluate(predictions_new)

print(f"📊 RMSE con mis variables: {rmse_new:.2f}")

## Reflexión
- ¿El RMSE fue mayor o menor al modelo original?
- ¿Qué conclusiones puedes sacar sobre la importancia de las variables seleccionadas?
- ¿Qué combinación de variables recomendarías usar en el modelo final?