
# Proyecto Final: Predicción de Deserción y Éxito Académico Estudiantil

## Objetivos del Proyecto

En este proyecto final, desarrollarán un sistema completo para predecir la deserción estudiantil. Los componentes principales son:

1. **Modelo de Predicción**: Crear un pipeline para predecir la deserción estudiantil usando el dataset "Predict Students' Dropout and Academic Success" de UCI Machine Learning Repository.

2. **API REST**: Desarrollar una API que permita realizar predicciones mediante solicitudes POST.

3. **Aplicación Web**: Implementar una aplicación en Streamlit con un formulario que utilice la API creada.

4. **[Opcional] Despliegue**: Desplegar todo el sistema en Railway.app.

## Dataset

El dataset a utilizar es ["Predict Students' Dropout and Academic Success"](https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success) del UCI Machine Learning Repository.

## Requisitos Técnicos

Pueden utilizar las herramientas que prefieran, considerando que ya están familiarizados con:
- Poetry para gestión de dependencias
- Ambientes en Conda



## Componente 1: Modelo de Predicción

### Objetivos
- Descargar y explorar el dataset de deserción estudiantil
- Preprocesar los datos adecuadamente
- Crear y evaluar modelos de clasificación
- Implementar un pipeline completo de predicción
- Guardar el modelo entrenado para su uso posterior

### Sugerencias
- Realicen un análisis exploratorio para comprender mejor los datos
- Para este proyecto no será muy importante el rendimiento del modelo, sino la implementación de un pipeline completo
- Pueden utilizar cualquier modelo de clasificación que prefieran
- Documenten sus decisiones y hallazgos

### Librerias y modulos clave
Para este ejercicio es importante usar:

- pandas
- numpy
- scikit-learn
- joblib

Particularmente de scikit-learn:
- `train_test_split`
- `ColumnTransformer`
- `OneHotEncoder`
- `SimpleImputer`
- `StandardScaler`
- `Pipeline`
- `GridSearchCV`
- `classification_report`


### Bosquejo de la Solución

1. Descargar y explorar el dataset
2. Preprocesar los datos
3. Dividir el dataset en entrenamiento y prueba
4. Crear un pipeline de clasificación solamente con el dataset de entrenamiento

```python
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier

# Definir preprocesamiento para variables numéricas
numeric_features = ['num_var_1', 'num_var_2', ...] 
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Definir preprocesamiento para variables categóricas
categorical_features = ['cat_var_1', 'cat_var_2', ...]
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Aplicar preprocesamiento
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Crear pipeline
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', RandomForestClassifier())])

# Entrenar modelo
clf.fit(X_train, y_train)
```




## Componente 2: API REST

### Objetivos
- Desarrollar una API que exponga el modelo de predicción
- Implementar un endpoint para realizar predicciones individuales
- Definir adecuadamente los esquemas de entrada y salida
- Asegurar que la API pueda cargar el modelo previamente entrenado

### Sugerencias
- Deben usar FastAPI para el desarrollo de la API
- Documenten adecuadamente los endpoints
- Asegúrense de que la API pueda cargar el modelo previamente entrenado
- Pueden utilizar el siguiente [repositorio](https://github.com/Izainea/api_review) como referencia

### Librerias y modulos clave
Para este ejercicio es importante usar:

- fastapi
- pydantic
- joblib

Particularmente de fastapi:
- `FastAPI`

### Bosquejo de la Solución

1. Crear una aplicación de FastAPI
2. Cargar el modelo previamente entrenado
3. Definir un endpoint para realizar predicciones individuales

```python
from fastapi import FastAPI
from pydantic import BaseModel
import joblib

# Definir la clase de la solicitud
class Item(BaseModel):
    num_var_1: float
    num_var_2: float
    cat_var_1: str
    cat_var_2: str

# Cargar el modelo
model = joblib.load('model.joblib')

# Crear la aplicación
app = FastAPI()

# Definir el endpoint
@app.post("/predict")
def predict(item: Item):
    X_new = pd.DataFrame([item.dict()])
    prediction = model.predict(X_new)
    return {'prediction': prediction}
```




## Componente 3: Aplicación Streamlit

### Objetivos
- Crear una interfaz de usuario con Streamlit
- Implementar un formulario para ingresar los datos del estudiante
- Conectar la aplicación con la API para realizar predicciones
- Mostrar los resultados de manera clara y comprensible

### Sugerencias
- Diseñen una interfaz intuitiva y fácil de usar
- Usen elementos visuales apropiados para mostrar las predicciones
- Implementen validación de formularios
- Consideren incluir explicaciones o interpretaciones de los resultados

### Librerias y modulos clave
Para este ejercicio es importante usar:

- streamlit
- requests

Particularmente de streamlit:
- `st.title`
- `st.form`
- `st.text_input`
- `st.selectbox`
- `st.button`
- `st.write`

### Bosquejo de la Solución

1. Crear una aplicación de Streamlit
2. Implementar un formulario para ingresar los datos del estudiante
3. Conectar la aplicación con la API para realizar predicciones

```python
import streamlit as st
import requests

# Crear formulario
st.title('Predicción de Deserción Estudiantil')

with st.form(key='my_form'):
    num_var_1 = st.text_input('num_var_1')
    num_var_2 = st.text_input('num_var_2')
    cat_var_1 = st.selectbox('cat_var_1', ['option_1', 'option_2'])
    cat_var_2 = st.selectbox('cat_var_2', ['option_1', 'option_2'])
    submit_button = st.form_submit_button(label='Submit')

# Realizar predicción
if submit_button:
    response = requests.post('end_point_url', json={'num_var_1': num_var_1, 'num_var_2': num_var_2, 'cat_var_1': cat_var_1, 'cat_var_2': cat_var_2})
    prediction = response.json()['prediction']
    st.write(f'La predicción es: {prediction}')
```



## Componente 4: Despliegue en Railway.app (Opcional)

### Objetivos
- Preparar el proyecto para despliegue en Railway.app
- Desplegar la API y la aplicación Streamlit
- Asegurar que todo funcione correctamente en el entorno de producción

### Sugerencias
- Investiguen la documentación de Railway.app
- Configuren correctamente las variables de entorno
- Consideren aspectos como seguridad y rendimiento



## Entregables

Para este proyecto, deberán entregar:

1. **Código Fuente**: Todos los archivos necesarios para ejecutar el proyecto.
2. **Documentación**: Explicación del proyecto, decisiones tomadas y resultados obtenidos.
3. **Instrucciones**: Pasos para ejecutar y probar el proyecto localmente.
4. **[Opcional] URL de Despliegue**: Si realizaron el despliegue en Railway.app.

## Criterios de Evaluación

Su proyecto será evaluado según los siguientes criterios:

- **Funcionalidad**: El sistema completo funciona correctamente.
- **Calidad del Código**: Organización, legibilidad y buenas prácticas.
- **Precisión del Modelo**: Rendimiento del modelo de predicción.
- **Usabilidad**: Facilidad de uso de la interfaz y la API.
- **Documentación**: Claridad y exhaustividad de la documentación.



## Recursos Adicionales

### Dataset
- [Predict Students' Dropout and Academic Success](https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success)

### Herramientas y Bibliotecas
- [Scikit-learn](https://scikit-learn.org/stable/): Para modelos de machine learning
- [FastAPI](https://fastapi.tiangolo.com/): Para desarrollo de APIs
- [Streamlit](https://streamlit.io/): Para interfaces de usuario
- [Railway](https://railway.app/): Para despliegue

### Gestión de Entornos y Dependencias
- [Poetry](https://python-poetry.org/docs/): Gestión de dependencias
- [Conda](https://docs.conda.io/en/latest/): Gestión de entornos

Recuerden que pueden usar cualquier otra herramienta o biblioteca que consideren apropiada para el proyecto.



## Ejemplo de Inicio

A continuación, se presenta un breve ejemplo para ayudarles a comenzar. Pueden modificarlo según sus necesidades y preferencias.

### Descarga y exploración inicial del dataset

```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset (ajusten la ruta según sea necesario)
df = pd.read_csv("ruta_al_dataset.csv")

# Exploración básica
print("Dimensiones del dataset:", df.shape)
print("\nPrimeras filas:")
print(df.head())
print("\nInformación de columnas:")
print(df.info())
print("\nEstadísticas descriptivas:")
print(df.describe())

# Visualizar la distribución de la variable objetivo (ajusten según el dataset)
plt.figure(figsize=(10, 6))
sns.countplot(x='Target', data=df)  # Ajusten el nombre de la columna
plt.title('Distribución de la variable objetivo')
plt.show()
```

### Ejemplo simple de API con FastAPI

```python
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import joblib

app = FastAPI(title="API de Predicción de Deserción Estudiantil")

# Definir modelo de datos
class StudentFeatures(BaseModel):
    # Definan aquí las características necesarias para la predicción
    # Ejemplo:
    age: int
    gender: str
    # ...otros campos...

# Cargar modelo
@app.on_event("startup")
def load_model():
    global model
    model = joblib.load("ruta_al_modelo_guardado.joblib")

# Endpoint para predicción
@app.post("/predict")
def predict(student: StudentFeatures):
    try:
        # Preparar datos y hacer predicción
        # ...
        return {"prediction": prediction, "probability": probability}
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))
```

### Ejemplo básico de aplicación Streamlit

```python
import streamlit as st
import requests
import json

st.title("Predictor de Deserción Estudiantil")

# Formulario para ingresar datos
with st.form("student_form"):
    # Campos del formulario
    age = st.number_input("Edad", min_value=18, max_value=100)
    gender = st.selectbox("Género", ["M", "F"])
    # ...otros campos...

    # Botón para enviar
    submit = st.form_submit_button("Predecir")

# Enviar datos a la API cuando se presiona el botón
if submit:
    # Preparar datos
    data = {
        "age": age,
        "gender": gender,
        # ...otros campos...
    }

    # Hacer solicitud a la API
    try:
        response = requests.post(
            "URL_DE_SU_API/predict",
            json=data
        )
        result = response.json()

        # Mostrar resultado
        st.success(f"Predicción: {result['prediction']}")
        st.info(f"Probabilidad: {result['probability']:.2f}")
    except Exception as e:
        st.error(f"Error: {str(e)}")
```

Estos ejemplos son solo puntos de partida. Siéntanse libres de adaptarlos y expandirlos según sus necesidades.


In [1]:
from fastapi import FastAPI
from pydantic import BaseModel
import pandas as pd
import joblib

# Clase para recibir los datos de entrada
class Item(BaseModel):
    age: int
    workclass: str
    education: str
    education_num: int
    marital_status: str
    occupation: str
    relationship: str
    race: str
    sex: str
    capital_gain: int
    capital_loss: int
    hours_per_week: int
    native_country: str

# Cargar el modelo
model = joblib.load("pipeline_total.gz")  # O el nombre correcto como pipeline.joblib

# Crear app
app = FastAPI(title="Modelo de predicción")

# Endpoint de predicción
@app.post("/predict")
def predict(item: Item):
    # Adaptar los nombres al formato esperado por el modelo
    input_data = {
        'age': [item.age],
        'workclass': [item.workclass],
        'education': [item.education],
        'education-num': [item.education_num],
        'marital-status': [item.marital_status],
        'occupation': [item.occupation],
        'relationship': [item.relationship],
        'race': [item.race],
        'sex': [item.sex],
        'capital-gain': [item.capital_gain],
        'capital-loss': [item.capital_loss],
        'hours-per-week': [item.hours_per_week],
        'native-country': [item.native_country]
    }
    
    df = pd.DataFrame(input_data)
    prediction = model.predict(df)
    return {"prediction": prediction[0].item() if hasattr(prediction[0], "item") else prediction[0]}


In [1]:
import requests

# URL de tu API (asegúrate de tenerla corriendo con uvicorn)
url = "http://127.0.0.1:8000/predict"

# Datos de entrada, como los que espera el modelo
data = {"age": 39,
    "workclass": "Private",
    "education": "Some-college",
    "education_num": 10,
    "marital_status": "Never-married",
    "occupation": "Exec-managerial",
    "relationship": "Not-in-family",
    "race": "White",
    "sex": "Male",
    "capital_gain": 0,
    "capital_loss": 0,
    "hours_per_week": 45,
    "native_country": "United-States"}

# Hacer la petición POST
response = requests.post(url, json=data)

# Mostrar el resultado
print("Status code:", response.status_code)
print("Status code:", response.status_code)
print("Raw response text:", response.text)



Status code: 200
Status code: 200
Raw response text: {"prediccion":0.10163756529274762}
