# Proyecto Machine Learning
Para el módulo del bootcamp de Data Science tendrás que desarrollar un modelo de machine learning. Este proyecto tiene como objetivo principal practicar y demostrar competencias adquiridas durante el curso para aplicarlos en un proyecto práctico de aprendizaje automático.

* **Miembros**: El proyecto es individual
* **Datos**: datasets de plataformas (Kaggle, INE,..), Apis o Webscraping un tema que te interese. El volumen de datos no puede ser inferior a **1000 registros x 10 campos**.
* **Deadlines**: 

    *  **1. Miércoles 30 de julio** se presentará a la clase el tema de tu proyecto (máx 5 mins). Para ello deberás mostrar las fuentes y datasets con las variables predictoras y la variable objetivo definida.
    * **2. Miércoles 3 de septiembre** Entrega fina del repositorio en Github con el código y el modelo final. Mostrar una demo en streamlit de la solución. 70% Negocio 30% Técnico (NO código sino métricas, modelos, performance, Feature engineering...) (Máx 15 min).

* **Obligatorio**: Repositorio, presentación, estructura y archivos solicitados más abajo, varios modelos diferentes, uso de pipeline y gridsearch, proceso de siempre...

## Presentación del tema Miércoles 30 de julio

PRESENTAR:

- Título del proyecto
- Tema del proyecto:
- Objetivo:
- Datasets: Cuáles y de dónde. Variable a predecir y variables predictoras.

## Entregable
El objetivo de este proyecto es desarrollar un modelo de machine learning, desde la obtención de datos hasta su despligue.

La entrega será un **repositorio de github** con el desarrollo del proyecto: adquisición de datos, limpieza, EDA, feature engineering, modelado de datos, iteración de modelos, evaluación de modelos, interpretación de modelos, impacto en negocio.
Habrá que aplicar conocimientos aprendidos hasta ahora, tenéis la oportunidad de **demostrar vuestra evolución y el trabajo realizado en durante el espacio de tiempo del que dispones**. No queremos datasets básicos ni trabajos hechos en una tarde.


```
|-- nombre_proyecto_final_ML
    |-- data
    |   |-- raw
    |        |-- dataset.csv
    |        |-- ...
    |   |-- processed
    |   |-- train
    |   |-- test
    |
    |-- notebooks
    |   |-- 01_Fuentes.ipynb
    |   |-- 02_LimpiezaEDA.ipynb
    |   |-- 03_Entrenamiento_Evaluacion.ipynb
    |   |-- ...
    |
    |-- src
    |   |-- data_processing.py
    |   |-- training.py
    |   |-- evaluation.py
    |   |-- ...
    |
    |-- models
    |   |-- trained_model.pkl
    |   |-- ...
    |
    |-- app_streamlit
    |   |-- app.py
    |   |-- requirements.txt
    |   |-- ...
    |
    |-- docs
    |   |-- negocio.ppt
    |   |-- ds.ppt
    |   |-- memoria.md
    |   |-- ...
    |
    |
    |-- README.md

```




A continuación se detallan las carpetas y los requisitos de cada una:

1. **data**: se almacenarán los datos utilizados en el proyecto. Se deben crear las siguientes subcarpetas:
   - `raw`: Contiene los datos en su formato original, sin procesar.
   - `processed`: Almacena los datos procesados después de realizar las transformaciones necesarias antes de utilizarlos para el modelo.
   - `train`: Contiene los datos de entrenamiento utilizados para entrenar el modelo a partir de los datos procesados
   - `test`: Almacena los datos de prueba utilizados para evaluar el modelo a partir de los datos procesados

2. **notebooks**: se encuentran los archivos Jupyter Notebook que contienen el desarrollo del proyecto. Se deben nombrar y numerar adecuadamente según el orden de ejecución.
   - `01_Fuentes.ipynb`: adquisición de datos y unión de las diferentes fuentes.
   - `02_LimpiezaEDA.ipynb`: transformaciones y limpiezas, incluyendo el feature engineering, así como visualizaciones dentro de un análisis exploratiorio.
   - `03_Entrenamiento_Evaluacion.ipynb`: entrenamiento de modelos (mínimo 5 modelos supervisados diferentes y al menos 1 no supervisado) junto con su hiperparametrización, así como evaluación de los modelos (métricas de evaluación, interpretación de variables,...).
3. **src**: contiene los archivos fuente de Python que implementan las funcionalidades clave del proyecto. Los requisitos de los archivos son los siguientes:
   - `data_processing.py`: código para procesar los datos de la carpeta `data/raw` y guardar los datos procesados en la carpeta `data/processed`.
   - `training.py`: código para entrenar y guardar el modelo entrenado con el input de los datos de la carpeta `data/processed` y guardar los datasets de `data/train` y `data/test` utilizados en el entrenamiento.
   - `evaluation.py`: código para evaluar el modelo utilizando los datos de prueba de la carpeta `data/test` y generar métricas de evaluación.

4. **models**: se almacenarán los archivos relacionados con el modelo entrenado. Los requisitos son los siguientes:
   - `trained_model_n.pkl`: modelos entrenados y guardados en formato pickle, siendo n un identificador para cada modelo.
   - `final_model.pkl`: modelo final guardado en formato pickle.

5. **app_streamlit**: contendrá los archivos necesarios para el despliegue del modelo en Streamlit u otra plataforma similar. Los requisitos son los siguientes:

   - `app.py`: código para la aplicación web que utiliza el modelo entrenado final(Streamlit).
   - `requirements.txt`: especifica las dependencias del proyecto para poder ejecutar la aplicación.

5. **docs**: contendrá la documentación adicional relacionada con el proyecto, como las dos presentaciones u otros documentos relevantes como la memoria.

6. **README**: portada de tu proyecto.

## **Estructura de la Presentación Final – Modelo de Machine Learning**

### 1. **Introducción y Contextualización del Problema (Negocio + Técnica breve)**

* Explica brevemente **qué problema resuelve el modelo** y **por qué es relevante** para el negocio.
* Usa ejemplos prácticos o analogías para ilustrar el impacto.
* Introduce de forma clara el **conjunto de datos utilizado**, con foco en **fuentes, variables clave** y características generales (sin tecnicismos profundos).
* Define los **objetivos de negocio** perseguidos (e.g. reducir costos, mejorar eficiencia, detectar riesgos, etc.).

---

### 2. **Valor del Modelo y Aplicaciones Prácticas (Negocio)**

* Describe **cómo el modelo aporta valor al negocio**: decisiones más informadas, automatización, reducción de errores, aumento de ingresos, etc.
* Ejemplifica con **casos de uso reales o potenciales**: cómo un usuario lo usaría en su día a día.
* Conecta con los **objetivos estratégicos de la empresa** y explica cómo este proyecto los potencia.

---

### 3. **Metodología y Desarrollo del Modelo (Técnico)**

* Expón de forma breve el **enfoque de modelado**: técnicas utilizadas (ej. XGBoost, regresión, etc.), tipos de variables seleccionadas y lógica detrás del feature engineering.
* Menciona los principales **desafíos técnicos** enfrentados y cómo se resolvieron (datos faltantes, desequilibrio, multicolinealidad, etc.).
* No entres en detalles de código ni hiperparámetros, pero sí explica qué decisiones metodológicas fueron clave.

---

### 4. **Resultados, Métricas y Visualización (Negocio + Técnica)**

* Presenta las **métricas principales de performance del modelo** (ej. accuracy, precision, recall, ROC AUC), explicadas en lenguaje comprensible.
* Muestra las **variables más relevantes** y su interpretación de negocio (por qué son importantes).
* Utiliza gráficos simples, tablas y visualizaciones intuitivas.
* Muestra cómo estos resultados cumplen con los **objetivos iniciales** y qué insights aporta el modelo.

---

### 5. **Demo en Streamlit (Negocio + Técnica aplicada)**

* Haz una **demostración funcional del modelo** en una interfaz sencilla (Streamlit), simulando cómo lo usaría un usuario no técnico.
* Ilustra un **caso de uso real**, resaltando cómo el modelo toma decisiones y cómo se interpreta el output.
* Muestra que la solución es **intuitiva, escalable e integrable**.

---

### 6. **Limitaciones, Escalabilidad y Próximos Pasos (Negocio + Técnica)**

* Menciona de forma honesta y clara las **limitaciones actuales del modelo** (ej. datos limitados, sesgos, etc.).
* Habla sobre su **escalabilidad** y posibles mejoras futuras: nuevos datos, ajustes, nuevas funciones.
* Comenta sobre la **factibilidad de implementación**, **costos estimados** y el **retorno esperado (ROI)**.
* Opcional: incluye consideraciones éticas o de explicabilidad si aplica.

## Pasos del proyecto
1. ¿Podemos dar solución a un problema con datos? Elige un tema.
1. Busca y consigue los datos. Vuelta al anterior punto si nos quedamos sin ideas.
1. Define tu problema de Machine Learning: clasificación/regresión, supervisado/ no supervisado, series temporales, imágenes, texto...
1. Exploratorio: obtén todos los estadísticos y gráficos que necesites para entender bien tu dataset.
1. Limpia los datos: duplicados, missings, outliers, columnas inútiles...
1. Feature engineering: transformación y creación de nuevas variables.
1. Prueba varios modelos. Itero tanto en nuevos conjuntos de datos, corrijo overfitting,
1. Analiza los resultados mediante una métrica adecuada a tu problemática.
1. Interpreta los resultados y comprende los outputs del modelo.
1. Siguientes pasos. ¿Se podría seguir enriqueciendo el modelo con otras pruebas o con otros datos?

### Cuenta con los profesores para cualquier duda o apoyo que necesites. Ánimo con ello!