# Proyecto Machine Learning
Para el módulo del bootcamp de Data Science tendrás que desarrollar un modelo de machine learning. Este proyecto tiene como objetivo principal practicar y demostrar competencias adquiridas durante el curso para aplicarlos en un proyecto práctico de aprendizaje automático.

* **Miembros**: El proyecto es individual
* **Datos**: datasets de plataformas (Kaggle, INE,..), Apis o Webscrapping un tema que te interese. El volumen de datos no puede ser inferior a **1000 registros x 10 campos**.
* **Fechas en junio**: 

    *  **1. Viernes 16 9:00** se presentará a la clase el tema de tu proyecto (máx 2 mins). Para ello deberás ya tener las fuentes y datasets con la variable objetivo definida.
    * **2. Viernes 23 9:00** entrega del repositorio en Github con la primera iteración de un modelo (baseline). (máx 5 mins)

    * **3. Jueves 29 9:00**  Entrega del repositorio de Github con el código y modelo final. Presentación final del proyecto (ppt,...) orientado a negocio.  (máx 10 mins)
    * **4. Viernes 30 9:00** Presentación final del proyecto (streamlit,...) orientado al equipo DS. (máx 10 mins). 



## Entregable
El objetivo de este proyecto es desarrollar un modelo de machine learning, desde la obtención de datos hasta su despligue.

La entrega será un **repositorio de github** con el desarrollo del proyecto: adquisición de datos, limpieza, EDA, feature engineering, modelado de datos, iteración de modelos, evaluación de modelos, interpretación de modelos, impacto en negocio.
Habrá que aplicar conocimientos aprendidos hasta ahora, tenéis la oportunidad de **demostrar vuestra evolución y el trabajo realizado en durante el espacio de tiempo del que dispones**. No queremos datasets básicos ni trabajos hechos en una tarde.


```
|-- nombre_proyecto_final_ML
    |--
    |   |-- raw
    |        |-- dataset.csv
    |        |-- ...
    |   |-- processed
    |   |-- train
    |   |-- test
    |
    |-- notebooks
    |   |-- 01_EDA.ipynb
    |   |-- 02_Preprocesamiento.ipynb
    |   |-- 03_Entrenamiento_Modelo.ipynb
    |   |-- 04_Evaluacion_Modelo.ipynb
    |   |-- ...
    |
    |-- src
    |   |-- data_processing.py #pilla del dataset raw
    |   |-- model.py # Carga de la carpeta anterior el codigo necesario
    |   |-- evaluation.py
    |   |-- ...
    |
    |-- models
    |   |-- trained_model.pkl
    |   |-- model_config.yaml
    |   |-- ...
    |
    |-- app
    |   |-- app.py
    |   |-- requirements.txt
    |   |-- ...
    |
    |-- docs
    |   |-- negocio.ppt
    |   |-- ds.ppt
    |   |-- documentation.pdf
    |   |-- ...
    |
    |
    |-- README.md # Tutorial de como usar mi repo tambien es interesante

```




In [None]:
import os
import shutil

# Ruta del archivo preprocesado
preprocessed_file = 'path/to/preprocessed_data.csv'

# Ruta de la carpeta "processed"
processed_folder = 'nombre_proyecto_final_ML/processed'



# Mover el archivo preprocesado a la carpeta "processed"
shutil.move(preprocessed_file, processed_folder)


|-- nombre_proyecto_final_ML
    |-- data
    |   |-- raw
    |   |-- processed
    |   |-- train
    |   |-- test
    |
    |-- notebooks
    |   |-- 01_EDA.ipynb
    |   |-- 02_Preprocesamiento.ipynb
    |   |-- 03_Entrenamiento_Modelo.ipynb
    |   |-- 04_Evaluacion_Modelo.ipynb
    |
    |-- src
    |   |-- data_processing.py
    |   |-- model.py
    |   |-- evaluation.py
    |
    |-- models
    |   |-- trained_model.pkl
    |   |-- model_config.yaml
    |
    |-- app
    |   |-- app.py
    |   |-- requirements.txt
    |
    |-- docs
    |   |-- negocio.ppt
    |   |-- ds.ppt
    |   |-- documentation.pdf
    |
    |-- README.md


A continuación se detallan las carpetas y los requisitos de cada una:

1. **data**: se almacenarán los datos utilizados en el proyecto. Se deben crear las siguientes subcarpetas:
   - `raw`: Contiene los datos en su formato original, sin procesar.
   - `processed`: Almacena los datos procesados después de realizar las transformaciones necesarias.
   - `train`: Contiene los datos de entrenamiento utilizados para entrenar el modelo.
   - `test`: Almacena los datos de prueba utilizados para evaluar el modelo.

2. **notebooks**: se encuentran los archivos Jupyter Notebook que contienen el desarrollo del proyecto. Se deben nombrar y numerar adecuadamente según el orden de ejecución.
   - `01_EDA.ipynb`: análisis exploratorio de datos.
   - `02_Preprocesamiento.ipynb`: transformaciones y limpiezas, incluyendo el feature engineering.
   - `03_Entrenamiento_Modelo.ipynb`: entrenamiento de modelos (mínimo 5 modelos supervisados diferentes y al menos 1 no supervisado) junto con su hiperparametrización.
   - `04_Evaluacion_Modelo.ipynb`: evaluación de los modelos (métricas de evaluación, interpretación de variables,...).
3. **src**: contiene los archivos fuente de Python que implementan las funcionalidades clave del proyecto. Los requisitos de los archivos son los siguientes:
   - `data_processing.py`: código para procesar los datos de la carpeta `data/raw` y guardar los datos procesados en la carpeta `data/processed`.
   - `model.py`: código para entrenar y guardar el modelo entrenado utilizando los datos de la carpeta `data/train`.
   - `evaluation.py`: código para evaluar el modelo utilizando los datos de prueba de la carpeta `data/test` y generar métricas de evaluación.

4. **models**: se almacenarán los archivos relacionados con el modelo entrenado. Los requisitos son los siguientes:
   - `trained_model.pkl`: modelo entrenado guardado en formato pickle.
   - `model_config.yaml`: archivo con la configuración del modelo (parámetros)

5. **app**: contendrá los archivos necesarios para el despliegue del modelo en Streamlit u otra plataforma similar. Los requisitos son los siguientes:

   - `app.py`: código para la aplicación web que utiliza el modelo entrenado (Streamlit,...).
   - `requirements.txt`: especifica las dependencias del proyecto para poder ejecutar la aplicación.

5. **docs**: contendrá la documentación adicional relacionada con el proyecto, como las dos presentaciones u otros documentos relevantes.

6. **README**: portada de tu proyecto.

## Presentación negocio

Habrá que responder a las preguntas:
- ¿Qué problema o necesidad vamos a resolver?
- ¿Qué solución aporta tu modelo de ML?
- ¿Qué resultados nos ofrece el modelo? 
- ¿Qué decisiones o acciones te permiten llevar a cabo tu modelo? 
- ¿Qué consecuencias tiene en negocio?


## Presentación DS

Habrá que responder a las preguntas:
- ¿Qué problema o necesidad vamos a resolver?
- ¿Qué datos se han utilizado para el entrenamiento?
- ¿Qué transformaciones y consideraciones se han realizado?
- ¿Qué modelos has entrenado? 
- ¿Cómo ha sido el proceso de entrenamiento? 
- ¿Qué resultados nos ofrecen? ¿Qué modelo tiene mejores resultados?
- ¿Qué variables tienen de mayor impacto? 
- ¿Qué conclusiones has obtenido? 



## Pasos del proyecto
1. ¿Podemos dar solución a un problema con datos? Elige un tema.
1. Busca y consigue los datos. Vuelta al anterior punto si nos quedamos sin ideas.
1. Define tu problema de Machine Learning: clasificación/regresión, supervisado/ no supervisado, series temporales, imágenes, texto...
1. Exploratorio: obtén todos los estadísticos y gráficos que necesites para entender bien tu dataset.
1. Limpia los datos: duplicados, missings, outliers, columnas inútiles...
1. Feature engineering: transformación y creación de nuevas variables.
1. Prueba varios modelos. Itero tanto en nuevos conjuntos de datos, corrijo overfitting,
1. Analiza los resultados mediante una métrica adecuada a tu problemática.
1. Interpreta los resultados y comprende los outputs del modelo.
1. Siguientes pasos. ¿Se podría seguir enriqueciendo el modelo con otras pruebas o con otros datos?

# Suerte!