# Proyecto Machine Learning
Para el módulo del bootcamp de Data Science tendrás que desarrollar un modelo de machine learning. Puedes buscar en nuevas fuentes de datos o incluso reutilizar los que utilizaste en tu EDA en caso de que fuera pertinente.

* **Miembros**: El proyecto es individual
* **Datos**: origen en proyecto de EDA, siempre que tenga sentido. Si no, buscar en Kaggle (u otras fuentes web), Apis o Webscrapping un tema que te interese. El volumen de los datos no debe ser inferior a **1.000 observaciones**.
* **Fechas**: 

    * El **viernes 24 de mayo** se presentará a la clase el tema de tu proyecto en un minuto. Para ello deberás ya tener los datos y la variable a predecir.
    * El **jueves 06 de junio** se realizarán las presentaciones del proyecto.

## Objetivo
El objetivo de este proyecto es crear un modelo predictivo de Machine Learning utilizando los datos conseguidos en la etapa de Data Analysis o explorando nuevos datasets.

Tienes que desarrollar un workflow de Machine Learning: recogida de datos, limpieza, EDA, feature engineering, prueba de varios modelos, evaluación, interpretación de los modelos con visualizaciones, junto con su impacto en negocio.
Habrá que aplicar conocimientos aprendidos hasta ahora de programación, limpieza de datos, visualización y modelado. Tenéis la oportunidad de demostrar vuestra evolución y el trabajo realizado en durante el espacio de tiempo que se te ofrece (no queremos proyectos de un fin de semana).


## Evaluación
- **Presentación (40%)** entre 10 y 15 minutos. Es importante ajustarse al tiempo donde expondrás tu proyecto.
- **Código (60%)** No solo será evaluado el archivo memoria.ipynb (10%), este gran esfuerzo tiene que ser compartido y tendrás que crear un repositorio con la estructura del enunciado en GitHub y sea funcional (40%) para añadirlo a tu portfolio con un Readme a la altura (10%). En caso de que el proyecto se componga de datos sensibles o no se quiera publicar, se puede mantener en repositorio privado (consultar profesores).


El codigo deberá seguir la siguiente estructura de carpetas:
1. src/: aquí irá todo el código
2. src/utils/: todos los modulos y funciones auxiliares creados para el desarrollo del proyecto.
4. src/data/: datasets de train.csv y test.csv que van a ser utilizados en el entrenamiento del modelo.
5. src/notebooks/: notebooks de limpieza, procesado, EDA e iteraciones de modelos de Machine Learning.
6. src/memoria.ipynb: notebook limpio donde resumas los pasos que has seguido y sirva como memoria del proyecto.
7. src/model: guarda aquí todos tus modelos ya entrenados y listos para llevar a producción. El modelo elegido estará dentro de la carpeta de production/.
8. Si utilizáis tableau u otra herramienta, añade una carpeta "resources/" y dentro otra llamada /img con las imágenes necesarias, u otra carpeta llamada "tableau/" (o nombre de herramienta) con el archivo o archivos necesarios para que podamos ejecutarlo.

## Presentación
Se complica la presentación con respecto a la de EDA ya que hay que contar algo mucho más técnico. Empieza como en el EDA, exponiendo el caso, y desarrolla la solución de ML para tus datos para un público que no tenga por qué tener conocimientos previos. Recuerda utiizar un storytelling para responder en tu presentación a algunas preguntas clave:
- ¿Qué problema o necesidad vamos a resolver? ¿Podemos solucionarlo con ML?
- ¿Qué solución aporta tu modelo de ML?
- ¿Qué modelos has probado? 
- ¿Qué variables tienen de mayor impacto? 
- ¿Qué resultados y conclusiones has obtenido? 
- ¿Qué decisiones o acciones te permiten llevar a cabo tu modelo? 
- ¿Qué consecuencias tiene en negocio?

**¿Formatos de la presentación?** Nada de Notebooks, ni informes en pdf o HTML. Formato presentación en PowerPoint, Prezi o la plataforma que mejor conozcas, siendo perfectamente combinable con un dashboard desarrollado mediante alguna de las herramientas aprendidas durante el curso (Tableau, Streamlit, Plotly...).

**Consejos**: Si usas un PowerPoint... será tu apoyo a la hora de presentar, aquí el protagonista es tu discurso. Por favor, que la presentación no sea un conjunto de puntos inconexos, intenta llevar un hilo, como si de una historia se tratase. Véndete, destaca las fortalezas de tu trabajo sobre las debilidades. Interactúa con el público. Si vas a contar algo de negocio, ¿puedes traducirlo a números? ¿Qué impacto tendrá tu analítica?. Muestra algunos datos concretos (estadísticos simples) para justificar tu business case o para cerrar tu presentación. Si has elegido una temática que está acorde con tus gustos/background, aprovecha al principio para contarlo y empatizar mucho más con el público. Si vas a hacer una demo, grábala por si te falla algo en la presentación (conexión a Internet). Prepárate las respuestas a algunas posibles preguntas en un anexo de la presentación. Existen muchas plantillas gratuitas en la web para hacer presentaciones. 

## Pasos del proyecto
1. ¿Podemos dar solución a un problema con datos? Elige un tema.
1. Busca y consigue los datos. Vuelta al anterior punto si nos quedamos sin ideas.
1. Define tu problema de Machine Learning: clasificación/regresión, supervisado/ no supervisado, series temporales, imágenes, texto...
1. Exploratorio: obtén todos los estadísticos y gráficos que necesites para entender bien tu dataset.
1. Limpia los datos: duplicados, missings, outliers, columnas inútiles...
1. Feature engineering: transformación y creación de nuevas variables.
1. Prueba varios modelos
1. Analiza los resultados mediante una métrica adecuada a tu problemática.
1. Interpreta los resultados y comprende los outputs del modelo.
1. Siguientes pasos. ¿Se podría seguir enriqueciendo el modelo con otras pruebas o con otros datos?

## Estructura principal de la memoria:

No tiene que seguir al pie de la letra esta estructura, cada uno lo podrá enfocar de forma diferente, pero mínimo tendrá que aparecer la respuesta a estos puntos. Se puede utilizar como punto de partida de cara a la presentación.

#### I. Introducción

* Contexto del problema a resolver y justificación de la necesidad
* Objetivos y alcance del proyecto

#### II. Dataset

* Descripción del dataset utilizado (origen, tamaño, variables, etc.)
* Análisis exploratorio de los datos (EDA)

#### III. Preprocesamiento de los datos

* Verificación de la calidad de los datos
* Decisiones, imputaciones y transformación de variables

#### IV. Modelado

* Entrenamiento de modelos supervisados/no supervisados
* Evaluación de los diferentes modelos e iteraciones.
* Selección e interpretación del modelo final.

#### V. Predicción y resultados finales

* Descripción de la solución final y su impacto en el negocio
* Visualización de los resultados finales y predicciones

#### VI. Conclusiones y futuros pasos

* Análisis de los resultados y fortalezas/debilidades del proyecto
* Propuesta de futuras mejoras y optimizaciones

La memoria deberá estar escrita de manera clara y concisa, con visualizaciones y gráficos adecuados para apoyar la comprensión de los resultados. Se espera que el alumno demuestre un conocimiento profundo de las técnicas y herramientas utilizadas en el proyecto, así como también la capacidad de pensar críticamente sobre los resultados y su aplicación en el negocio.

# Suerte!