# Proyecto Machine Learning

## Objetivo
El objetivo de este proyecto es crear un modelo predictivo de Machine Learning. Tienes que desarrollar un workflow de Machine Learning (recogida de datos, limpieza, EDA, feature engineering...) y montar el modelo.
Tendrás que aplicar conocimientos aprendidos hasta ahora de programación, limpieza de datos, visualización y modelado.


## Evaluación
- Presentación (45%) no más de 10 minutos donde expondrás tu caso. 3 minutos más para preguntas.

- Código (45%) hay que entregar todo el código desarrollado.
- Subir el proyecto a tu GitHub personal (10%)

## Entregable
Consistirá en un .zip que habrá que subir a Google Classroom y enviar a los emails de los profesores. El zip debe constar:
* Presentación (en documents)
* Memoria: Debe ser el archivo main.ipynb bien comentado. Además, puedes añadir a la carpeta "documents" otros relacionados.
* Proyecto con la estructura explicada en la guía más el archivo "info.json" explicado más abajo
* Documentación utilizada (en documents)
* Si utilizáis tableau u otra herramienta, añade en la carpeta "resources/" una carpeta llamada "tableau/" (o nombre de herramienta) con el archivo o archivos necesarios para que podamos ejecutarlo.
* Archivo .txt con el enlace al repositorio de GitHub. Es obligatorio que tenga un README explicativo de tu proyecto para que puedan verlo desde RRHH. 
* Un archivo "info.json" con la información del proyecto. Este archivo debe estar a la misma altura que `src`, `data`, etc y debe tener estas "keys":
    - 'project_name' : 'El nombre del proyecto'
    - 'author' : 'Tu nombre'
    - 'linkedin' : 'url a tu linkedin o información de contacto' (déjalo como un string vacío si no quieres darlo) 
    - 'e_mail' : 'Tu mail' (déjalo como un string vacío si no quieres darlo) 
    - 'project_title' : 'La cabecera que aparecerá al entrar a streamlit (puede ser el mismo que project_name)'
    - 'project_description' : 'La descripción (brief) de tu proyecto'
    - 'flask_port' : En int el número que usas para el puerto de flask
    - 'streamlit_port' : En int el número que se usa al abrir streamlit (puedes verlo al cargar streamlit en localhost)
    - 'links' : 'Enlaces a otros recursos online donde se pueda ahondar en tu proyecto'

* Un archivo "requirements.txt" que avanzaremos en futuras clases.

**GitHub**: hay que crear un README con una descripción de tu proyecto. El objetivo de este README es enterarse de forma rápida de qué va tu proyecto y qué tecnologías has utilizado para llevarlo a cabo, no es más que un escaparate de tu trabajo. Hay que ir documentando bien los trabajos para acabar el bootcamp con un buen portfolio. En [este enlace](https://github.com/alexhuang1117/Data-Science-Portfolio) tienes un ejemplo de cómo tener documentados los proyectos en tu GitHub. Encontrarás en el notebook de markdown todo lo que necesitas para crear un README decente.

Todo lo anterior con la estructura de proyecto que viene en "Final Individual Delivery Guide"

## Presentación
Se complica la presentación con respecto a la de EDA ya que hay que contar algo mucho más técnico. Empieza como en el EDA, exponiendo el caso, y desarrolla la solución de ML para tus datos. ¿Qué pretendes resolver con un modelo de ML? ¿Qué resultados has obtenido? ¿Qué modelos has probado? Partiendo de los datos del EDA, ¿qué nuevos datos has incorporado, o qué nuevos datos has sacado como nuevas entradas para tu modelo? 

Es obligatorio que tenga una introducción, un índice, una comparativa de tus modelos, una conclusión y cierre con tu información de conctacto.

**¿Qué consecuencias de negocio tiene tu modelo?** Por ejemplo, un 4% de mis pacientes me los va a predecir erróneamente como que tienen diabetes, cuando en realidad no la tienen. 

**¿Formatos de la presentación?** Nada de Notebooks, ni informes en pdf o HTML. Formato presentación en PowerPoint, Prezi o la plataforma que mejor conozcas, siendo perfectamente combinable con un dashboard desarrollado mediante alguna de las herramientas aprendidas durante el curso (Powr BI, Dash, Plotly).

**Consejos**: Si usas un PowerPoint... será tu apoyo a la hora de presentar, aquí el protagonista es tu discurso. Por favor, que la presentación no sea un conjunto de puntos inconexos, intenta llevar un hilo, como si de una historia se tratase. Véndete, destaca las fortalezas de tu trabajo sobre las debilidades. Interactúa con el público. Si vas a contar algo de negocio, ¿puedes traducirlo a números? ¿Qué impacto tendrá tu analítica?. Muestra algunos datos concretos (estadísticos simples) para justificar tu business case o para cerrar tu presentación. Si has elegido una temática que está acorde con tus gustos/background, aprovecha al principio para contarlo y empatizar mucho más con el público. Si vas a hacer una demo, grábala por si te falla algo en la presentación (conexión a Internet). Prepárate las respuestas a algunas posibles preguntas en un anexo de la presentación.

**NOTA**: existen muchas plantillas gratuitas en la web para hacer presentaciones. [Aquí tienes unas cuantas](https://www.free-powerpoint-templates-design.com/free-powerpoint-templates-design/).

[Y en este enlace](https://slidesgo.com/es/)

[Aquí también](https://www.slidescarnival.com/es)

## Pasos del proyecto
1. Consigue los datos
2. Limpia los datos: duplicados, missings, outliers, columnas inútiles...
3. Define tu problema de Machine Learning: clasifiación/regresión, supervisado/ no supervisado, series temporales, imágenes, texto...
4. Exploratorio: obtén todos los estadísticos y gráficos que necesites para entender bien tu dataset.
5. Prueba varios modelos
6. Analiza los resultados mediante una métrica adecuada a tu problemática.
7. Siguientes pasos. ¿Se puede enriquecer el modelo con otras pruebas o con otros datos?
8. Bonus track (opcional): monta un dashboard/informe donde se vea cómo aprende tu modelo, qué hiperparámetros usa y resultados obtenidos.

## Obligatorio que no se debe olvidar:

- Los nombres elegidos en la estructura del proyecto debe ser *literalmente* la que está especificada. Nada de mayúsculas, espacios, etc **si no está escrito así**
- Recuerda **NO ESCRIBIR NINGÚN ESPACIO O CARACTER RARO**. 
- Cuando vayas a realizar la *importación relativa*, recuerda escribir `os.path.abspath(__file__)` en vez de únicamente `__file__` en tus archivos .py. 
