# Proyecto final
1. Recuerde que se divide en dos partes:
    - Informe escrito y código
    - Presentación
2. Habrá entregas parciales, las cuales son un prerrequisito para el proyecto final.
    - La calificación de dichas entregas entran en el apartado de tares y trabajo en clase.
    - Primera entrega:
        + Introducción
        + Antecedentes
        + Objetivos
        + Planteamiento del problema
        + EDA
        + Data Wrangling (Limpieza de datos)
        + Entrenamiento del Modelo con `MLflow`
        + Selección y registro del mejor modelo

## Actividades Primera entrega
1. Crear un repositorio en Github, añadir a los compañeros como colaboradores.
2. Trabajar sobre una rama llamada `feat/primera-entrega` y hacer todos los cambios ahí.
3. Una vez terminados los cambios, se debe enviar el `Pull Request (PR)` de dicha rama hacia la rama `main`.
4. El `PR` lo debe enviar un integrante del equipo, y los demás deben estar como reviewers del `PR` y aceptarlo. 
5. Una vez revisado y aceptado el `PR`, hacer el `merge` de dicho `PR` en `main`.

### Entregas
Habrá dos entregas divididas de la siguiente manera:

1. **Trabajo en clase (del proyecto) hoy Martes 3 de Septiembre de 2024.** Para esta entrega, hacer un commit con el siguiente mensaje `feat: entrega trabajo en clase` con los avances realizados en clase.
2. **Fecha de la primera entrega: Marte 10 de Septiembre de 2024 a las 19:55.** Esta entrega debe contener todo lo descrito anteriormente y que esta detallado a continuación, incluido el `PR`.

---

## Actividades Segunda entrega
1. Crear un repositorio en `Dagshub`, asociándolo al repositorio actualmente creado.
2. Trabajar sobre una rama llamada `feat/segunda-entrega` y hacer todos los cambios ahí.
3. Una vez terminados los cambios, se debe enviar el `Pull Request (PR)` de dicha rama hacia la rama `main`.
4. El `PR` lo debe enviar un integrante del equipo, y los demás deben estar como reviewers del `PR` y aceptarlo. 
5. Una vez revisado y aceptado el `PR`, hacer el `merge` de dicho `PR` en `main`.

### Entregas
Habrá dos entregas divididas de la siguiente manera:

1. **Trabajo en clase (del proyecto) hoy Jueves 19 de Septiembre de 2024.** Para esta entrega, hacer un commit con el siguiente mensaje `feat: entrega trabajo en clase` con los avances realizados en clase.
2. **Fecha de la segunda entrega: Jueves 26 de Septiembre de 2024 a las 19:55.** Esta entrega debe contener todo lo descrito anteriormente, las correcciones de la entrega anterior y lo que esta detallado a continuación, incluido el `PR`.

___
## 1. Entregable.
Los trabajos deben tener los siguientes componentes básicos.

#### 1. **Título del trabajo:**
El título del trabajo debe ser una descripción concisa pero informativa del proyecto. Debe reflejar el tema principal y el propósito de la solución que están desarrollando.

#### 2. **Introducción:**
La introducción es la sección inicial del informe que proporciona una visión general del proyecto. Debe explicar brevemente de qué trata el proyecto, su importancia y su relevancia en el contexto de la ciencia de datos.

#### 3. **Antecedentes:**
En esta sección, los estudiantes deben proporcionar información contextual sobre el tema del proyecto. Esto podría incluir investigaciones previas, estudios relacionados, tecnologías utilizadas y cualquier otro elemento que respalde la necesidad de abordar este problema.

#### 4. **Objetivos:**
En esta sección, se deben establecer los objetivos del proyecto. Esto incluye definir claramente lo que se espera lograr con la solución de ciencia de datos.

+ **Objetivos Generales:** Los objetivos generales son los propósitos amplios y fundamentales que se persiguen con el proyecto en su conjunto. Estos objetivos proporcionan una visión general de lo que se espera lograr, pero no entran en detalles específicos sobre cómo se lograrán. Son metas amplias que dan dirección al proyecto en su conjunto. En el contexto de un proyecto de ciencia de datos, los objetivos generales establecen el propósito general de aplicar los conceptos de ciencia de datos y MLOPS para resolver un problema real.
    
+ **Objetivos Específicos:** Los objetivos específicos son metas detalladas y concretas que se establecen para lograr los objetivos generales. Estos objetivos se centran en tareas o logros particulares que deben llevarse a cabo en el transcurso del proyecto. En un proyecto de ciencia de datos, los objetivos específicos pueden incluir pasos concretos como realizar un análisis exploratorio de datos, preprocesar datos, entrenar un modelo, crear una API, conteneirizar el servicio y desplegarlo en la nube. Los objetivos específicos brindan una hoja de ruta detallada para alcanzar los objetivos generales.

#### 5. **Planteamiento del problema:**
Aquí, los estudiantes deben describir detalladamente el problema que están abordando. Deben explicar por qué es un problema relevante y cómo puede resolverse o mejorarse mediante el uso de técnicas de ciencia de datos.

#### 6. **Desarrollo de la solución:**
Esta es la parte central del informe y debe dividirse en varias subsecciones:

+ **EDA (Análisis Exploratorio de Datos):** Aquí, los estudiantes deben mostrar cómo exploraron y analizaron los datos, identificando tendencias, patrones y características importantes.

+ **Data Wrangling:** En esta sección, se describe cómo se limpiaron y prepararon los datos para su análisis, incluyendo la eliminación de valores atípicos y la imputación de datos faltantes.

+ **Entrenamiento del modelo con `MLflow`:** En esta parte, se detalla cómo se entrenó el modelo de ciencia de datos. Deben utilizar `MLflow` para registrar los experimentos, incluyendo diferentes configuraciones de modelos y parámetros. Además, deben grabar métricas relevantes para evaluar el rendimiento de los modelos.

+ **Selección del mejor modelo:** Con base en los experimentos registrados en `MLflow`, se debe identificar y seleccionar el modelo que mejor desempeño y métricas muestra. Dicho modelo debe ser registrado en el `Registry Model` para posteriormente ser usado.


NOTA: El proyecto se debe encontrar en un repositorio de `github`.

El repositorio debe tener la siguiente estructura recomendada, sin embargo puede adaptarla al caso de uso de su proyecto

```
├── LICENSE                              # License file for the project.
├── README.md                            # Top-level README for developers using this project.
├── data
│   ├── external                         # Data from third-party sources.
│   ├── interim                          # Intermediate data that has been transformed.
│   ├── processed                        # The final, canonical data sets for modeling.
│   └── raw                              # The original, immutable data dump.
├── notebooks                            # Jupyter notebooks for exploration, training, etc.
├── Informe Escrito
│   └── PrimerNombrePrimerApellido.ipynb
├── src
│   ├── __init__.py                      # Makes src a Python module.
│   ├── docker-compose.yaml              # Docker Compose file to orchestrate containers.
│   ├── frontend                         # Source code for the Streamlit user interface.
│   │   ├── Dockerfile                   # Dockerfile for building the frontend container.
│   │   ├── app.py                       # Streamlit app entry point.
│   │   └── requirements.txt             # Frontend-specific Python dependencies.
│   ├── backend                          # API source code for model interaction.
│   │   ├── Dockerfile                   # Dockerfile for building the backend container.
│   │   ├── __init__.py
│   │   ├── api.py                       # Example API module.
│   │   └── requirements.txt             # Backend-specific Python dependencies.
```