# Miniproyecto 3: ¿Te gustaría ser *Data Scientist Senior*?
#### **Curso:** Introducción a Minería de Datos y Machine Learning

---

**¡Tienes una oferta de trabajo!**

Una empresa se enteró de tu **excelente** trabajo como *Data Scientist Junior* en **AMAZOFF**.

¡Quieren que trabajes con ellos como ***Data Scientist Senior***!

Para la entrevista de trabajo, te han pedido que utilices tus poderes de ***Machine Learning*** en sus bases de datos.

**¿Estás listo para el reto?**

# ¿Qué empresa te quiere en su equipo?

En este MP3 deberás buscar una base de datos y aplicar tus conocimientos de *Machine Learning*.

Una vez elegida la base de datos, deberás inventar una empresa ficticia que te busca para el puesto de *Data Scientist Senior*.

La empresa debe de tener sentido con los datos y lo que quieres predecir usando *Machine Learning*.

## ¿Cómo elegir la base de datos?

Puedes utilizar cualquier base de datos que esté publicada en internet de forma libre. Esta base de datos debe por lo menos cumplir con:

- Tener al menos 1000 filas después de limpiarla.
- Tener al menos 5 columnas con información relevante (no cuentan: *ids*, *index*, etc.) después de limpiarla.
- No tener consideraciones éticas graves. Ejemplo: datos privados de una empresa real.
- Debe tener al menos una columna (aparte de las 5 relevantes) para predecir (columna `label`o `target`).
- El ejercio contempla solo una base de datos. Si tus datos vienen originalmente en más de una, deberás juntarlos (ejemplo: `join`, `merge`, etc.) en la pregunta 1. Debes cargar todos los datos necesarios en la sección de **Preámbulo**.

# Define tu empresa

> **¡No olvides elegir tus datos primero!**

- **Nombre de la empresa**: [ NOMBRE FICTICIO DE TU EMPRESA ]
- **Descripción de la empresa**: [ DESCRIPCIÓN DE TU EMPRESA ]

# Pauta de Evaluación

Este MP3 está enfocado en responder preguntas de negocio relevantes para tu nueva empresa (creada por ti).

### Preguntas de Negocio

1. (10 puntos) ¿Cargaste los datos? ¡Toca limpiarlos! La empresa no ha tocado esos datos. ¿Se los puedes explicar?
2. (15 puntos) Datos limpios. Pues, es hora de un... ¡Análisis Exploratorio de Datos!
3. (10 puntos) ¡Vamos con el ML... ¿Qué? ¿Hay que preparar los datos primero?
4. (20 puntos) ¡Grupos everywhere!
5. (25 puntos) ¿Podemos predecir algo con estos datos? Demostremos nuestra experiencia.
6. (20 puntos) ¿Puedes explicar mejor tus resultados? ¡De Junior a Senior!

### Tener en consideración:

En caso de que el código esté bien, pero no se responda (usando celdas de texto) la pregunta de negocio (sección **Explicación**), **se asignará máximo la mitad de puntos** de esa pregunta.

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb

> # ¡NO OLVIDES SUBIR LOS DATOS ORIGINALES A LA PLATAFORMA!

# Preámbulo

In [None]:
# Agrega todas las librerias necesarias para el proyecto en su sección correspondiente

# Clustering
from sklearn.cluster import KMeans

# Machine Learning
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# General Data Science
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

In [None]:
# Esta configuración permite que los dataframes se muestren completos.
pd.set_option('display.max_columns', None)

In [None]:
# PARÁMETROS (puedes modificar esta sección)

DATA_PATH = 'ecommerce.csv' # Si tienes el archivo en otro lugar, cámbialo.
RANDOM_STATE = 0 # ¡Cámbialo a tu número favorito!

In [None]:
# Esta celda se encarga de cargar los datos. ¿La necesitas modificar? ¡Adelante!

df = pd.read_csv(DATA_PATH)
print(f'{df.shape[0]} rows x {df.shape[1]} columns')
df.head(5)

In [None]:
# ¿Necesitas más celdas antes de empezar a trabajar? ¡Agrega todas las que necesites!
# No olvides que en la pregunta 1 es donde debes hacer la limpieza de datos.

# [ AGREGA AQUÍ TU CÓDIGO ]

# 1. ¿Cargaste los datos? ¡Toca limpiarlos! La empresa no ha tocado esos datos. ¿Se los puedes explicar?

⁉️ **Consideración:** Asegúrate que no haya datos faltantes, que estén en el formato o tipo de dato correctos, que no haya inconsistencias, que puedas estar seguro que los datos están listos para ser usados. No olvides explicar todas tus decisiones.

ℹ️ **HINT 1:** ¿Necesitas crear nuevas columnas? ¿Tienes datos con muchas categorías? ¿Sobran columnas?

ℹ️ **HINT 2:** Recuerda que esta sección debe cumplir con los criterios para elegir la base de datos. 

ℹ️ **HINT 3:** Toma de inspiración la pregunta 2 del MP1.

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

# 2. Datos limpios. Pues, es hora de un... ¡Análisis Exploratorio de Datos!

⁉️ **Consideración:** ¡Es hora del EDA! Es importante entender muy bien que **información** contienen tus datos. Para esto, considerando las necesidades de tu empresa, plantearás 5 preguntas interesantes para ella que se puedan responder al analizar tus datos.

ℹ️ **HINT 1 :** Busca preguntas relevantes y no triviales. Utiliza gráficos, estadísticas, lo que se ocurra para explotar la información de los datos.

ℹ️ **HINT 2:** Inspírate en las preguntas 3 y 4 del MP1.

---

✅ **Explicación:**

- **Pregunta 1: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 2: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 3: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 4: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 5: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# PREGUNTA 1: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 2: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 3: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 4: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 5: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

# 3. ¡Vamos con el ML... ¿Qué? ¿Hay que preparar los datos primero?

⁉️ **Consideración:** En las siguientes preguntas harás clusterización y aprendizaje de máquina... prepara tus datos pensando en los modelos que utilizarás. Acá se toman los datos limpios y se pasan a numérico, se cambian las escalas, se agregan columnas para mejorar los resultados de los modelos, etc. Justifica todas tus decisiones.

ℹ️ **HINT:** ¿*Encoding*? ¿Normalización? ¿*Feature Engineering*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

# 4. ¡Grupos everywhere!

⁉️ **Consideración:** Utiliza técnicas de clusterización para encontrar grupos dentro de tus datos. Recuerda colorear tus gráficos correctamente para que podamos ver los grupos. Sí, debes de graficar tus resultados. ¿En 2D, 3D, 4D? Queda a tu decisión. Recuerda que solo puedes usar métodos de clusterización de `sklearn`.

ℹ️ **HINT 1:** No olvides que cada método es diferente. ¿Justificarás por qué elegiste ese método?

ℹ️ **HINT 2:** No olvides explicar cómo eliges tus hiperparámetros. 

ℹ️ **HINT 3:** ¿No encuentras grupos? ¿Sabías que PCA y otras técnicas de reducción de dimensionalidad son útiles para *clustering*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# BONUS: +0.5 puntos.
# Si no harás el bonus, elimina esta sección.

# [ AGREGA AQUÍ TU CÓDIGO ]

# 5. ¿Podemos predecir algo con estos datos? Demostremos nuestra experiencia.

⁉️ **Consideración:** Es la hora de aplicar modelos de clasificación o regresión (`sklearn`) a los datos. Enfócate en ser ordenado y seguir todos los pasos: datos, entrenamiento, validación, testeo, interpretación, etc. Debes de explicar a fondo tus decisiones de modelo, parámetros, interpretación de resultados, medidas de rendimiento, etc.

ℹ️ **HINT 1:** ¿Habías escuchado de Validación Cruzada? ¿Has escuchado de `GridSearchCV`?

ℹ️ **HINT 2:** ¿Te fjaste en el *overfitting*?

ℹ️ **HINT 3:** ¿Por qué elegiste ese modelo? Puedes utilizar cualquier modelo de `sklearn`.

ℹ️ **HINT 4:** Se recomienda que comparen varios modelos. ¿Leíste la documentación de `sklearn`?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

# 6. ¿Puedes explicar mejor tus resultados? ¡De Junior a Senior!

⁉️ **Consideración:** Para pasar de ser una *Data Scientist Junior* a *Senior* deberás ser muy bueno para interpretar y mejorar los resultados de tu modelo. ¿Qué otras mediciones puedes utilizar? ¿Cómo puedes modificar tus datos? ¿Qué datos te faltan? ¿Qué impacta más a tu predicción? ¿Por qué hay métricas más importantes que otras? ¡Y muchas preguntas más! Ahonda en los resultados de tus modelos.

ℹ️ **HINT 1:** ¿Qué otras métricas existen? ¿Matrices de confusión? ¿Por qué hay clases que funcionan peor?

ℹ️ **HINT 2:** ¿Consideraste la reducción de dimensionalidad?

ℹ️ **HINT 3:** ¿Conoces la librería `SHAP`? ¿O los *Partial Dependece Plots*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb

> # ¡NO OLVIDES SUBIR LOS DATOS ORIGINALES A LA PLATAFORMA!