<a href="https://colab.research.google.com/github/julvc/python_diplo/blob/master/MP3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Miniproyecto 3: ¿Te gustaría ser *Data Scientist Senior*?
#### **Curso:** Introducción a Minería de Datos y Machine Learning

---

**¡Tienes una oferta de trabajo!**

Una empresa se enteró de tu **excelente** trabajo como *Data Scientist Junior* en **AMAZOFF**.

¡Quieren que trabajes con ellos como ***Data Scientist Senior***!

Para la entrevista de trabajo, te han pedido que utilices tus poderes de ***Machine Learning*** en sus bases de datos.

**¿Estás listo para el reto?**

# ¿Qué empresa te quiere en su equipo?

En este MP3 deberás buscar una base de datos y aplicar tus conocimientos de *Machine Learning*.

Una vez elegida la base de datos, deberás inventar una empresa ficticia que te busca para el puesto de *Data Scientist Senior*.

La empresa debe de tener sentido con los datos y lo que quieres predecir usando *Machine Learning*.

## ¿Cómo elegir la base de datos?

Puedes utilizar cualquier base de datos que esté publicada en internet de forma libre. Esta base de datos debe por lo menos cumplir con:

- Tener al menos 1000 filas después de limpiarla.
- Tener al menos 5 columnas con información relevante (no cuentan: *ids*, *index*, etc.) después de limpiarla.
- No tener consideraciones éticas graves. Ejemplo: datos privados de una empresa real.
- Debe tener al menos una columna (aparte de las 5 relevantes) para predecir (columna `label`o `target`).
- El ejercio contempla solo una base de datos. Si tus datos vienen originalmente en más de una, deberás juntarlos (ejemplo: `join`, `merge`, etc.) en la pregunta 1. Debes cargar todos los datos necesarios en la sección de **Preámbulo**.

# Define tu empresa

> **¡No olvides elegir tus datos primero!**

- **Nombre de la empresa**: Changararanguiz Agencia de Futbol
- **Descripción de la empresa**: Esta empresa fue creada con la finalidad de representar a jugadores de la Premier League y poder llevarlos a otros Torneos en el mundo. Para ello se analizan sus datos en ataque y defensa con la finalidad de predecir goles, pases, faltas, etc... y con ello poder representar y presentarlos a nuevos clubes de ser necesario.

# Pauta de Evaluación

Este MP3 está enfocado en responder preguntas de negocio relevantes para tu nueva empresa (creada por ti).

### Preguntas de Negocio

1. (10 puntos) ¿Cargaste los datos? ¡Toca limpiarlos! La empresa no ha tocado esos datos. ¿Se los puedes explicar?
2. (15 puntos) Datos limpios. Pues, es hora de un... ¡Análisis Exploratorio de Datos!
3. (10 puntos) ¡Vamos con el ML... ¿Qué? ¿Hay que preparar los datos primero?
4. (20 puntos) ¡Grupos everywhere!
5. (25 puntos) ¿Podemos predecir algo con estos datos? Demostremos nuestra experiencia.
6. (20 puntos) ¿Puedes explicar mejor tus resultados? ¡De Junior a Senior!

### Tener en consideración:

En caso de que el código esté bien, pero no se responda (usando celdas de texto) la pregunta de negocio (sección **Explicación**), **se asignará máximo la mitad de puntos** de esa pregunta.

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb

> # ¡NO OLVIDES SUBIR LOS DATOS ORIGINALES A LA PLATAFORMA!

# Preámbulo

In [3]:
# Agrega todas las librerias necesarias para el proyecto en su sección correspondiente

# Clustering
from sklearn.cluster import KMeans

# Machine Learning
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# General Data Science
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

In [9]:
# Esta configuración permite que los dataframes se muestren completos.
pd.set_option('display.max_columns', None)

In [49]:
# PARÁMETROS (puedes modificar esta sección)
import glob
import os
# Ruta a la carpeta que contiene los archivos CSV
filenames = [
"player_accurate_long_balls.csv",
"player_accurate_passes.csv",
"player_big_chances_created.csv",
"player_big_chances_missed.csv",
"player_effective_clearances.csv",
"player_expected_assists.csv",
"player_expected_assists_per_90.csv",
"player_expected_goals.csv",
"player_expected_goals_on_target.csv",
"player_expected_goals_per_90.csv",
"player_goals_per_90.csv",
"player_interceptions.csv",
"player_on_target_scoring_attempts.csv",
"player_player_ratings.csv",
"player_red_cards.csv",
"player_tackles_won.csv",
"player_top_assists.csv",
"player_top_scorers.csv",
"player_total_assists_in_attack.csv",
"player_total_scoring_attempts.csv",
"player_yellow_cards.csv"
]

base_url = "https://raw.githubusercontent.com/julvc/python_diplo/master/Data/"
dataframes = {}

#FORMATO PARA CARGAR DESDE GITHUB
# Cargar cada archivo CSV en un DataFrame y almacenarlo en el diccionario
for filename in filenames:
    file_url = base_url + filename
    dataframes[filename] = pd.read_csv(file_url)

#FORMATO PARA CARGAR LOCALMENTE
#folder_path = "Data/"
#csv_files = glob.glob(os.path.join(folder_path, "*.csv"))

combined_df = pd.concat(dataframes, ignore_index=True)

#POR AHORA MANTENER
#for column in combined_df.columns:
#    if "_dup" in column:
#        original_column = column.replace("_dup", "")
#        if original_column in combined_df.columns:
#            combined_df[original_column] = combined_df[original_column].combine_first(combined_df[column])
#            combined_df.drop(columns=[column], inplace=True)
#
#combined_df.fillna(0, inplace=True)

RANDOM_STATE = 15 # ¡Cámbialo a tu número favorito!

In [7]:
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6817 entries, 0 to 6816
Data columns (total 43 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Rank                             6817 non-null   int64  
 1   Player                           6817 non-null   object 
 2   Team                             6817 non-null   object 
 3   Accurate Long Balls per 90       296 non-null    float64
 4   Successful Long Balls (%)        296 non-null    float64
 5   Minutes                          6817 non-null   int64  
 6   Matches                          6817 non-null   int64  
 7   Country                          6817 non-null   object 
 8   Accurate Passes per 90           317 non-null    float64
 9   Pass Success (%)                 317 non-null    float64
 10  Big Chances Created              325 non-null    float64
 11  Total Assists                    325 non-null    float64
 12  Big Chances Missed  

In [50]:
# Esta celda se encarga de cargar los datos. ¿La necesitas modificar? ¡Adelante!

df = combined_df
print(f'{df.shape[0]} rows x {df.shape[1]} columns')
df.head(5)

6817 rows x 43 columns


Unnamed: 0,Rank,Player,Team,Accurate Long Balls per 90,Successful Long Balls (%),Minutes,Matches,Country,Accurate Passes per 90,Pass Success (%),Big Chances Created,Total Assists,Big Chances Missed,Shot Conversion Rate (%),Clearances per 90,Total Clearances,Expected Assists (xA),Actual Assists,Expected Assists per 90,Actual Assists per 90,Expected Goals (xG),Actual Goals,Expected Goals on Target (xGOT),Expected Goals per 90,Goals per 90,Total Goals,Interceptions per 90,Total Interceptions,Shots on Target per 90,Shot Accuracy (%),FotMob Rating,Player of the Match Awards,Red Cards,Yellow Cards,Tackles per 90,Tackle Success Rate (%),Assists,Secondary Assists,Goals,Penalties,Chances Created,Chances Created per 90,Shots per 90
0,1,Rodri,Manchester City,7.4,80.6,2938,34,ESP,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,2,Trent Alexander-Arnold,Liverpool,6.1,44.4,2159,28,ENG,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,3,Thomas Doyle,Wolverhampton Wanderers,5.6,57.3,1213,26,ENG,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,4,Fabian Schär,Newcastle United,5.5,50.1,3054,36,SUI,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,5,Joachim Andersen,Crystal Palace,5.3,42.4,3416,38,DEN,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [None]:
# ¿Necesitas más celdas antes de empezar a trabajar? ¡Agrega todas las que necesites!
# No olvides que en la pregunta 1 es donde debes hacer la limpieza de datos.

# [ AGREGA AQUÍ TU CÓDIGO ]

# 1. ¿Cargaste los datos? ¡Toca limpiarlos! La empresa no ha tocado esos datos. ¿Se los puedes explicar?

⁉️ **Consideración:** Asegúrate que no haya datos faltantes, que estén en el formato o tipo de dato correctos, que no haya inconsistencias, que puedas estar seguro que los datos están listos para ser usados. No olvides explicar todas tus decisiones.

ℹ️ **HINT 1:** ¿Necesitas crear nuevas columnas? ¿Tienes datos con muchas categorías? ¿Sobran columnas?

ℹ️ **HINT 2:** Recuerda que esta sección debe cumplir con los criterios para elegir la base de datos.

ℹ️ **HINT 3:** Toma de inspiración la pregunta 2 del MP1.

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [53]:
# Limpieza de campos FLOAT e INT

#Rellenar NaN con 0
df[df.select_dtypes(include=['number']).columns] = df.select_dtypes(include=['number']).fillna(0)

#Rendondear a 1 decimal los campos float
df[df.select_dtypes(include=['float']).columns] = df.select_dtypes(include=['float']).round(1)

# Convertir todos los valores negativos valores positivos
df[df.select_dtypes(include=['number']).columns] = df.select_dtypes(include=['number']).abs()

# Verificar el resultado
df.describe()
#df.to_excel("mi_dataframe.xlsx", index=False)

Unnamed: 0,Rank,Accurate Long Balls per 90,Successful Long Balls (%),Minutes,Matches,Accurate Passes per 90,Pass Success (%),Big Chances Created,Total Assists,Big Chances Missed,Shot Conversion Rate (%),Clearances per 90,Total Clearances,Expected Assists (xA),Actual Assists,Expected Assists per 90,Actual Assists per 90,Expected Goals (xG),Actual Goals,Expected Goals on Target (xGOT),Expected Goals per 90,Goals per 90,Total Goals,Interceptions per 90,Total Interceptions,Shots on Target per 90,Shot Accuracy (%),FotMob Rating,Player of the Match Awards,Red Cards,Yellow Cards,Tackles per 90,Tackle Success Rate (%),Assists,Secondary Assists,Goals,Penalties,Chances Created,Chances Created per 90,Shots per 90
count,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0,6817.0
mean,172.305853,0.069987,2.189394,1805.261552,26.483057,1.620713,3.747924,0.203902,0.122928,0.160481,0.867933,0.076588,1.800352,0.112542,0.126449,0.004459,0.004988,0.178539,0.351181,0.176119,0.007364,0.014669,0.162241,0.034737,0.791404,0.023368,1.443157,0.289365,0.050609,0.015549,0.267713,0.045533,2.615212,0.126449,0.1,0.17559,0.014082,1.158281,0.079742,0.065395
std,109.50681,0.416234,10.768132,885.615972,8.636235,8.256347,17.058141,1.262297,0.802449,1.170251,3.638828,0.448832,11.611986,0.648416,0.804459,0.027579,0.033764,1.156581,1.682086,1.179313,0.050015,0.073571,1.191751,0.187104,4.613357,0.144666,7.322917,1.389597,0.420209,0.129526,1.205938,0.239107,12.330618,0.804459,0.641921,1.202307,0.231932,6.47866,0.652153,0.373728
min,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,82.0,0.0,0.0,1150.0,21.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,164.0,0.0,0.0,1828.0,28.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,246.0,0.0,0.0,2556.0,33.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,449.0,7.4,100.0,3420.0,38.0,102.9,94.9,22.0,13.0,34.0,50.0,6.0,202.0,11.2,13.0,0.4,0.5,29.3,27.0,27.1,1.0,1.0,27.0,2.2,80.0,2.1,100.0,8.1,10.0,2.0,13.0,2.6,100.0,13.0,11.2,27.0,9.0,114.0,45.0,4.8


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6817 entries, 0 to 6816
Data columns (total 43 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Rank                             6817 non-null   int64  
 1   Player                           6817 non-null   object 
 2   Team                             6817 non-null   object 
 3   Accurate Long Balls per 90       6817 non-null   float64
 4   Successful Long Balls (%)        6817 non-null   float64
 5   Minutes                          6817 non-null   int64  
 6   Matches                          6817 non-null   int64  
 7   Country                          6817 non-null   object 
 8   Accurate Passes per 90           6817 non-null   float64
 9   Pass Success (%)                 6817 non-null   float64
 10  Big Chances Created              6817 non-null   float64
 11  Total Assists                    6817 non-null   float64
 12  Big Chances Missed  

In [52]:
# Trabajando con campo Country
#!pip install countryinfo NO OLVIDAR DESCOMENTAR
from countryinfo import CountryInfo
# pasar a lower case campo Country
df['Country'] = df['Country'].str.lstrip()
df['Country'] = df['Country'].str.rstrip()
df['Country'] = df['Country'].str.replace(r'^\s+|\s+$', '', regex=True)

#Obtener el nombre completo en una nueva columna
codigo_a_pais = {
'ENG': 'England', 'SCO': 'Scotland','WAL': 'Wales','IRL': 'Ireland','NIR': 'Northern Ireland','DEN': 'Denmark','SUI': 'Switzerland','GER': 'Germany','FRA': 'France','ITA': 'Italy','ESP': 'Spain','POR': 'Portugal','BEL': 'Belgium','NED': 'Netherlands','CZE': 'Czech Republic','POL': 'Poland','HUN': 'Hungary','RUS': 'Russia','UKR': 'Ukraine','BUL': 'Bulgaria','ROU': 'Romania','TUR': 'Turkey','MEX': 'Mexico','USA': 'United States','CAN': 'Canada','BRA': 'Brazil','ARG': 'Argentina','COL': 'Colombia','CHI': 'Chile','PER': 'Peru','URU': 'Uruguay','VEN': 'Venezuela','AUS': 'Australia','NZL': 'New Zealand', 'JPN': 'Japan','KOR': 'South Korea','CHN': 'China','IND': 'India','KSA': 'Saudi Arabia', 'IRN': 'Iran','UAE': 'United Arab Emirates','EGY': 'Egypt','TUN': 'Tunisia','ALG': 'Algeria','MAR': 'Morocco','GHA': 'Ghana','NGA': 'Nigeria','CIV': 'Ivory Coast','SEN': 'Senegal','ZAF': 'South Africa','KEN': 'Kenya','ZWE': 'Zimbabwe',
}

def get_fullname_country(code):
    return codigo_a_pais.get(code, None)

df['FullName Country'] = df['Country'].apply(get_fullname_country)
df['Country'] = df['Country'].str.lower()

df.head(5)


Unnamed: 0,Rank,Player,Team,Accurate Long Balls per 90,Successful Long Balls (%),Minutes,Matches,Country,Accurate Passes per 90,Pass Success (%),Big Chances Created,Total Assists,Big Chances Missed,Shot Conversion Rate (%),Clearances per 90,Total Clearances,Expected Assists (xA),Actual Assists,Expected Assists per 90,Actual Assists per 90,Expected Goals (xG),Actual Goals,Expected Goals on Target (xGOT),Expected Goals per 90,Goals per 90,Total Goals,Interceptions per 90,Total Interceptions,Shots on Target per 90,Shot Accuracy (%),FotMob Rating,Player of the Match Awards,Red Cards,Yellow Cards,Tackles per 90,Tackle Success Rate (%),Assists,Secondary Assists,Goals,Penalties,Chances Created,Chances Created per 90,Shots per 90,FullName Country
0,1,Rodri,Manchester City,7.4,80.6,2938,34,esp,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Spain
1,2,Trent Alexander-Arnold,Liverpool,6.1,44.4,2159,28,eng,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,England
2,3,Thomas Doyle,Wolverhampton Wanderers,5.6,57.3,1213,26,eng,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,England
3,4,Fabian Schär,Newcastle United,5.5,50.1,3054,36,sui,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Switzerland
4,5,Joachim Andersen,Crystal Palace,5.3,42.4,3416,38,den,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Denmark


In [55]:
# Limpieza campos Player y Team

df['Player'] = df['Player'].str.lstrip()
df['Player'] = df['Player'].str.rstrip()
df['Player'] = df['Player'].str.replace(r'^\s+|\s+$', '', regex=True)

df['Team'] = df['Team'].str.lstrip()
df['Team'] = df['Team'].str.rstrip()
df['Team'] = df['Team'].str.replace(r'^\s+|\s+$', '', regex=True)

df.head(5)


Unnamed: 0,Rank,Player,Team,Accurate Long Balls per 90,Successful Long Balls (%),Minutes,Matches,Country,Accurate Passes per 90,Pass Success (%),Big Chances Created,Total Assists,Big Chances Missed,Shot Conversion Rate (%),Clearances per 90,Total Clearances,Expected Assists (xA),Actual Assists,Expected Assists per 90,Actual Assists per 90,Expected Goals (xG),Actual Goals,Expected Goals on Target (xGOT),Expected Goals per 90,Goals per 90,Total Goals,Interceptions per 90,Total Interceptions,Shots on Target per 90,Shot Accuracy (%),FotMob Rating,Player of the Match Awards,Red Cards,Yellow Cards,Tackles per 90,Tackle Success Rate (%),Assists,Secondary Assists,Goals,Penalties,Chances Created,Chances Created per 90,Shots per 90,FullName Country
0,1,Rodri,Manchester City,7.4,80.6,2938,34,esp,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Spain
1,2,Trent Alexander-Arnold,Liverpool,6.1,44.4,2159,28,eng,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,England
2,3,Thomas Doyle,Wolverhampton Wanderers,5.6,57.3,1213,26,eng,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,England
3,4,Fabian Schär,Newcastle United,5.5,50.1,3054,36,sui,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Switzerland
4,5,Joachim Andersen,Crystal Palace,5.3,42.4,3416,38,den,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Denmark


In [None]:
# Limpieza de datos duplicados

In [None]:
# Creacion de nuevos campos

# 2. Datos limpios. Pues, es hora de un... ¡Análisis Exploratorio de Datos!

⁉️ **Consideración:** ¡Es hora del EDA! Es importante entender muy bien que **información** contienen tus datos. Para esto, considerando las necesidades de tu empresa, plantearás 5 preguntas interesantes para ella que se puedan responder al analizar tus datos.

ℹ️ **HINT 1 :** Busca preguntas relevantes y no triviales. Utiliza gráficos, estadísticas, lo que se ocurra para explotar la información de los datos.

ℹ️ **HINT 2:** Inspírate en las preguntas 3 y 4 del MP1.

---

✅ **Explicación:**

- **Pregunta 1: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 2: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 3: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 4: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 5: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# PREGUNTA 1: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 2: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 3: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 4: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 5: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

# 3. ¡Vamos con el ML... ¿Qué? ¿Hay que preparar los datos primero?

⁉️ **Consideración:** En las siguientes preguntas harás clusterización y aprendizaje de máquina... prepara tus datos pensando en los modelos que utilizarás. Acá se toman los datos limpios y se pasan a numérico, se cambian las escalas, se agregan columnas para mejorar los resultados de los modelos, etc. Justifica todas tus decisiones.

ℹ️ **HINT:** ¿*Encoding*? ¿Normalización? ¿*Feature Engineering*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

# 4. ¡Grupos everywhere!

⁉️ **Consideración:** Utiliza técnicas de clusterización para encontrar grupos dentro de tus datos. Recuerda colorear tus gráficos correctamente para que podamos ver los grupos. Sí, debes de graficar tus resultados. ¿En 2D, 3D, 4D? Queda a tu decisión. Recuerda que solo puedes usar métodos de clusterización de `sklearn`.

ℹ️ **HINT 1:** No olvides que cada método es diferente. ¿Justificarás por qué elegiste ese método?

ℹ️ **HINT 2:** No olvides explicar cómo eliges tus hiperparámetros.

ℹ️ **HINT 3:** ¿No encuentras grupos? ¿Sabías que PCA y otras técnicas de reducción de dimensionalidad son útiles para *clustering*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# BONUS: +0.5 puntos.
# Si no harás el bonus, elimina esta sección.

# [ AGREGA AQUÍ TU CÓDIGO ]

# 5. ¿Podemos predecir algo con estos datos? Demostremos nuestra experiencia.

⁉️ **Consideración:** Es la hora de aplicar modelos de clasificación o regresión (`sklearn`) a los datos. Enfócate en ser ordenado y seguir todos los pasos: datos, entrenamiento, validación, testeo, interpretación, etc. Debes de explicar a fondo tus decisiones de modelo, parámetros, interpretación de resultados, medidas de rendimiento, etc.

ℹ️ **HINT 1:** ¿Habías escuchado de Validación Cruzada? ¿Has escuchado de `GridSearchCV`?

ℹ️ **HINT 2:** ¿Te fjaste en el *overfitting*?

ℹ️ **HINT 3:** ¿Por qué elegiste ese modelo? Puedes utilizar cualquier modelo de `sklearn`.

ℹ️ **HINT 4:** Se recomienda que comparen varios modelos. ¿Leíste la documentación de `sklearn`?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

# 6. ¿Puedes explicar mejor tus resultados? ¡De Junior a Senior!

⁉️ **Consideración:** Para pasar de ser una *Data Scientist Junior* a *Senior* deberás ser muy bueno para interpretar y mejorar los resultados de tu modelo. ¿Qué otras mediciones puedes utilizar? ¿Cómo puedes modificar tus datos? ¿Qué datos te faltan? ¿Qué impacta más a tu predicción? ¿Por qué hay métricas más importantes que otras? ¡Y muchas preguntas más! Ahonda en los resultados de tus modelos.

ℹ️ **HINT 1:** ¿Qué otras métricas existen? ¿Matrices de confusión? ¿Por qué hay clases que funcionan peor?

ℹ️ **HINT 2:** ¿Consideraste la reducción de dimensionalidad?

ℹ️ **HINT 3:** ¿Conoces la librería `SHAP`? ¿O los *Partial Dependece Plots*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb

> # ¡NO OLVIDES SUBIR LOS DATOS ORIGINALES A LA PLATAFORMA!