<a href="https://colab.research.google.com/github/julvc/python_diplo/blob/master/MP3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Miniproyecto 3: ¿Te gustaría ser *Data Scientist Senior*?
#### **Curso:** Introducción a Minería de Datos y Machine Learning

---

**¡Tienes una oferta de trabajo!**

Una empresa se enteró de tu **excelente** trabajo como *Data Scientist Junior* en **AMAZOFF**.

¡Quieren que trabajes con ellos como ***Data Scientist Senior***!

Para la entrevista de trabajo, te han pedido que utilices tus poderes de ***Machine Learning*** en sus bases de datos.

**¿Estás listo para el reto?**

# ¿Qué empresa te quiere en su equipo?

En este MP3 deberás buscar una base de datos y aplicar tus conocimientos de *Machine Learning*.

Una vez elegida la base de datos, deberás inventar una empresa ficticia que te busca para el puesto de *Data Scientist Senior*.

La empresa debe de tener sentido con los datos y lo que quieres predecir usando *Machine Learning*.

## ¿Cómo elegir la base de datos?

Puedes utilizar cualquier base de datos que esté publicada en internet de forma libre. Esta base de datos debe por lo menos cumplir con:

- Tener al menos 1000 filas después de limpiarla.
- Tener al menos 5 columnas con información relevante (no cuentan: *ids*, *index*, etc.) después de limpiarla.
- No tener consideraciones éticas graves. Ejemplo: datos privados de una empresa real.
- Debe tener al menos una columna (aparte de las 5 relevantes) para predecir (columna `label`o `target`).
- El ejercio contempla solo una base de datos. Si tus datos vienen originalmente en más de una, deberás juntarlos (ejemplo: `join`, `merge`, etc.) en la pregunta 1. Debes cargar todos los datos necesarios en la sección de **Preámbulo**.

# Define tu empresa

> **¡No olvides elegir tus datos primero!**

- **Nombre de la empresa**: Changararanguiz Agencia de Futbol
- **Descripción de la empresa**: Esta empresa fue creada con la finalidad de representar a jugadores de la Premier League y poder llevarlos a otros Torneos en el mundo. Para ello se analizan sus datos en ataque y defensa con la finalidad de predecir goles, pases, faltas, etc... y con ello poder representar y presentarlos a nuevos clubes de ser necesario.

# Pauta de Evaluación

Este MP3 está enfocado en responder preguntas de negocio relevantes para tu nueva empresa (creada por ti).

### Preguntas de Negocio

1. (10 puntos) ¿Cargaste los datos? ¡Toca limpiarlos! La empresa no ha tocado esos datos. ¿Se los puedes explicar?
2. (15 puntos) Datos limpios. Pues, es hora de un... ¡Análisis Exploratorio de Datos!
3. (10 puntos) ¡Vamos con el ML... ¿Qué? ¿Hay que preparar los datos primero?
4. (20 puntos) ¡Grupos everywhere!
5. (25 puntos) ¿Podemos predecir algo con estos datos? Demostremos nuestra experiencia.
6. (20 puntos) ¿Puedes explicar mejor tus resultados? ¡De Junior a Senior!

### Tener en consideración:

En caso de que el código esté bien, pero no se responda (usando celdas de texto) la pregunta de negocio (sección **Explicación**), **se asignará máximo la mitad de puntos** de esa pregunta.

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb

> # ¡NO OLVIDES SUBIR LOS DATOS ORIGINALES A LA PLATAFORMA!

# Preámbulo

In [None]:
# Agrega todas las librerias necesarias para el proyecto en su sección correspondiente

# Clustering
from sklearn.cluster import KMeans

# Machine Learning
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# General Data Science
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np

In [None]:
# Esta configuración permite que los dataframes se muestren completos.
pd.set_option('display.max_columns', None)

In [None]:
# PARÁMETROS (puedes modificar esta sección)

# Traduccion de los campos obtenidos
#Rank                    : Puesto
#Player                  : Jugador
#Nation                  : Nacionalidad
#Position                : Posición
#Squad                   : Equipo
#Competition             : Competición
#Age                     : Edad
#Year_Born               : Año de Nacimiento
#Playing Time_MP         : Partidos Jugados
#Playing Time_Starts     : Partidos Iniciados
#Playing Time_Min        : Minutos Jugados
#Playing Time_90s        : Equivalente a 90 Minutos Jugados
#Performance_Gls         : Goles
#Performance_Ast         : Asistencias
#Performance_G+A         : Goles + Asistencias
#Performance_G-PK        : Goles (sin penales)
#Performance_PK          : Penales Anotados
#Performance_PKatt       : Penales Attemptados
#Performance_CrdY        : Tarjetas Amarillas
#Performance_CrdR        : Tarjetas Rojas
#Expected_xG             : Goles Esperado
#Expected_npxG           : Goles Esperado (sin penales)
#Expected_xAG            : Asistencias Esperado
#Expected_npxG+xAG       : Goles+Asistencias Esperado (sin penales)
#Progression_PrgC        : Carreras Progresivas
#Progression_PrgP        : Pases Progresivos
#Progression_PrgR        : Dribles Progresivos
#Per 90 Minutes_Gls      : Goles por 90 Minutos
#Per 90 Minutes_Ast      : Asistencias por 90 Minutos
#Per 90 Minutes_G+A      : Goles + Asistencias por 90 Minutos
#Per 90 Minutes_G-PK     : Goles (sin penales) por 90 Minutos
#Per 90 Minutes_G+A-PK   : Goles + Asistencias (sin penales) por 90 Minutos
#Per 90 Minutes_xG       : Goles por 90 Minutos
#Per 90 Minutes_xAG      : Asistencias por 90 Minutos
#Per 90 Minutes_xG+xAG   : Goles+Asistencias por 90 Minutos
#Per 90 Minutes_npxG     : Goles (sin penales) por 90 Minutos
#Per 90 Minutes_npxG+xAG : Goles+Asistencias (sin penales) por 90 Minutos

# Leer el archivo CSV sin encabezado
df = pd.read_csv('jugadoresUEFA.csv', header=None)

# Definir la fila del encabezado que se repite
repeated_header = ['Rk', 'Player', 'Nation', 'Pos', 'Squad', 'Comp', 'Age', 'Born', 'MP', 'Starts', 'Min', '90s', 'Gls',
                   'Ast', 'G+A', 'G-PK', 'PK', 'PKatt', 'CrdY', 'CrdR', 'xG', 'npxG', 'xAG', 'npxG+xAG', 'PrgC',
                   'PrgP', 'PrgR', 'Gls', 'Ast', 'G+A', 'G-PK', 'G+A-PK', 'xG', 'xAG', 'xG+xAG', 'npxG', 'npxG+xAG']

# Filtrar las filas que no son iguales a la fila repetida
df_cleaned = df[~df.apply(lambda row: row.tolist() == repeated_header, axis=1)]

# Asignar la primera fila como encabezado
df_cleaned.columns = df_cleaned.iloc[0]
df_cleaned = df_cleaned[1:]

# Verificar el resultado
print(df_cleaned.head())




0 Rank             Player   Nation Position           Squad  \
1    1         Max Aarons  eng ENG       DF     Bournemouth   
2    2   Brenden Aaronson   us USA    MF,FW    Union Berlin   
3    3    Paxten Aaronson   us USA       MF  Eint Frankfurt   
4    4  Keyliane Abdallah   fr FRA       FW       Marseille   
5    5   Yunis Abdelhamid   ma MAR       DF           Reims   

0         Competition Age Year_Born Playing Time_MP Playing Time_Starts  \
1  eng Premier League  23      2000              20                  13   
2       de Bundesliga  22      2000              30                  14   
3       de Bundesliga  19      2003               7                   1   
4          fr Ligue 1  17      2006               1                   0   
5          fr Ligue 1  35      1987              31                  31   

0 Playing Time_Min Playing Time_90s Performance_Gls Performance_Ast  \
1             1237             13.7               0               1   
2             1267          

In [None]:
df_cleaned.info()


<class 'pandas.core.frame.DataFrame'>
Index: 2844 entries, 1 to 2958
Data columns (total 37 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Rank                     2844 non-null   object
 1   Player                   2844 non-null   object
 2   Nation                   2844 non-null   object
 3   Position                 2844 non-null   object
 4   Squad                    2844 non-null   object
 5   Competition              2844 non-null   object
 6   Age                      2844 non-null   object
 7   Year_Born                2844 non-null   object
 8   Playing Time_MP          2844 non-null   object
 9   Playing Time_Starts      2844 non-null   object
 10  Playing Time_Min         2844 non-null   object
 11  Playing Time_90s         2844 non-null   object
 12  Performance_Gls          2844 non-null   object
 13  Performance_Ast          2844 non-null   object
 14  Performance_G+A          2844 non-null   obje

In [None]:
# Esta celda se encarga de cargar los datos. ¿La necesitas modificar? ¡Adelante!

df = df_cleaned
print(f'{df.shape[0]} rows x {df.shape[1]} columns')
df.head(5)

2844 rows x 37 columns


Unnamed: 0,Rank,Player,Nation,Position,Squad,Competition,Age,Year_Born,Playing Time_MP,Playing Time_Starts,Playing Time_Min,Playing Time_90s,Performance_Gls,Performance_Ast,Performance_G+A,Performance_G-PK,Performance_PK,Performance_PKatt,Performance_CrdY,Performance_CrdR,Expected_xG,Expected_npxG,Expected_xAG,Expected_npxG+xAG,Progression_PrgC,Progression_PrgP,Progression_PrgR,Per 90 Minutes_Gls,Per 90 Minutes_Ast,Per 90 Minutes_G+A,Per 90 Minutes_G-PK,Per 90 Minutes_G+A-PK,Per 90 Minutes_xG,Per 90 Minutes_xAG,Per 90 Minutes_xG+xAG,Per 90 Minutes_npxG,Per 90 Minutes_npxG+xAG
1,1,Max Aarons,eng ENG,DF,Bournemouth,eng Premier League,23,2000,20,13,1237,13.7,0,1,1,0,0,0,1,0,0.0,0.0,0.8,0.9,22,43,26,0.0,0.07,0.07,0.0,0.07,0.0,0.06,0.06,0.0,0.06
2,2,Brenden Aaronson,us USA,"MF,FW",Union Berlin,de Bundesliga,22,2000,30,14,1267,14.1,2,2,4,2,0,0,3,1,2.0,2.0,1.9,3.8,37,56,91,0.14,0.14,0.28,0.14,0.28,0.14,0.13,0.27,0.14,0.27
3,3,Paxten Aaronson,us USA,MF,Eint Frankfurt,de Bundesliga,19,2003,7,1,101,1.1,0,1,1,0,0,0,0,0,0.1,0.1,0.1,0.2,2,5,7,0.0,0.89,0.89,0.0,0.89,0.11,0.07,0.19,0.11,0.19
4,4,Keyliane Abdallah,fr FRA,FW,Marseille,fr Ligue 1,17,2006,1,0,4,0.0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,5,Yunis Abdelhamid,ma MAR,DF,Reims,fr Ligue 1,35,1987,31,31,2781,30.9,4,0,4,3,1,1,5,0,3.4,2.6,0.3,2.9,36,137,9,0.13,0.0,0.13,0.1,0.1,0.11,0.01,0.12,0.09,0.09


In [None]:
# ¿Necesitas más celdas antes de empezar a trabajar? ¡Agrega todas las que necesites!
# No olvides que en la pregunta 1 es donde debes hacer la limpieza de datos.

# [ AGREGA AQUÍ TU CÓDIGO ]

# 1. ¿Cargaste los datos? ¡Toca limpiarlos! La empresa no ha tocado esos datos. ¿Se los puedes explicar?

⁉️ **Consideración:** Asegúrate que no haya datos faltantes, que estén en el formato o tipo de dato correctos, que no haya inconsistencias, que puedas estar seguro que los datos están listos para ser usados. No olvides explicar todas tus decisiones.

ℹ️ **HINT 1:** ¿Necesitas crear nuevas columnas? ¿Tienes datos con muchas categorías? ¿Sobran columnas?

ℹ️ **HINT 2:** Recuerda que esta sección debe cumplir con los criterios para elegir la base de datos.

ℹ️ **HINT 3:** Toma de inspiración la pregunta 2 del MP1.

---

✅ **Explicación:**

*   Es una base datos con todas las estadisticas de los juegadores UEFA del ultimo tiempo, con ella se pueden detectar jugadores con bajo, medio o superior rendimiento que quizas buscan nuevos equipos y nuestra empresa pueda representarlos. De forma inicial si bien muestra datos y valores como numeros, al traspasarlos para trabajar solo son objetos y/o string, toca limpiarlos y modificalos:

  *   Lo primero que hice fue traspasar todas las columnas que son numericas a su tipo correspondiente, ya que al cargar la base, volvio todos los campos objects
  *   Primero pase todas las columnas que deben ser FLOAT a una   variable y posterior el cambio de tipo columna
  *   Primero pase todas las columnas que deben ser INT a una variable  y posterior el cambio de tipo columna
  *   Ya con las columnas pasadas a numeros, comence a crear nuevas   columnas a partir de eso por ejemplo si un jugador hace o no goles,   su performance en cada partido, si juega o no y asi sucesivamente.  Todos los nombres seran usados en ingles para mantener el idioma de  la base datos.
  *   Se crearon ademas columnas con categorias con la misma finalidad  de lo anterior para usarlas en ML.




In [None]:
# Traspasar datos objects a numeros de tipo float
columnas_a_convertir_float = ['Playing Time_90s','Expected_xG', 'Expected_npxG','Expected_xAG','Expected_npxG+xAG',
                              'Per 90 Minutes_Gls','Per 90 Minutes_Ast', 'Per 90 Minutes_G+A','Per 90 Minutes_G-PK',
                              'Per 90 Minutes_G+A-PK','Per 90 Minutes_xG', 'Per 90 Minutes_xAG','Per 90 Minutes_xG+xAG',
                              'Per 90 Minutes_npxG','Per 90 Minutes_npxG+xAG']
df[columnas_a_convertir_float] = df[columnas_a_convertir_float].astype(float)

# Traspasar datos objects a numeros de tipo int
columnas_a_convertir_int = ['Age','Year_Born','Playing Time_MP','Playing Time_Starts','Playing Time_Min','Performance_Gls','Performance_Ast',
                        'Performance_G+A','Performance_G-PK','Performance_PK','Performance_PKatt','Performance_CrdY','Performance_CrdR',
                        'Progression_PrgC','Progression_PrgP','Progression_PrgR']
df[columnas_a_convertir_int] = df[columnas_a_convertir_int].astype(int)


# Crear una nueva característica: ratio de conversión de goles
df['Goal_Conversion_Rate'] = df['Performance_Gls'] / df['Shots_on_Target']
df['Assist_Rate'] = df['Performance_Ast'] / df['Expected_xAG']

# Crear una característica que indique si un jugador es titular habitual
df['Pct_Min_Starting_Player'] = df['Playing Time_Starts'] / df['Playing Time_MP'] >= 0.50  # Ajusta el umbral según tu criterio
df['Can_Create_Offensive_Opp'] = df['Per 90 Minutes_xG'] + df['Per 90 Minutes_xAG'] >= 1.0  # Ajusta el umbral según tu criterio

# Jugadores Ofensivos
df['Goals_per_Min'] = df['Performance_Gls'] / df['Playing Time_Min']
df['Asists_per_Min'] = df['Performance_Ast'] / df['Playing Time_Min']
df['G+A_per_Min'] = df['Performance_G+A'] / df['Playing Time_Min']
df['Goals_Clasification'] = pd.cut(df['Performance_Gls'],
                                   bins=[-1, df['Performance_Gls'].quantile(0.33),
                                         df['Performance_Gls'].quantile(0.66), df['Performance_Gls'].max()],
                                   labels=['low', 'normal', 'top'])

df['Passes_Clasification'] = pd.cut(df['Progression_PrgP'],
                                   bins=[-1, df['Progression_PrgP'].quantile(0.33),
                                         df['Progression_PrgP'].quantile(0.66), df['Progression_PrgP'].max()],
                                   labels=['low', 'normal', 'top'])

# Jugadores que usualmente tienen problemas con faltas
df['YellowCard_per_Min'] = df['Performance_CrdY'] / df['Playing Time_Min']
df['RedCard_per_Min'] = df['Performance_CrdR'] / df['Playing Time_Min']
df['Total_Cards'] = df['Performance_CrdY'] + df['Performance_CrdR']
df['Dirty_Player'] = pd.cut(df['Total_Cards'],
                                      bins=[-1, df['Total_Cards'].quantile(0.33),
                                            df['Total_Cards'].quantile(0.66), df['ToTotal_Cardstal_Tarjetas'].max()],
                                      labels=['low', 'medium', 'high'])

# Contribucion progresiva
df['Progressive_Contributions'] = df['Progression_PrgC'] + df['Progression_PrgP'] + df['Progression_PrgR']

# Clasificados por edad
# Crear una banda de edad
bins = [16, 25, 30, 35, 40]
labels = ['Young', 'Young Adult', 'Adult', 'Veteran']
df['Age_range'] = pd.cut(df['Age'], bins=bins, labels=labels)



# Creacion de nuevos campos


df['Country'] = df['Country'].str.lower()

# Nuevas columnas booleanas
df['Makes_Goals'] = df['Performance_Gls'].apply(lambda x: 1 if x > 0 else 0)
df['Makes_ASsists'] = df['Performance_Ast'].apply(lambda x: 1 if x > 0 else 0)
df['Played_Games'] = df.apply(lambda x: 1 if (x['Red Cards'] > 0 or x['Yellow Cards'] > 0) else 0, axis=1)
df['sancionado_regularmente'] = df.apply(lambda x: 1 if (x['Playing Time_MP'] > 0 or x['Playing Time_Starts'] > 0 or x['Playing Time_Min'] > 0) else 0, axis=1)

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2844 entries, 1 to 2958
Data columns (total 37 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Rank                     2844 non-null   object 
 1   Player                   2844 non-null   object 
 2   Nation                   2844 non-null   object 
 3   Position                 2844 non-null   object 
 4   Squad                    2844 non-null   object 
 5   Competition              2844 non-null   object 
 6   Age                      2844 non-null   int64  
 7   Year_Born                2844 non-null   int64  
 8   Playing Time_MP          2844 non-null   int64  
 9   Playing Time_Starts      2844 non-null   int64  
 10  Playing Time_Min         2844 non-null   int64  
 11  Playing Time_90s         2844 non-null   float64
 12  Performance_Gls          2844 non-null   int64  
 13  Performance_Ast          2844 non-null   int64  
 14  Performance_G+A          2844

In [None]:
# Separar la nacionalidad de cada jugador
df[['Nation_Code', 'Nation_Short_Name']] = df['Nation'].str.split(' ', expand=True)

# Generar el nombre completo del pais
!pip install countryinfo
from countryinfo import CountryInfo
df['Nation_Short_Name'] = df['Nation_Short_Name'].str.lstrip()
df['Nation_Short_Name'] = df['Nation_Short_Name'].str.rstrip()
df['Nation_Short_Name'] = df['Nation_Short_Name'].str.replace(r'^\s+|\s+$', '', regex=True)

codigo_a_pais = {
'ENG': 'England', 'SCO': 'Scotland','WAL': 'Wales','IRL': 'Ireland','NIR': 'Northern Ireland','DEN': 'Denmark',
'SUI': 'Switzerland','GER': 'Germany','FRA': 'France','ITA': 'Italy','ESP': 'Spain','POR': 'Portugal','BEL': 'Belgium',
'NED': 'Netherlands','CZE': 'Czech Republic','POL': 'Poland','HUN': 'Hungary','RUS': 'Russia','UKR': 'Ukraine',
'BUL': 'Bulgaria','ROU': 'Romania','TUR': 'Turkey','MEX': 'Mexico','USA': 'United States','CAN': 'Canada',
'BRA': 'Brazil','ARG': 'Argentina','COL': 'Colombia','CHI': 'Chile','PER': 'Peru','URU': 'Uruguay',
'VEN': 'Venezuela','AUS': 'Australia','NZL': 'New Zealand', 'JPN': 'Japan','KOR': 'South Korea','CHN': 'China',
'IND': 'India','KSA': 'Saudi Arabia', 'IRN': 'Iran','UAE': 'United Arab Emirates','EGY': 'Egypt','TUN': 'Tunisia',
'ALG': 'Algeria','MAR': 'Morocco','GHA': 'Ghana','NGA': 'Nigeria','CIV': 'Ivory Coast','SEN': 'Senegal','ZAF': 'South Africa',
'KEN': 'Kenya','ZWE': 'Zimbabwe',
}

def get_fullname_country(code):
    return codigo_a_pais.get(code, None)

df['FullName_Country'] = df['Nation_Short_Name'].apply(get_fullname_country)

# Separar las diferentes posiciones de cada jugador(Existen algunos con mas de una posicion)
df[['Primary_Position', 'Second_Position']] = df['Position'].str.split(' ', expand=True)

# Separar el pais y el nombre de cada competicion
df['Competition_Name'] = df['Competition'].str.split(' ', n=1).str[1]

# Eliminar espacios a la izquierda a la derecha
df['Player'] = df['Player'].str.lstrip()
df['Player'] = df['Player'].str.rstrip()
df['Player'] = df['Player'].str.replace(r'^\s+|\s+$', '', regex=True)

df.head(5)


Unnamed: 0,Rank,Player,Team,Accurate Long Balls per 90,Successful Long Balls (%),Minutes,Matches,Country,Accurate Passes per 90,Pass Success (%),Big Chances Created,Total Assists,Big Chances Missed,Shot Conversion Rate (%),Clearances per 90,Total Clearances,Expected Assists (xA),Actual Assists,Expected Assists per 90,Actual Assists per 90,Expected Goals (xG),Actual Goals,Expected Goals on Target (xGOT),Expected Goals per 90,Goals per 90,Total Goals,Interceptions per 90,Total Interceptions,Shots on Target per 90,Shot Accuracy (%),FotMob Rating,Player of the Match Awards,Red Cards,Yellow Cards,Tackles per 90,Tackle Success Rate (%),Assists,Secondary Assists,Goals,Penalties,Chances Created,Chances Created per 90,Shots per 90
0,1,Rodri,Manchester City,7.4,80.6,2938,34,ESP,0.0,0.0,0.0,0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,0.0,0,0.0,0.0,0.0,0,0,0,0.0,0.0,0,0,0,0,0.0,0.0,0.0
1,2,Trent Alexander-Arnold,Liverpool,6.1,44.4,2159,28,ENG,0.0,0.0,0.0,0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,0.0,0,0.0,0.0,0.0,0,0,0,0.0,0.0,0,0,0,0,0.0,0.0,0.0
2,3,Thomas Doyle,Wolverhampton Wanderers,5.6,57.3,1213,26,ENG,0.0,0.0,0.0,0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,0.0,0,0.0,0.0,0.0,0,0,0,0.0,0.0,0,0,0,0,0.0,0.0,0.0
3,4,Fabian Schär,Newcastle United,5.5,50.1,3054,36,SUI,0.0,0.0,0.0,0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,0.0,0,0.0,0.0,0.0,0,0,0,0.0,0.0,0,0,0,0,0.0,0.0,0.0
4,5,Joachim Andersen,Crystal Palace,5.3,42.4,3416,38,DEN,0.0,0.0,0.0,0,0.0,0.0,0.0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,0.0,0,0.0,0.0,0.0,0,0,0,0.0,0.0,0,0,0,0,0.0,0.0,0.0


In [None]:
# Limpieza de datos duplicados
df.drop_duplicates(inplace=True)
df.describe()

Unnamed: 0,Rank,Accurate Long Balls per 90,Successful Long Balls (%),Minutes,Matches,Accurate Passes per 90,Pass Success (%),Big Chances Created,Total Assists,Big Chances Missed,Shot Conversion Rate (%),Clearances per 90,Total Clearances,Expected Assists (xA),Actual Assists,Expected Assists per 90,Actual Assists per 90,Expected Goals (xG),Actual Goals,Expected Goals on Target (xGOT),Expected Goals per 90,Goals per 90,Total Goals,Interceptions per 90,Total Interceptions,Shots on Target per 90,Shot Accuracy (%),FotMob Rating,Player of the Match Awards,Red Cards,Yellow Cards,Tackles per 90,Tackle Success Rate (%),Assists,Secondary Assists,Goals,Penalties,Chances Created,Chances Created per 90,Shots per 90
count,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0,6815.0
mean,172.315627,0.070007,2.190037,1804.975202,26.481145,1.621189,3.749024,0.203962,0.122964,0.160528,0.868188,0.07661,1.80088,0.112575,0.126486,0.004461,0.004989,0.178591,0.351284,0.17617,0.007366,0.014674,0.162289,0.034747,0.791636,0.023375,1.44358,0.28945,0.050624,0.015407,0.266178,0.045547,2.615979,0.126486,0.081878,0.175642,0.014087,1.158621,0.079765,0.065415
std,109.496969,0.416294,10.769647,885.572098,8.636627,8.257512,17.060524,1.262478,0.802564,1.17042,3.639332,0.448896,11.613649,0.648508,0.804574,0.027583,0.033769,1.156747,1.682322,1.179482,0.050022,0.073582,1.191922,0.187131,4.614014,0.144687,7.32395,1.389792,0.42027,0.128995,1.199082,0.239141,12.332346,0.804574,0.583793,1.20248,0.231966,6.47958,0.652248,0.373781
min,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,82.0,0.0,0.0,1150.0,21.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,164.0,0.0,0.0,1828.0,28.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,246.0,0.0,0.0,2556.0,33.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,449.0,7.4,100.0,3420.0,38.0,102.9,94.9,22.0,13.0,34.0,50.0,6.0,202.0,11.2,13.0,0.4,0.5,29.3,27.0,27.1,1.0,1.0,27.0,2.2,80.0,2.1,100.0,8.1,10.0,2.0,13.0,2.6,100.0,13.0,11.0,27.0,9.0,114.0,45.0,4.8


# 2. Datos limpios. Pues, es hora de un... ¡Análisis Exploratorio de Datos!

⁉️ **Consideración:** ¡Es hora del EDA! Es importante entender muy bien que **información** contienen tus datos. Para esto, considerando las necesidades de tu empresa, plantearás 5 preguntas interesantes para ella que se puedan responder al analizar tus datos.

ℹ️ **HINT 1 :** Busca preguntas relevantes y no triviales. Utiliza gráficos, estadísticas, lo que se ocurra para explotar la información de los datos.

ℹ️ **HINT 2:** Inspírate en las preguntas 3 y 4 del MP1.

---

✅ **Explicación:**

- **Pregunta 1: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 2: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 3: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 4: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

- **Pregunta 5: ¿[ PREGUNTA ACÁ ]?**

    [ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# PREGUNTA 1: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 2: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 3: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 4: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

In [None]:
# PREGUNTA 5: [ PREGUNTA ACÁ ]

# [ AGREGA AQUÍ TU CÓDIGO ]

# 3. ¡Vamos con el ML... ¿Qué? ¿Hay que preparar los datos primero?

⁉️ **Consideración:** En las siguientes preguntas harás clusterización y aprendizaje de máquina... prepara tus datos pensando en los modelos que utilizarás. Acá se toman los datos limpios y se pasan a numérico, se cambian las escalas, se agregan columnas para mejorar los resultados de los modelos, etc. Justifica todas tus decisiones.

ℹ️ **HINT:** ¿*Encoding*? ¿Normalización? ¿*Feature Engineering*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

# 4. ¡Grupos everywhere!

⁉️ **Consideración:** Utiliza técnicas de clusterización para encontrar grupos dentro de tus datos. Recuerda colorear tus gráficos correctamente para que podamos ver los grupos. Sí, debes de graficar tus resultados. ¿En 2D, 3D, 4D? Queda a tu decisión. Recuerda que solo puedes usar métodos de clusterización de `sklearn`.

ℹ️ **HINT 1:** No olvides que cada método es diferente. ¿Justificarás por qué elegiste ese método?

ℹ️ **HINT 2:** No olvides explicar cómo eliges tus hiperparámetros.

ℹ️ **HINT 3:** ¿No encuentras grupos? ¿Sabías que PCA y otras técnicas de reducción de dimensionalidad son útiles para *clustering*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# BONUS: +0.5 puntos.
# Si no harás el bonus, elimina esta sección.

# [ AGREGA AQUÍ TU CÓDIGO ]

# 5. ¿Podemos predecir algo con estos datos? Demostremos nuestra experiencia.

⁉️ **Consideración:** Es la hora de aplicar modelos de clasificación o regresión (`sklearn`) a los datos. Enfócate en ser ordenado y seguir todos los pasos: datos, entrenamiento, validación, testeo, interpretación, etc. Debes de explicar a fondo tus decisiones de modelo, parámetros, interpretación de resultados, medidas de rendimiento, etc.

ℹ️ **HINT 1:** ¿Habías escuchado de Validación Cruzada? ¿Has escuchado de `GridSearchCV`?

ℹ️ **HINT 2:** ¿Te fjaste en el *overfitting*?

ℹ️ **HINT 3:** ¿Por qué elegiste ese modelo? Puedes utilizar cualquier modelo de `sklearn`.

ℹ️ **HINT 4:** Se recomienda que comparen varios modelos. ¿Leíste la documentación de `sklearn`?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

# 6. ¿Puedes explicar mejor tus resultados? ¡De Junior a Senior!

⁉️ **Consideración:** Para pasar de ser una *Data Scientist Junior* a *Senior* deberás ser muy bueno para interpretar y mejorar los resultados de tu modelo. ¿Qué otras mediciones puedes utilizar? ¿Cómo puedes modificar tus datos? ¿Qué datos te faltan? ¿Qué impacta más a tu predicción? ¿Por qué hay métricas más importantes que otras? ¡Y muchas preguntas más! Ahonda en los resultados de tus modelos.

ℹ️ **HINT 1:** ¿Qué otras métricas existen? ¿Matrices de confusión? ¿Por qué hay clases que funcionan peor?

ℹ️ **HINT 2:** ¿Consideraste la reducción de dimensionalidad?

ℹ️ **HINT 3:** ¿Conoces la librería `SHAP`? ¿O los *Partial Dependece Plots*?

---

✅ **Explicación:**

[ AGREGA TU RESPUESTA ACÁ ]

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

In [None]:
# [ AGREGA AQUÍ TU CÓDIGO ] ¿Necesitas más celdas? ¡Adelante!

> # ¡NO OLVIDES GUARDAR Y SUBIR EL NOTEBOOK A LA PLATAFORMA CUANDO TERMINES! FORMATO .ipynb

> # ¡NO OLVIDES SUBIR LOS DATOS ORIGINALES A LA PLATAFORMA!