# Fase 3: Análisis descriptivo de los datos

El análisis descriptivo tiene como objetivo proporcionar una comprensión profunda de la estructura y los patrones de los datos antes de aplicar cualquier modelo predictivo o transformaciones más complejas. A través de este proceso, no solo identificamos patrones, sino también problemas de calidad de los datos que deben ser abordados.

#### 1. Importamos el archivo csv y procedemos a realizar el análisis de los datos

In [88]:
import pandas as pd
import numpy as np
df = pd.read_csv('../data/transform_data/data_clean.csv', low_memory=False)

#### **2. Cálculo de Estadísticas Descriptivas Básicas**

Primero, es importante obtener las estadísticas descriptivas de las variables continuas. Esto nos permitirá obtener un panorama general sobre las medias, medianas, desviaciones estándar y valores atípicos. Este cálculo se debe realizar sobre las columnas numéricas. En nuestro caso, lo realizaremos para las columnas: squad_size, national_team_players, stadium_seats, . Para ello, usamos el método .describe() de Pandas:

In [89]:
# Calculamos estadísticas descriptivas
df[['squad_size', 'national_team_players', 'stadium_seats']].describe()

Unnamed: 0,squad_size,national_team_players,stadium_seats
count,120099.0,120099.0,120099.0
mean,26.04274,6.955936,30278.971215
std,6.477525,5.528892,19318.39826
min,0.0,0.0,0.0
25%,25.0,2.0,14708.0
50%,27.0,6.0,27084.0
75%,29.0,11.0,42115.0
max,41.0,22.0,81365.0


Obtenemos las siguientes conclusiones:
1. Squad_size:<br>
La media de jugadores en el equipo es de 26, lo que indica que la mayoría de equipos contiene una amplia plantilla.<br>
La desviacion estándar de 6.47 lo que indica que la mayoría de equipos contienen el mismo número jugadores.

2. National_team_players:<br>
Los equipos tienen una media de 6.9 jugadores que juegan con su selección, lo que indica que los equipos componen una plantilla de alto nivel.<br>
La desviación estándar es de 5.52, lo que indica que cada equipo siempre contiene un jugador que juega con la selección.

3. Stadium_seats:<br>
El promedio de estadios tienen una capacidad de 30278 espectadores, lo que significa que los equipos juegan en estadios de gran capacidad.<br>
Hay una desviación estándar de 19318 asientos, lo que significa que existen estadios con una grandísima capacidad, y estadios con poca capacidad.

#### **3. Análisis de Frecuencia y Proporciones para Variables Categóricas**

Las variables categóricas, como name, domestic_competition_id, hosting pueden analizarse mediante el cálculo de frecuencias y proporciones. Esto nos ayudará a entender la distribución de estas variables en el conjunto de datos.

#### 3.1 Frecuencia de Name (club name)

Para obtener los equipos que más partidos han disputado, utilizamos value_counts():

In [90]:
# Frecuencia de estado civil
partidos_disputados = df['name'].value_counts()

print(partidos_disputados)

name
Real Madrid Club de Fútbol                                      709
Futbol Club Barcelona                                           706
Sevilla Fútbol Club S.A.D.                                      687
Club Atlético de Madrid S.A.D.                                  674
Manchester City Football Club                                   670
                                                               ... 
FK Karpaty Lviv                                                  22
FC Verbroedering Denderhoutem Denderleeuw Eendracht Hekelgem     17
Avs Futebol SAD                                                  17
Eyüp Spor Kulübü                                                 15
Bodrumspor Spor Faaliyetleri Anonim Şirketi                      14
Name: count, Length: 439, dtype: int64


Obtenemos las siguientes conclusiones:
1. La mayoría de partidos han sido jugados por Real Madrid y FC Barcelona.
2. Los equipos españoles lideran la clasificación general.

#### 3.2 Frecuencia y Proporción de Domestic_Competition_Id

Calculamos la frecuencia y la proporción:

In [91]:
# Frecuencia de nivel educativo
education_freq = df['domestic_competition_id'].value_counts()
education_proporciones = df['domestic_competition_id'].value_counts(normalize=True)

print(education_freq)
print(education_proporciones)

domestic_competition_id
ES1     11917
GB1     11738
IT1     11294
FR1      9717
L1       9471
NL1      8924
PO1      8883
TR1      8702
RU1      7682
GR1      7368
BE1      6996
SC1      6130
UKR1     5804
DK1      5473
Name: count, dtype: int64
domestic_competition_id
ES1     0.099226
GB1     0.097736
IT1     0.094039
FR1     0.080908
L1      0.078860
NL1     0.074305
PO1     0.073964
TR1     0.072457
RU1     0.063964
GR1     0.061349
BE1     0.058252
SC1     0.051041
UKR1    0.048327
DK1     0.045571
Name: proportion, dtype: float64


Obtenemos las siguientes conclusiones:
1. La mayor parte de los equipos provienen de España y Gran Bretaña.
2. Las cinco grandes ligas dominan casi con un 40% del total de equipos.
3. Existen más del doble de equipos españoles que ucranianos y daneses.

#### 3.3 Análisis de la posición del equipo (hosting)

Servirá para entender si el equipo jugó el partido como local, o como visitante. Útil para entender si la victoria o derrota de cada equipo, depende de si el partido lo disputaron como local o visitante.

In [92]:
# Frecuencia de resultados de la campaña
resultado_freq = df['hosting'].value_counts()
resultado_proporciones = df['hosting'].value_counts(normalize=True)

print(resultado_freq)
print(resultado_proporciones)

hosting
Away    60742
Home    59357
Name: count, dtype: int64
hosting
Away    0.505766
Home    0.494234
Name: proportion, dtype: float64


Obtenemos las siguientes conclusiones:
1. Existe una mayor cifra de partidos visitantes que locales. 
2. El 49% de las veces, los equipos han jugado en casa y no han tenido que viajar.

#### **4. Análisis por Grupos (GroupBy)**

El análisis por grupos es útil para obtener insights sobre cómo ciertas características afectan a otras variables, especialmente la variable objetivo is_win. Aquí analizamos cómo las variables categóricas impactan la variable objetivo.

#### 4.1 Análisis de la Variable 'name' vs 'is_win'

En este apartado, queremos calcular la media de partidos ganados de los equipos. Se mostrarán los 5 mejores equipos que más media tienen de partidos ganados.

In [93]:
# Análisis de partidos ganados de cada equipo
equipos_con_mas_victorias = df.groupby('name')['is_win'].mean()
print(equipos_con_mas_victorias.nlargest(5))

name
FC Bayern München                    0.746855
The Celtic Football Club             0.685535
Futbol Club Barcelona                0.684136
Real Madrid Club de Fútbol           0.681241
Paris Saint-Germain Football Club    0.679727
Name: is_win, dtype: float64


Obtenemos las siguientes conclusiones:
1. Se observa que el equipo con más victorias es el Bayern Munchen.
2. Todos los equipos tienen un ratio de victoria superior al 65%.
3. España es el país que más equipos aporta con un mayo ratio de equipos (2), por lo que revaloriza la competición.

#### 4.2 Análisis de la Variable 'name' vs 'national_team_players':

En este apartado, queremos calcular los equipos que más jugadores aportan a la selección:

In [94]:
# Análisis de equipos con más jugadores internacionales
equipos_con_mas_jugadores_internacionales = df.groupby('name')['national_team_players'].mean()
print(equipos_con_mas_jugadores_internacionales.nlargest(5))

name
Liverpool Football Club              22.0
Manchester City Football Club        20.0
Atalanta Bergamasca Calcio S.p.a.    19.0
Juventus Football Club               19.0
Manchester United Football Club      19.0
Name: national_team_players, dtype: float64


Obtenemos las siguientes conclusiones:
1. Sorprendentemente, pese a no estar en el top 5 de equipos con más victorias, los equipos ingleses aportan mayor número de jugadores internacionales.
2. Prácticamente toda la plantilla del Liverpool viaja con su selección.
3. No aparece ningún equipo español en el top 5, pese a ser de los equipos con más victorias (Real Madrid y FC Barcelona).

#### 4.3 Análisis de la Variable 'name' vs 'own_goals':

En este apartado, vamos a calcular los equipos que más goles anotan de media por partido

In [95]:
# Análisis de goles anotados por partido
goles_anotados_por_partido = df.groupby('name')['own_goals'].mean()
print(goles_anotados_por_partido.nlargest(5))

name
FC Bayern München                                         2.735849
Kieler Sportvereinigung Holstein von 1900                 2.441176
Futbol Club Barcelona                                     2.423513
Eindhovense Voetbalvereniging Philips Sport Vereniging    2.389456
AFC Ajax Amsterdam                                        2.389163
Name: own_goals, dtype: float64


Obtenemos las siguientes conclusiones:
1. Observamos como el Bayern Munchen era el equipo con más victorias, y con más goles anotados, media de 2,7 goles a favor por partido.
2. Además del Bayern, también aparece el Barcelona con una media de 2.4 goles.
3. Sorprendentemente, no aparece ningún equipo más del top 5 con más victorias, lo que deducimos que esos equipos ganan sus partidos con un marcador ajustado.
4. Obtenemos dos equipos holandeses, por lo que se estima que en la liga holandesa hay una gran diferencia entre estos dos equipos y el resto.

#### 4.4 Análisis de la Variable 'name' vs 'opponent_goals':

En este apartado, vamos a calcular los equipos que más goles reciben de media por partido

In [96]:
# Análisis de goles recibidos por partido
goles_anotados_por_partido = df.groupby('name')['opponent_goals'].mean()
print(goles_anotados_por_partido.nlargest(5))

name
Kieler Sportvereinigung Holstein von 1900    2.852941
FC Volendam                                  2.272727
Delfino Pescara 1936                         2.255102
RWD Molenbeek                                2.233333
Metalurg Zaporizhya (-2016)                  2.222222
Name: opponent_goals, dtype: float64


Obtenemos las siguientes conclusiones:
1. Observamos como hay dos equipos con una gran diferencia sobre el resto, que encajan 2.8 y 2.7 goles por partido, una cifra elevada.
2. Obtenemos un sorprendente dato, el equipo con más goles encajados (2.8), es el segundo que más goles anota (2.4), por lo que pierde la mayoría de sus partidos.

#### **5. Análisis de la Distribución de Variables Continuas (Asimetría)**

#### 5.1 Cálculo de asimetría de la columna 'stadium_seats'

Como se mencionó antes, la asimetría de stadium_seats nos ayuda a entender si la mayoría de equipos poseen la misma capacidad de espectadores en su estadio:

In [97]:
asimetria_stadium_seats = df['stadium_seats'].skew()
print(f'Asimetría de la capacidad de los estadios: {asimetria_stadium_seats}')

Asimetría de la capacidad de los estadios: 0.7508420780950992


La asimetría de la capacidad de los estadios nos da un valor de 0.75084, por lo que obtenemos las siguientes conclusiones:<br>

1.- La distribución de la capacidad de los estadios no es completamente simétrica. Hay más estadios con capacidad menor a la media, mientras que unos pocos tienen capacidades muy altas, lo que genera una "cola" hacia la derecha.<br>
2.- La presencia de estadios muy grandes (outliers en la parte alta) está afectando la media y empujándola hacia valores más altos.<br>
3.- Un valor de 0.75 indica una asimetría moderada, pero no lo suficientemente grande como para ser considerada altamente sesgada. En la práctica, esto sugiere que la mayoría de los estadios tienen capacidades cercanas al promedio, con algunas excepciones más grandes.

#### 5.2 Cálculo de asimetría de la columna 'squad_size'

Este cálculo, nos permite saber la media de jugadores que contiene cada equipo, y para analizar si un equipo tiene una plantilla muy corta o muy grande.

In [98]:
asimetria_squad_size = df['squad_size'].skew()
print(f'Asimetría del tamaño de la plantilla: {asimetria_squad_size}')

Asimetría del tamaño de la plantilla: -2.827649527407504


La asimetría del tamaño de la plantilla nos da un valor de -2.82764, por lo que obtenemos las siguientes conclusiones:<br>

1.- La mayoría de los equipos tienen un tamaño de plantilla relativamente grande, pero hay algunos equipos con plantillas muy pequeñas que crean una "cola" larga en el extremo izquierdo de la distribución.<br>
2.- La fuerte asimetría negativa sugiere que hay algunos equipos con plantillas extremadamente reducidas que están afectando la distribución general.<br>
3.- En distribuciones con asimetría negativa, la media suele ser menor que la mediana, ya que los valores pequeños arrastran la media hacia abajo. Esto indica que la mayoría de los equipos tienen un tamaño de plantilla más grande que el promedio aritmético.

#### **Conclusiones Generales**

**1️. Dominio de ciertos equipos y ligas.**<br>
Equipos como el Bayern Múnich y el FC Barcelona destacan tanto en victorias como en goles anotados, lo que indica un alto rendimiento.<br>
Las cinco grandes ligas europeas dominan la competición, con una gran representación de equipos españoles e ingleses.<br>

**2️. Diferencias en la competitividad de las ligas.**<br>
La liga holandesa muestra una gran disparidad, con dos equipos muy superiores en términos de goles anotados y recibidos.<br>
Equipos con muchas victorias no siempre son los que más goles anotan, lo que sugiere estrategias defensivas o partidos ajustados.<br>

**3. Equipos con más jugadores internacionales no siempre son los más exitosos.**<br>
Aunque los equipos ingleses aportan más jugadores a sus selecciones nacionales, no necesariamente son los que más victorias consiguen.<br>
El Liverpool destaca con casi toda su plantilla participando en selecciones, pero no aparece en el top 5 de victorias.<br>

**4. Diferencias significativas en la capacidad de los estadios.**<br>
La gran desviación estándar en la capacidad de los estadios indica que hay clubes con estadios muy pequeños y otros con capacidades masivas.<br>
La asimetría positiva en los asientos del estadio confirma que la mayoría de los equipos tienen estadios de tamaño medio, con algunos 
pocos de gran capacidad.<br>

**5. Distribución desigual en el tamaño de las plantillas.**<br>
La asimetría negativa en squad_size (-2.827) sugiere que la mayoría de equipos tienen plantillas grandes, pero existen algunos con números 
inusualmente bajos de jugadores.<br>
Esto puede deberse a estrategias diferentes de gestión de plantilla o restricciones económicas en ciertos clubes.