# Fase 3: Análisis descriptivo de los datos

El análisis descriptivo tiene como objetivo proporcionar una comprensión profunda de la estructura y los patrones de los datos antes de aplicar cualquier modelo predictivo o transformaciones más complejas. A través de este proceso, no solo identificamos patrones, sino también problemas de calidad de los datos que deben ser abordados.

#### 1. Importamos el archivo csv y procedemos a realizar el análisis de los datos

In [19]:
import pandas as pd
import numpy as np
df = pd.read_csv('../data/transform_data/data_clean.csv', low_memory=False)

#### **2. Cálculo de Estadísticas Descriptivas Básicas**

Primero, es importante obtener las estadísticas descriptivas de las variables continuas. Esto nos permitirá obtener un panorama general sobre las medias, medianas, desviaciones estándar y valores atípicos. Este cálculo se debe realizar sobre las columnas numéricas. En nuestro caso, lo realizaremos para las columnas: squad_size, national_team_players, stadium_seats, . Para ello, usamos el método .describe() de Pandas:

In [20]:
# Calculamos estadísticas descriptivas
df[['squad_size', 'national_team_players', 'stadium_seats']].describe()

Unnamed: 0,squad_size,national_team_players,stadium_seats
count,120099.0,120099.0,120099.0
mean,26.04274,6.955936,30278.971215
std,6.477525,5.528892,19318.39826
min,0.0,0.0,0.0
25%,25.0,2.0,14708.0
50%,27.0,6.0,27084.0
75%,29.0,11.0,42115.0
max,41.0,22.0,81365.0


Obtenemos las siguientes conclusiones:
1. Squad_size:<br>
La media de jugadores en el equipo es de 26, lo que indica que la mayoría de equipos contiene una amplia plantilla.<br>
La desviacion estándar de 6.47 lo que indica que la mayoría de equipos contienen el mismo número jugadores.

2. National_team_players:<br>
Los equipos tienen una media de 6.9 jugadores que juegan con su selección, lo que indica que los equipos componen una plantilla de alto nivel.<br>
La desviación estándar es de 5.52, lo que indica que cada equipo siempre contiene un jugador que juega con la selección.

3. Stadium_seats:<br>
El promedio de estadios tienen una capacidad de 30278 espectadores, lo que significa que los equipos juegan en estadios de gran capacidad.<br>
Hay una desviación estándar de 19318 asientos, lo que significa que existen estadios con una grandísima capacidad, y estadios con poca capacidad.

#### **3. Análisis de Frecuencia y Proporciones para Variables Categóricas**

Las variables categóricas, como name, domestic_competition_id, hosting pueden analizarse mediante el cálculo de frecuencias y proporciones. Esto nos ayudará a entender la distribución de estas variables en el conjunto de datos.

#### 3.1 Frecuencia de Name (club name)

Para obtener los equipos que más partidos han disputado, utilizamos value_counts():

In [21]:
# Frecuencia de estado civil
estado_civil_freq = df['name'].value_counts()

print(estado_civil_freq)

name
Real Madrid Club de Fútbol                                      709
Futbol Club Barcelona                                           706
Sevilla Fútbol Club S.A.D.                                      687
Club Atlético de Madrid S.A.D.                                  674
Manchester City Football Club                                   670
                                                               ... 
FK Karpaty Lviv                                                  22
FC Verbroedering Denderhoutem Denderleeuw Eendracht Hekelgem     17
Avs Futebol SAD                                                  17
Eyüp Spor Kulübü                                                 15
Bodrumspor Spor Faaliyetleri Anonim Şirketi                      14
Name: count, Length: 439, dtype: int64


Obtenemos las siguientes conclusiones:
1. La mayoría de partidos han sido jugados por Real Madrid y FC Barcelona.
2. Los equipos españoles lideran la clasificación general.

#### 3.2 Frecuencia y Proporción de Domestic_Competition_Id

Calculamos la frecuencia y la proporción:

In [22]:
# Frecuencia de nivel educativo
education_freq = df['domestic_competition_id'].value_counts()
education_proporciones = df['domestic_competition_id'].value_counts(normalize=True)

print(education_freq)
print(education_proporciones)

domestic_competition_id
ES1     11917
GB1     11738
IT1     11294
FR1      9717
L1       9471
NL1      8924
PO1      8883
TR1      8702
RU1      7682
GR1      7368
BE1      6996
SC1      6130
UKR1     5804
DK1      5473
Name: count, dtype: int64
domestic_competition_id
ES1     0.099226
GB1     0.097736
IT1     0.094039
FR1     0.080908
L1      0.078860
NL1     0.074305
PO1     0.073964
TR1     0.072457
RU1     0.063964
GR1     0.061349
BE1     0.058252
SC1     0.051041
UKR1    0.048327
DK1     0.045571
Name: proportion, dtype: float64


Obtenemos las siguientes conclusiones:
1. La mayor parte de los equipos provienen de España y Gran Bretaña.
2. Las cinco grandes ligas dominan casi con un 40% del total de equipos.
3. Existen más del doble de equipos españoles que ucranianos y daneses.

#### 3.3 Análisis de la posición del equipo (hosting)

Servirá para entender si el equipo jugó el partido como local, o como visitante. Útil para entender si la victoria o derrota de cada equipo, depende de si el partido lo disputaron como local o visitante.

In [23]:
# Frecuencia de resultados de la campaña
resultado_freq = df['hosting'].value_counts()
resultado_proporciones = df['hosting'].value_counts(normalize=True)

print(resultado_freq)
print(resultado_proporciones)

hosting
Away    60742
Home    59357
Name: count, dtype: int64
hosting
Away    0.505766
Home    0.494234
Name: proportion, dtype: float64


Obtenemos las siguientes conclusiones:
1. Existe una mayor cifra de partidos visitantes que locales. 
2. El 49% de las veces, los equipos han jugado en casa y no han tenido que viajar.