**Importación de librerías y carga de datos**

In [9]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from datetime import datetime

# Configuración de visualización
plt.style.use('ggplot')
sns.set(style="whitegrid")
%matplotlib inline
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Cargar los datos unificados
# Ajusta la ruta según donde tengas tu archivo
ruta_datos = "data/jugadores_unificados_cinco_torneos.csv"
df = pd.read_csv(ruta_datos)

# Mostrar información general del dataset
print(f"Dimensiones del dataset: {df.shape}")
print(f"\nPrimeras 5 filas:")
display(df.head())

# Información sobre tipos de datos y valores no nulos
print("\nInformación del dataset:")
display(df.info())

# Estadísticas descriptivas básicas
print("\nEstadísticas descriptivas:")
pd.set_option('display.max_columns', None)  # Muestra todas las columnas
pd.set_option('display.width', 1000)        # Ancho amplio para evitar cortes
display(df.describe().transpose()) 

Dimensiones del dataset: (2863, 22)

Primeras 5 filas:


Unnamed: 0,Team,Name,Torneo,Goals,Succ. dribbles,Tackles,Assists,Accurate passes %,Big chances missed,Total shots,Goal conversion %,Interceptions,Clearances,Errors leading to goal,Big chances created,Accurate passes,Key passes,Saves,Clean sheet,Penalties saved,Saves from inside box,Runs out
0,Boyacá Chicó FC,Abdid Muñoz,Clausura 2024B,0.0,3.0,6.0,0.0,71.08,0.0,1.0,0.0,6.0,4.0,0.0,0.0,59.0,0.0,,,,,
1,Atlético Bucaramanga,Adalberto Peñaranda,Apertura 2025A,0.0,2.0,0.0,0.0,74.07,0.0,3.0,0.0,0.0,1.0,0.0,0.0,40.0,3.0,,,,,
2,Atlético Bucaramanga,Adalberto Peñaranda,Clausura 2024B,0.0,10.0,3.0,1.0,81.13,0.0,6.0,0.0,0.0,2.0,0.0,1.0,43.0,3.0,,,,,
3,Boyacá Chicó FC,Adrian Chara,Clausura 2024B,0.0,7.0,1.0,0.0,86.36,0.0,4.0,0.0,0.0,0.0,0.0,0.0,57.0,5.0,,,,,
4,Boyacá Chicó FC,Adrian Chara,Apertura 2024A,0.0,0.0,0.0,0.0,33.33,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,,,,,



Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2863 entries, 0 to 2862
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Team                    2863 non-null   object 
 1   Name                    2863 non-null   object 
 2   Torneo                  2863 non-null   object 
 3   Goals                   2863 non-null   float64
 4   Succ. dribbles          2863 non-null   float64
 5   Tackles                 2863 non-null   float64
 6   Assists                 2863 non-null   float64
 7   Accurate passes %       2863 non-null   float64
 8   Big chances missed      2863 non-null   float64
 9   Total shots             2863 non-null   float64
 10  Goal conversion %       2863 non-null   float64
 11  Interceptions           2863 non-null   float64
 12  Clearances              2863 non-null   float64
 13  Errors leading to goal  2863 non-null   float64
 14  Big chances cr

None


Estadísticas descriptivas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Goals,2863.0,0.740831,1.57213,0.0,0.0,0.0,1.0,17.0
Succ. dribbles,2863.0,3.887181,5.529748,0.0,0.0,2.0,5.0,55.0
Tackles,2863.0,8.98044,9.644718,0.0,1.0,6.0,13.0,65.0
Assists,2863.0,0.486553,0.949683,0.0,0.0,0.0,1.0,9.0
Accurate passes %,2863.0,76.099113,12.761386,0.0,72.215,78.26,82.92,100.0
Big chances missed,2863.0,0.430318,1.046082,0.0,0.0,0.0,0.0,12.0
Total shots,2863.0,8.69263,11.218208,0.0,1.0,5.0,12.0,107.0
Goal conversion %,2863.0,5.339972,10.809252,0.0,0.0,0.0,8.33,100.0
Interceptions,2863.0,5.393643,6.871521,0.0,0.0,3.0,8.0,50.0
Clearances,2863.0,11.310513,16.02953,0.0,1.0,5.0,15.0,121.0


**LIMPIEZA Y EXPLORACIÓN DE VALORES FALTANTES**

In [10]:
# Verificar valores nulos por columna
print("Valores nulos por columna:")
display(df.isnull().sum())

# Porcentaje de valores nulos
print("\nPorcentaje de valores nulos por columna:")
display((df.isnull().sum() / len(df) * 100).sort_values(ascending=False))

# Verificar tipos de datos
print("\nTipos de datos:")
display(df.dtypes)

# Convertir columnas numéricas si es necesario
columnas_numericas = ['Goals', 'Assists', 'Succ. dribbles', 'Tackles', 
                     'Accurate passes %', 'Total shots', 'Goal conversion %']

for col in columnas_numericas:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Análisis de duplicados
print(f"\nRegistros duplicados: {df.duplicated().sum()}")

# Distribución de jugadores por torneo
print("\nDistribución de registros por torneo:")
display(df['Torneo'].value_counts())

# Distribución de jugadores por equipo
print("\nTop 10 equipos por número de jugadores:")
display(df['Team'].value_counts().head(10))

Valores nulos por columna:


Team                         0
Name                         0
Torneo                       0
Goals                        0
Succ. dribbles               0
Tackles                      0
Assists                      0
Accurate passes %            0
Big chances missed           0
Total shots                  0
Goal conversion %            0
Interceptions                0
Clearances                   0
Errors leading to goal       0
Big chances created          0
Accurate passes              0
Key passes                   0
Saves                     2655
Clean sheet               2655
Penalties saved           2655
Saves from inside box     2655
Runs out                  2655
dtype: int64


Porcentaje de valores nulos por columna:


Runs out                  92.734893
Saves from inside box     92.734893
Penalties saved           92.734893
Clean sheet               92.734893
Saves                     92.734893
Name                       0.000000
Key passes                 0.000000
Accurate passes            0.000000
Big chances created        0.000000
Errors leading to goal     0.000000
Clearances                 0.000000
Team                       0.000000
Goal conversion %          0.000000
Total shots                0.000000
Big chances missed         0.000000
Accurate passes %          0.000000
Assists                    0.000000
Tackles                    0.000000
Succ. dribbles             0.000000
Goals                      0.000000
Torneo                     0.000000
Interceptions              0.000000
dtype: float64


Tipos de datos:


Team                       object
Name                       object
Torneo                     object
Goals                     float64
Succ. dribbles            float64
Tackles                   float64
Assists                   float64
Accurate passes %         float64
Big chances missed        float64
Total shots               float64
Goal conversion %         float64
Interceptions             float64
Clearances                float64
Errors leading to goal    float64
Big chances created       float64
Accurate passes           float64
Key passes                float64
Saves                     float64
Clean sheet               float64
Penalties saved           float64
Saves from inside box     float64
Runs out                  float64
dtype: object


Registros duplicados: 0

Distribución de registros por torneo:


Torneo
Clausura 2023B    595
Apertura 2024A    590
Apertura 2023A    589
Clausura 2024B    562
Apertura 2025A    527
Name: count, dtype: int64


Top 10 equipos por número de jugadores:


Team
Millonarios               164
Junior Barranquilla       152
Atlético Nacional         152
Deportivo Cali            149
Deportivo Pereira         147
Envigado FC               147
América de Cali           142
Independiente Medellín    142
Boyacá Chicó FC           142
Deportes Tolima           142
Name: count, dtype: int64

**FILTRADO DE JUGADORES PARA ANÁLISIS DE EVOLUCIÓN**

In [12]:
# Obtener lista de jugadores que participaron en el torneo más reciente (Apertura 2025A)
jugadores_2025A = df[df['Torneo'] == 'Apertura 2025A']['Name'].unique()
print(f"Número de jugadores en Apertura 2025A: {len(jugadores_2025A)}")

# Filtrar el dataset para mantener solo estos jugadores
df_evolucion = df[df['Name'].isin(jugadores_2025A)]

# Verificar número de registros por torneo para estos jugadores
print("\nDistribución por torneo de los jugadores seleccionados:")
display(df_evolucion['Torneo'].value_counts())

# Verificar cuántos jugadores tienen datos en los diferentes torneos
jugadores_por_torneo = df_evolucion.groupby('Name')['Torneo'].nunique()
print(f"\nJugadores con datos en los cinco torneos: {(jugadores_por_torneo == 5).sum()}")
print(f"Jugadores con datos en cuatro torneos: {(jugadores_por_torneo == 4).sum()}")
print(f"Jugadores con datos en tres torneos: {(jugadores_por_torneo == 3).sum()}")
print(f"Jugadores con datos en dos torneos: {(jugadores_por_torneo == 2).sum()}")
print(f"Jugadores con datos en un solo torneo: {(jugadores_por_torneo == 1).sum()}")

# Crear un nuevo dataframe con la evolución completa
# Ordenado primero por nombre y luego por torneo según el orden especificado
orden_torneos = {
    'Apertura 2025A': 0,   # Más reciente
    'Clausura 2024B': 1, 
    'Apertura 2024A': 2,
    'Clausura 2023B': 3,
    'Apertura 2023A': 4    # Más antiguo
}
df_evolucion['orden_torneo'] = df_evolucion['Torneo'].map(orden_torneos)
df_evolucion = df_evolucion.sort_values(['Name', 'orden_torneo'])
df_evolucion = df_evolucion.drop('orden_torneo', axis=1)

# Mostrar las primeras filas del dataset filtrado
print("\nPrimeras filas del dataset filtrado y ordenado:")
display(df_evolucion.head(15))  # Muestra 15 filas para ver múltiples jugadores

# Guardar el dataset filtrado 
df_evolucion.to_csv("data/evolucion_jugadores_2025A.csv", index=False)

# Opcional: Generar estadísticas sobre la continuidad de los jugadores
continuidad_jugadores = pd.DataFrame({
    'num_torneos': jugadores_por_torneo
})
print("\nEstadísticas de continuidad de jugadores:")
display(continuidad_jugadores['num_torneos'].value_counts().sort_index())

Número de jugadores en Apertura 2025A: 525

Distribución por torneo de los jugadores seleccionados:


Torneo
Apertura 2025A    527
Clausura 2024B    352
Apertura 2024A    303
Clausura 2023B    267
Apertura 2023A    263
Name: count, dtype: int64


Jugadores con datos en los cinco torneos: 178
Jugadores con datos en cuatro torneos: 63
Jugadores con datos en tres torneos: 96
Jugadores con datos en dos torneos: 78
Jugadores con datos en un solo torneo: 110

Primeras filas del dataset filtrado y ordenado:


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_evolucion['orden_torneo'] = df_evolucion['Torneo'].map(orden_torneos)


Unnamed: 0,Team,Name,Torneo,Goals,Succ. dribbles,Tackles,Assists,Accurate passes %,Big chances missed,Total shots,Goal conversion %,Interceptions,Clearances,Errors leading to goal,Big chances created,Accurate passes,Key passes,Saves,Clean sheet,Penalties saved,Saves from inside box,Runs out
1,Atlético Bucaramanga,Adalberto Peñaranda,Apertura 2025A,0.0,2.0,0.0,0.0,74.07,0.0,3.0,0.0,0.0,1.0,0.0,0.0,40.0,3.0,,,,,
2,Atlético Bucaramanga,Adalberto Peñaranda,Clausura 2024B,0.0,10.0,3.0,1.0,81.13,0.0,6.0,0.0,0.0,2.0,0.0,1.0,43.0,3.0,,,,,
9,Deportivo Pereira,Adrián Estacio,Apertura 2025A,0.0,6.0,2.0,0.0,71.08,1.0,12.0,0.0,3.0,1.0,0.0,0.0,59.0,10.0,,,,,
10,Rionegro Águilas Doradas,Adrián Estacio,Clausura 2024B,0.0,1.0,8.0,0.0,66.37,1.0,20.0,0.0,2.0,3.0,0.0,0.0,75.0,3.0,,,,,
11,Rionegro Águilas Doradas,Adrián Estacio,Apertura 2024A,0.0,3.0,3.0,1.0,82.44,1.0,14.0,0.0,1.0,0.0,0.0,2.0,108.0,4.0,,,,,
12,Rionegro Águilas Doradas,Adrián Estacio,Clausura 2023B,0.0,5.0,9.0,2.0,71.84,1.0,24.0,0.0,1.0,1.0,0.0,0.0,125.0,8.0,,,,,
13,Deportivo Pasto,Adrián Estacio,Apertura 2023A,3.0,22.0,36.0,2.0,72.61,0.0,75.0,4.0,13.0,3.0,0.0,2.0,464.0,40.0,,,,,
14,Deportes Tolima,Adrián Parra,Apertura 2025A,0.0,0.0,3.0,1.0,82.22,1.0,4.0,0.0,1.0,0.0,0.0,1.0,37.0,5.0,,,,,
15,Fortaleza CEIF,Adrián Parra,Clausura 2024B,2.0,5.0,14.0,1.0,79.94,1.0,13.0,15.38,3.0,5.0,0.0,1.0,287.0,17.0,,,,,
16,Fortaleza CEIF,Adrián Parra,Apertura 2024A,5.0,21.0,33.0,1.0,76.35,1.0,37.0,13.51,6.0,8.0,0.0,3.0,410.0,31.0,,,,,



Estadísticas de continuidad de jugadores:


num_torneos
1    110
2     78
3     96
4     63
5    178
Name: count, dtype: int64