**Importación de librerías y carga de datos**

In [2]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from datetime import datetime

# Configuración de visualización
plt.style.use('ggplot')
sns.set(style="whitegrid")
%matplotlib inline
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Cargar los datos unificados
# Ajusta la ruta según donde tengas tu archivo
ruta_datos = "data/jugadores_unificados.csv"
df = pd.read_csv(ruta_datos)

# Mostrar información general del dataset
print(f"Dimensiones del dataset: {df.shape}")
print(f"\nPrimeras 5 filas:")
display(df.head())

# Información sobre tipos de datos y valores no nulos
print("\nInformación del dataset:")
display(df.info())

# Estadísticas descriptivas básicas
print("\nEstadísticas descriptivas:")
pd.set_option('display.max_columns', None)  # Muestra todas las columnas
pd.set_option('display.width', 1000)        # Ancho amplio para evitar cortes
display(df.describe().transpose()) 

Dimensiones del dataset: (1679, 22)

Primeras 5 filas:


Unnamed: 0,Team,Name,Torneo,Goals,Succ. dribbles,Tackles,Assists,Accurate passes %,Big chances missed,Total shots,...,Clearances,Errors leading to goal,Big chances created,Accurate passes,Key passes,Saves,Clean sheet,Penalties saved,Saves from inside box,Runs out
0,Boyacá Chicó FC,Abdid Muñoz,Clausura 2024B,0.0,3.0,6.0,0.0,71.08,0.0,1.0,...,4.0,0.0,0.0,59.0,0.0,,,,,
1,Atlético Bucaramanga,Adalberto Peñaranda,Apertura 2025A,0.0,2.0,0.0,0.0,74.07,0.0,3.0,...,1.0,0.0,0.0,40.0,3.0,,,,,
2,Atlético Bucaramanga,Adalberto Peñaranda,Clausura 2024B,0.0,10.0,3.0,1.0,81.13,0.0,6.0,...,2.0,0.0,1.0,43.0,3.0,,,,,
3,Boyacá Chicó FC,Adrian Chara,Clausura 2024B,0.0,7.0,1.0,0.0,86.36,0.0,4.0,...,0.0,0.0,0.0,57.0,5.0,,,,,
4,Boyacá Chicó FC,Adrian Chara,Apertura 2024A,0.0,0.0,0.0,0.0,33.33,0.0,0.0,...,0.0,0.0,0.0,2.0,0.0,,,,,



Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1679 entries, 0 to 1678
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Team                    1679 non-null   object 
 1   Name                    1679 non-null   object 
 2   Torneo                  1679 non-null   object 
 3   Goals                   1679 non-null   float64
 4   Succ. dribbles          1679 non-null   float64
 5   Tackles                 1679 non-null   float64
 6   Assists                 1679 non-null   float64
 7   Accurate passes %       1679 non-null   float64
 8   Big chances missed      1679 non-null   float64
 9   Total shots             1679 non-null   float64
 10  Goal conversion %       1679 non-null   float64
 11  Interceptions           1679 non-null   float64
 12  Clearances              1679 non-null   float64
 13  Errors leading to goal  1679 non-null   float64
 14  Big chances cr

None


Estadísticas descriptivas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Goals,1679.0,0.67302,1.449485,0.0,0.0,0.0,1.0,17.0
Succ. dribbles,1679.0,3.290054,4.824682,0.0,0.0,2.0,4.0,55.0
Tackles,1679.0,8.032162,8.514877,0.0,1.0,5.0,12.0,56.0
Assists,1679.0,0.447886,0.889346,0.0,0.0,0.0,1.0,7.0
Accurate passes %,1679.0,76.44489,12.28115,0.0,72.555,78.57,83.175,100.0
Big chances missed,1679.0,0.365098,0.987766,0.0,0.0,0.0,0.0,12.0
Total shots,1679.0,7.853484,10.27651,0.0,1.0,5.0,11.0,107.0
Goal conversion %,1679.0,5.47863,11.591622,0.0,0.0,0.0,8.33,100.0
Interceptions,1679.0,4.494937,5.544688,0.0,0.0,3.0,7.0,33.0
Clearances,1679.0,11.205479,15.78691,0.0,1.0,5.0,15.0,121.0


**LIMPIEZA Y EXPLORACIÓN DE VALORES FALTANTES**

In [3]:
# Verificar valores nulos por columna
print("Valores nulos por columna:")
display(df.isnull().sum())

# Porcentaje de valores nulos
print("\nPorcentaje de valores nulos por columna:")
display((df.isnull().sum() / len(df) * 100).sort_values(ascending=False))

# Verificar tipos de datos
print("\nTipos de datos:")
display(df.dtypes)

# Convertir columnas numéricas si es necesario
columnas_numericas = ['Goals', 'Assists', 'Succ. dribbles', 'Tackles', 
                     'Accurate passes %', 'Total shots', 'Goal conversion %']

for col in columnas_numericas:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Análisis de duplicados
print(f"\nRegistros duplicados: {df.duplicated().sum()}")

# Distribución de jugadores por torneo
print("\nDistribución de registros por torneo:")
display(df['Torneo'].value_counts())

# Distribución de jugadores por equipo
print("\nTop 10 equipos por número de jugadores:")
display(df['Team'].value_counts().head(10))

Valores nulos por columna:


Team                         0
Name                         0
Torneo                       0
Goals                        0
Succ. dribbles               0
Tackles                      0
Assists                      0
Accurate passes %            0
Big chances missed           0
Total shots                  0
Goal conversion %            0
Interceptions                0
Clearances                   0
Errors leading to goal       0
Big chances created          0
Accurate passes              0
Key passes                   0
Saves                     1555
Clean sheet               1555
Penalties saved           1555
Saves from inside box     1555
Runs out                  1555
dtype: int64


Porcentaje de valores nulos por columna:


Runs out                  92.614652
Saves from inside box     92.614652
Penalties saved           92.614652
Clean sheet               92.614652
Saves                     92.614652
Name                       0.000000
Key passes                 0.000000
Accurate passes            0.000000
Big chances created        0.000000
Errors leading to goal     0.000000
Clearances                 0.000000
Team                       0.000000
Goal conversion %          0.000000
Total shots                0.000000
Big chances missed         0.000000
Accurate passes %          0.000000
Assists                    0.000000
Tackles                    0.000000
Succ. dribbles             0.000000
Goals                      0.000000
Torneo                     0.000000
Interceptions              0.000000
dtype: float64


Tipos de datos:


Team                       object
Name                       object
Torneo                     object
Goals                     float64
Succ. dribbles            float64
Tackles                   float64
Assists                   float64
Accurate passes %         float64
Big chances missed        float64
Total shots               float64
Goal conversion %         float64
Interceptions             float64
Clearances                float64
Errors leading to goal    float64
Big chances created       float64
Accurate passes           float64
Key passes                float64
Saves                     float64
Clean sheet               float64
Penalties saved           float64
Saves from inside box     float64
Runs out                  float64
dtype: object


Registros duplicados: 0

Distribución de registros por torneo:


Torneo
Apertura 2024A    590
Clausura 2024B    562
Apertura 2025A    527
Name: count, dtype: int64


Top 10 equipos por número de jugadores:


Team
Millonarios              95
Junior Barranquilla      94
Boyacá Chicó FC          92
Envigado FC              88
Alianza Valledupar FC    88
Deportivo Cali           86
Atlético Nacional        86
Deportivo Pereira        84
América de Cali          83
Once Caldas              83
Name: count, dtype: int64

**FILTRADO DE JUGADORES PARA ANÁLISIS DE EVOLUCIÓN**

In [None]:
# Obtener lista de jugadores que participaron en el torneo más reciente (Apertura 2025A)
jugadores_2025A = df[df['Torneo'] == 'Apertura 2025A']['Name'].unique()
print(f"Número de jugadores en Apertura 2025A: {len(jugadores_2025A)}")

# Filtrar el dataset para mantener solo estos jugadores
df_evolucion = df[df['Name'].isin(jugadores_2025A)]

# Verificar número de registros por torneo para estos jugadores
print("\nDistribución por torneo de los jugadores seleccionados:")
display(df_evolucion['Torneo'].value_counts())

# Verificar cuántos jugadores tienen datos en los tres torneos
jugadores_por_torneo = df_evolucion.groupby('Name')['Torneo'].nunique()
print(f"\nJugadores con datos en los tres torneos: {(jugadores_por_torneo == 3).sum()}")
print(f"Jugadores con datos en dos torneos: {(jugadores_por_torneo == 2).sum()}")
print(f"Jugadores con datos en un solo torneo: {(jugadores_por_torneo == 1).sum()}")

# Crear un nuevo dataframe con la evolución completa
# Ordenado primero por nombre y luego por torneo según el orden especificado
orden_torneos = {'Apertura 2025A': 0, 'Clausura 2024B': 1, 'Apertura 2024A': 2}
df_evolucion['orden_torneo'] = df_evolucion['Torneo'].map(orden_torneos)
df_evolucion = df_evolucion.sort_values(['Name', 'orden_torneo'])
df_evolucion = df_evolucion.drop('orden_torneo', axis=1)

# Mostrar las primeras filas del dataset filtrado
print("\nPrimeras filas del dataset filtrado y ordenado:")
display(df_evolucion.head(15))  # Muestra 15 filas para ver múltiples jugadores

# Guardar el dataset filtrado (opcional)
df_evolucion.to_csv("Procesamiento de datos/data/evolucion_jugadores_2025A.csv", index=False)