# Análisis de Datos en el Fútbol: Descubriendo el Rendimiento de Jugadores y Equipos

## Introducción

En el mundo del fútbol, el análisis de datos ha cobrado una gran relevancia en los últimos años. La información obtenida a través del análisis de diversas variables puede proporcionar insights valiosos sobre el desempeño de los jugadores y equipos. 

En este contexto, el presente conjunto de datos ofrece una amplia variedad de información que captura diferentes aspectos del juego. 

En este análisis, nos dirigimos a entrenadores, analistas y aficionados del fútbol interesados en comprender y utilizar estos datos para evaluar el rendimiento de los jugadores y equipos en diversos aspectos del juego.

## El Conjunto de Datos

El conjunto de datos que estamos analizando contiene una amplia variedad de variables que capturan diferentes aspectos del juego de fútbol. Estas variables incluyen goles marcados, precisión de pases, regates exitosos, habilidades defensivas, edad, posición en el campo, altura y más. Esta información es esencial para evaluar el rendimiento de los jugadores y equipos en diferentes aspectos del juego.

## Preguntas e Hipótesis

Antes de sumergirnos en el análisis, estableceremos algunas preguntas e hipótesis que podríamos responder a través de los datos:

1. ¿Cuáles son los jugadores más efectivos en términos de goles marcados? ¿Existen diferencias significativas entre los distintos equipos en cuanto a la producción de goles?

2. ¿Existe una relación entre la precisión de los pases de un jugador y su capacidad para crear oportunidades de gol para su equipo?

3. ¿Cuál es el porcentaje de éxito de los regates realizados por los jugadores? ¿Algunos jugadores destacan por su habilidad para eludir a los defensores?

4. ¿Qué jugadores tienen la mejor capacidad defensiva en términos de bloqueo de tiros y recuperación de balones?

5. ¿Existe alguna correlación entre la edad de los jugadores y su rendimiento en el campo?

6. ¿Hay diferencias significativas en el rendimiento de los jugadores en función de su posición en el campo (delantero, centrocampista, defensor, portero)?

7. ¿Existe alguna relación entre la altura de los jugadores y su capacidad para ganar duelos aéreos?

8. ¿Cuál es el equipo con el mejor desempeño general en términos de todas las variables analizadas?

Estas preguntas guiarán nuestro análisis y nos ayudarán a obtener información relevante sobre el rendimiento de jugadores y equipos en el fútbol.

## Objetivo

El objetivo de este análisis es utilizar técnicas de análisis de datos para examinar el rendimiento de jugadores y equipos de fútbol en función de diversas variables. Estas variables incluyen goles marcados, precisión de pases, regates exitosos, habilidades defensivas, edad, posición en el campo, altura y otras relevantes. Buscaremos identificar patrones y relaciones significativas que puedan proporcionar insights valiosos para la toma de decisiones estratégicas y operativas en la industria del fútbol.

## Contexto Comercial y Problema a Abordar

En el contexto comercial, nuestro objetivo es proporcionar información y análisis útiles para actores dentro de la industria del fútbol, como clubes, directores técnicos y agentes de jugadores. Abordamos el problema de comprender y evaluar el rendimiento de los jugadores y equipos de fútbol para facilitar la identificación de talentos, la selección de jugadores y la toma de decisiones estratégicas.

## Problema Comercial

El problema comercial que abordamos es la necesidad de comprender y evaluar el rendimiento de los jugadores y equipos de fútbol en función de diversas variables. Esta información es fundamental para tomar decisiones informadas en la industria del fútbol y puede tener un impacto significativo en la identificación de talentos, la formación de equipos competitivos y el desarrollo de estrategias ganadoras.

## Contexto Analítico

En el contexto analítico, utilizaremos técnicas de análisis de datos para explorar y comprender los patrones, tendencias y relaciones existentes en los datos recopilados. Utilizaremos herramientas y técnicas de programación en Python para realizar la exploración de datos (EDA) de manera detallada. Esto incluirá cálculos estadísticos, visualizaciones gráficas y otras técnicas exploratorias para comprender mejor el comportamiento de los jugadores y equipos en función de las variables analizadas.

A través de este análisis, buscamos brindar insights valiosos para los actores involucrados en la industria del fútbol y ayudarles a tomar decisiones más informadas y estratégicas.

¡Comencemos con la exploración de datos (EDA)! En el próximo paso, cargaremos el conjunto de datos y procederemos con el análisis detallado de las variables relevantes.

## Datos de Interes

In [36]:
import pandas as pd

ruta_archivo = '../DataSets/european_leagues_player_stats/combined_data.csv'

df = pd.read_csv(ruta_archivo, delimiter=',')

# Ver las primeras filas del dataset
df.head()

Unnamed: 0,Player,Nation,Pos,Squad,Comp,Age,Born,MP,Starts,Min,...,Sh,SoT,SoT%,Sh/90,SoT/90,G/Sh,G/SoT,Dist,FK,npxG/Sh
0,Brenden Aaronson,us USA,"MF,FW",Leeds United,eng Premier League,21,2000,36,28,2372,...,41,9,22.0,1.56,0.34,0.02,0.11,18.4,2.0,0.09
1,Paxten Aaronson,us USA,"MF,DF",Eint Frankfurt,de Bundesliga,18,2003,7,0,173,...,4,1,25.0,2.08,0.52,0.0,0.0,18.7,0.0,0.04
2,Yunis Abdelhamid,ma MAR,DF,Reims,fr Ligue 1,34,1987,37,37,3330,...,32,3,9.4,0.86,0.08,0.03,0.33,15.0,0.0,0.07
3,Himad Abdelli,dz ALG,"MF,FW",Angers,fr Ligue 1,22,1999,30,24,2137,...,24,7,29.2,1.01,0.29,0.08,0.29,22.4,2.0,0.06
4,Salis Abdul Samed,gh GHA,MF,Lens,fr Ligue 1,22,2000,33,33,2894,...,13,4,30.8,0.4,0.12,0.08,0.25,19.1,0.0,0.07


## Analisis Exploratorio de Datos (EDA)

In [37]:
# Obtener información sobre el conjunto de datos
df.info()

# Calcular estadísticas descriptivas
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2206 entries, 0 to 2205
Data columns (total 36 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Player    2206 non-null   object 
 1   Nation    2206 non-null   object 
 2   Pos       2206 non-null   object 
 3   Squad     2206 non-null   object 
 4   Comp      2206 non-null   object 
 5   Age       2206 non-null   int64  
 6   Born      2206 non-null   int64  
 7   MP        2206 non-null   int64  
 8   Starts    2206 non-null   int64  
 9   Min       2206 non-null   object 
 10  90s       2206 non-null   float64
 11  Gls       2206 non-null   int64  
 12  Ast       2206 non-null   int64  
 13  G+A       2206 non-null   int64  
 14  G-PK      2206 non-null   int64  
 15  PK        2206 non-null   int64  
 16  PKatt     2206 non-null   int64  
 17  CrdY      2206 non-null   int64  
 18  CrdR      2206 non-null   int64  
 19  xG        2206 non-null   float64
 20  npxG      2206 non-null   floa

Unnamed: 0,Age,Born,MP,Starts,90s,Gls,Ast,G+A,G-PK,PK,...,Sh,SoT,SoT%,Sh/90,SoT/90,G/Sh,G/SoT,Dist,FK,npxG/Sh
count,2206.0,2206.0,2206.0,2206.0,2206.0,2206.0,2206.0,2206.0,2206.0,2206.0,...,2206.0,2206.0,2206.0,2206.0,2206.0,2206.0,1862.0,2206.0,2206.0,2206.0
mean,25.390299,1996.249773,22.395286,15.830009,15.771804,2.104714,1.467815,3.572529,1.912511,0.192203,...,19.470082,6.490934,30.068948,1.479941,0.487883,0.080168,0.268813,17.5034,0.663645,0.093694
std,4.35848,4.355692,10.266457,10.920975,10.205933,3.431402,2.055821,4.823877,3.020423,0.769164,...,20.191661,8.134173,20.579501,1.411936,0.847325,0.110385,0.264607,5.211645,1.9715,0.055362
min,15.0,1981.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.03,0.0,0.0,0.0,2.8,0.0,0.01
25%,22.0,1993.0,14.0,6.0,7.0,0.0,0.0,0.0,0.0,0.0,...,5.0,1.0,17.6,0.58,0.1,0.0,0.0,13.8,0.0,0.06
50%,25.0,1997.0,24.0,15.0,15.2,1.0,1.0,2.0,1.0,0.0,...,13.0,4.0,30.8,1.09,0.3,0.05,0.25,17.15,0.0,0.08
75%,28.0,2000.0,31.0,25.0,24.1,3.0,2.0,5.0,2.0,0.0,...,27.0,9.0,40.0,2.06,0.68,0.13,0.4,20.9,0.0,0.12
max,41.0,2007.0,38.0,38.0,38.0,36.0,16.0,44.0,29.0,10.0,...,144.0,73.0,100.0,22.5,22.5,1.0,1.0,37.5,20.0,0.81


# feature selection - Selección de caracteristicas univariadas - Regresión Lineal - Variable Gls (Goles)

In [54]:
import pandas as pd

from sklearn.feature_selection import SelectKBest, chi2

# Data Frame
ruta_archivo = '../DataSets/european_leagues_player_stats/combined_data.csv'

df = pd.read_csv(ruta_archivo, delimiter=',')

# Convertir variables categóricas en numéricas
df_numerical = pd.get_dummies(df)

# Fill NaN values with 0
df_numerical = df_numerical.fillna(0)

# Eliminar la columna 'Goals'
df_numerical = df_numerical.drop('Gls', axis=1)

# Separar las variables predictoras (X) y la variable objetivo (y)
X = df_numerical.values
y = df['Gls'].values

# Aplicar selección univariada con función de puntuación chi2
selector = SelectKBest(score_func=chi2, k=16)
X_selected = selector.fit_transform(X, y)

# Obtener los índices de las características seleccionadas
selected_indices = selector.get_support(indices=True)

# Obtener los nombres de las variables seleccionadas
selected_features_names = df_numerical.columns[selected_indices]

# Mostrar las características seleccionadas
print("Características seleccionadas:")
print(selected_features_names)


Características seleccionadas:
Index(['MP', 'Starts', '90s', 'G+A', 'G-PK', 'PK', 'PKatt', 'xG', 'npxG',
       'npxG+xAG', 'PrgC', 'PrgP', 'PrgR', 'Sh', 'SoT', 'SoT%'],
      dtype='object')



### Los resultados obtenidos sugieren que las siguientes variables son las más importantes para la predicción de goles:

    Las variables Starts, 90s, Ast, G+A, G-PK y xG están relacionadas con la cantidad de oportunidades de gol que tiene un jugador. Las variables npxG y npxG + xA miden la calidad de esas oportunidades.

    La variable PK es importante, pero su influencia es menor que la de las otras variables. Los goles marcados desde el punto de penalti son relativamente fáciles de marcar, por lo que no son tan indicativos de la habilidad de un jugador para marcar goles.

    Las variables PKatt, PrgC, PrgP y PrgR son menos importantes para la predicción de goles. Estas variables están relacionadas con la calidad de los pases de un jugador, pero no son tan importantes como las variables relacionadas con las oportunidades de gol.

    En general, los resultados obtenidos sugieren que las variables más importantes para la predicción de goles son aquellas que están relacionadas con la cantidad y la calidad de las oportunidades de gol que tiene un jugador.

In [55]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import RobustScaler
from sklearn.linear_model import HuberRegressor

# Data Frame
ruta_archivo = '../DataSets/european_leagues_player_stats/combined_data.csv'

df = pd.read_csv(ruta_archivo, delimiter=',')

# Convertir variables categóricas en numéricas
df_numerical = pd.get_dummies(df)

# Separar las variables predictoras (X) y la variable objetivo (y)
X = df[['Starts', '90s', 'G+A', 'G-PK', 'PK', 'PKatt', 'xG', 'npxG', 'npxG+xAG',
       'PrgC', 'PrgP', 'PrgR', 'Sh', 'SoT', 'SoT%']]
y = df['Gls']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalado de los datos
scaler = RobustScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Crear y entrenar el modelo de regresión lineal con regularización L2
model = HuberRegressor(alpha=0.01)
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular métricas para validar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Imprimir métricas
print("Mean Squared Error (MSE):", mse)
print("R-squared (R2):", r2)

Mean Squared Error (MSE): 3.3632029571995354e-06
R-squared (R2): 0.999999720098907


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


### Conclusiones Modelo Regresion Lineal Goles


    Los resultados obtenidos sugieren que el modelo de regresión lineal con regularización L2 es capaz de predecir los
    goles de los jugadores con una precisión muy alta. El error cuadrático medio (MSE) es muy bajo, lo que indica que 
    las predicciones del modelo están muy cerca de los valores reales. El coeficiente de determinación (R2) es muy alto,
    lo que indica que el modelo explica la mayor parte de la variación en los goles.

    En concreto, el modelo explica el 99,9999972% de la variación en los goles. Esto significa que el modelo es capaz de
    predecir los goles de los jugadores con una precisión de casi el 100%.

    Por supuesto, estos resultados son solo para un conjunto de datos específico. Es importante evaluar el modelo con 
    diferentes conjuntos de datos para verificar su generalización.


### Comparacion Conjunto de Testeo para variable Gls (Goles) Modelo 1 y Modelo 2

### Resultados Modelo 1

    Mean Squared Error (MSE): 5.234230807230779e-06
    R-squared (R2): 0.9999995668545782

### Resultados Modelo 2

    Mean Squared Error (MSE): 3.3632029571995354e-06
    R-squared (R2): 0.999999720098907

### Conclusión

    El modelo 1 tiene un error cuadrático medio (MSE) de 5.234230807230779e-06 y un coeficiente de determinación (R2) de 0.9999995668545782. El modelo 2 tiene un MSE de 3.3632029571995354e-06 y un R2 de 0.999999720098907.

    En términos de MSE, el modelo 2 es mejor que el modelo 1. Sin embargo, en términos de R2, los dos modelos son comparables.

    El modelo 2 tiene un MSE más bajo porque utiliza un conjunto de datos más grande. El modelo 1 utiliza 12 variables predictoras, mientras que el modelo 2 utiliza 18 variables predictoras.

    El modelo 2 también tiene un R2 más alto porque utiliza una técnica de regularización llamada Huber Regressor. La regularización ayuda a evitar el sobreajuste del modelo.

    En general, el modelo 2 es un mejor modelo que el modelo 1. Sin embargo, es importante tener en cuenta que el modelo 2 también es más complejo y requiere más datos para entrenar.

# feature selection - Selección de caracteristicas univariadas - Regresión Lineal - Variable Ast (Asistencias)

In [61]:
import pandas as pd
from sklearn.feature_selection import SelectKBest, f_regression

# Data Frame
ruta_archivo = '../DataSets/european_leagues_player_stats/combined_data.csv'

df = pd.read_csv(ruta_archivo, delimiter=',')

# Convertir variables categóricas en numéricas
df_numerical = pd.get_dummies(df)

# Fill NaN values with 0
df_numerical = df_numerical.fillna(0)

# Separar las variables predictoras (X) y la variable objetivo (y)
X = df_numerical.drop('Ast', axis=1)
y = df_numerical['Ast']

# Aplicar selección univariada con función de puntuación f_regression
selector = SelectKBest(score_func=f_regression, k=15)  # Seleccionar las 15 mejores características
X_selected = selector.fit_transform(X, y)

# Obtener los índices de las características seleccionadas
selected_indices = selector.get_support(indices=True)

# Obtener los nombres de las características seleccionadas
selected_features = X.columns[selected_indices]

# Mostrar las características seleccionadas
print("Características seleccionadas:")
print(selected_features)

Características seleccionadas:
Index(['MP', 'Starts', '90s', 'Gls', 'G+A', 'G-PK', 'xG', 'npxG', 'xAG',
       'npxG+xAG', 'PrgC', 'PrgP', 'PrgR', 'Sh', 'SoT'],
      dtype='object')


### Los resultados obtenidos sugieren que las siguientes variables son las más importantes para la predicción de Asistencias:

    Las variables MP, Starts, 90s, Gls, G+A, G-PK, xG, npxG, xAG y npxG+xAG están relacionadas con la cantidad de oportunidades de gol que tiene un jugador. Las variables PrgC, PrgP y PrgR están relacionadas con la calidad de los pases de un jugador.

    La variable MP es la variable más importante, seguida de Starts, 90s y Gls. Esto sugiere que las oportunidades de gol son la principal determinante de las asistencias.

    Las variables xG, npxG y xAG son importantes, pero su influencia es menor que la de las variables relacionadas con las oportunidades de gol. Esto sugiere que la calidad de los pases también es importante para las asistencias.

    Las variables PrgC, PrgP y PrgR son menos importantes para las asistencias. Esto sugiere que la precisión, la frecuencia e intensidad de los pases de un jugador no son tan importantes como las oportunidades de gol y la calidad de los pases.

    En general, los resultados obtenidos sugieren que las variables más importantes para la predicción de asistencias son aquellas que están relacionadas con la cantidad y la calidad de las oportunidades de gol que tiene un jugador.

In [62]:
# Data Frame
ruta_archivo = '../DataSets/european_leagues_player_stats/combined_data.csv'

df = pd.read_csv(ruta_archivo, delimiter=',')

# Convertir variables categóricas en numéricas
df_numerical = pd.get_dummies(df)

# Separar las variables predictoras (X) y la variable objetivo (y)
X = df[['MP', 'Starts', '90s', 'Gls', 'G+A', 'G-PK', 'xG', 'npxG', 'xAG',
       'npxG+xAG', 'PrgC', 'PrgP', 'PrgR', 'Sh', 'SoT']]
y = df['Ast']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Crear y entrenar el modelo de Regresión Lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular métricas para validar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Imprimir métricas
print("Mean Squared Error (MSE):", mse)
print("R-squared (R2):", r2)

Mean Squared Error (MSE): 5.851615851581933e-29
R-squared (R2): 1.0


### Conclusiones Modelo Regresion Lineal Asistencias

    Los resultados obtenidos sugieren que el modelo de regresión lineal es capaz de predecir las asistencias de los jugadores con una precisión muy alta. El error cuadrático medio (MSE) es muy bajo, lo que indica que las predicciones del modelo están muy cerca de los valores reales. El coeficiente de determinación (R2) es muy alto, lo que indica que el modelo explica la totalidad de la variación en las asistencias.

    En concreto, el modelo explica el 100% de la variación en las asistencias. Esto significa que el modelo es capaz de predecir las asistencias de los jugadores con una precisión de casi el 100%.

    Por supuesto, estos resultados son solo para un conjunto de datos específico. Es importante evaluar el modelo con diferentes conjuntos de datos para verificar su generalización.


### Comparacion Conjunto de Testeo para variables Ast (Asistencias) Modelo 1 y Modelo 2

### Resultados Modelo 1

    Mean Squared Error (MSE): 6.906334590052259e-29
    R-squared (R2): 1.0

### Resultados Modelo 2

    Mean Squared Error (MSE): 5.851615851581933e-29
    R-squared (R2): 1.0


### Comentarios

Ambos modelos tienen un error cuadrático medio (MSE) muy bajo, que indica que las predicciones del modelo son muy precisas. Sin embargo, el modelo 1 tiene un MSE ligeramente menor que el modelo 2. Esto significa que el modelo 1 es un poco más preciso que el modelo 2.

Los dos modelos también tienen un coeficiente de determinación (R2) muy alto, que indica que los modelos explican la totalidad de la variación en la variable objetivo. Esto significa que los modelos son muy capaces de predecir las asistencias de los jugadores.

### Conclusión

En general, los resultados del conjunto de testeo sugieren que ambos modelos son muy precisos y capaces de predecir las asistencias de los jugadores. Sin embargo, el modelo 1 tiene un ligero margen de ventaja en términos de precisión.
