# Resumen
Este proyecto de ciencia de datos tiene como objetivo analizar un conjunto de datos de jugadores de fútbol para predecir su valor de mercado actual y su rendimiento futuro. Utilizando técnicas de análisis y modelado de datos, se pretende ayudar a los clubes de fútbol a tomar decisiones informadas sobre la adquisición y desarrollo de talento. Los hallazgos clave incluyen la identificación de las características más influyentes en el valor de mercado y el rendimiento de los jugadores, así como la evaluación de modelos predictivos que ofrecen una precisión razonable en estas tareas.

# Objetivo

El objetivo principal de este proyecto es desarrollar modelos predictivos para:

1.-Estimar el valor de mercado actual de los jugadores de fútbol.

2.-Predecir métricas de rendimiento futuro como goles, asistencias y minutos jugados.

# Contexto Comercial

Imaginemos que trabajamos para un club de fútbol profesional, "Futbol Club Excelencia", que busca maximizar el rendimiento de su equipo y optimizar sus inversiones en jugadores. El club desea implementar un sistema basado en ciencia de datos que les permita evaluar el valor actual de sus jugadores y predecir su rendimiento futuro. Con esta información, el club podrá tomar decisiones más informadas en cuanto a la compra y venta de jugadores, y en la planificación de estrategias de formación y desarrollo.

# Hipotesis
Hipótesis sobre el Valor del Jugador: Se supone que características como el número de apariciones, goles, asistencias, y la posición del jugador tienen una relación significativa con su valor de mercado actual.

Hipótesis sobre el Rendimiento Futuro: Se espera que el rendimiento futuro de un jugador (medido en términos de goles, asistencias y minutos jugados) pueda ser predicho razonablemente a partir de sus datos históricos y características demográficas.

# Procedimiento

1.-**Recolección de Datos:** Obtención de un dataset detallado con estadísticas y características de los jugadores.

2.-**Preprocesamiento de Datos:** Limpieza y transformación de los datos, incluyendo la codificación de variables categóricas y la normalización de variables numéricas.

3.-**Análisis Exploratorio de Datos (EDA):** Visualización y análisis estadístico para comprender mejor las relaciones entre las variables.

4.-**Entrenamiento del Modelo:** Implementación y ajuste de modelos de regresión para predecir el valor actual de los jugadores y su rendimiento futuro.

5.-**Evaluación del Modelo:** Medición del rendimiento de los modelos utilizando métricas como RMSE y MAE.

6.-**Interpretación de Resultados:** Análisis de la importancia de las características y los factores que más influyen en las predicciones.

# Implementación del Modelo
**Paso 1: Preparación de los Datos**

Preprocesamos los datos eliminando columnas irrelevantes, codificando variables categóricas y normalizando variables numéricas.

**Paso 2: Análisis Exploratorio de Datos (EDA)**

Realizamos un análisis exploratorio para visualizar las distribuciones de las características y las relaciones entre las variables.

**Paso 3: Entrenamiento del Modelo**

Dividimos los datos en conjuntos de entrenamiento y prueba, y entrenamos un modelo de regresión (Random Forest Regressor) para predecir el valor actual de los jugadores.

**Paso 4: Evaluación del Modelo**

Evaluamos el modelo utilizando métricas como el RMSE.

**Paso 5: Predicción del Rendimiento Futuro**

Desarrollamos y entrenamos modelos adicionales para predecir métricas de rendimiento futuro como goles, asistencias y minutos jugados.

In [1]:
#Importamos librerias necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error


In [4]:
# Cargamos el dataset
data = pd.read_csv('Prediccion_jugadores_soccer.csv')

In [5]:
# Seleccionamos las características y la variable objetivo
features = data.drop(columns=['player', 'name', 'current_value'])
target = data['current_value']

In [6]:
# Identificamos las variables categóricas y numéricas
categorical_features = ['team', 'position']
numeric_features = features.select_dtypes(include=['float64', 'int64']).columns.tolist()
numeric_features = [col for col in numeric_features if col not in categorical_features]

In [7]:
# Dividimos el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

In [8]:
# Preprocesamiento: codificación de variables categóricas y normalización de variables numéricas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

In [9]:
# Crear el pipeline con el preprocesador y el modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])

In [10]:
# Entrenamiento del modelo
model.fit(X_train, y_train)

In [11]:
# se realizan las predicciones
y_pred = model.predict(X_test)

In [14]:
# Se evalua el modelo
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

RMSE: 4.732789437782915


In [15]:
# Para predecir el rendimiento futuro
targets = ['goals', 'assists', 'minutes played']
predictions = {}

for target in targets:
    y = data[target]
    X_train, X_test, y_train, y_test = train_test_split(features, y, test_size=0.2, random_state=42)

    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    predictions[target] = rmse
    print(f'RMSE for {target}: {rmse}')

RMSE for goals: 0.026906835182623323
RMSE for assists: 0.0028695290190454666
RMSE for minutes played: 4.732789437782915


# Conclusiones
En este proyecto de ciencia de datos, hemos desarrollado y evaluado modelos predictivos para estimar el valor actual de mercado de jugadores de fútbol y predecir su rendimiento futuro en términos de goles, asistencias y minutos jugados. A continuación se presentan las conclusiones clave de nuestro análisis:

  **1.-Modelos Predictivos para el Valor de Mercado:**

  *Utilizando un modelo de regresión Random Forest, logramos predecir el valor de mercado actual de los jugadores con un RMSE de aproximadamente 4.7.

  *La precisión del modelo puede ser mejorada mediante la optimización de hiperparámetros, la incorporación de características adicionales o el uso de técnicas avanzadas de modelado.

**2.-Predicción del Rendimiento Futuro:**

  *También desarrollamos modelos para predecir el rendimiento futuro de los jugadores, específicamente sus goles, asistencias y minutos jugados.

  *Los resultados preliminares muestran que estos modelos tienen un RMSE relativamente bajo, lo que indica una capacidad razonable para prever el rendimiento futuro de los jugadores.

  *La reducción de los datos y el ajuste de los hiperparámetros del modelo son necesarios para mejorar la precisión de estas predicciones.

**3.-Importancia de las Características:**

  *Nuestro análisis sugiere que variables como las apariciones, goles, asistencias, y la posición del jugador tienen una influencia significativa en el valor de mercado y el rendimiento futuro.

  *La codificación adecuada de variables categóricas y la normalización de variables numéricas son cruciales para el rendimiento del modelo.

  **4.-Aplicabilidad Comercial:**

  *Para el Futbol Club Excelencia, los modelos desarrollados pueden ser una herramienta valiosa para la toma de decisiones estratégicas en la adquisición y desarrollo de jugadores.

  *Con un sistema predictivo robusto, el club puede optimizar sus inversiones, enfocándose en jugadores con alto potencial de rendimiento y valorización en el mercado.

  **5.-Futuras Direcciones:**

  *La inclusión de datos adicionales como el historial de lesiones, rendimiento en entrenamientos, y factores externos (ej. transferencias de otros clubes) podría mejorar significativamente los modelos.

  *La exploración de técnicas de modelado más avanzadas como redes neuronales profundas y el aprendizaje automático basado en ensamblaje podría proporcionar mejoras adicionales en la precisión predictiva.

### En conclusión, este proyecto demuestra el potencial significativo de la ciencia de datos y el aprendizaje automático para apoyar la toma de decisiones en el ámbito del fútbol profesional, proporcionando herramientas valiosas para la gestión efectiva de talento y recursos en el deporte.