# Laboratorio 1 - Inteligencia de negocios

**Caso de Negocio:** 
FutAlpes F.C.

**Integrantes:**
- Estudiante 1: David Elias Forero
- Estudiante 2: Jeronimo A. Pineda Cano
- Estudiante 3: Juan Felipe Hernández

**Fecha:** 30 agosto

# Paso 0: Introducción, Objetivos Generales y configuración inicial

FutAlpes F.C. necesita optimizar su estrategia de fichajes con un presupuesto de 100 millones de euros. Para ello, se requiere construir un modelo de regresión que prediga el valor de mercado de un jugador basándose en sus estadísticas de rendimiento de la temporada 2024/2025, con el fin de tomar decisiones de contratación más objetivas y eficientes.

## 0.1 Objetivos generales
- Construir un modelo de regresión para estimar el valor de mercado de los jugadores a partir de sus estadísticas.
- Identificar las variables de rendimiento que más influyen en el precio de un futbolista.
- Implementar un pipeline automatizado que procese los datos y genere predicciones para su uso en producción.
- Evaluar la precisión y fiabilidad del modelo para justificar su uso como herramienta de apoyo en la selección de fichajes.

## 0.2 Librerias

In [1]:
%pip install pandas matplotlib seaborn scikit-learn ydata-profiling setuptools ipywidgets

Collecting pandas
  Using cached pandas-2.3.2-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting matplotlib
  Using cached matplotlib-3.10.5-cp312-cp312-win_amd64.whl.metadata (11 kB)
Collecting seaborn
  Using cached seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting scikit-learn
  Using cached scikit_learn-1.7.1-cp312-cp312-win_amd64.whl.metadata (11 kB)
Collecting ydata-profiling
  Using cached ydata_profiling-4.16.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting setuptools
  Using cached setuptools-80.9.0-py3-none-any.whl.metadata (6.6 kB)
Collecting ipywidgets
  Using cached ipywidgets-8.1.7-py3-none-any.whl.metadata (2.4 kB)
Collecting numpy>=1.26.0 (from pandas)
  Using cached numpy-2.3.2-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting contourpy>=1.0.

## 0.3 Cofiguración inicial

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from ydata_profiling import ProfileReport
import ipywidgets as widgets
from IPython.display import display

pd.set_option("display.max_columns", None)
sns.set(style="whitegrid", palette="muted", font_scale=1.1)

In [5]:
file='data/datos_entrenamiento_laboratorio1(train_data).csv'
df = pd.read_csv(file)
df.head()

Unnamed: 0,Jugador,Nacionalidad,Posicion,Edad,Dia_partido,Goles,Tiros Totales,xG,npxG,xAG,xAG.1,Acciones_que_crean_tiros,Pases_intentados,Pases_intentados.1,Pases_intentados.2,Pases_progresivos,Pases_progresivos.1,Regates_exitosos,Regates_exitosos.1,Pases_medios_completados,Pases_largos_completados,xAG.2,xAG.3,xA,Pases_en_ultimo_tercio,Pases_balon_vivo,Pases_balon_muerto,Pases_al_hueco,Pases_centros,Pases_completados,Pases_completados.1,Pases_completados.2,Pases_fuera_de_juego,Valla_no_vencida,Errores_defnsivos_ocasion_tiro,Toques_en_zona_ofensiva,Toques_en_area_rival,%_de_regates_exitosos,Veces_que_fue_barrido_regate,Acarreos_ultimo_tercio,Malos_controles,Perdida_balon,Pases_recibidos,Pases_progresivos_recibidos,Faltas_cometidas,Centros,Duelos_aereos_ganados,%_de_duelos_aereos_ganados,market_value,contract_date
0,Bruno Fernandes,pt POR,"FW,AM",29-343,"Friday August 16, 2024",0,6,1.2,1.2,0.0,0.0,2,60,60,60,6,6,1,1,14,4,0.0,0.0,0.0,4,51,8,0,8,43,43,43,1,0,0,36,3,100.0,0,5,1,2,51,7,0,8,0,0.0,€50.00m,30.06.2027
1,Marcus Rashford,eng ENG,LW,26-290,"Friday August 16, 2024",0,0,0.0,0.0,0.7,0.7,1,30,30,30,2,2,0,0,2,1,0.7,0.7,0.1,2,30,0,0,1,22,22,22,0,1,0,26,4,0.0,5,1,2,1,37,9,1,1,1,100.0,€50.00m,30.06.2026
2,Amad Diallo,ci CIV,RW,22-036,"Friday August 16, 2024",0,0,0.0,0.0,0.1,0.1,1,33,33,33,1,1,1,1,6,1,0.1,0.1,0.1,1,28,4,0,2,28,28,28,1,0,0,22,3,100.0,0,4,2,2,26,7,0,2,0,0.0,-,30.06.2027
3,Amad Diallo,ci CIV,RW,22-036,"Friday August 16, 2024",-5,0,0.0,0.0,0.1,0.1,1,33,33,33,1,1,1,1,6,1,0.1,0.1,0.1,1,28,4,0,2,28,28,28,1,0,0,22,3,100.0,0,4,2,2,26,7,0,2,0,0.0,€1000.00m,30.06.2030
4,Alejandro Garnacho,ar ARG,RW,20-046,"Friday August 16, 2024",0,2,0.7,0.7,0.2,0.2,3,11,11,11,0,0,0,0,3,0,0.2,0.2,0.1,0,11,0,0,1,10,10,10,0,1,0,10,3,0.0,1,0,2,1,12,3,0,1,1,50.0,€45.00m,30.06.2028


# Paso 1: Entendimiento de Datos
## 1.1 Revisión del diccionario de datos
   - Nombre de cada columna
   - Definición según el diccionario
   - Tipo de dato esperado
   - Ambigüedades detectadas
## 1.2 Contextualización del dataset
   - Fuente de los datos (si aplica)
   - Alcance y limitaciones