# 📊 EDA Notebook
Exploratory Data Analysis & generación de métricas para **TFM Fútbol Femenino**.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pathlib import Path
from sklearn.preprocessing import MinMaxScaler

EXCEL_CLEAN = Path(r"C:\Users\roric\Desktop\Backup 24052025\Master Python\Modulo 11\data_clean.xlsx")
df = pd.read_excel(EXCEL_CLEAN)

# Muestra general
df.head()

## Limpieza de métricas numéricas

In [None]:
METRICAS = [
    "Pases/90", "Pases hacia adelante/90", "Precisión pases, %",
    "Precisión pases hacia adelante, %", "Pases largos/90",
    "Precisión pases largos, %", "Longitud media pases, m",
]

for col in METRICAS:
    df[col] = pd.to_numeric(df[col], errors='coerce')

## Distribución de Edad

In [None]:
sns.histplot(df['Edad'].dropna(), bins=15)
plt.title('Distribución de Edad')
plt.show()

## Correlación entre métricas

In [None]:
corr = df[METRICAS].corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title('Correlación métricas de pase')
plt.show()

## Cálculo `Puntuación global`

In [None]:
PESOS = {
    "Pases/90": 1.0,
    "Pases hacia adelante/90": 1.5,
    "Precisión pases, %": 2.0,
    "Precisión pases hacia adelante, %": 2.0,
    "Pases largos/90": 1.0,
    "Precisión pases largos, %": 1.5,
    "Longitud media pases, m": 1.0,
}

scaler = MinMaxScaler()
df_scaled = df.copy()
df_scaled[METRICAS] = scaler.fit_transform(df_scaled[METRICAS])
df_scaled['Puntuación global'] = 10 * sum(df_scaled[m] * PESOS[m] for m in METRICAS) /                                  sum(PESOS.values())
df_scaled[['Jugador','Puntuación global']].head()

### Guardar dataset con puntuación

In [None]:
output_path = EXCEL_CLEAN.parent / 'data_with_score.xlsx'
df_scaled.to_excel(output_path, index=False)
print(f'Dataset con Puntuación global guardado en {output_path}')