### fase 1

In [None]:
import pandas as pd
from google.colab import files

uploaded = files.upload()


df = pd.read_csv("male_players.csv")
df.head()

In [None]:
df = pd.read_csv("male_teams.csv",low_memory=False)
df.head()

Conclusión del análisis visual


“El dataset contiene información estructurada de equipos de fútbol masculino, incluyendo identificación, liga, nivel competitivo y variables de estilo de juego. Se observa la presencia de valores nulos en varias columnas, lo cual será abordado en la etapa de limpieza de datos.”

In [None]:
df.shape

In [None]:
df.info()

El dataset contiene 385.055 registros y 54 variables, combinando datos numéricos y categóricos relacionados con el rendimiento, prestigio y características tácticas de equipos de fútbol masculino. Se identificó la presencia de valores nulos en múltiples columnas, especialmente en variables económicas y tácticas, lo cual es esperado en datasets reales y será abordado en la etapa de limpieza de datos.

In [None]:
df.describe()

A través del análisis estadístico se observó que las variables de rendimiento presentan distribuciones coherentes y rangos realistas. Se identificaron variables con valores constantes y columnas con alta presencia de valores nulos, lo que permitirá tomar decisiones informadas en la etapa de limpieza y selección de variables.

### Fase 2

In [None]:
df_clean = df.copy()


In [None]:
columnas_relevantes = [
    "team_name",
    "league_name",
    "league_level",
    "nationality_name",
    "overall",
    "attack",
    "midfield",
    "defence",
    "international_prestige",
    "domestic_prestige",
    "transfer_budget_eur",
    "club_worth_eur",
    "starting_xi_average_age",
    "whole_team_average_age"
]

df_clean = df_clean[columnas_relevantes]


In [None]:
df_clean.head()
df_clean.info()


In [None]:
df_clean.isnull().sum()


In [None]:
df_clean = df_clean.dropna(subset=["overall", "league_name"])


In [None]:
df_clean["league_level"] = df_clean["league_level"].fillna(df_clean["league_level"].median())
df_clean["domestic_prestige"] = df_clean["domestic_prestige"].fillna(df_clean["domestic_prestige"].median())


In [None]:
df_clean.info()
df_clean.describe()


In [None]:
df_clean.shape


### Conclusión del Paso 2

En esta etapa se realizó la limpieza y preparación del dataset, seleccionando variables relevantes para el análisis y aplicando estrategias de tratamiento de valores nulos según el tipo de variable. Estas acciones permitieron obtener un conjunto de datos más consistente, interpretable y adecuado para el análisis exploratorio y visualización.

### fase 3

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure()
sns.histplot(df_clean["overall"], bins=20, kde=True)
plt.title("Distribución del rating general (Overall)")
plt.xlabel("Overall")
plt.ylabel("Frecuencia")
plt.show()


Conclusión

El nivel competitivo de los equipos se concentra en rangos medios, existiendo un grupo reducido de equipos élite con ratings significativamente superiores.

In [None]:
league_overall = (
    df_clean
    .groupby("league_name")["overall"]
    .mean()
    .sort_values(ascending=False)
    .head(10)
)

plt.figure()
league_overall.plot(kind="bar")
plt.title("Top 10 ligas por rating promedio")
plt.xlabel("Liga")
plt.ylabel("Overall promedio")
plt.xticks(rotation=45, ha="right")
plt.show()


Conclusión

Existen diferencias claras en el nivel competitivo entre ligas, destacando aquellas con mayor concentración de equipos de alto rendimiento.

In [None]:
stats_mean = df_clean[["attack", "midfield", "defence"]].mean()

plt.figure()
stats_mean.plot(kind="bar")
plt.title("Promedio de atributos por categoría")
plt.ylabel("Rating promedio")
plt.show()


Conclusión

Los equipos presentan un equilibrio general entre ataque, mediocampo y defensa, lo que sugiere una construcción balanceada del rendimiento en el juego.

In [None]:
budget_df = df_clean.dropna(subset=["transfer_budget_eur"])

plt.figure()
sns.scatterplot(
    data=budget_df,
    x="transfer_budget_eur",
    y="overall",
    alpha=0.5
)
plt.title("Relación entre presupuesto de fichajes y overall")
plt.xlabel("Presupuesto de fichajes (EUR)")
plt.ylabel("Overall")
plt.show()


Conclusión

Existe una relación positiva entre el presupuesto de fichajes y el rendimiento general, aunque se observan excepciones que evidencian diferencias en eficiencia deportiva.

In [None]:
plt.figure()
sns.scatterplot(
    data=df_clean,
    x="whole_team_average_age",
    y="overall",
    alpha=0.5
)
plt.title("Edad promedio del equipo vs Overall")
plt.xlabel("Edad promedio del equipo")
plt.ylabel("Overall")
plt.show()


Conclusión

El rendimiento de los equipos tiende a ser mayor cuando la edad promedio se encuentra en rangos intermedios, sugiriendo un equilibrio entre experiencia y condición física.

### Conclusiones del análisis exploratorio

El análisis exploratorio permitió identificar una distribución concentrada del rendimiento general de los equipos, diferencias claras entre ligas, una relación positiva entre presupuesto y rendimiento, y un rango óptimo de edad promedio asociado a mejores resultados. Asimismo, el ranking de equipos valida la coherencia y calidad del dataset FIFA 23.

## Resumen Ejecutivo

En este proyecto se realizó un análisis exploratorio de datos utilizando el dataset FIFA 23, enfocado en evaluar el rendimiento de equipos de fútbol masculino a partir de variables deportivas, económicas y demográficas.

El análisis evidenció que el nivel competitivo de los equipos se concentra mayoritariamente en rangos medios de rendimiento, con un grupo reducido de equipos élite. Asimismo, se identificaron diferencias consistentes entre ligas, destacando aquellas con mayor concentración de equipos de alto nivel.

Se observó una relación positiva entre el presupuesto de fichajes y el rendimiento general, aunque con excepciones que sugieren diferencias en eficiencia deportiva. Además, los resultados indican que los equipos con una edad promedio intermedia tienden a presentar un mejor desempeño.

En conjunto, los resultados permiten comprender patrones clave del rendimiento futbolístico y demuestran la utilidad del análisis de datos para la toma de decisiones y comparación de escenarios deportivos.