## Descripci√≥n de las variables del dataset de partidos del Futbol Argentino 2015-2022

Este dataset contiene la informaci√≥n de 2821 partidos de primera divisi√≥n del f√∫tbol argentino agrupando datos de promiedos.com.ar, transfermarkt.de y oddportal.com en el archivo afa_2015_2022_spa.csv:

* torneo: nombre del torneo en curso cuando se jug√≥ el partido. promiedos
* fecha: en qu√© fecha se jug√≥ el partido. promiedos.
* partido: n√∫mero de partido dentro de la fecha. promiedos.
* equipo_local(visitante): nombre del equipo local(visitante) promiedos.
* goles_local(visitante): n√∫mero de goles anotados por el equipo local(visitante). promiedos.
* goles_visitante(visitante): porcentaje de posesi√≥n del equipo local(visitante). promiedos.
* tiros_arco_local(visitante): tiros al arco del equipo local(visitante). promiedos.
* intentos_local(visitante): intentos totales del equipo local(visitante). promiedos.
* faltas_local(visitante): faltas cometidas por el equipo local(visitante). promiedos.
* tiros_esquina_local(visitante): tiros de esquina realizados por el equipo local(visitante). promiedos.
* amarillas_local(visitante): tarjetas amarillas del equipo local(visitante). promiedos.
* rojas_local(visitante): tarjetas rojas del equipo local(visitante). promiedos.
* valor_mercado_local(visitante): valor de mercado seg√∫n del equipo local(visitante). transfermarkt.
* altura_media_local(visitante): altura media del equipo local(visitante). transfermarkt.
* edad_media_local(visitante): edad media del equipo local(visitante). transfermarkt.
* proporcion_zurdos_local(visitante): proporcion de jugadores zurdos en el equipo local (visitante). transfermarkt.
* resultado: resultado del encuentro.
* fecha_encuentro: fecha del encuentro. oddsportal.
* apuesta_local(visitante): retorno de apuesta para una victoria del equipo local(visitante). oddsportal.
* apuesta_empate: retorno de apuesta para un empate. oddsportal.

Los nombres de los equipos y de los torneos son los que se encuentran en promiedos.com.ar

## Importaci√≥n de librer√≠as esenciales

In [None]:
#Importaci√≥n de librer√≠as esenciales para el an√°lisis exploratorio de datos (EDA)

# Pandas: Herramienta principal para la manipulaci√≥n y estructuraci√≥n de dataframes
import pandas as pd
# Numpy: Soporte para operaciones matem√°ticas avanzadas y manejo de estructuras vectoriales
import numpy as np
# Seaborn: Biblioteca de alto nivel para la creaci√≥n de gr√°ficos estad√≠sticos atractivos
import seaborn as sns
# Statsmodels: Implementaci√≥n de modelos estad√≠sticos y pruebas de hip√≥tesis mediante f√≥rmulas
import statsmodels.formula.api as smf
# Matplotlib: Motor base de visualizaci√≥n para personalizar detalles espec√≠ficos de los gr√°ficos
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
# Datetime: Gesti√≥n y manipulaci√≥n de variables temporales (fechas y horas)
from datetime import datetime, date
# Creaci√≥n de componentes de interfaz de usuario para an√°lisis interactivo
import ipywidgets as widgets
from IPython.display import display
# Scipy Stats: Funciones estad√≠sticas para validaci√≥n de correlaciones y distribuciones
import scipy.stats as stats

# Configuraciones para mayor legibilidad y est√©tica.
pd.set_option("display.max_columns", None)
pd.set_option("display.float_format", lambda x: "%.2f" % x)
plt.style.use("ggplot")

In [None]:
# Importamos el dataset desde kaggle
import kagglehub
from kagglehub import KaggleDatasetAdapter
df_arg = kagglehub.dataset_load(
  KaggleDatasetAdapter.PANDAS,
  "camussonif/argentinian-football-results-20152022",
  "afa_2015_2022_spa.csv")



---



### Verificaci√≥n Inicial de Integridad Estructural

In [None]:
# Validar que el dataset no est√© corrupto.
df_arg.info()

In [None]:
# Hay duplicados de partidos?
df_arg.duplicated().sum()

In [None]:
# Hay goles negativos?
df_arg[(df_arg["goles_local"] < 0) | (df_arg["goles_visitante"] < 0)]

In [None]:
# Hay posesi√≥n absurda?
df_arg[(df_arg["posesion_local"] < 0) |
 (df_arg["posesion_visitante"] < 0) |
  (df_arg["posesion_visitante"] > 100)]


In [None]:
# Hay fechas absurdas?
df_arg["fecha_encuentro"].sort_values(ascending = False)

In [None]:
# No se detectaron partidos duplicados.
# No se detectaron goles negativos.
# No se detectaron irregularidades en la posesi√≥n.
# No se detectaron irregularidades en la fecha, pero s√≠ que existen 3 registros vac√≠os.



---



## Limpieza de DATOS

In [None]:
# Transformaci√≥n de la variable objetivo "resultado" a formato num√©rico para facilitar el procesamiento estad√≠stico
# Mapeo de categor√≠as: Local gana (1), Visitante gana (2) y Empate (0)
df_arg["resultado"] = df_arg["resultado"].replace({"L": "1",
                                                   "V": "2",
                                                   "E": "0"})

# Conversi√≥n expl√≠cita de la columna a tipo entero (int) para habilitar c√°lculos y correlaciones
df_arg["resultado"] = df_arg["resultado"].astype(int)

### Valores faltantes

In [None]:
# Identificaci√≥n y tratamiento de registros con valores faltantes en la variable temporal

# De la columna 30 a la 33 tienen 2818 registros, faltar√≠an 3 (del max: 2821).
# df_arg["fecha_encuentro"].sort_values(ascending = False).tail(3)
# Localizaci√≥n de √≠ndices espec√≠ficos (104, 329, 1595) que carecen de marca de tiempo

# Imputaci√≥n manual de fechas mediante investigaci√≥n externa (fuente: ESPN) para asegurar la integridad del dataset
## 104: 25 de Abr., 2015, 17:57 -
## 329: 3:30 PM, 30 de Septiembre, 2015
## 1595 7:20 PM, 18 de Noviembre, 2018

# Estandarizaci√≥n de las nuevas entradas al formato ISO 8601 (AAAA-MM-DD HH:MM:SS)
df_arg["fecha_encuentro"].iloc[104] = "2015-04-25 15:00:00"
df_arg["fecha_encuentro"].iloc[329] = "2015-09-30 15:30:00"
df_arg["fecha_encuentro"].iloc[1595] = "2018-11-18 19:20:00"

# Verificaci√≥n final de la estructura y tipos de datos tras la correcci√≥n de nulos
df_arg.info()

###Formateo de Fechas

In [None]:
#Transformaci√≥n de la columna "fecha_encuentro" al tipo de dato datetime para habilitar funciones temporales
df_arg["fecha_encuentro"] = pd.to_datetime(df_arg["fecha_encuentro"])
# Descomposici√≥n de la fecha en componentes individuales: extracci√≥n del a√±o y mes. Estas nuevas columnas permiten realizar agrupaciones y observar tendencias estacionales o anuales
df_arg["anio"] = df_arg.fecha_encuentro.dt.year
df_arg["mes"] = df_arg.fecha_encuentro.dt.month

In [None]:
# Definici√≥n del patr√≥n estructural para la interpretaci√≥n de cadenas de texto como fechas
date_format = "%Y-%m-%d %H:%M:%S"

# Conversi√≥n masiva de la columna al tipo datetime64 para optimizar el almacenamiento y el acceso a m√©todos temporales
# Se aplica el formato predefinido para garantizar la coherencia en la lectura de horas y fechas
df_arg["fecha_encuentro"] = pd.to_datetime(df_arg["fecha_encuentro"], format=date_format)
df_arg["fecha_encuentro"].head()


### Columnas con baja densidad de datos

In [None]:
# Inspecci√≥n t√©cnica de las columnas con baja densidad de datos (√≠ndices 7 al 20)
# Existen columnas en el df que tienen significativamente menos registros que las dem√°s (7 a 20)
## 7 a 16: 1496 registros (53% del total)
## 17 y 18: 1508 registros (53% del total)
## 19 y 20: 1681 registros(60% del total)
df_arg.iloc[:, 7:21].info()

In [None]:
# Generaci√≥n de una lista automatizada de las columnas identificadas con valores nulos significativos
df_arg.iloc[:, 7:21].columns
columnasfaltantes = []

for a in df_arg.iloc[:, 7:21].columns:
  columnasfaltantes.append(a)

# Faltan muchos datos desde la columna 7 hasta la 20. Verifico si es por fecha (hip√≥tesis: antes no se recopilaban estos datos)
# An√°lisis de agrupaci√≥n por torneo para validar la hip√≥tesis de falta de registros hist√≥rica
df_arg.groupby("torneo")[columnasfaltantes].count().sort_values(by = "torneo", ascending = False)
# Se aprecia que se empezaron a tomar datos desde 2018. Sin embargo, a√∫n hay que comprobar el campeonato 2017/2018,
# ya que las columnas de Rojas difieren en gran medida de las otras (son casi el doble)

In [None]:
# An√°lisis detallado (drill down) por mes y a√±o para identificar el comportamiento de la carga de datos en el torneo 2017/18
df_arg[df_arg["torneo"] == "Campeonato 2017/18"].groupby(["mes", "anio"])[columnasfaltantes].count().sort_values(by = "anio", ascending = True)

# Identificaci√≥n del punto de inflexi√≥n: las tarjetas rojas se registran desde agosto 2017, pero el resto de m√©tricas inician en enero 2018
# Decisi√≥n de segmentaci√≥n: se opta por filtrar un dataset a partir del a√±o 2018 para garantizar la consistencia multivariable
# Esta limpieza previene sesgos en el an√°lisis comparativo al evitar periodos con registros parciales o incompletos
# De esta manera, el estudio puede redefinir el periodo (a 2018-2022) en algunas secciones.

In [None]:
# Segmentaci√≥n del dataset para crear un subconjunto "moderno" con alta densidad de datos
# Exclusi√≥n de los a√±os 2015, 2016 y 2017 para eliminar sesgos por registros incompletos
df_moderno = df_arg[~df_arg["anio"].isin([2015, 2016, 2017])]
df_moderno.info()

# Validaci√≥n de la consistencia: el nuevo dataframe presenta una variabilidad de registros menor al 1%
# Estrategia de an√°lisis dual: se conserva "df_moderno" para estudios multivariables profundos (2018-2022)

# Reestructuraci√≥n de "df_arg" para an√°lisis longitudinales (2015-2022) eliminando dimensiones con nulos excesivos
# Eliminaci√≥n de las columnas del √≠ndice 7 al 20 en el dataframe original para normalizar la estructura
df_arg = df_arg.drop(df_arg.columns[7:21], axis=1)
df_arg.info()

In [None]:
# Generaci√≥n de un dataset auxiliar para normalizar el an√°lisis de equipos independientemente de su condici√≥n (Local/Visitante)

# Estandarizaci√≥n de nombres de columnas y mapeo de m√©tricas de rendimiento
# Puntos del local
local = df_arg[["torneo", "equipo_local", "goles_local", "goles_visitante", "anio", "valor_mercado_local", "edad_media_local"]].copy()
local["equipo"] = local["equipo_local"]
local["valor_mercado"] = local["valor_mercado_local"]
local["edad_media"] = local["edad_media_local"]
local["goles_marcados"] = local["goles_local"]
local["goles_recibidos"] = local["goles_visitante"]
local["puntos"] = np.where(local["goles_local"] > local["goles_visitante"], 3,
    np.where(local["goles_local"] == local["goles_visitante"], 1, 0)
)
local = local[["torneo", "equipo", "puntos", "anio","goles_marcados", "goles_recibidos", "valor_mercado", "edad_media"]]

# Procesamiento sim√©trico para el equipo visitante ajustando la l√≥gica de goles y puntos
# Puntos del Visitante
visitante = df_arg[["torneo", "equipo_visitante", "goles_local", "goles_visitante", "anio", "valor_mercado_visitante", "edad_media_visitante"]].copy()
visitante["equipo"] = visitante["equipo_visitante"]
visitante["valor_mercado"] = visitante["valor_mercado_visitante"]
visitante["edad_media"] = visitante["edad_media_visitante"]
visitante["goles_marcados"] = visitante["goles_visitante"]
visitante["goles_recibidos"] = visitante["goles_local"]
visitante["puntos"] = np.where(
    visitante["goles_local"] < visitante["goles_visitante"], 3,
    np.where(visitante["goles_local"] == visitante["goles_visitante"], 1, 0)
)
visitante =  visitante[["torneo", "equipo", "puntos", "anio", "goles_marcados", "goles_recibidos", "valor_mercado", "edad_media"]]

# Integraci√≥n de ambos conjuntos (Local y Visitante) en un √∫nico dataframe consolidado (Long Format)
df_puntos = pd.concat([local, visitante])
# C√°lculo de la diferencia de gol, variable clave para desempates y an√°lisis de solvencia defensiva/ofensiva
df_puntos["difgoles"] = df_puntos["goles_marcados"] - df_puntos["goles_recibidos"]
df_puntos

In [None]:
# Verificaci√≥n de Consistencia Matem√°tica

# cada registro de df_puntos entrega 0, 1 o 3 pts.
# La suma m√≠nima de puntos debe ser que se repartan los m√≠nimos puntos posibles, es decir, que todos sean empates (len(df_puntos))
# La suma m√°xima de puntos debe ser que se repartan los m√°ximos puntos posibles, es decir, que no hayan empates (len(df)*3/2): la mitad gana, la otra mitad pierde

print(len(df_puntos), len(df_puntos)*3/2)


In [None]:
df_puntos["puntos"].sum()

# la construcci√≥n de puntos est√° acorde a los l√≠mites l√≥gicos.



---



##EDA


###Preguntas de investigaci√≥n para guiar el EDA:

1Ô∏è‚É£ ¬øEl equipo con mayor valor de mercado gana m√°s partidos?

2Ô∏è‚É£ ¬øSer local sigue siendo una ventaja real entre 2015 y 2022?

3Ô∏è‚É£ ¬øLos equipos con planteles m√°s j√≥venes rinden mejor o peor?

4Ô∏è‚É£ ¬øLas casas de apuestas predicen bien los resultados?

5Ô∏è‚É£ ¬øLos partidos de Boca y River presentan estad√≠sticas diferentes al promedio de la liga?

6Ô∏è‚É£ ¬øLa posesi√≥n del bal√≥n define al ganador en el f√∫tbol argentino?

7Ô∏è‚É£ ¬øM√°s tiros al arco garantizan ganar un partido?

8Ô∏è‚É£ ¬øQu√© variable explica mejor el resultado de un partido?

Otros an√°lisis:

* üö© Mejores campa√±as

* üèÜ Podio de cada Torneo

* ‚öΩ Top 10 mayores goleadas



---



###1Ô∏è‚É£ ¬øEl equipo con mayor valor de mercado gana m√°s partidos?

In [None]:
# Validaci√≥n de variable principal
df_puntos[df_puntos["valor_mercado"] <0]

# No hay valores irregulares

In [None]:
# Identificaci√≥n de clubes con valor de mercado superior a 150M de euros para an√°lisis de outliers:
equipos_valiosos = df_puntos[df_puntos["valor_mercado"] >= 150]
equipos_valiosos[["torneo", "equipo"]]

#Segmentaci√≥n de partidos ganados para evaluar la relaci√≥n entre inversi√≥n y victorias
df_valor_vic = df_puntos[df_puntos["goles_marcados"] > df_puntos["goles_recibidos"]]

# Consolidaci√≥n de datos: Valor m√°ximo de plantilla por torneo y rendimiento promedio (goles):
df_equipos_valiososs = df_puntos.groupby(["torneo", "equipo"])["valor_mercado"].max()
df_cantidad_victorias = df_puntos.groupby(["torneo", "equipo"]).mean()

In [None]:
# Integraci√≥n (Join) en un √∫nico dataframe
joinvalor = df_equipos_valiososs.reset_index().sort_values(by= ["torneo", "equipo"],ascending=[True, True]).join(
        df_cantidad_victorias.reset_index().sort_values(by= ["torneo", "equipo"], ascending=[True, True])["difgoles"],
        how="inner")

In [None]:
# Visualizaci√≥n mediante gr√°fico de dispersi√≥n con l√≠nea de tendencia (Regplot)
sns.regplot(data= joinvalor, x="difgoles", y="valor_mercado");
plt.title("Relaci√≥n entre la diferencia de goles y el valor de mercado m√°ximo de los equipos")
plt.xlabel("Diferencia de Goles (en promedio)")
plt.ylabel("Valor de Mercado Plantilla (Millones de Euros)")
plt.ylim(bottom = 0)
plt.grid(True)
plt.show()

In [None]:
# El coeficiente R^2 indicar√° qu√© porcentaje de la variabilidad del √©xito se explica por el valor de mercado
df_reg_valor = joinvalor.dropna(subset=["valor_mercado", "difgoles"])

# Realizar la regresi√≥n lineal
slope, intercept, r_value, p_value, std_err = stats.linregress(df_reg_valor["valor_mercado"], df_reg_valor["difgoles"])
print(f"El coeficiente de correlaci√≥n (R-cuadrado) es: {r_value**2:.2f}")

**¬øExiste una relaci√≥n consistente entre el valor de mercado del equipo y el resultado del partido?**

A trav√©s del gr√°fico de dispersi√≥n, observamos una tendencia positiva: en l√≠neas generales, los equipos con plantillas m√°s costosas tienden a lograr mejores diferencias de gol. Sin embargo, con un coeficiente de correlaci√≥n del 32%, podemos concluir que, si bien el dinero es un factor influyente, no es determinante por s√≠ solo. Esto significa que casi el 70% del √©xito en la cancha depende de otros factores ajenos al presupuesto (como la t√°ctica, el estado f√≠sico o la qu√≠mica del equipo), por lo que un plantel valioso aumenta las probabilidades de ganar, pero no garantiza resultados consistentes de forma autom√°tica.

###2Ô∏è‚É£ ¬øSer local sigue siendo una ventaja real entre 2015 y 2022?

In [None]:
# Agrupaci√≥n y conteo de resultados por a√±o para identificar tendencias en volumen de victorias y empates
result_counts = df_arg.groupby(["anio", "resultado"]).size().reset_index(name="count")
result_counts = result_counts.replace({0: "Empate", 1: "Victoria Local", 2: "Victoria Visitante"})

# Visualizaci√≥n comparativa de frecuencias anuales mediante gr√°ficos de barras con etiquetas de datos
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(7, 8))

aq= sns.barplot(
    data=result_counts,
    x="anio",
    y="count",
    hue="resultado",
    palette= "bright",
    ax= axes[0]
)
for container in aq.containers:
      aq.bar_label(container)
axes[0].grid(axis="y", linestyle="--", alpha=0.4)
axes[0].set_title("Cantidad de resultados por a√±o", fontsize=11)
axes[0].set_xlabel(None)
axes[0].set_ylabel("Cantidad de Resultados", fontsize= 12)
axes[0].legend(title= "Resultado", bbox_to_anchor=(1, 1), fancybox=True, shadow=True, ncol=1)

# An√°lisis de composici√≥n proporcional mediante un histograma apilado al 100%
df_localia = df_arg.copy()
df_localia["resultado"] = df_arg["resultado"].replace({0: "Empate", 1: "Victoria Local", 2: "Victoria Visitante"})

al = sns.histplot(
    data = df_localia.sort_values(by= "resultado", ascending= True),
    x = "anio",
    hue = "resultado",
    multiple = "fill",
    stat = "proportion",
    palette= "bright",
    discrete = True,
    shrink = 0.8,
    ax= axes[1]
)
axes[1].set_title("Porcentaje de resultados por a√±o", fontsize=11)
axes[1].set_xlabel("A√±o", fontsize= 12)
axes[1].set_ylabel("Porcentaje de Resultados", fontsize= 12)
axes[1].legend(title= "Resultado", labels=["Victoria Visitante", "Victoria Local", "Empate"], loc="upper center", bbox_to_anchor=(1.171, 1),
          fancybox=True, shadow=True, ncol=1)

# Agregar porcentajes
for patch in al.patches:
    height = patch.get_height()
    if height > 0.04:
        x = patch.get_x() + patch.get_width() / 2
        y = patch.get_y() + height / 2
        al.text(x, y, f"{height:.0%}", ha="center", va="center", color="black", fontsize=7)

plt.show()

In [None]:
# Resumen hist√≥rico general (2015-2022) mediante un gr√°fico de torta para determinar el promedio de local√≠a
rc2 = (result_counts.groupby("resultado")["count"].sum())
rc2["resultado"] = rc2.index
rc2 = rc2.reset_index(drop=True)
rc2 = rc2.iloc[:-1]

rc2list = []

for a in rc2:
  rc2list.append(a)

lb = result_counts.iloc[:3]
lb = lb.drop(columns=["count", "anio"])

lb2 = ["Empate", "Victoria Local", "Victoria Visitante"]

plt.pie(x = rc2list, labels = lb2, colors = sns.color_palette("deep")[0:3], autopct="%.0f%%")
plt.title("Promedio de Resultados 2015-2022")
plt.show()

In [None]:
# Contraste con el mercado de apuestas: C√°lculo de probabilidades impl√≠citas a partir de las cuotas (Odds)
# La f√≥rmula (100 / cuota) permite transformar el precio de la apuesta en una probabilidad estimada por el mercado

# estimaci√≥n de probabilidades de resultados
df_arg["prob_v_local"] = df_arg.apuesta_local.apply(lambda x: 100/x)
df_arg["prob_v_visitante"] = df_arg.apuesta_visitante.apply(lambda x: 100/x)
df_arg["prob_empate"] = df_arg.apuesta_empate.apply(lambda x: 100/x)

# Visualizaci√≥n de series temporales de probabilidades de las casas de apuestas (Oddsportal)
plt.figure(figsize=(8, 4))
sns.lineplot(data= df_arg, x= "anio", y="prob_v_local", ci=None)
sns.lineplot(data= df_arg, x= "anio", y="prob_v_visitante", ci=None)
sns.lineplot(data= df_arg, x= "anio", y="prob_empate", ci=None)
plt.title("Probabilidad de victoria seg√∫n local√≠a (Oddsportal)")
plt.xlabel("A√±o")
plt.ylabel("Probabilidad de victoria")
plt.ylim(bottom=0, top= 50)
plt.grid(True)
plt.ylim(bottom=0)
plt.legend(title= "Probabilidad de resultado (Oddsportal)", labels=["P. de victoria local", "P. de victoria visitante", "P. de empate"])
plt.show()
print("Este gr√°fico se trata de una aproximaci√≥n estimada de la probabilidad impl√≠cita en las cuotas.")

**¬øLos equipos locales ganan significativamente m√°s que los visitantes?**

A trav√©s del an√°lisis de los resultados hist√≥ricos, se confirma que la local√≠a otorga una ventaja competitiva clara: el equipo local gana con mayor frecuencia que el visitante en todos los a√±os analizados. Esta tendencia alcanza su punto m√°ximo en 2016, a√±o en el que las victorias locales duplicaron casi por completo a las visitantes (206 frente a 110).

En t√©rminos generales, entre 2015 y 2022, el 44% de los encuentros terminaron en victoria local, superando ampliamente el 27% de victorias visitantes y el 29% de empates. De hecho, en 6 de los 8 a√±os observados, para un equipo visitante fue m√°s probable empatar que ganar el partido. Esta realidad estad√≠stica es validada por el mercado, ya que las casas de apuesta asignan consistentemente una mayor probabilidad de victoria (y por ende, menor cuota) a los equipos que juegan en su propio estadio.

### 3Ô∏è‚É£ ¬øLos equipos con planteles m√°s j√≥venes rinden mejor o peor?

In [None]:
# Validaci√≥n de variable principal
df_arg[(df_arg["edad_media_local"] < df_arg["edad_media_local"].min()) | (df_arg["edad_media_local"] > df_arg["edad_media_local"].max())]
# Observo edad m√≠nima y m√°xima
# print(df_arg["edad_media_local"].min()) # = 22.69811320754717
# print(df_arg["edad_media_local"].max()) # = 28.52380952380953

# No hay valores irregulares

In [None]:
# Agrupaci√≥n por torneo y equipo para capturar la edad media m√°xima registrada en cada ciclo de fichajes
df_edades = df_arg.groupby(["torneo", "equipo_local"])["edad_media_local"].max()

# Consolidaci√≥n de m√©tricas de desempe√±o: total de goles marcados y recibidos por equipo en cada torneo
df_goles_favor = df_arg.groupby(["torneo", "equipo_local"])["goles_local"].sum()
df_goles_contra = df_arg.groupby(["torneo", "equipo_local"])["goles_visitante"].sum()

In [None]:
# Integraci√≥n de datos de edad y rendimiento en un dataframe √∫nico para el an√°lisis de correlaci√≥n
df_edades = df_puntos.groupby(["torneo", "equipo"])["edad_media"].max()
df_goles_favor = df_puntos.groupby(["torneo", "equipo"])["goles_marcados"].sum()
df_goles_contra = df_puntos.groupby(["torneo", "equipo"])["goles_recibidos"].sum()

joinedades = df_edades.reset_index().join(
    [(df_goles_favor.reset_index()["goles_marcados"]), df_goles_contra.reset_index()["goles_recibidos"]],
    how="inner")
joinedades

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(11, 4))
# Evaluaci√≥n de la capacidad defensiva: Relaci√≥n entre la edad promedio y los goles recibidos
sns.regplot(data= joinedades, x="edad_media", y="goles_recibidos", ax= axes[0]);
axes[0].set_title("Goles recibidos seg√∫n promedio de edad del equipo", fontsize=12)
axes[0].set_xlabel("Edad promedio")
axes[0].set_ylabel("Cantidad de goles recibidos")
axes[0].set_ylim(bottom= 0, top = 60)

# Evaluaci√≥n del poder ofensivo: Relaci√≥n entre la edad promedio y los goles marcados
sns.regplot(data= joinedades, x="edad_media", y="goles_marcados", ax=axes[1]);
axes[1].set_title("Goles marcados seg√∫n promedio de edad del equipo", fontsize=12)
axes[1].set_ylim(bottom= 0, top = 60)
axes[1].set_xlabel("Edad promedio")
axes[1].set_ylabel("Cantidad de goles marcados")

In [None]:
# C√°lculo del coeficiente R-cuadrado para cuantificar la influencia de la edad en los goles recibidos
df_reg_edad = joinedades.dropna(subset=["edad_media", "goles_recibidos"])

# Realizar la regresi√≥n lineal
slope, intercept, r_value, p_value, std_err = stats.linregress(df_reg_edad["edad_media"], df_reg_edad["goles_recibidos"])
print(f"El coeficiente de correlaci√≥n (R-cuadrado) es: {r_value**2:}")


In [None]:
# Validaci√≥n estad√≠stica de la relaci√≥n entre veteran√≠a/juventud y capacidad anotadora
df_reg_edad2 = joinedades.dropna(subset=["edad_media", "goles_marcados"])

# Realizar la regresi√≥n lineal
slope, intercept, r_value, p_value, std_err = stats.linregress(df_reg_edad2["edad_media"], df_reg_edad2["goles_marcados"])
print(f"El coeficiente de correlaci√≥n (R-cuadrado) es: {r_value**2:}")

**¬øLa edad promedio del equipo influye en los resultados?**

Seg√∫n los gr√°ficos de dispersi√≥n, la influencia de la edad promedio de los planteles en el desempe√±o deportivo es pr√°cticamente inexistente. El an√°lisis estad√≠stico revela que la edad no explica de manera significativa ni los goles recibidos ni los goles marcados, con un impacto casi nulo en ambos indicadores.

La edad del jugador no parece ser un factor determinante de su rendimiento actual en el campo. Por lo tanto, no deber√≠a ser considerada una m√©trica cr√≠tica para la toma de decisiones administrativas (como contrataciones o renovaciones).

### 4Ô∏è‚É£ ¬øLas casas de apuestas predicen bien los resultados?

In [None]:
# Validaci√≥n de variable principal
df_arg[(df_arg["apuesta_local"] <= 0) | (df_arg["apuesta_visitante"] <= 0) | (df_arg["apuesta_empate"] <= 0)]

# No hay valores irregulares

In [None]:
# Aclaraci√≥n: Las cuotas de apuestas de este dataset son brindadas por Oddsportal

# L√≥gica implicita tras la cuota: cuanto m√°s baja la cuota, m√°s probable que se d√©
# tal resultado. Cuanto m√°s alta la cuota, m√°s improbable que se d√© tal resultado
# Probabilidad impl√≠cita: Se puede aproximar qu√© probabilidad estima la casa
# dividiendo 100 entre la cuota decimal (ej. cuota 2.00 = 50% de probabilidad)

# df_arg["apuesta_local"].describe()
# min: 1,14. Max: 11,25
#df_arg["apuesta_visitante"].describe()
# min: 1,26. Max: 17,97
# df_arg["apuesta_empate"].describe()
# min: 2,06. Max: 7,67

# C√°lculo de la probabilidad impl√≠cita: Transformaci√≥n de cuotas decimales a porcentajes de probabilidad
df_arg["prob_v_local"] = df_arg.apuesta_local.apply(lambda x: 100/x)
df_arg["prob_v_visitante"] = df_arg.apuesta_visitante.apply(lambda x: 100/x)
df_arg["prob_empate"] = df_arg.apuesta_empate.apply(lambda x: 100/x)

In [None]:
# Construcci√≥n de un modelo de predicci√≥n simplificado basado en la probabilidad m√°xima:

# Se asume como "predicci√≥n oficial" aquel resultado que posea el mayor porcentaje de probabilidad impl√≠cita
df_prediccion = df_arg[["prob_v_local", "prob_v_visitante", "prob_empate", "resultado"]].copy()

# Extracci√≥n del valor m√°ximo de probabilidad por cada fila para identificar el pron√≥stico principal
prediccionlist = []
for a in df_prediccion.values:
  prediccionlist.append(str(max(a).round(2)))

df_prediccion["prob.prediccion"] = prediccionlist
df_prediccion["prob.prediccion"] = df_prediccion["prob.prediccion"].astype(float)

In [None]:
# Asignaci√≥n de etiquetas de predicci√≥n (Victoria Local, Visitante o Empate) mediante l√≥gica condicional
condiciones = [
    df_prediccion["prob.prediccion"].round(2) == df_prediccion["prob_v_local"].round(2),
    df_prediccion["prob.prediccion"].round(2) == df_prediccion["prob_v_visitante"].round(2)
]

elegir = [
    "victoria local",
    "victoria visitante"
]

df_prediccion["prediccion"] = np.select(condiciones, elegir, default="empate")

display(df_prediccion.head())

In [None]:
# Evaluaci√≥n de precisi√≥n: Contraste directo entre la predicci√≥n de la casa y el resultado real del partido:
# Se categoriza como "Acierto" si el pron√≥stico coincide con el evento ocurrido, de lo contrario se marca como "Error"
df_prediccion["certeza"] = np.where(
    (df_prediccion["prediccion"]  == "victoria local") & (df_prediccion["resultado"] == 1) |
    (df_prediccion["prediccion"]  == "victoria visitante") & (df_prediccion["resultado"] ==2) |
    (df_prediccion["prediccion"]  == "empate") & (df_prediccion["resultado"] ==0), "Acierto", "Error")

df_prediccion["certeza"].value_counts() / len(df_prediccion)

In [None]:
# Transformar la columna "resultado" a strings para que coincida con "prediccion"
df_prediccion_plot = df_prediccion.copy()
df_prediccion_plot["resultado_str"] = df_prediccion_plot["resultado"].map({0: "empate", 1: "victoria local", 2: "victoria visitante"})

# Consolidaci√≥n de conteos para representaci√≥n gr√°fica multivariable
pred_cont = df_prediccion_plot["prediccion"].value_counts().reset_index()
pred_cont.columns = ["resultado", "count"]
pred_cont["tipo"] = "Predicci√≥n"

real_cont = df_prediccion_plot["resultado_str"].value_counts().reset_index()
real_cont.columns = ["resultado", "count"]
real_cont["tipo"] = "Resultado Real"

# Unir los DataFrames de conteo
cont_total = pd.concat([pred_cont, real_cont])

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(11, 4))
# Visualizaci√≥n comparativa de frecuencias: Distribuci√≥n de lo predicho vs. lo ocurrido en la realidad
sns.barplot(data=cont_total, x="resultado", y="count", hue="tipo", palette="viridis", ax=axes[0])
axes[0].set_title("Comparaci√≥n de Frecuencias: Predicciones vs. Resultados Reales", fontsize=11)
axes[0].set_xlabel("Resultado")
axes[0].set_ylabel("Cantidad de Partidos (2015-2022)")
#axes[0].set_legend(title="Tipo")
axes[0].grid(axis="y", linestyle="--", alpha=0.7)

axes[1].pie(df_prediccion["certeza"].value_counts(), labels=df_prediccion["certeza"].value_counts().index, autopct="%.0f%%", colors=["brown", "seagreen"])
# cambiar palette a dark
axes[1].set_title("Porcentaje de Acierto de las Casas de Apuestas", fontsize=11)
plt.show()
print("*Se asume como 'predicci√≥n oficial' aquel resultado que posea el mayor porcentaje de probabilidad impl√≠cita.")

In [None]:
# El equilibrio en victoria visitante podr√≠a indicar que la predicci√≥n suele ser muy acertada cuando sugiere que pierden los locales.
# De esto se infiere un supuesto: Cuando las casas de apuestas predicen que el partido es victoria del visitante, casi siempre aciertan.
# Verificaci√≥n de este supuesto:
(df_prediccion[df_prediccion["prediccion"]== "victoria visitante"]["certeza"].value_counts()) / (len(df_prediccion[df_prediccion["prediccion"]== "victoria visitante"]))

**¬øLas casas de apuestas predicen bien los resultados?**

Seg√∫n el gr√°fico de barras, las casas de apuestas tienden a sobreestimar la capacidad de los equipos locales para ganar partidos y muestran una marcada reticencia a sugerir que un encuentro terminar√° en empate. Esta brecha se hace evidente al comparar el volumen de predicciones de victoria local frente a la cantidad de veces que este resultado ocurre realmente en la cancha.

En t√©rminos globales, el nivel de precisi√≥n de las casas de apuestas es del 48%, lo que significa que fallan en m√°s de la mitad de sus pron√≥sticos (52%). Aunque a simple vista la predicci√≥n de victorias visitantes parece alinearse con la realidad, el an√°lisis detallado indica que su efectividad es limitada, situ√°ndose incluso por debajo del promedio general de aciertos.

###5Ô∏è‚É£ ¬øBoca y River juegan ‚Äúdistinto‚Äù al resto?

In [None]:
# ¬øBoca y River juegan ‚Äúdistinto‚Äù al resto?
# ¬øDistinto en qu√© m√©trica?, Esto se analizar√° mediante:
    # goles marcados/recibidos
    # valor de mercado
    # resultados
    # posesion
    # puntos totales

In [None]:
# Extracci√≥n y c√°lculo de goles marcados y recibidos por River Plate en condici√≥n de local y visitante

# Local River
chequeo_river= df_arg[["torneo", "anio", "equipo_local", "equipo_visitante", "goles_local", "goles_visitante"]].copy()
chequeo_river["goles_marcados"]= np.where(
    df_arg["equipo_local"] == "River Plate", df_arg["goles_local"],
    np.where(df_arg["equipo_visitante"]== "River Plate", df_arg["goles_visitante"], 0)
)

# Visitante River
chequeo_river["goles_en_contra"]= np.where(
    df_arg["equipo_local"] == "River Plate", df_arg["goles_visitante"],
    np.where(df_arg["equipo_visitante"]== "River Plate", df_arg["goles_local"], 0)
)

chequeo_river["difgoles"] = chequeo_river["goles_marcados"] - chequeo_river["goles_en_contra"]

# Procesamiento sim√©trico de datos para Boca Juniors para asegurar la comparabilidad de las m√©tricas
# Local Boca
chequeo_boca= df_arg[["torneo", "anio", "equipo_local", "equipo_visitante", "goles_local", "goles_visitante"]].copy()
chequeo_boca["goles_marcados"]= np.where(
    df_arg["equipo_local"] == "Boca Juniors", df_arg["goles_local"],
    np.where(df_arg["equipo_visitante"]== "Boca Juniors", df_arg["goles_visitante"], 0)
)

# Visitante Boca
chequeo_boca["goles_en_contra"]= np.where(
    df_arg["equipo_local"] == "Boca Juniors", df_arg["goles_visitante"],
    np.where(df_arg["equipo_visitante"]== "Boca Juniors", df_arg["goles_local"], 0)
)

chequeo_boca["difgoles"] = chequeo_boca["goles_marcados"] - chequeo_boca["goles_en_contra"]

chequeo_boca.groupby(["anio"])[["goles_marcados", "goles_en_contra", "difgoles"]].sum().sort_values(["anio"], ascending=False)

# C√°lculo del rendimiento base de la liga excluyendo a Boca y River
sinbocariver = df_arg[["torneo", "anio", "equipo_local", "equipo_visitante", "goles_local", "goles_visitante"]].copy()
sinbocariver["goles_marcados"]= sinbocariver["goles_local"] + sinbocariver["goles_visitante"]
sinbocariver["goles_en_contra"]= sinbocariver["goles_local"] + sinbocariver["goles_visitante"]


In [None]:
# Se determina la cantidad de equipos participantes por a√±o para calcular promedios representativos
qequipos = df_arg.groupby(["anio"])["equipo_local"].nunique()
qequipossinbocariver = qequipos - 2

In [None]:
sinbocariver.groupby(["anio"])[["goles_marcados", "goles_en_contra"]].sum().sort_values(["anio"], ascending=False)
# Agregaci√≥n anual de goles y deducci√≥n de los registros de Boca y River del total general
sinbocariver2 = sinbocariver.groupby(["anio"])[["goles_marcados", "goles_en_contra"]].sum()
chequeo_boca2 = chequeo_boca.groupby(["anio"])[["goles_marcados", "goles_en_contra"]].sum()
chequeo_river2 = chequeo_river.groupby(["anio"])[["goles_marcados", "goles_en_contra"]].sum()

# Normalizaci√≥n de los datos: C√°lculo de goles promedio por equipo para una comparaci√≥n justa frente a los grandes
sinbocariver3 = sinbocariver2 - chequeo_boca2 - chequeo_river2
sinbocariver3.sort_values(["anio"], ascending=False)

sinbocariver3["difgoles"] = sinbocariver3["goles_marcados"] - sinbocariver3["goles_en_contra"]
sinbocariver3["goles_marcados.mean"] = sinbocariver3["goles_marcados"] /qequipossinbocariver
sinbocariver3["goles_en_contra.mean"] = sinbocariver3["goles_en_contra"] /qequipossinbocariver

chequeo_river2 = chequeo_river.groupby(["anio"])[["goles_marcados", "goles_en_contra", "difgoles"]].sum().sort_values(["anio"], ascending=False)
chequeo_boca2 = chequeo_boca.groupby(["anio"])[["goles_marcados", "goles_en_contra", "difgoles"]].sum().sort_values(["anio"], ascending=False)


In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(11, 4))
# Visualizaci√≥n de series temporales: Comparaci√≥n de la efectividad ofensiva de Boca y River vs. el promedio del resto
sns.lineplot(data= sinbocariver3, x= "anio", y= "goles_marcados.mean", palette = "pastel", color="green", ci=None, ax= axes[0])
sns.lineplot(data= chequeo_boca2, x= "anio", y= "goles_marcados", palette = "pastel", color="blue", ci= None, ax = axes[0])
sns.lineplot(data= chequeo_river2, x= "anio", y= "goles_marcados", palette = "pastel", color="red", ci= None, ax = axes[0])
axes[0].set_title("Comparaci√≥n goles marcados, River, Boca y otros", fontsize=11)
axes[0].set_xlabel("A√±o")
axes[0].set_ylabel("Cantidad de goles marcados")
axes[0].grid(True)
axes[0].set_ylim(bottom=0, top=60)
axes[0].legend(title= "Comparaci√≥n de goles marcados, River, Boca y otros", labels=["Goles marcados (otros)", "Goles marcados (Boca)", "Goles marcados (River)", "Goles recibidos (River)"], loc="upper center", bbox_to_anchor=(0.5, -0.15),
          fancybox=True, shadow=True, ncol=1)

# Visualizaci√≥n de series temporales: Comparaci√≥n de la efectividad de la √∫ltima l√≠nea y el arco frente al promedio de los dem√°s competidores
sns.lineplot(data= sinbocariver3, x= "anio", y= "goles_en_contra.mean", color ="green", ci=None, ax= axes[1])
sns.lineplot(data= chequeo_boca2, x= "anio", y= "goles_en_contra", color= "blue", ci= None, ax= axes[1])
sns.lineplot(data= chequeo_river2, x= "anio", y= "goles_en_contra", color="r", ci= None, ax= axes[1])
axes[1].set_title("Comparaci√≥n goles recibidos, River, Boca y otros", fontsize=11)
axes[1].set_xlabel("A√±o")
axes[1].set_ylabel("cantidad de goles recibidos")
axes[1].grid(True)
axes[1].set_ylim(bottom=0, top=60)
axes[1].legend(title= "Comparaci√≥n de goles recibidos, River, Boca y otros", labels=["Goles recibidos (otros)", "Goles recibidos (Boca)", "Goles recibidos (River)"], loc="upper center", bbox_to_anchor=(0.5, -0.15),
          fancybox=True, shadow=True, ncol=1)


In [None]:
# Estudio del poder√≠o econ√≥mico: Comparaci√≥n del valor m√°ximo de mercado por plantilla
valorriver= df_arg[df_arg["equipo_local"] == "River Plate"]
valorriver.groupby(["anio"])["valor_mercado_local"].max().sort_index(ascending=False)

valorboca= df_arg[df_arg["equipo_local"] == "Boca Juniors"]
valorboca.groupby(["anio"])["valor_mercado_local"].max().sort_index(ascending=False)

df_valorsinbocariver= df_arg[df_arg["equipo_local"] != "Boca Juniors"]
df_valorsinbocariver= df_valorsinbocariver[df_valorsinbocariver["equipo_local"] != "River Plate"]
df_valorsinbocariver.groupby(["anio"])["valor_mercado_local"].mean().sort_values(ascending=False)

In [None]:
# Visualizaci√≥n de la brecha financiera: Tendencias del valor de mercado en millones de euros (2015-2022)
sns.lineplot(data= df_valorsinbocariver, x= "anio", y= "valor_mercado_local", ci= None, color ="green")
sns.lineplot(data= valorboca, x= "anio", y= "valor_mercado_local", color= "blue", ci= None, estimator=max)
sns.lineplot(data= valorriver, x= "anio", y= "valor_mercado_local", color="r", ci= None, estimator= max)

sns.lineplot
plt.title("Comparaci√≥n de valor de plantilla")
plt.xlabel("A√±o")
plt.ylabel("Millones de euros")
plt.grid(True)
plt.ylim(bottom=0)
plt.legend(title= "Comparaci√≥n de valor de plantilla", labels=["Valor de mercado de otros", "Valor de mercado de Boca", "Valor de mercado de River"], loc="upper center", bbox_to_anchor=(1.3, 1),
          fancybox=True, shadow=True, ncol=1)
plt.show()

In [None]:
# Ranking hist√≥rico acumulado: Los 10 equipos con mayor puntuaci√≥n total en el periodo analizado
puntosequipos = df_puntos.groupby("equipo").sum().sort_values(["puntos"], ascending=False).head(10)

plt.figure(figsize=(8, 4))
ak = sns.barplot(data= puntosequipos, x="equipo", y= "puntos", ci=None, estimator=sum, palette="crest")
for container in ak.containers:
      ak.bar_label(container)
plt.title("Top 10 Equipos por Puntos Totales (2015-2022)")
plt.xlabel("Equipo")
plt.ylabel("Puntos Totales")
plt.xticks(rotation=45, ha="right")
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de estilo de juego: Dominio de la posesi√≥n del bal√≥n (2018-2022)

# df_moderno.nunique() = 34 equipos entre 2018 y 2022

# Se unifican los datos de local y visitante para obtener el promedio de posesi√≥n real por equipo
poslocal = df_moderno[["equipo_local", "posesion_local"]]
poslocal = poslocal.rename(columns={"equipo_local": "equipo"})
poslocal = poslocal.rename(columns={"posesion_local": "posesion"})
posvis = df_moderno[["equipo_visitante", "posesion_visitante"]]
posvis = posvis.rename(columns={"equipo_visitante": "equipo"})
posvis = posvis.rename(columns={"posesion_visitante": "posesion"})

postotal = pd.concat([poslocal, posvis])

postotal = postotal.groupby("equipo").mean().sort_values(by= "posesion", ascending = False).head(10)

In [None]:
# Identificaci√≥n de los 10 equipos con mayor vocaci√≥n de control de juego seg√∫n el promedio de posesi√≥n
plt.figure(figsize= (8,4))
ap = sns.barplot(data = postotal, x= "equipo", y = "posesion", hue= "equipo")
for container in ap.containers:
      ap.bar_label(container)
plt.title("Top 10 Equipos por Posesi√≥n (2018-2022)")
plt.xlabel("Equipo")
plt.ylabel("Posesi√≥n")
plt.xticks(rotation=45, ha="right")
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.show()

**¬øLos partidos de Boca y River presentan /estad√≠sticas diferentes/ al promedio de la liga?**

El an√°lisis integral de los datos confirma que Boca Juniors y River Plate operan en una dimensi√≥n estad√≠stica superior al resto de la liga en m√∫ltiples categor√≠as clave:
* Poder√≠o Ofensivo y Defensivo: Ambos equipos mantienen consistentemente una mayor cantidad de goles marcados y una menor cantidad de goles recibidos en comparaci√≥n con el promedio de los dem√°s clubes de la liga.

* Brecha Econ√≥mica: La diferencia en el valor de mercado de sus plantillas respecto al resto es dr√°stica. Esta disparidad fue especialmente cr√≠tica entre 2018 y 2020, cuando ambos clubes superaron los 140 millones de euros, mientras que el promedio del resto de los equipos no alcanz√≥ los 50 millones.

* Dominio en Resultados y Estilo: Boca y River encabezan la tabla de puntos totales acumulados en el per√≠odo 2015-2022, con Boca en el primer lugar (397 pts) y River en el segundo (361 pts). Adem√°s, en t√©rminos de estilo de juego, de los 34 equipos analizados entre 2018 y 2022, River Plate lidera la liga con la mayor posesi√≥n promedio (61%), mientras que Boca Juniors se posiciona en el cuarto lugar con un 56%.

Como conclusi√≥n, la combinaci√≥n de una inversi√≥n econ√≥mica significativamente mayor se traduce de manera directa en un dominio deportivo claro, tanto en el control de los partidos como en la obtenci√≥n de puntos y goles.

### 6Ô∏è‚É£ ¬øLa posesi√≥n del bal√≥n define al ganador en el f√∫tbol argentino?

In [None]:
# Segmentaci√≥n de la posesi√≥n seg√∫n el resultado: An√°lisis de equipos que ganan vs. equipos que pierden

#Extracci√≥n de promedios de posesi√≥n para victorias y derrotas, tanto en condici√≥n de local como de visitante
df_posesionviclocal = df_moderno[df_moderno["resultado"] == 1][["posesion_local"]]
df_posesionviclocal = df_posesionviclocal.rename(columns={"posesion_local": "posesionviclocal"})
# cuando sos local y ganas el partido, ten√©s un 49% de posesi√≥n en promedio

df_posesionderlocal = df_moderno[df_moderno["resultado"] == 2][["posesion_local"]]
df_posesionderlocal = df_posesionderlocal.rename(columns={"posesion_local": "posesionderlocal"})
# cuando sos local y perdes el partido, ten√©s un 53% de posesi√≥n en promedio

df_posesiondervisitante = df_moderno[df_moderno["resultado"] == 1][["posesion_visitante"]]
df_posesiondervisitante = df_posesiondervisitante.rename(columns={"posesion_visitante": "posesiondervis"})
# cuando sos visitante y perdes el partido, ten√©s un 51% de posesi√≥n en promedio

df_posesionvicvisitante = df_moderno[df_moderno["resultado"] == 2][["posesion_visitante"]]
df_posesionvicvisitante = df_posesionvicvisitante.rename(columns={"posesion_visitante": "posesionvicvis"})
# cuando sos visitante y ganas el partido, ten√©s un 47% de posesi√≥n en promedio

# para verlo todo en conjunto:
df_postotal = df_posesionviclocal.join([df_posesionderlocal, df_posesiondervisitante, df_posesionvicvisitante], how= "outer")
df_postotal.describe()

In [None]:
# C√°lculo de la diferencia de goles relativa a cada equipo (Local y Visitante) para normalizar la muestra
df_scatter = df_moderno
df_scatter["difgoles"] = df_scatter["goles_local"] - df_scatter["goles_visitante"]
df_scatter["posesion"] = df_scatter["posesion_local"]

df_scatter = df_scatter[["posesion", "difgoles"]]

df_scatter2 = df_moderno
df_scatter2["difgoles"] = df_scatter2["goles_visitante"] - df_scatter2["goles_local"]
df_scatter2["posesion"] = df_scatter2["posesion_visitante"]

df_scatter2 = df_scatter2[["posesion", "difgoles"]]

In [None]:
# Visualizaci√≥n mediante Scatter Plot diferenciado por color (Local: verde, Visitante: rojo)
df_scattertotal = pd.concat([df_scatter, df_scatter2])


fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(11, 4))
# Eliminar plt.figure(figsize=(8, 4)) ya que se crea con plt.subplots

# Primer subplot para el equipo local
axes[0].scatter(x=df_scatter["posesion"][~df_scatter["posesion"].isnull()], y=df_scatter["difgoles"][~df_scatter["posesion"].isnull()], alpha=0.6, color="mediumspringgreen", label="Datos Local")
sns.regplot(data=df_scatter, x="posesion", y="difgoles", scatter=False, color="darkgreen", line_kws={"linewidth":3}, ax=axes[0])
axes[0].axhline(y=0, color="gray", linestyle="--", linewidth=0.8)
axes[0].set_title("Posesi√≥n y Diferencia de Goles (Local)")
axes[0].set_xlabel("Posesi√≥n")
axes[0].set_ylabel("Diferencia de Goles")
axes[0].set_ylim(bottom=-7, top= 7)
axes[0].grid(True)
axes[0].set_xlim(left=10, right= 90)

# Segundo subplot para el equipo visitante
axes[1].scatter(x=df_scatter2["posesion"][~df_scatter2["posesion"].isnull()], y=df_scatter2["difgoles"][~df_scatter2["posesion"].isnull()], alpha=0.6, color="indianred", label="Datos Visitante")
sns.regplot(data=df_scatter2, x="posesion", y="difgoles", scatter=False, color="darkred", line_kws={"linewidth":3}, ax=axes[1])
axes[1].axhline(y=0, color="gray", linestyle="--", linewidth=0.8)
axes[1].set_title("Posesi√≥n y Diferencia de Goles (Visitante)")
axes[1].set_xlabel("Posesi√≥n")
axes[1].set_ylabel("Diferencia de Goles")
axes[1].set_ylim(bottom=-7, top= 7)
axes[1].grid(True)
axes[1].set_xlim(left=10, right= 90)

plt.tight_layout()
plt.show()

**¬øLa posesi√≥n del bal√≥n define al ganador en el f√∫tbol argentino? ¬øTener mayor posesi√≥n aumenta la probabilidad de ganar un partido?**

Contrario a la creencia popular, el an√°lisis de los datos revela que tener una mayor posesi√≥n del bal√≥n no aumenta las probabilidades de ganar un partido en el f√∫tbol argentino. De hecho, los gr√°ficos de dispersi√≥n muestran una tendencia levemente contraintuitiva: en muchos casos, los equipos logran mejores diferencias de gol cuando tienen menos tiempo la pelota.

Aunque esta relaci√≥n es muy sutil y no constituye un factor decisivo por s√≠ sola, sugiere que la efectividad y el contraataque pueden ser m√°s determinantes que el control del bal√≥n.

En resumen, para la gesti√≥n administrativa, la posesi√≥n debe verse como un rasgo de estilo de juego y no como una m√©trica de rendimiento que garantice resultados positivos.

###7Ô∏è‚É£¬øM√°s tiros al arco garantizan ganar un partido?

In [None]:
# Validaci√≥n de variable principal
df_moderno[(df_moderno["tiros_arco_local"] < 0) | (df_moderno["tiros_arco_visitante"] < 0)]

# No hay valores irregulares

In [None]:
# Evaluaci√≥n de la eficacia ofensiva: Comparaci√≥n de tiros realizados seg√∫n el resultado y la local√≠a
df_tirosviclocal = df_moderno[df_moderno["resultado"] == 1][["tiros_arco_local"]]
df_tirosviclocal = df_tirosviclocal.rename(columns={"tiros_arco_local": "tirosviclocal"})
# df_tirosviclocal.mean() # =  cuando sos local y ganas el partido, ten√©s 5 tiros al arco en promedio

df_tirosderlocal = df_moderno[df_moderno["resultado"] == 2][["tiros_arco_local"]]
df_tirosderlocal = df_tirosderlocal.rename(columns={"tiros_arco_local": "tirosderlocal"})
# df_tirosderlocal.mean() # = cuando sos local y perdes el partido, ten√©s 3,7 tiros al arco en promedio

df_tirosdervisitante = df_moderno[df_moderno["resultado"] == 1][["tiros_arco_visitante"]]
df_tirosdervisitante = df_tirosdervisitante.rename(columns={"tiros_arco_visitante": "tirosdervis"})
# df_tirosdervisitante.mean() # = cuando sos visitante y perdes el partido, ten√©s 3 tiros al arco en promedio

df_tirosvicvisitante = df_moderno[df_moderno["resultado"] == 2][["tiros_arco_visitante"]]
df_tirosvicvisitante = df_tirosvicvisitante.rename(columns={"tiros_arco_visitante": "tirosvicvis"})
# df_tirosvicvisitante.mean() # = cuando sos visitante y ganas el partido, ten√©s 4.5 tiros al arco en promedio

# El objetivo es validar el promedio de disparos necesarios para asegurar una victoria local vs. visitante
df_tiros_total = df_tirosviclocal.join([df_tirosderlocal, df_tirosdervisitante, df_tirosvicvisitante], how= "outer")
df_tiros_total.describe()

In [None]:
# Construcci√≥n de la visualizaci√≥n de correlaci√≥n entre volumen de disparos y margen de victoria

# Normalizaci√≥n de la diferencia de goles y tiros al arco para el perfil local
df_scatter3 = df_moderno
df_scatter3["difgoles"] = df_scatter3["goles_local"] - df_scatter3["goles_visitante"]
df_scatter3["tiros_arco"] = df_scatter3["tiros_arco_local"]
df_scatter3 = df_scatter3[["tiros_arco", "difgoles"]]

# Normalizaci√≥n sim√©trica para el perfil visitante
df_scatter4 = df_moderno
df_scatter4["difgoles"] = df_scatter4["goles_visitante"] - df_scatter4["goles_local"]
df_scatter4["tiros_arco"] = df_scatter4["tiros_arco_visitante"]
df_scatter4 = df_scatter4[["tiros_arco", "difgoles"]]

df_scattertotal2 = pd.concat([df_scatter3, df_scatter4])

In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(x=df_scatter3["tiros_arco"], y=df_scatter3["difgoles"], alpha=0.6, color="mediumspringgreen")
plt.scatter(x=df_scatter4["tiros_arco"], y=df_scatter4["difgoles"], alpha=0.6, color="indianred")
sns.regplot(data=df_scattertotal2, x="tiros_arco", y="difgoles", scatter=False, color="darkblue")

plt.axhline(y=0, color="gray", linestyle="--", linewidth=0.8)
plt.title("Tiros al arco y Diferencia de Goles")
plt.xlabel("Tiros al arco")
plt.ylabel("Diferencia de Goles")
plt.grid(True)
plt.xlim(left=-1, right= 15)
plt.legend(title= "Local√≠a", labels=["Local", "Visitante"], loc="upper center", bbox_to_anchor=(0.90, 0.24),
          fancybox=True, shadow=True, ncol=1)

**¬øM√°s tiros al arco garantizan ganar un partido? ¬øEl n√∫mero de tiros al arco es un buen predictor del resultado final?**

El an√°lisis estad√≠stico confirma que existe una relaci√≥n directa y positiva entre el volumen de disparos y el √©xito en el marcador: a mayor cantidad de tiros al arco, aumentan significativamente las probabilidades de lograr una diferencia de goles a favor. Los datos muestran que, en promedio, realizar 5 tiros al arco actuando como local fue suficiente para asegurar una victoria.

A diferencia de la posesi√≥n del bal√≥n, el n√∫mero de remates efectivos resulta ser un predictor mucho m√°s confiable del resultado final, ya que refleja una mayor capacidad de generaci√≥n de peligro real frente al arco rival.


###8Ô∏è‚É£ ¬øQu√© variable explica mejor el resultado de un partido?

In [None]:
# An√°lisis Multivariable: Identificaci√≥n del factor determinante del √©xito deportivo

# Se asignan valores de 1 (Victoria Local), -1 (Victoria Visitante) y 0 (Empate) para cuantificar la direcci√≥n del √©xito
resultera = df_moderno.copy()
resultera["resultado"] = resultera["resultado"].replace({1: 1,
                                                   2: -1,
                                                   0: 0})

resultera = resultera.select_dtypes(include=np.number)
resultera.corr()

correlation_matrix = resultera.corr()
correl_resultado = correlation_matrix[["resultado"]].transpose()


# Visualizaci√≥n del Mapa de Calor
# Los valores cercanos a 1 o -1 indican una relaci√≥n s√≥lida, mientras que los cercanos a 0 indican irrelevancia
fig = plt.figure(figsize=(15, 5))
gs = gridspec.GridSpec(1, 2, width_ratios=[2, 1])

ax0 = fig.add_subplot(gs[0, 0]) # Primer subplot para el heatmap
sns.heatmap(correl_resultado, cmap="RdBu", linewidth=1, annot=True, annot_kws={"fontsize":10, "rotation":90}, ax=ax0)
ax0.set_title("Correlaci√≥n con el Resultado del Partido", fontsize= 13)

ax1 = fig.add_subplot(gs[0, 1]) # Segundo subplot para el pie chart
ax1.pie(x=rc2list, labels=lb2, colors=sns.color_palette("deep")[0:3], autopct="%.0f%%")
ax1.set_title("Porcentaje de probabilidad de resultados 2015-2022", fontsize= 13)

plt.tight_layout()
plt.show()

**¬øQu√© variable explica mejor el resultado de un partido?**

A trav√©s del an√°lisis de correlaci√≥n (heatmap), se puede concluir que, una vez excluidos factores obvios como los goles marcados o recibidos y las cuotas de las casas de apuestas, la variable que mejor explica el resultado final es el n√∫mero de tiros al arco, con una correlaci√≥n positiva de 0.31. Esto indica que la generaci√≥n de peligro real es el predictor t√©cnico m√°s s√≥lido del √©xito en el campo.

En un segundo plano, se encuentran los valores de mercado de las plantillas (0.13 para el equipo local y 0.19 para el visitante) y las variables disciplinarias (hasta 0.16 para las tarjetas rojas del visitante), seguidos por factores de control de juego como la posesi√≥n (-0.15).

Complementariamente, el factor campo sigue siendo un pilar fundamental de la liga: ser local otorga hist√≥ricamente un 44% de probabilidad de alcanzar la victoria, frente a solo un 27% del visitante. En definitiva, las oportunidades de √©xito se maximizan cuando un equipo logra transformar su dominio territorial y valor de plantilla en remates efectivos a porter√≠a, especialmente bajo la ventaja de jugar en estadio propio.



---



##Otros an√°lisis

### üö© Mejores campa√±as

In [None]:
# Los equipos con m√°s puntos
# Agregaci√≥n inicial de puntos por torneo y equipo para identificar el volumen total de unidades
maspuntos = df_puntos.groupby(["torneo", "equipo"])["puntos"].sum().sort_values(ascending=False)
# Sin embargo, no todos los torneos tienen la misma cantidad de partidos jugados, por lo que no ser√≠a
# correcto decir que el que tiene m√°s puntos tiene mejor campa√±a. Hay que ponderar por partidos jugados

# Convertir maspuntos a un DataFrame y resetear su √≠ndice
maspuntos_df = maspuntos.reset_index()

# C√°lculo del denominador: Cantidad de partidos disputados por equipo en cada certamen
partidos_jugados = df_puntos.groupby(["torneo", "equipo"]).size().reset_index(name="partidos_jugados")

# Integraci√≥n de m√©tricas (Merge) para calcular la eficiencia relativa de cada campa√±a
maspuntos_partidos = pd.merge(maspuntos_df, partidos_jugados, on=["torneo", "equipo"], how="left")

# Definici√≥n de la m√©trica de "Puntuaci√≥n Perfecta" (partidos * 3) y c√°lculo del porcentaje de efectividad
maspuntos_partidos["puntiacion_perfecta"] = maspuntos_partidos["partidos_jugados"] *3
maspuntos_partidos["porcentaje_del_total"] = maspuntos_partidos["puntos"] / maspuntos_partidos["puntiacion_perfecta"]

maspuntos_partidos

In [None]:
# Generaci√≥n de ranking interno por torneo para identificar la posici√≥n final ocupada
maspuntos_partidos["rank"] = maspuntos_partidos.groupby("torneo")["puntos"].rank(ascending=False)

# Muestra las primeras filas con la nueva columna de rank
display(maspuntos_partidos.head())

In [None]:
# Identificaci√≥n de las 10 campa√±as m√°s efectivas en la historia reciente (2015-2022)
mejorcampania = maspuntos_partidos.sort_values(by= "porcentaje_del_total", ascending=False).head(10)
# mejorcampania

In [None]:
# Visualizaci√≥n mediante gr√°fico de barras ordenado por efectividad

mejorcampania_plot = mejorcampania.copy()
mejorcampania_plot["campania"] = mejorcampania_plot["equipo"] + " (" + mejorcampania_plot["torneo"].astype(str) + ")"
mejorcampania_plot["rank"] = mejorcampania_plot["rank"].replace({1.0: "Primero",
                                                   2: "Segundo"})

plt.figure(figsize= (9.5,5.5))
am = sns.barplot(data = mejorcampania_plot, x= "campania", y = "porcentaje_del_total", palette="cividis_r", hue= "rank")
for container in am.containers:
      am.bar_label(container)
plt.title("Top 10 Mejores Campa√±as (2015-2022)")
plt.xlabel("Campa√±a (Equipo - Torneo)")
plt.ylabel("Porcentaje de puntos conseguidos")
plt.ylim(top = 1)
plt.xticks(rotation=45, ha="right", fontsize= 8) # Rotate x-axis labels for better readability
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout() # Adjust layout to prevent labels from being cut off
plt.legend(title= "Podio", loc="upper center", bbox_to_anchor=(0.90, 0.24),
          fancybox=True, shadow=True, ncol=1)
plt.show()

**Top 10 Mejores Campa√±as**

Se destaca la campa√±a de Lan√∫s en el Transici√≥n 2016, alcanzando una efectividad cercana al 79% de los puntos posibles, la m√°s alta del per√≠odo analizado. Es notable observar que el "'Top 10" no es exclusividad de los clubes con mayor presupuesto; equipos como Defensa y Justicia, Godoy Cruz y Lan√∫s han logrado campa√±as de eficiencia superior a las de los clubes "grandes", demostrando que una gesti√≥n deportiva optimizada puede competir al m√°s alto nivel de rendimiento relativo.

###üèÜ Podio de cada Torneo

In [None]:
# Visualizaci√≥n del podio de cada campeonato
# Implementaci√≥n de visualizaci√≥n interactiva mediante widgets para la exploraci√≥n de resultados por torneo

# Generaci√≥n de la lista √∫nica de campeonatos disponibles en el dataset para el componente de selecci√≥n
ver_torneo = df_puntos["torneo"].unique()

# Configuraci√≥n del widget Dropdown para facilitar la navegaci√≥n entre diferentes temporadas
selector_torneo = widgets.Dropdown(
    options= ver_torneo,
    description="Elige un torneo:",
    disabled=False,
)

# Mostrar el selector
display(selector_torneo)

In [None]:
# Filtrado din√°mico del conjunto de datos basado en la selecci√≥n actual del usuario
df_filtorneo = df_puntos[df_puntos["torneo"] == selector_torneo.value]

# C√°lculo del podio hist√≥rico: Agrupaci√≥n por puntos y desempate por diferencia de goles
df_podio = df_filtorneo.groupby(["equipo"]).sum().sort_values(by = ["puntos", "difgoles"], ascending=[False, False]).head(3)

# L√≥gica condicional para el manejo de excepciones: Torneo Transici√≥n 2016
# En este certamen, el podio oficial se defini√≥ por un partido de tercer puesto y no solo por puntos acumulados
t2016 = df_filtorneo.groupby(["equipo"]).sum().sort_values(by = ["puntos", "difgoles"], ascending=[False, False]).head(4)
t2016b = t2016.loc[t2016.index != "Godoy Cruz"]

# Renderizaci√≥n din√°mica del gr√°fico de barras seg√∫n el formato del torneo seleccionado
if selector_torneo.value != "Transicion 2016":
  plt.figure(figsize= (6,4))
  ax = sns.barplot(data= df_podio, x="equipo", y= "puntos", hue="equipo", ci=None, estimator=sum)
  for container in ax.containers:
      ax.bar_label(container)
  plt.title("Podio de " + selector_torneo.value)
  plt.show()
else:
  plt.figure(figsize= (6,4))
  ax = sns.barplot(data= t2016b, x="equipo", y= "puntos", hue="equipo", ci=None, estimator=sum)
  for container in ax.containers:
      ax.bar_label(container)
  plt.title("Podio de " + selector_torneo.value)
  plt.show()
  print("Transici√≥n 2016*: si bien Godoy Cruz fue el 3er equipo con m√°s puntos del torneo, los segundos de cada zona jugaron partido por tercer puesto, que estableci√≥ a Estudiantes de la Plata en el podio*")

### ‚öΩ Top 10 mayores goleadas

In [None]:
# An√°lisis de eventos extremos: Identificaci√≥n y visualizaci√≥n de las 10 mayores goleadas (2015-2022)

# Definici√≥n de la "v√≠ctima": L√≥gica condicional para determinar qu√© equipo recibi√≥ los goles
definvic = df_arg.copy()
definvic["victima"] = np.where(definvic["goles_local"] > definvic["goles_visitante"], definvic["equipo_visitante"], definvic["equipo_local"])
definvic

In [None]:
# Se integra la columna "victima" mediante un Join para enriquecer el contexto del enfrentamiento
df_goleada = df_puntos.sort_values(["difgoles", "goles_marcados"], ascending=[False, False],).head(10).join(definvic["victima"], how= "inner")
df_goleada["victima"] = df_goleada["victima"]
df_goleada["match_label"] = df_goleada["equipo"] + " vs " + df_goleada["victima"] + " (" + df_goleada["torneo"].astype(str) + ")"

In [None]:
# Este proceso duplica los registros para poder graficar ambos lados del marcador en un solo eje
df_goleados = df_goleada.copy()
df_goleadores = df_goleada.copy()

df_goleadores["goles"] = df_goleadores["goles_marcados"]
df_goleadores = df_goleadores[["torneo", "equipo", "goles", "victima"]]
df_goleadores["situacion"] = "ejecutor"

df_goleados["goles"] = df_goleados["goles_recibidos"]
df_goleados["equipo"] = df_goleados["equipo"]
df_goleados = df_goleados[["torneo", "equipo", "goles", "victima"]]
df_goleados["situacion"] = "victima"

# Consolidaci√≥n final (Concat) de ambos perfiles para la representaci√≥n gr√°fica en formato largo (long format)
df_goleadosyvics = pd.concat([df_goleadores,df_goleados])
df_goleadosyvics["match_identifier"] = df_goleadosyvics["equipo"] + " (vs: " + df_goleadosyvics["victima"].astype(str).fillna("") + ")"

In [None]:
# Visualizaci√≥n mediante gr√°fico de barras agrupadas (Barplot)

f, (ax2) = plt.subplots(figsize=(8, 5), sharex=True)
aj = (sns.barplot(data = df_goleadosyvics, y ="goles", x = "match_identifier", hue="situacion", ax=ax2, dodge=False))

plt.title("Top 10 Mayores Goleadas (2015-2022)")
plt.ylabel("Goles")
plt.xlabel("Equipo goleador (y a qui√©n gole√≥)")
plt.xticks(rotation= 45, ha="right", fontsize = 7)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.tight_layout()
plt.legend(title= "Equipo", loc="upper center", bbox_to_anchor=(0.9, 0.90),
          fancybox=True, shadow=True, ncol=1)
plt.show()

**An√°lisis de Eventos Cr√≠ticos: Top 10 Mayores Goleadas**

Se destaca el encuentro de Boca Juniors (vs. Central C√≥rdoba de Santiago del Estero) como el evento de mayor disparidad, alcanzando una cifra de 8 goles marcados frente a solo 1 recibido.

Aunque la liga presenta tendencias generales de paridad, existen escenarios espec√≠ficos de desequilibrio total donde el "ejecutor" logra una efectividad ofensiva excepcional, usualmente concentrada en los equipos con plantillas de mayor valor de mercado o en momentos de crisis deportiva profunda de la "v√≠ctima".