# INFORMACIÓN DEL PROYECTO

### TÍTULO

# Fútbol: ¿Ganan siempre los 'Ricos'?

### Tema

Se realizará un análisis sobre el impacto que tiene el valor de mercado de los equipos en los resultados. Para la realización del análisis se tendrá en cuenta los datos obtenidos de todos los partidos transcurridos en las cinco mejores ligas europeas (La liga, Premier League, Bundesliga, Serie A y Ligue 1) de las temporadas 2014 hasta la 2022, de manera que se analizarán más de 10.000 resultados.
De forma adicional, también se analizará si las cuota más baja aportadas por las casas de apuestas ha coincidido con el resultado final del partido. Además, se analizará si, por lo general, el resultado del descanso es igual que el resultado final.


### HIPÓTESIS

Define aquí lo que será la hipótesis de tu proyecto.
Deberás tener más de una, pero tu proyecto lo harás teniendo una principal hipótesis.

Hipotesis 1 = El equipo con mayor valor de mercado gana el partido

Hipotesis 2 = El resultado del partido coincidirá con la cuota de menor importe aportada por las casas de apuestas.

Hipotesis 3 = El resultado del partido al descanso coincidirá con el resultado final.

## OBTENCIÓN DE LOS DATOS

### DATASETS Y FUENTES ALTERNATIVAS DE DATOS

In [5]:
import pandas as pd
# guarda en variables los datasets y su fuente
df_1 = pd.DataFrame()
fuente_1 = "https://www.kaggle.com/datasets/ferrariboy4k/top5leagues"

archivo_laliga14_15 = "all_seasons\LaLiga 2014-2015.csv"

Para realizar el DataFrame final se han desarrollado varias funciones que permiten limpiar el Dataframe, que aportan nuevas columnas con información que nos permitirán aplicar diversas máscaras o sacar la media de victorias cuando un equipo es considerado favorito, entre otras. A continuación, se incluyen algunas de las funciones a modo de ejemplo:

In [None]:
def cambio_nombre_columnas(csv):
    '''
    Esta función nos servirá para leer los csv del proyecto y para cambiar el nombre de sus columnas para finalmente transformar 
    todos los datos en un DataFrame. De esta forma, tendremos más clara la información que contiene cada columnas.

    En el parámetro csv tendremos que indicar la ruta del fichero que queremos transformar en un nuevo DataFrame.

    Todos los ficheros csv del trabajo disponen del mismo número de columnas y siguen el mismo orden, por lo que podemos encapsular 
    el código en una función.
    '''
    df = pd.read_csv(csv)
    nombres_columnas = {'Div': "Liga",
                    'Date': "Fecha",
                    'HomeTeam' : "Equipo Local",
                    'AwayTeam' : "Equipo Visitante",
                    'HTOa' : "Calificación E.Local en FIFA",
                    'ATOa' : "Calificación E.Visitante en FIFA",
                    'HTAt': "Calificación atacantes E.Local en FIFA",
                    'ATAt': "Calificación atacantes E.Visitante en FIFA",
                    'HTMid': "Calificación mediocentros E.Local en FIFA",
                    'ATMid': "Calificación mediocentros E.Visitante en FIFA",
                    'HTDef' : "Calificación defensas E.Local en FIFA",
                    'ATDef': "Calificación defensas E.Visitante en FIFA",
                    'HomeSquad': "Nº jugadores E.Local",
                    'AwaySquad': "Nº jugadores E.Visitante",
                    'HomeAvgAge' : "Edad media E.Local",
                    'AwayAvgAge': "Edad media E.Visitante",
                    'HomeMV' : "Valor de mercado E.Local",
                    'AwayMV': "Valor de mercado E.Visitante",
                    'FTHG' : "Goles en el partido E.Local",
                    'FTAG': "Goles en el partido E.Visitante",
                    'FTR': "Resultado final",
                    'HTHG' : "Goles al descanso E.Local",
                    'HTAG': "Goles al descanso E.Visitante",
                    'HTR': "Resultado al descanso",
                    'HS' : "Disparos E.Local",
                    'AS': "Disparos E.Visitante",
                    'HST': "Disparos a puerta E.Local",
                    'AST' : "Disparos a puerta E.Visitante",
                    'HF' : "Faltas E.Local",
                    'AF': "Faltas E.Visitante",
                    'HC' : "Corners E.Local",
                    'AC' : "Corners E.Visitante",
                    'HY' : "T.Amarillas E.Local",
                    'AY': "T.Amarillas E.Visitante",
                    'HR': "T.Rojas E.Local",
                    'AR' : "T.Rojas E.Visitante",
                    'HxG' : "Goles esperados E.Local",
                    'AxG' : "Goles esperados E.Visitante",
                    'HxA' : "Goles esperados tras pases clave E.Local",
                    'AxA' : "Goles esperados tras pases clave E.Visitante",
                    'HxPTS' : "Puntos esperados E.Local",
                    'AxPTS': "Puntos esperados E.Visitante",
                    'HPPDA': "Pases permitidos por acción defensiva en campo contrario E.Local",
                    'APPDA' : "Pases permitidos por acción defensiva en campo contrario E.Visitante",
                    'B365H' : "Cuota Bet365 Gana Local",
                    'B365D' : "Cuota Bet365 Empate",
                    'B365A' : "Cuota Bet365 Gana Visitante",
                    'BWH' :"Cuota BWin Gana Local",
                    'BWD' : "Cuota BWin Empate",
                    'BWA': "Cuota BWin Gana Visitante",
                    'IWH':"Cuota Interwetten Gana Local",
                    'IWD': "Cuota Interwetten Empate",
                    'IWA': "Cuota Interwetten Gana Visitante",
                    'PSH':"Cuota Pinnacle Gana Local",
                    'PSD' : "Cuota Pinnacle Empate",
                    'PSA': "Cuota Pinnacle Gana Visitante",
                    'WHH': "Cuota William Hill Gana Local",
                    'WHD': "Cuota William Hill Empate",
                    'WHA': "Cuota William Hill Gana Visitante",
                    'VCH':"Cuota VC Bet Gana Local",
                    'VCD': "Cuota VC Bet Empate",
                    'VCA': "Cuota VC Bet Gana Visitante",
                    'PSCH':"Cuota PSC Gana Local",
                    'PSCD': "Cuota PSC Empate",
                    'PSCA': "Cuota PSC Gana Visitante"}
    df = df.rename(columns=nombres_columnas)
    return df

In [None]:
def col_rdo_valor_mercado(df):
    '''
    En esta función añadimos en una nueva columna el nombre del equipo con mayor valor de mercado.
    '''
    a = []
    for i in range(len(df)):
        if df["Valor de mercado E.Local"].iloc[i] > df["Valor de mercado E.Visitante"].iloc[i]:
            a.append(df["Equipo Local"].iloc[i])
        else:
            a.append(df["Equipo Visitante"].iloc[i])

    a = [str(x) for x in a]
    df["Rdo V.Mercado"]= a
    return df

In [None]:
def col_favorito_ganador(df):
    '''
    En esta función añadimos una nueva columna, llamada "Gana favorito" en la que se mostrará el valor de 1 si el equipo de mayor 
    valor de mercado es el que ha ganado y 0 si no se da esa situación.
    '''
    c = []
    for i in range(len(df)):
        if df["Rdo V.Mercado"].iloc[i] == df["Equipo ganador"].iloc[i]:
            c.append(1)
        else:
            c.append(0)
    df["Gana favorito"] = c
    return df

In [None]:
def col_dif_v_mercado(df):
    '''
    En esta función creamos una columna en el que se muestra la variación del valor de mercado entre el equipo con mayor valor del 
    partido respecto al de menor valor.

    La fórmula aplicada para cada valor de la columna es el siguiente:

    Diferencia V.Mercado = (V.Mercado Eq. de mayor valor/V.Mercado Eq. de menor valor) / V.Mercado Eq. de menor valor

    Con esta columna podremos crear máscaras, por ejemplo, obtener si gana el favorito del partido cuando el valor de mercado entre un equipo 
    y otro es superior al 30%, es decir, > 0.3.
    
    '''
    d = []
    for i in range(len(df)):
        d1 = [df["Valor de mercado E.Local"].iloc[i], df["Valor de mercado E.Visitante"].iloc[i]]
        d.append((max(d1) - min(d1)) / min(d1))
    df["Diferencia V.Mercado"] = d
    return df

In [None]:
def cols_apuestas(df):
    '''
    Esta función servirá para crear varias columnas ligadas a las cuotas de las distintas casas de apuestas.

    En primer lugar, se creará una columna por cada casa de apuestas llamada ["Lista cuotas "x"] en las que aparecerá la cuota mínima, máxima e intermedia en formato de lista.

    En segundo lugar, se creará una columna por cada casa de apuestas llamada ["Cuota favorita "x"] en las que aparecerá el nombre del equipo favorito según la cuota.
    En caso de empate, se mostrá empate. También se creará una columna llamada ["Importe Cuota favorita x"] con el importe de la cuota favorita para la casa de apuestas.
    Esta última columna nos permitirá aplicar máscaras a los Dataframe para el análisis.

    Por último, se creará una columna por cada casa de apuestas llamada ["Gana cuota favorita x"] en las que aparecerá un 1 si el ganador del partido coincide con 
    el equipo favorito de la casa de apuestas. En caso contrario, se añadirá un 0.
    
    '''
    e = []
    for i in range(len(df)):
        e1 = [df["Cuota Bet365 Gana Local"].iloc[i], df["Cuota Bet365 Empate"].iloc[i],df["Cuota Bet365 Gana Visitante"].iloc[i]]
        e.append(e1)
    df["Lista cuotas Bet365"] = e
    f = []
    f1 = []

    for i in range(len(df)):
        cuotas = df["Lista cuotas Bet365"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            f.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            f.append(df["Equipo Visitante"].iloc[i])
        else:
            f.append("Empate")
        f1.append(min_cuota)
    df["Cuota favorita Bet365"] = f
    df["Importe Cuota favorita Bet365"] = f1

    g = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita Bet365"].iloc[i]:
            g.append(1)
        else:
            g.append(0)
    df["Gana cuota favorita Bet365"] = g
    return df

El resto de pasos se resumen en obtener nuevos DataFrame filtrados para tratar cada analítica por separado.

Para la validación de la hipótesis se han creado columnas que indican si la situación a estudiar se ha dado o no, indicando 1 si así ha sido o 0 si no ha ocurrido. Se han usado máscaras y realizado funciones de Pandas como groupby, para obtener valores como la media, mediana, etcétera. También se han creado distintas gráficas para visualizar los datos.