In [22]:
import numpy as np
import pandas as pd

In [23]:
def cambio_nombre_columnas(csv):
    '''
    Esta función nos servirá para leer los csv del proyecto y cambiar el nombre de sus columnas para finalmente transformar todos los datos en un DataFrame.
    De esta forma, tendremos más clara la información que contiene cada columnas.

    En el parámetro csv tendremos que indicar la ruta del fichero que queremos transformar en un nuevo DataFrame.

    Todos los ficheros csv del trabajo disponen del mismo número de columnas y siguen el mismo orden, por lo que podemos encapsular el código en una función.
    '''
    df = pd.read_csv(csv)
    nombres_columnas = {'Div': "Liga",
                    'Date': "Fecha",
                    'HomeTeam' : "Equipo Local",
                    'AwayTeam' : "Equipo Visitante",
                    'HTOa' : "Calificación E.Local en FIFA",
                    'ATOa' : "Calificación E.Visitante en FIFA",
                    'HTAt': "Calificación atacantes E.Local en FIFA",
                    'ATAt': "Calificación atacantes E.Visitante en FIFA",
                    'HTMid': "Calificación mediocentros E.Local en FIFA",
                    'ATMid': "Calificación mediocentros E.Visitante en FIFA",
                    'HTDef' : "Calificación defensas E.Local en FIFA",
                    'ATDef': "Calificación defensas E.Visitante en FIFA",
                    'HomeSquad': "Nº jugadores E.Local",
                    'AwaySquad': "Nº jugadores E.Visitante",
                    'HomeAvgAge' : "Edad media E.Local",
                    'AwayAvgAge': "Edad media E.Visitante",
                    'HomeMV' : "Valor de mercado E.Local",
                    'AwayMV': "Valor de mercado E.Visitante",
                    'FTHG' : "Goles en el partido E.Local",
                    'FTAG': "Goles en el partido E.Visitante",
                    'FTR': "Resultado final",
                    'HTHG' : "Goles al descanso E.Local",
                    'HTAG': "Goles al descanso E.Visitante",
                    'HTR': "Resultado al descanso",
                    'HS' : "Disparos E.Local",
                    'AS': "Disparos E.Visitante",
                    'HST': "Disparos a puerta E.Local",
                    'AST' : "Disparos a puerta E.Visitante",
                    'HF' : "Faltas E.Local",
                    'AF': "Faltas E.Visitante",
                    'HC' : "Corners E.Local",
                    'AC' : "Corners E.Visitante",
                    'HY' : "T.Amarillas E.Local",
                    'AY': "T.Amarillas E.Visitante",
                    'HR': "T.Rojas E.Local",
                    'AR' : "T.Rojas E.Visitante",
                    'HxG' : "Goles esperados E.Local",
                    'AxG' : "Goles esperados E.Visitante",
                    'HxA' : "Goles esperados tras pases clave E.Local",
                    'AxA' : "Goles esperados tras pases clave E.Visitante",
                    'HxPTS' : "Puntos esperados E.Local",
                    'AxPTS': "Puntos esperados E.Visitante",
                    'HPPDA': "Pases permitidos por acción defensiva en campo contrario E.Local",
                    'APPDA' : "Pases permitidos por acción defensiva en campo contrario E.Visitante",
                    'B365H' : "Cuota Bet365 Gana Local",
                    'B365D' : "Cuota Bet365 Empate",
                    'B365A' : "Cuota Bet365 Gana Visitante",
                    'BWH' :"Cuota BWin Gana Local",
                    'BWD' : "Cuota BWin Empate",
                    'BWA': "Cuota BWin Gana Visitante",
                    'IWH':"Cuota Interwetten Gana Local",
                    'IWD': "Cuota Interwetten Empate",
                    'IWA': "Cuota Interwetten Gana Visitante",
                    'PSH':"Cuota Pinnacle Gana Local",
                    'PSD' : "Cuota Pinnacle Empate",
                    'PSA': "Cuota Pinnacle Gana Visitante",
                    'WHH': "Cuota William Hill Gana Local",
                    'WHD': "Cuota William Hill Empate",
                    'WHA': "Cuota William Hill Gana Visitante",
                    'VCH':"Cuota VC Bet Gana Local",
                    'VCD': "Cuota VC Bet Empate",
                    'VCA': "Cuota VC Bet Gana Visitante",
                    'PSCH':"Cuota PSC Gana Local",
                    'PSCD': "Cuota PSC Empate",
                    'PSCA': "Cuota PSC Gana Visitante"}
    df = df.rename(columns=nombres_columnas)
    return df

In [24]:
def cambio_nombre_liga(df):
    '''
    En esta función cambiamos los nombres que vienen de serie para hacer referencia a cada liga.
    '''

    df["Liga"] = df["Liga"].replace("SP1","La Liga")
    df["Liga"] = df["Liga"].replace("E0","Premier League")
    df["Liga"] = df["Liga"].replace("F1","Ligue 1")
    df["Liga"] = df["Liga"].replace("D1","Bundesliga")
    df["Liga"] = df["Liga"].replace("I1","Serie A")
    return df

In [25]:
def limpieza_df(df):
    """
    Con esta función eliminaremos las columnas que no necesitaremos en nuestro análisis.
    """
    df = df.drop(columns=["Calificación E.Local en FIFA",
                          "Calificación E.Visitante en FIFA",
                          "Calificación atacantes E.Local en FIFA",
                          "Calificación atacantes E.Visitante en FIFA",
                          "Calificación mediocentros E.Local en FIFA",
                          "Calificación mediocentros E.Visitante en FIFA",
                          "Calificación defensas E.Local en FIFA","Calificación defensas E.Visitante en FIFA",
                          "Nº jugadores E.Local",
                          "Nº jugadores E.Visitante",
                          "Edad media E.Local",
                          "Edad media E.Visitante",
                          "Disparos E.Local",
                          "Disparos E.Visitante",
                          "Disparos a puerta E.Local",
                          "Disparos a puerta E.Visitante",
                          "Faltas E.Local",
                          "Faltas E.Visitante",
                          "Corners E.Local",
                          "Corners E.Visitante",
                          "Goles esperados E.Local",
                          "Goles esperados E.Visitante",
                          "Goles esperados tras pases clave E.Local",
                          "Goles esperados tras pases clave E.Visitante",
                          "Puntos esperados E.Local",
                          "Puntos esperados E.Visitante",
                          "Pases permitidos por acción defensiva en campo contrario E.Local",
                          "Pases permitidos por acción defensiva en campo contrario E.Visitante"])
    return df

In [26]:
def col_rdo_valor_mercado(df):
    '''
    En esta función añadimos en una nueva columna el nombre del equipo con mayor valor de mercado.
    '''
    a = []
    for i in range(len(df)):
        if df["Valor de mercado E.Local"].iloc[i] > df["Valor de mercado E.Visitante"].iloc[i]:
            a.append(df["Equipo Local"].iloc[i])
        else:
            a.append(df["Equipo Visitante"].iloc[i])

    a = [str(x) for x in a]
    df["Rdo V.Mercado"]= a
    return df

In [27]:
def col_equipo_ganador(df):
    '''
    En esta función añadimos en una nueva columna el nombre del equipo que ha ganado el partido. En caso de empate, se indicará empate. 
    El nombre de la columna se llamará "Equipo ganador".
    '''
    b = []
    for i in range(len(df)):
        if df["Resultado final"].iloc[i] == "H":
            b.append(df["Equipo Local"].iloc[i])
        elif df["Resultado final"].iloc[i] == "A":
            b.append(df["Equipo Visitante"].iloc[i])
        else:
            b.append("Empate")
    b = [str(x) for x in b]
    df["Equipo ganador"]= b
    return df

In [28]:
def col_favorito_ganador(df):
    '''
    En esta función añadimos una nueva columna, llamada "Gana favorito" en la que se mostrará el valor de 1 si el equipo de mayor valor de mercado es el que ha ganado
    y 0 si no se da esa situación.
    '''
    c = []
    for i in range(len(df)):
        if df["Rdo V.Mercado"].iloc[i] == df["Equipo ganador"].iloc[i]:
            c.append(1)
        else:
            c.append(0)
    df["Gana favorito"] = c
    return df

In [29]:
def col_dif_v_mercado(df):
    '''
    En esta función creamos una columna en el que se muestra la variación del valor de mercado entre el equipo con mayor valor del partido respecto al de menor valor.

    La fórmula aplicada para cada valor de la columna es el siguiente:

    Diferencia V.Mercado = (V.Mercado Eq. de mayor valor/V.Mercado Eq. de menor valor) / V.Mercado Eq. de menor valor

    Con esta columna podremos crear máscaras, por ejemplo, obtener si gana el favorito del partido cuando el valor de mercado entre un equipo y otro es superior al 30%,
    es decir, > 0.3.
    
    '''
    d = []
    for i in range(len(df)):
        d1 = [df["Valor de mercado E.Local"].iloc[i], df["Valor de mercado E.Visitante"].iloc[i]]
        d.append((max(d1) - min(d1)) / min(d1))
    df["Diferencia V.Mercado"] = d
    return df

In [30]:
def col_equipo_ganador_descanso(df):
    '''
    En esta función añadimos en una nueva columna el nombre del equipo que ha acabado la primera parte ganando. En caso de empate, se indicará empate. 
    El nombre de la columna se llamará "Equipo ganador descanso".
    '''
    b = []
    for i in range(len(df)):
        if df["Resultado al descanso"].iloc[i] == "H":
            b.append(df["Equipo Local"].iloc[i])
        elif df["Resultado al descanso"].iloc[i] == "A":
            b.append(df["Equipo Visitante"].iloc[i])
        else:
            b.append("Empate")
    b = [str(x) for x in b]
    df["Equipo ganador descanso"]= b
    return df

In [31]:
def col_descanso_final_igual(df):
    '''
    En esta función añadimos una nueva columna, llamada "Resultado descanso=final" en la que se mostrará el valor de 1 si el resultado del partido al descanso coincide
    con el resultado final.
    '''
    c = []
    for i in range(len(df)):
        if df["Equipo ganador descanso"].iloc[i] == df["Equipo ganador"].iloc[i]:
            c.append(1)
        else:
            c.append(0)
    df["Resultado descanso=final"] = c
    return df

In [32]:
def cols_apuestas(df):
    '''
    Esta función servirá para crear varias columnas ligadas a las cuotas de las distintas casas de apuestas.

    En primer lugar, se creará una columna por cada casa de apuestas llamada ["Lista cuotas "x"] en las que aparecerá la cuota mínima, máxima e intermedia en formato de lista.

    En segundo lugar, se creará una columna por cada casa de apuestas llamada ["Cuota favorita "x"] en las que aparecerá el nombre del equipo favorito según la cuota.
    En caso de empate, se mostrá empate. También se creará una columna llamada ["Importe Cuota favorita x"] con el importe de la cuota favorita para la casa de apuestas.
    Esta última columna nos permitirá aplicar máscaras a los Dataframe para el análisis.

    Por último, se creará una columna por cada casa de apuestas llamada ["Gana cuota favorita x"] en las que aparecerá un 1 si el ganador del partido coincide con 
    el equipo favorito de la casa de apuestas. En caso contrario, se añadirá un 0.
    
    '''
    e = []
    for i in range(len(df)):
        e1 = [df["Cuota Bet365 Gana Local"].iloc[i], df["Cuota Bet365 Empate"].iloc[i],df["Cuota Bet365 Gana Visitante"].iloc[i]]
        e.append(e1)
    df["Lista cuotas Bet365"] = e
    f = []
    f1 = []

    for i in range(len(df)):
        cuotas = df["Lista cuotas Bet365"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            f.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            f.append(df["Equipo Visitante"].iloc[i])
        else:
            f.append("Empate")
        f1.append(min_cuota)
    df["Cuota favorita Bet365"] = f
    df["Importe Cuota favorita Bet365"] = f1

    g = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita Bet365"].iloc[i]:
            g.append(1)
        else:
            g.append(0)
    df["Gana cuota favorita Bet365"] = g

    h = []
    for i in range(len(df)):
        h1 = [df["Cuota BWin Gana Local"].iloc[i], df["Cuota BWin Empate"].iloc[i],df["Cuota BWin Gana Visitante"].iloc[i]]
        h.append(h1)
    df["Lista cuotas BWin"] = h
    
    j = []
    j1 = []
    
    for i in range(len(df)):
        cuotas = df["Lista cuotas BWin"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            j.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            j.append(df["Equipo Visitante"].iloc[i])
        else:
            j.append("Empate")
        j1.append(min_cuota)
    df["Cuota favorita BWin"] = j
    df["Importe Cuota favorita BWin"] = j1

    k = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita BWin"].iloc[i]:
            k.append(1)
        else:
            k.append(0)
    df["Gana cuota favorita BWin"] = k

    l = []
    for i in range(len(df)):
        l1 = [df["Cuota Interwetten Gana Local"].iloc[i], df["Cuota Interwetten Empate"].iloc[i],df["Cuota Interwetten Gana Visitante"].iloc[i]]
        l.append(l1)
    df["Lista cuotas Interwetten"] = l
    
    m = []
    m1 = []
    
    for i in range(len(df)):
        cuotas = df["Lista cuotas Interwetten"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            m.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            m.append(df["Equipo Visitante"].iloc[i])
        else:
            m.append("Empate")
        m1.append(min_cuota)
    df["Cuota favorita Interwetten"] = m
    df["Importe Cuota favorita Interwetten"] = m1

    n = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita Interwetten"].iloc[i]:
            n.append(1)
        else:
            n.append(0)
    df["Gana cuota favorita Interwetten"] = n

    o = []
    for i in range(len(df)):
        o1 = [df["Cuota Pinnacle Gana Local"].iloc[i], df["Cuota Pinnacle Empate"].iloc[i],df["Cuota Pinnacle Gana Visitante"].iloc[i]]
        o.append(o1)
    df["Lista cuotas Pinnacle"] = o
    
    p = []
    p1 = []

    for i in range(len(df)):
        cuotas = df["Lista cuotas Pinnacle"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            p.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            p.append(df["Equipo Visitante"].iloc[i])
        else:
            p.append("Empate")
        p1.append(min_cuota)
    df["Cuota favorita Pinnacle"] = p
    df["Importe Cuota favorita Pinnacle"] = p1

    q = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita Pinnacle"].iloc[i]:
            q.append(1)
        else:
            q.append(0)
    df["Gana cuota favorita Pinnacle"] = q

    r = []
    for i in range(len(df)):
        r1 = [df["Cuota William Hill Gana Local"].iloc[i], df["Cuota William Hill Empate"].iloc[i],df["Cuota William Hill Gana Visitante"].iloc[i]]
        r.append(r1)
    df["Lista cuotas William Hill"] = r
    
    s = []
    s1 = []

    for i in range(len(df)):
        cuotas = df["Lista cuotas William Hill"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            s.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            s.append(df["Equipo Visitante"].iloc[i])
        else:
            s.append("Empate")
        s1.append(min_cuota)
    df["Cuota favorita William Hill"] = s
    df["Importe Cuota favorita William Hill"] = s1

    t = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita William Hill"].iloc[i]:
            t.append(1)
        else:
            t.append(0)
    df["Gana cuota favorita William Hill"] = t

    u = []
    for i in range(len(df)):
        u1 = [df["Cuota VC Bet Gana Local"].iloc[i], df["Cuota VC Bet Empate"].iloc[i],df["Cuota VC Bet Gana Visitante"].iloc[i]]
        u.append(u1)
    df["Lista cuotas VC Bet"] = u
    
    v = []
    v1 = []
    
    for i in range(len(df)):
        cuotas = df["Lista cuotas VC Bet"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            v.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            v.append(df["Equipo Visitante"].iloc[i])
        else:
            v.append("Empate")
        v1.append(min_cuota)
        
    df["Cuota favorita VC Bet"] = v
    df["Importe Cuota favorita VC Bet"] = v1

    w = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita VC Bet"].iloc[i]:
            w.append(1)
        else:
            w.append(0)
    df["Gana cuota favorita VC Bet"] = w

    x = []
    for i in range(len(df)):
        x1 = [df["Cuota PSC Gana Local"].iloc[i], df["Cuota PSC Empate"].iloc[i],df["Cuota PSC Gana Visitante"].iloc[i]]
        x.append(x1)
    df["Lista cuotas PSC"] = x
    
    y = []
    y1 = []
    
    for i in range(len(df)):
        cuotas = df["Lista cuotas PSC"][i]
        min_cuota = min(cuotas)
        if cuotas.index(min_cuota) == 0:
            y.append(df["Equipo Local"].iloc[i])
        elif cuotas.index(min_cuota) == 2:
            y.append(df["Equipo Visitante"].iloc[i])
        else:
            y.append("Empate")
        y1.append(min_cuota)
    df["Cuota favorita PSC"] = y
    df["Importe Cuota favorita PSC"] = y1

    z = []
   
    for i in range(len(df)):
        if df["Equipo ganador"].iloc[i] == df["Cuota favorita PSC"].iloc[i]:
            z.append(1)
        else:
            z.append(0)
    df["Gana cuota favorita PSC"] = z

    return df


In [36]:
def ordenar_columnas(df):
    '''
    En esta función, una vez aplicadas el resto de funciones del Dataframe, nos permitirá ordenar las columnas en un orden más lógico,
    para ver de forma más precisa la información.
    '''
    df = df.reindex(columns=['Liga', 'Fecha', 'Equipo Local', 'Equipo Visitante','Valor de mercado E.Local', 'Valor de mercado E.Visitante','Diferencia V.Mercado',
                             'Rdo V.Mercado','Equipo ganador descanso', 'Equipo ganador','Resultado descanso=final','Gana favorito','Goles en el partido E.Local', 
                             'Goles en el partido E.Visitante','Resultado final', 'Goles al descanso E.Local','Goles al descanso E.Visitante', 'Resultado al descanso',
                             'T.Amarillas E.Local', 'T.Amarillas E.Visitante', 'T.Rojas E.Local','T.Rojas E.Visitante', 'Cuota Bet365 Gana Local', 'Cuota Bet365 Empate', 
                             'Cuota Bet365 Gana Visitante', 'Lista cuotas Bet365', 'Cuota favorita Bet365','Importe Cuota favorita Bet365','Gana cuota favorita Bet365',
                             'Cuota BWin Gana Local','Cuota BWin Empate', 'Cuota BWin Gana Visitante','Lista cuotas BWin', 'Cuota favorita BWin','Importe Cuota favorita BWin', 
                             'Gana cuota favorita BWin','Cuota Interwetten Gana Local', 'Cuota Interwetten Empate','Cuota Interwetten Gana Visitante', 'Lista cuotas Interwetten',
                             'Cuota favorita Interwetten','Importe Cuota favorita Interwetten','Gana cuota favorita Interwetten','Cuota Pinnacle Gana Local','Cuota Pinnacle Empate', 
                             'Cuota Pinnacle Gana Visitante', 'Lista cuotas Pinnacle', 'Cuota favorita Pinnacle','Importe Cuota favorita Pinnacle', 'Gana cuota favorita Pinnacle',
                             'Cuota William Hill Gana Local', 'Cuota William Hill Empate','Cuota William Hill Gana Visitante', 'Lista cuotas William Hill', 
                             'Cuota favorita William Hill','Importe Cuota favorita William Hill','Gana cuota favorita William Hill','Cuota VC Bet Gana Local',
                             'Cuota VC Bet Empate', 'Cuota VC Bet Gana Visitante', 'Lista cuotas VC Bet','Cuota favorita VC Bet', 'Importe Cuota favorita VC Bet',
                             'Gana cuota favorita VC Bet','Cuota PSC Gana Local', 'Cuota PSC Empate', 'Cuota PSC Gana Visitante', 'Lista cuotas PSC', 'Cuota favorita PSC',
                             'Importe Cuota favorita PSC', 'Gana cuota favorita PSC'])
    return df

In [39]:
def limpieza_final_df(df):
    """
    Con esta función eliminaremos las columnas que no necesitaremos en nuestro análisis.
    """
    df = df.drop(columns=['Resultado final','Goles al descanso E.Local','Goles al descanso E.Visitante',
                          'Resultado al descanso','Lista cuotas Bet365','Lista cuotas BWin',
                          'Lista cuotas Interwetten','Lista cuotas Pinnacle','Lista cuotas William Hill','Lista cuotas VC Bet','Lista cuotas PSC'])
    return df