In [1]:
import os
import pandas as pd
import numpy as np

In [2]:
def formatear_base(db):
    df = db.copy().reset_index(drop=True)
    if 'fecha' in df.columns:
        df = df.sort_values(by=['Torneo','Round'], ascending = [True,True]).reset_index(drop=True)
    equipos = df['Local'].unique()
    equipos = pd.DataFrame(equipos, columns=['equipo'])
    equipos['i'] = equipos.index
    df = pd.merge(df, equipos, left_on='Local', right_on='equipo', how='left')
    df = df.rename(columns = {'i': 'i_local'}).drop('equipo', 1)
    df = pd.merge(df, equipos, left_on='Visita', right_on='equipo', how='left')
    df = df.rename(columns = {'i': 'i_visita'}).drop('equipo', 1)
    df = df.replace({'. Round' : ''}, regex = True)
    df['Round'] = df['Round'].astype(int)
    df['goles L'] = df['goles L'].astype(int)
    df['goles V'] = df['goles V'].astype(int)
    return df

In [3]:
def tabla_historica(db, n_torneos):
    df = db.copy().reset_index(drop=True)
    if 'i_local' not in df.columns:
        df = formatear_base(df)
    tabla = df[['Local','i_local']].drop_duplicates()
    tabla = tabla.set_index(['i_local'])
    tabla.columns = ['equipo']
    conditions = [
            (df['goles L'] > df['goles V']),
            (df['goles L'] < df['goles V'])]
    choices = ['local', 'visita']
    df = df.join(pd.get_dummies(np.select(conditions, choices, default = 'empate')))
    ghome = df.groupby('i_local')
    gaway = df.groupby('i_visita')
    df_home = pd.DataFrame({'wins_h': ghome['local'].sum(),
                            'draws_h': ghome['empate'].sum(),
                            'losses_h': ghome['visita'].sum(),
                            'gf_h': ghome['goles L'].sum(),
                            'ga_h': ghome['goles V'].sum(),
                            'gd_h': ghome['goles L'].sum() - ghome['goles V'].sum()})
    df_away = pd.DataFrame({'wins_a': gaway['visita'].sum(),
                            'draws_a': gaway['empate'].sum(),
                            'losses_a': gaway['local'].sum(),
                            'gf_a': gaway['goles V'].sum(),
                            'ga_a': gaway['goles L'].sum(),
                            'gd_a': gaway['goles V'].sum() - gaway['goles L'].sum()})
    tabla = tabla.join(df_home, how='left').join(df_away,how = 'left').fillna(0)
    tabla['wins'] = tabla.wins_h + tabla.wins_a
    tabla['draws'] = tabla.draws_h + tabla.draws_a
    tabla['losses'] = tabla.losses_h + tabla.losses_a
    tabla['gf'] = tabla.gf_h + tabla.gf_a
    tabla['ga'] = tabla.ga_h + tabla.ga_a
    tabla['gd'] = tabla.gd_h + tabla.gd_a
    tabla['points'] = (tabla['wins']*3 + tabla['draws']).astype(int)
    #Normalizar puntajes
    tabla['norm_points'] = tabla['points']/n_torneos
    tabla = tabla.sort_values(by=['norm_points','gd'], ascending = False).reset_index(drop=True)
    tabla['position'] = (tabla.index + 1).astype(int)
    return tabla[['equipo','wins','draws','losses','gf','ga','gd','norm_points','position']]

In [4]:
def tabla_historica_local(db, n_torneos):
    df = db.copy().reset_index(drop=True)
    if 'i_local' not in df.columns:
        df = formatear_base(df)
    tabla = df[['Local','i_local']].drop_duplicates()
    tabla = tabla.set_index(['i_local'])
    tabla.columns = ['equipo']
    conditions = [
            (df['goles L'] > df['goles V']),
            (df['goles L'] < df['goles V'])]
    choices = ['local', 'visita']
    df = df.join(pd.get_dummies(np.select(conditions, choices, default = 'empate')))
    ghome = df.groupby('i_local')
    df_home = pd.DataFrame({'wins': ghome['local'].sum(),
                            'draws': ghome['empate'].sum(),
                            'losses': ghome['visita'].sum(),
                            'gf': ghome['goles L'].sum(),
                            'ga': ghome['goles V'].sum(),
                            'gd': ghome['goles L'].sum() - ghome['goles V'].sum()})
    tabla = tabla.join(df_home, how='left').fillna(0)
    tabla['points'] = (tabla['wins']*3 + tabla['draws']).astype(int)
    #Normalizar puntos según cantidad de partidos jugados de local
    tabla['norm_points'] = (tabla['points']/(tabla['wins'] + tabla['draws'] + tabla['losses']))/n_torneos
    tabla = tabla.sort_values(by=['norm_points','points','gd'], ascending = False).reset_index(drop=True)
    tabla['position'] = (tabla.index + 1).astype(int)
    return tabla[['equipo','wins','draws','losses','gf','ga','gd','points','position']]

In [5]:
def tabla_historica_visita(db, n_torneos):
    df = db.copy()
    if 'i_visita' not in df.columns:
        df = formatear_base(df)
    tabla = df[['Visita','i_visita']].drop_duplicates()
    tabla = tabla.set_index(['i_visita'])
    tabla.columns = ['equipo']
    conditions = [
            (df['goles L'] > df['goles V']),
            (df['goles L'] < df['goles V'])]
    choices = ['local', 'visita']
    df = df.join(pd.get_dummies(np.select(conditions, choices, default = 'empate')))
    gaway = df.groupby('i_visita')
    df_away = pd.DataFrame({'wins': gaway['visita'].sum(),
                            'draws': gaway['empate'].sum(),
                            'losses': gaway['local'].sum(),
                            'gf': gaway['goles V'].sum(),
                            'ga': gaway['goles L'].sum(),
                            'gd': gaway['goles V'].sum() - gaway['goles L'].sum()})
    tabla = tabla.join(df_away, how='left').fillna(0)
    tabla['points'] = (tabla['wins']*3 + tabla['draws']).astype(int)
    #Normalizar puntos según cantidad de partidos jugados de local
    tabla['norm_points'] = (tabla['points']/(tabla['wins'] + tabla['draws'] + tabla['losses']))/n_torneos
    tabla = tabla.sort_values(by=['norm_points','points','gd'], ascending = False).reset_index(drop=True)
    tabla['position'] = (tabla.index + 1).astype(int)
    return tabla[['equipo','wins','draws','losses','gf','ga','gd','points','position']]

In [6]:
def variables_efecto_secuencial(df_actual, ronda_corte = 5, punto_corte = 5, t_ants = 3):
    r,c,h = ronda_corte, punto_corte, t_ants
    torneo = df_actual['Torneo'].drop_duplicates().values[0]
    df_test_pX = df_actual[df_actual['Round'] <= ronda_corte]
    cols_local = ['Visita'] + [i for i in df_actual.columns if '_' in i and 'local' not in i and 'ronda' not in i]
    func_local = ['count'] + ['mean' if i.startswith('posicion') else 'sum' for i in cols_local[1:]]
    cols_visita = ['Local'] + [i for i in df_actual.columns if '_' in i and 'visita' not in i and 'ronda' not in i]
    func_visita = ['count'] + ['mean' if i.startswith('posicion') else 'sum' for i in cols_visita[1:]]
    dict_df_local = dict(zip(cols_local,func_local))
    dict_df_visita = dict(zip(cols_visita,func_visita))
    g_test_l = df_test_pX.groupby('Local').agg(dict_df_local)
    g_test_l.columns = ['partidos_local'] + cols_local[1:]
    g_test_v = df_test_pX.groupby('Visita').agg(dict_df_visita)
    g_test_v.columns = ['partidos_visita'] + cols_visita[1:]
    cols_ronda_local = [i for i in df_actual.columns if 'ronda' in i and 'local' not in i]
    func_ronda = ['min' for i in cols_ronda_local]
    g_test_ronda_local = df_actual.groupby('Local').agg(dict(zip(cols_ronda_local,func_ronda)))
    cols_ronda_visita = [i for i in df_actual.columns if 'ronda' in i and 'visita' not in i]
    g_test_ronda_visita = df_actual.groupby('Visita').agg(dict(zip(cols_ronda_visita,func_ronda)))
    g_test_ronda = g_test_ronda_local.join(g_test_ronda_visita)
    g_test_lv = g_test_l.join(g_test_v)
    """
    SIGNIFICADO VARIABLES
    
    total_partidos: total de partidos disputados en las primeras X rondas
    
    facil_general: cantidad de partidos fáciles considerando la tabla general del
    torneo anterior
    perc_facil_general: porcentaje partidos fáciles considerando la tabla general
    del torneo anterior
    dificil_general: cantidad de partidos difíciles considerando la tabla general
    del torneo anterior
    perc_dificil_general: porcentaje partidos difíciles considerando la tabla general
    del torneo anterior
    
    facil_lv: cantidad de partidos fáciles considerando las tablas de local y visita
    del torneo anterior
    perc_facil_lv: porcentaje partidos fáciles considerando las tablas de local y visita
    del torneo anterior
    dificil_lv: cantidad de partidos difíciles considerando las tablas de local y visita
    del torneo anterior
    perc_dificil_lv: porcentaje partidos difíciles considerando las tablas de local y visita
    del torneo anterior
    
    prom_posicion_general: promedio de posición de rivales considerando tabla general
    del torneo anterior
    prom_posicion_lv: promedio de posición de rivales considerando las tablas de local y visita
    del torneo anterior
    
    ronda_primer_facil_general: ronda en que juega contra el primer equipo fácil según la tabla general
    del torneo anterior
    ronda_primer_dificil_general: ronda en que juega contra el primer equipo difícil según la tabla general
    del torneo anterior
    ronda_primer_facil_lv: ronda en que juega contra el primer equipo fácil según las tablas de local y visita
    del torneo anterior
    ronda_primer_dificil_lv: ronda en que juega contra el primer equipo difícil según las tablas de local y visita
    del torneo anterior
    """
    g_test_lv['total_partidos'] = g_test_lv['partidos_local'] + g_test_lv['partidos_visita']
    
    g_test_lv['facil_general'] = g_test_lv['f_gral_local'] + g_test_lv['f_gral_visita']
    g_test_lv['perc_facil_general_h%s_p%s_c%s' % (h,r,c)] = g_test_lv['facil_general']/g_test_lv['total_partidos']
    g_test_lv['dificil_general'] = g_test_lv['d_gral_local'] + g_test_lv['d_gral_visita']
    g_test_lv['perc_dificil_general_h%s_p%s_c%s' % (h,r,c)] = g_test_lv['dificil_general']/g_test_lv['total_partidos']
    g_test_lv['facil_lv'] = g_test_lv['f_local'] + g_test_lv['f_visita']
    g_test_lv['perc_facil_lv_h%s_p%s_c%s' % (h,r,c)] = g_test_lv['facil_lv']/g_test_lv['total_partidos']
    g_test_lv['dificil_lv'] = g_test_lv['d_local'] + g_test_lv['d_visita']
    g_test_lv['perc_dificil_lv_h%s_p%s_c%s' % (h,r,c)] = g_test_lv['dificil_lv']/g_test_lv['total_partidos']

    
    g_test_lv = g_test_lv[[i for i in g_test_lv if i not in cols_local and i not in cols_visita and 'partidos' not in i]]
    g_test_lv = g_test_lv[[i for i in g_test_lv if not i.endswith('general') and not i.endswith('lv')]]
    t_act = tabla_historica(df_actual, 1)[['equipo','position']]

    df_efecto = pd.merge(t_act, g_test_lv, left_on = 'equipo', right_index = True)
    df_efecto = df_efecto[[i for i in df_efecto.columns if i not in ['position','points']]]
    return df_efecto

In [7]:
#RESPALDO
def indicadores_torneo(df,torneo_actual):
    """
    Crea las columnas que se agregarán para definir los indicadores de interés
    """
    Torneos = df['Torneo'].drop_duplicates().tolist()
    idx = Torneos.index(torneo_actual)

    
    df_actual = formatear_base(df[df['Torneo'] == torneo_actual])[['Local','Visita','goles L','goles V','Torneo','Round']].sort_values(by=['Round'], ascending = True).reset_index(drop=True)    
    eq_act = df_actual['Local'].drop_duplicates().tolist()

    # reemplazar o eliminar equipos descendidos
    cols_main = ['equipo', 'position', 'Torneo']
    dfs_efecto = []
    for h in [1,2,3,4,5]:
        df_hist = df[df['Torneo'].isin(Torneos[idx-h:idx])]
        t_ant = tabla_historica(df_hist, h)
        t_ant_local = tabla_historica_local(df_hist, h)
        t_ant_visita = tabla_historica_visita(df_hist, h)
        eq_hist = t_ant[t_ant['equipo'].isin(eq_act)]['equipo'].tolist()
        eq_hist_l = t_ant_local[t_ant_local['equipo'].isin(eq_act)]['equipo'].tolist()
        eq_hist_v = t_ant_visita[t_ant_visita['equipo'].isin(eq_act)]['equipo'].tolist()
        if len(eq_hist) == len(eq_act):
            nuevos = []
            parch_ul = 0
        else:
            nuevos = [i for i in eq_act if i not in eq_hist]
            parch_ul = 1
        for c in [3,4,5]:
            pto_corte = c
            equipos_5p = eq_hist[:c]
            local_5p = eq_hist_l[:c]
            visita_5p = eq_hist_v[:c]

            equipos_5u = eq_hist[-(c-parch_ul):] + nuevos
            local_5u = eq_hist_l[-(c-parch_ul):] + nuevos
            visita_5u = eq_hist_v[-(c-parch_ul):] + nuevos

#             dict_eq_pos_gral = dict(zip(t_ant['equipo'].values, t_ant['position'].values))
#             dict_eq_pos_local = dict(zip(t_ant_local['equipo'].values, t_ant_local['position'].values))
#             dict_eq_pos_visita = dict(zip(t_ant_visita['equipo'].values, t_ant_visita['position'].values))


            """
            SIGNIFICADO VARIABLES


            f_gral_visita: 1 si el equipo visitante es fácil según la tabla general
            del torneo anterior, 0 si no
            d_gral_visita: 1 si el equipo visitante es difícil según la tabla general
            del torneo anterior, 0 si no
            f_gral_local: 1 si el equipo local es fácil según la tabla general
            del torneo anterior, 0 si no
            d_gral_local: 1 si el equipo local es difícil según la tabla general
            del torneo anterior, 0 si no

            f_visita: 1 si el equipo visitante es fácil jugando de visita según
            la tabla de posiciones de visita, 0 si no
            d_visita: 1 si el equipo visitante es difícil jugando de visita según
            la tabla de posiciones de visita, 0 si no
            f_local: 1 si equipo local es fácil jugando de local según
            la tabla de posiciones de local, 0 si no
            d_local: 1 si el equipo local es difícil jugando de local según
            la tabla de posiciones de local, 0 si no

            f_..._corr es lo mismo, salvo que se hacre la corrección de pertenecer
            al mismo grupo

            posicion_gral_visita: posición del equipo visitante según la tabla general del
            torneo anterior
            posicion_gral_local: posición del equipo local según la tabla general del
            torneo anterior
            posicion_visita: posición del equipo visitante según la tabla de visita del
            torneo anterior
            posicion_local: posición del equipo local según la tabla de local del
            torneo anterior

            ronda_f_gral_visita: si el equipo visitante es fácil según la tabla general,
            toma valor igual a la ronda. Si no lo es, toma np.nan
            ronda_d_gral_visita: si el equipo visitante es difícil según la tabla general,
            toma valor igual a la ronda. Si no lo es, toma np.nan    
            ronda_f_gral_local: si el equipo local es fácil según la tabla general,
            toma valor igual a la ronda. Si no lo es, toma np.nan
            ronda_d_gral_local: si el equipo local es difícil según la tabla general,
            toma valor igual a la ronda. Si no lo es, toma np.nan

            ronda_f_visita: si el equipo visitante es fácil según la tabla de visita,
            toma valor igual a la ronda. Si no lo es, toma np.nan
            ronda_d_visita: si el equipo visitante es difícil según la tabla de visita,
            toma valor igual a la ronda. Si no lo es, toma np.nan    
            ronda_f_local: si el equipo local es fácil según la tabla de local,
            toma valor igual a la ronda. Si no lo es, toma np.nan
            ronda_d_local: si el equipo local es difícil según la tabla de local,
            toma valor igual a la ronda. Si no lo es, toma np.nan


            """

            df_actual['f_gral_visita'] = np.where(df_actual['Visita'].isin(equipos_5u), 1, 0)
            df_actual['d_gral_visita'] = np.where(df_actual['Visita'].isin(equipos_5p), 1, 0)
            df_actual['f_gral_local'] = np.where(df_actual['Local'].isin(equipos_5u), 1, 0)
            df_actual['d_gral_local'] = np.where(df_actual['Local'].isin(equipos_5p), 1, 0)    

            df_actual['f_visita'] = np.where(df_actual['Visita'].isin(visita_5u), 1, 0)
            df_actual['d_visita'] = np.where(df_actual['Visita'].isin(visita_5p), 1, 0)
            df_actual['f_local'] = np.where(df_actual['Local'].isin(local_5u), 1, 0)
            df_actual['d_local'] = np.where(df_actual['Local'].isin(visita_5p), 1, 0)

            for r in [4,5,6,7]:
                df_efecto = variables_efecto_secuencial(df_actual, punto_corte = c, ronda_corte = r, t_ants = h)
                if r == 4:
                    conditions_g = [
                            (df_efecto['equipo'].isin(equipos_5p)),
                            (df_efecto['equipo'].isin(equipos_5u))]
                    conditions_l = [
                            (df_efecto['equipo'].isin(local_5p)),
                            (df_efecto['equipo'].isin(local_5u))]
                    conditions_v = [
                            (df_efecto['equipo'].isin(visita_5p)),
                            (df_efecto['equipo'].isin(visita_5u))]
                    conditions = [conditions_g, conditions_l, conditions_v]
                    choices = ['dificil','facil']
                    newvar_names = ['categoria_general_h%s_c%s' % (h,c),
                                    'categoria_local_h%s_c%s' % (h,c),
                                    'categoria_visita_h%s_c%s' % (h,c)]
                    for n in range(len(newvar_names)):
                        newvar = newvar_names[n]    
                        condition = conditions[n]
                        df_efecto[newvar] = np.select(condition,
                                                      choices,
                                                      default = 'regular')
                        df_efecto[newvar] = df_efecto[newvar].astype('category')
                        df_efecto[newvar].cat.reorder_categories(['regular', 'facil','dificil'], inplace = True)
                    if c == 3:
                        dfs_efecto.append(df_efecto)
                    else:
                        dfs_efecto.append(df_efecto[[i for i in df_efecto.columns if i not in cols_main]])
                else:
                    dfs_efecto.append(df_efecto[[i for i in df_efecto.columns if i not in cols_main]])


    df_efecto_final = pd.concat(dfs_efecto, axis = 1)
    df_efecto_final['Torneo'] = torneo_actual
    df_efecto_final = df_efecto_final.loc[:, ~df_efecto_final.columns.duplicated()]
    return df_efecto_final

In [8]:
def indicadores_liga(df, df_ext):
    df = df[['equipo','Torneo'] + 
            [c for c in df.columns.tolist() if 'points' in c or 'position' in c] + 
            [c for c in df.columns.tolist() if 'elo' in c and c not in ['facil_elo','dificil_elo']]]
    Torneos = df['Torneo'].drop_duplicates().tolist()
    dfs_efecto = []
    for torneo in Torneos:
        dfs_efecto.append(indicadores_torneo(df_ext,torneo))
    df_efecto = pd.concat(dfs_efecto, axis = 0, ignore_index = True)
    df_efecto_final = df.merge(df_efecto, how = 'left', left_on = ['equipo','Torneo'], right_on = ['equipo','Torneo'])
    return df_efecto_final

In [9]:
def bases_efecto_secuencial(datadir,ligasextdir):
#     ligas = ['Alemania','Espana','Francia','Inglaterra','Italia']
    ligas = ['Italia'] 
    for liga in ligas:
        file = liga + '.xlsx'
        print('Generando: % s           ' % liga, end = '\t\r')
        df = pd.read_excel(os.path.join(datadir, file))
        df_ext = pd.read_excel(os.path.join(ligasextdir, liga + '.xlsx'))
        df_efecto = indicadores_liga(df, df_ext)
        df_efecto = df_efecto.loc[:, ~df_efecto.columns.duplicated()]
        df_efecto.to_excel(os.path.join(datadir, file), sheet_name = liga, index = False)

In [10]:
%%time
datadir = os.path.join(os.path.pardir,'datos','regresiones')
ligasextdir = os.path.join(os.path.pardir,'datos','ligas-hist')
bases_efecto_secuencial(datadir,ligasextdir)

CPU times: user 53.8 s, sys: 107 ms, total: 53.9 s
Wall time: 54.3 s
