In [30]:
import pandas as pd
import ScraperFC as sfc

import warnings
warnings.filterwarnings('ignore', category=UserWarning)

In [2]:
# llamamos al scraper de la web FBRef
scraper = sfc.FBRef()

# variables
columnas = ['Rk', 'Squad', 'MP', 'W', 'D', 'L', 'GF', 'GA', 'GD', 'Pts']
letras = 'ABCDEFGH'  # para asignar el grupo

In [27]:
dict_team_id = {}

def check_id(team_name, dict=dict_team_id):
    if team_name not in dict.keys():
        return False
    return True

def get_id(team_name, dict=dict_team_id):
    if not check_id(team_name, dict): # (not False==True) si no está en el diccionario
        dict[team_name] = len(dict) + 1
        return dict[team_name]
    else:
        return dict[team_name]

In [22]:
team_id = {'Barcelona':1}
check_id('Barcelona', team_id)

True

In [23]:
check_id('Atletico', team_id)

False

In [26]:
get_id('Atletico', team_id)

2

## Fase Grupos

In [29]:
for temporada in range(2004, 2024):
    lista_grupos_temp = scraper.scrape_league_table(temporada, 'Champions League')

    # seleccionamos solo los DataFrames de la fase de grupos
    lista_fg_temp = lista_grupos_temp.copy()[0:8]

    # para cada tabla de clasificación de los grupos
    for i in range(8):
        # nos quedamos solo con las columnas que nos interesan
        lista_fg_temp[i] = lista_fg_temp[i].copy()[columnas]

        # añadimos una columna con el grupo al que pertenecen
        lista_fg_temp[i]['Group'] = letras[i]

        # añadir columna de la temporada
        lista_fg_temp[i]['Year'] = temporada

        # asignar Team_ID por nombre del equipo
        lista_fg_temp[i]['Team_ID'] = lista_fg_temp[i]['Squad'].apply(get_id)

    # juntamos todos los DataFrames de la fase de grupos en uno solo
    df_fg_temp = pd.concat(lista_fg_temp, ignore_index=True)

    # establecemos el Team_ID como índice del DataFrame
    df_fg_temp.set_index('Team_ID', inplace=True)

    # guardar en un csv
    df_fg_temp.to_csv(f'../data/01_fase_grupos/UCL_FG_{temporada}.csv')

    print(f'Dataset temporada {temporada} guardado.')
    print('\n')

print('PROCESO FINALIZADO')

Scraping 2004 Champions League league table


Dataset temporada 2004 guardado.


Scraping 2005 Champions League league table
Dataset temporada 2005 guardado.


Scraping 2006 Champions League league table
Dataset temporada 2006 guardado.


Scraping 2007 Champions League league table
Dataset temporada 2007 guardado.


Scraping 2008 Champions League league table
Dataset temporada 2008 guardado.


Scraping 2009 Champions League league table
Dataset temporada 2009 guardado.


Scraping 2010 Champions League league table
Dataset temporada 2010 guardado.


Scraping 2011 Champions League league table
Dataset temporada 2011 guardado.


Scraping 2012 Champions League league table
Dataset temporada 2012 guardado.


Scraping 2013 Champions League league table
Dataset temporada 2013 guardado.


Scraping 2014 Champions League league table
Dataset temporada 2014 guardado.


Scraping 2015 Champions League league table
Dataset temporada 2015 guardado.


Scraping 2016 Champions League league table
Dataset temporada 2016 guardado.


Scraping 2017 Cha

## Clasificación Final

In [5]:
# iteramos sobre el rango de temporadas desde 2004 hasta 2023
for temporada in range(2004, 2024):
    lista_grupos_temp = scraper.scrape_league_table(temporada, 'Champions League')

    # seleccionamos el último DataFrame de la lista
    df_final = lista_grupos_temp[-1]

    # nos quedamos con las columnas que nos interesan
    df_final_clean = df_final.loc[:, columnas]

    # quitamos los valores nulos
    df_final_clean.dropna(inplace=True)

    # añadir año
    df_final_clean['Year'] = temporada

    # Asignar Team_ID basado en el nombre del equipo
    df_final_clean['Team_ID'] = df_final_clean['Squad'].apply(get_id)

    # Rename the column 'Rk' to 'Stage'
    df_final_clean.rename(columns={'Rk': 'Stage'}, inplace=True)

    # ranking incremental
    df_final_clean['Rk'] = range(1, len(df_final_clean) + 1)

    # reordenar las columnas
    df_final_clean = df_final_clean[['Team_ID', 'Rk', 'Stage', 'Squad', 'MP', 'W', 'D', 'L', 'GF', 'GA', 'GD', 'Pts', 'Year']]

    # establecemos el Team_ID como índice del DataFrame
    df_final_clean.set_index('Team_ID', inplace=True)

    # guardar en CSV
    df_final_clean.to_csv(f'../data/03_clasif_final/UCL_CF_{temporada}.csv')

    print(f'Dataset temporada {temporada} guardado.')
    print('\n')

print('PROCESO FINALIZADO')

Scraping 2004 Champions League league table
Dataset temporada 2004 guardado.


Scraping 2005 Champions League league table
Dataset temporada 2005 guardado.


Scraping 2006 Champions League league table
Dataset temporada 2006 guardado.


Scraping 2007 Champions League league table
Dataset temporada 2007 guardado.


Scraping 2008 Champions League league table
Dataset temporada 2008 guardado.


Scraping 2009 Champions League league table
Dataset temporada 2009 guardado.


Scraping 2010 Champions League league table
Dataset temporada 2010 guardado.


Scraping 2011 Champions League league table
Dataset temporada 2011 guardado.


Scraping 2012 Champions League league table
Dataset temporada 2012 guardado.


Scraping 2013 Champions League league table
Dataset temporada 2013 guardado.


Scraping 2014 Champions League league table
Dataset temporada 2014 guardado.


Scraping 2015 Champions League league table
Dataset temporada 2015 guardado.


Scraping 2016 Champions League league table
Dataset 

## 2024
(sólo hay fase de grupos)

In [31]:
temporada = 2024

lista_grupos_temp = scraper.scrape_league_table(temporada, 'Champions League')

# seleccionamos solo los DataFrames de la fase de grupos
lista_fg_temp = lista_grupos_temp.copy()[0:8]

# para cada tabla de clasificación de los grupos
for i in range(8):
    # nos quedamos solo con las columnas que nos interesan
    lista_fg_temp[i] = lista_fg_temp[i].copy()[columnas]

    # añadimos una columna con el grupo al que pertenecen
    lista_fg_temp[i]['Group'] = letras[i]

    # añadir columna de la temporada
    lista_fg_temp[i]['Year'] = temporada

    # asignar Team_ID por nombre del equipo
    lista_fg_temp[i]['Team_ID'] = lista_fg_temp[i]['Squad'].apply(get_id)

# juntamos todos los DataFrames de la fase de grupos en uno solo
df_fg_temp = pd.concat(lista_fg_temp, ignore_index=True)

# establecemos el Team_ID como índice del DataFrame
df_fg_temp.set_index('Team_ID', inplace=True)

# guardar en un csv
df_fg_temp.to_csv(f'../data/01_fase_grupos/UCL_FG_{temporada}.csv')

print(f'Dataset temporada {temporada} guardado.')

Scraping 2024 Champions League league table
Dataset temporada 2024 guardado.
