In [1]:
################################################################################################
################################################################################################
## REVISIÓN DE VERSIONES                                                                      ##
##                                                                                            ##
## v.3.1.                                                                                     ##
## - limpieza de código                                                                       ##
## - sustituido .append por pd.concat                                                         ##
##                                                                                            ##
## v.3.0                                                                                      ##
## - hace scraping de uns lista de competiciones y página de partidos diarios                 ##
## - busca registros duplicados y los elimina                                                 ##
## - añade columna con los porcentajes de partidos NoGoal                                     ##
##                                                                                            ##
## v.2.1                                                                                      ##
## - añade la paginación de los partidos diarios                                              ##
##                                                                                            ##
## v.2.0                                                                                      ##
## - scraping de una página específica de partidos diarios                                    ##
## - crea dataframe y lo envía a archivo .csv                                                 ##
##                                                                                            ##
################################################################################################
################################################################################################

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
from tqdm import tqdm

In [3]:
def obtener_stats(func_stats):
    stats_dict = {}
    
    date = func_stats.find('div', attrs={'class':'info match-link'})
    if date:
        stats_dict['date'] = date.get('starttime').replace('T',' ').replace(':00+00:00','')
    else:
        stats_dict['date'] = '-'
 
    zerozero = func_stats.find('div', attrs={'class':'content-box draw'}).find('div', attrs={'class':'cont'})
    if zerozero:
        stats_dict['zerozero'] = zerozero.get_text('/',strip=True).replace('%','')[4:10]
    else:
        stats_dict['zerozero'] = '-' 
        
    homeRank = func_stats.find('div', attrs={'class':'position t1'})
    if homeRank:
        stats_dict['homeRank'] = homeRank.get_text()
    else:
        stats_dict['homeRank'] = '-'    
            
    homeTeam = func_stats.find('p', attrs={'itemprop':'homeTeam'})
    if homeTeam:
        stats_dict['homeTeam'] = homeTeam.get_text('/', strip=True)
    else:
        stats_dict['homeTeam'] = '-'

    homeVictory = func_stats.find('div', attrs={'class':'content-box t-1'}).find('div', attrs={'class':'poss-box'})
    if homeVictory:
        stats_dict['homeVictory'] = homeVictory.get_text('/', strip=True).replace('/Probabilidad gana/',' - ')[0:2]
    else:
        stats_dict['homeVictory'] = '-'     
        
    homeGoals = func_stats.find('div', attrs={'class':'content-box t-1'}).find('div', attrs={'class':'poss-box'})
    if homeGoals:
        stats_dict['homeGoals'] = homeGoals.get_text('/', strip=True).replace('/Probabilidad gana/',' - ').replace('/Goles esperados','')[6::].replace('-','')
    else:
        stats_dict['homeGoals'] = '-'   

    awayGoals = func_stats.find('div', attrs={'class':'content-box t-2'}).find('div', attrs={'class':'poss-box'})
    if awayGoals:
        stats_dict['awayGoals'] = awayGoals.get_text('/', strip=True).replace('/Probabilidad gana/',' - ').replace('/Goles esperados','')[6::].replace('-','')
    else:
        stats_dict['awayGoals'] = '-'   
        
    awayVictory = func_stats.find('div', attrs={'class':'content-box t-2'}).find('div', attrs={'class':'poss-box'})
    if awayVictory:
        stats_dict['awayVictory'] = awayVictory.get_text('/', strip=True).replace('/Probabilidad gana/',' - ')[0:2]
    else:
        stats_dict['awayVictory'] = '-'     

    awayTeam = func_stats.find('p', attrs={'itemprop':'awayTeam'})
    if awayTeam:
        stats_dict['awayTeam'] = awayTeam.get_text('/', strip=True)
    else:
        stats_dict['awayTeam'] = '-'     
     
    awayRank = func_stats.find('div', attrs={'class':'position t2'})
    if awayRank:
        stats_dict['awayRank'] = awayRank.get_text()
    else:
        stats_dict['awayRank'] = '-' 
        
    competition = func_stats.find('h3', attrs={'class':'competition'})
    if competition:
        stats_dict['competition'] = competition.get_text('/', strip=True)
    else:
        stats_dict['competition'] = '-'
   
    return stats_dict

In [4]:
df = pd.DataFrame()

In [5]:
lista_competiciones = ['https://es.besoccer.com/competicion/ligue_1']

In [6]:
lista_diaria = []
url_diaria1 = 'https://es.besoccer.com/livescore/2022-10-01'
for i in range(1,5):
    url = url_diaria1+f'/{i}'
    lista_diaria.append(url)
url_diaria2 = 'https://es.besoccer.com/livescore/2022-10-02'
for i in range(1,5):
    url = url_diaria2+f'/{i}'
    lista_diaria.append(url)
url_diaria3 = 'https://es.besoccer.com/livescore/2022-09-30'
for i in range(1,5):
    url = url_diaria3+f'/{i}'
    lista_diaria.append(url)

lista_diaria

['https://es.besoccer.com/livescore/2022-10-01/1',
 'https://es.besoccer.com/livescore/2022-10-01/2',
 'https://es.besoccer.com/livescore/2022-10-01/3',
 'https://es.besoccer.com/livescore/2022-10-01/4',
 'https://es.besoccer.com/livescore/2022-10-02/1',
 'https://es.besoccer.com/livescore/2022-10-02/2',
 'https://es.besoccer.com/livescore/2022-10-02/3',
 'https://es.besoccer.com/livescore/2022-10-02/4',
 'https://es.besoccer.com/livescore/2022-09-30/1',
 'https://es.besoccer.com/livescore/2022-09-30/2',
 'https://es.besoccer.com/livescore/2022-09-30/3',
 'https://es.besoccer.com/livescore/2022-09-30/4']

In [7]:
lista_scrapear = lista_competiciones
lista_scrapear

['https://es.besoccer.com/competicion/ligue_1']

In [8]:
for url in lista_scrapear:
    besoccer = requests.get(url)
    s_besoccer = BeautifulSoup(besoccer.text, 'lxml')
    try:
        matches = s_besoccer.find('div', attrs={'class':'comp-matches'}).find_all('a', attrs={'data-status':'-1'})
    except Exception as e1:
        print(i,'.- La url ',url,' no se pudo scrapear')
        print(i,'.-',e1)
        print(i,'.- Probando otra configuración...')
        try:
            matches = s_besoccer.find('div', attrs={'class':'matches'}).find_all('a', attrs={'data-status':'-1'})
        except Exception as e2:
            print(i,'.- La url ',url,' no se pudo scrapear')
            print(i,'.-',e2)

    links_matches = [match.get('href') for match in matches]
    for i in range(len(links_matches)):
        list_analisis = []
        r_match = requests.get(links_matches[i])
        s_match = BeautifulSoup(r_match.text, 'lxml')
        try:
            find_analisis = s_match.find('div', attrs={'class':'menu-scroll'}).select('a[href*="analisis"]')
            analisis = find_analisis[0]
            link_analisis = analisis.get('href')
            r_link_analisis = requests.get(link_analisis)
            s_link_analisis = BeautifulSoup(r_link_analisis.text, 'lxml')
            list_iter = [obtener_stats(s_link_analisis)]
            df_iter = pd.DataFrame(list_iter)
            df = pd.concat([df, df_iter], axis = 0, ignore_index = True)
            #df = df.append(obtener_stats(s_link_analisis), ignore_index = True)
            print(i,'.- Scrapeando',url)
            print(i,'.-', link_analisis)
        except Exception as e3:
            print(i,'.- La url ',links_matches[i],' no tiene sección análisis')
            print(i,'.-',e3)
            


0 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
0 .- https://es.besoccer.com/partido/strasbourg/stade-rennes/202324751/analisis
1 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
1 .- https://es.besoccer.com/partido/paris-saint-germain-fc/nice/202324737/analisis
2 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
2 .- https://es.besoccer.com/partido/lorient/lillestrom/202324734/analisis
3 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
3 .- https://es.besoccer.com/partido/ajaccio/clermont-foot/202324724/analisis
4 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
4 .- https://es.besoccer.com/partido/auxerre/stade-brestois-29/202324727/analisis
5 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
5 .- https://es.besoccer.com/partido/toulouse-fc/montpellier-hsc/202324752/analisis
6 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
6 .- https://es.besoccer.com/partido/troyes/stade-reims/202324754/analisis
7 .- Scrapeando https:

In [9]:
# cuenta el número de registros encontrados

len(df)

9

In [10]:
# busca si hay registros duplicados

df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
dtype: bool

In [11]:
# elimina los registros duplicados

df = df.drop_duplicates()

In [12]:
# cuenta el número de registros restantes después de eliminar duplicados

len(df)

9

In [13]:
df.loc[df.competition.str.contains('liga escocia', case = False), "NoGoal%"] = '92.85'
df.loc[df.competition.str.contains('serie b - brasil', case = False), "NoGoal%"] = '92.06'
df.loc[df.competition.str.contains('liga fútbol japón', case = False), "NoGoal%"] = '88.67'
df.loc[df.competition.str.contains('liga irlanda.', case = False), "NoGoal%"] = '87.67'
df.loc[df.competition.str.contains('segunda división.', case = False), "NoGoal%"] = '86.36'
df.loc[df.competition.str.contains('segunda japonesa j2', case = False), "NoGoal%"] = '84.72'
df.loc[df.competition.str.contains('league one.', case = False), "NoGoal%"] = '84.25'
df.loc[df.competition.str.contains('liga profesional argentina', case = False), "NoGoal%"] = '83.45'
df.loc[df.competition.str.contains('ligue 2', case = False), "NoGoal%"] = '83.14'

In [14]:

df#.style.set_properties(**{'text-align': 'center'}) 

Unnamed: 0,date,zerozero,homeRank,homeTeam,homeVictory,homeGoals,awayGoals,awayVictory,awayTeam,awayRank,competition,NoGoal%
0,2022-10-01 15:00,5.2,19º,Strasbourg,42,42.4%/Probabilidad gana/1.58/Goles esperados,1.37,33.0,Stade Rennais,9º,Ligue 1. Jornada 9,
1,2022-10-01 19:00,4.4,2º,PSG,81,81%/Probabilidad gana/2.58/Goles esperados,0.55,5.0,Nice,12º,Ligue 1. Jornada 9,
2,2022-10-02 11:00,8.8,3º,Lorient,32,32.6%/Probabilidad gana/1.14/Goles esperados,1.29,40.0,Lille,7º,Ligue 1. Jornada 9,
3,2022-10-02 13:00,15.9,20º,Ajaccio,24,24.6%/Probabilidad gana/0.74/Goles esperados,1.1,43.0,Clermont,11º,Ligue 1. Jornada 9,
4,2022-10-02 13:00,9.6,15º,Auxerre,44,44.4%/Probabilidad gana/1.34/Goles esperados,1.01,28.0,Stade Brestois,18º,Ligue 1. Jornada 9,
5,2022-10-02 13:00,2.7,13º,Toulouse,63,63.5%/Probabilidad gana/2.39/Goles esperados,1.21,18.0,Montpellier,8º,Ligue 1. Jornada 9,
6,2022-10-02 13:00,9.1,10º,Troyes,43,43.6%/Probabilidad gana/1.35/Goles esperados,1.05,29.0,Stade de Reims,17º,Ligue 1. Jornada 9,
7,2022-10-02 15:05,10.3,5º,Monaco,56,56.4%/Probabilidad gana/1.54/Goles esperados,0.74,17.0,Nantes,16º,Ligue 1. Jornada 9,
8,2022-10-02 18:45,5.7,4º,Lens,45,45.2%/Probabilidad gana/1.6/Goles esperados,1.26,30.0,Olympique Lyonnais,6º,Ligue 1. Jornada 9,


In [15]:
#del df['draw']
df

Unnamed: 0,date,zerozero,homeRank,homeTeam,homeVictory,homeGoals,awayGoals,awayVictory,awayTeam,awayRank,competition,NoGoal%
0,2022-10-01 15:00,5.2,19º,Strasbourg,42,42.4%/Probabilidad gana/1.58/Goles esperados,1.37,33.0,Stade Rennais,9º,Ligue 1. Jornada 9,
1,2022-10-01 19:00,4.4,2º,PSG,81,81%/Probabilidad gana/2.58/Goles esperados,0.55,5.0,Nice,12º,Ligue 1. Jornada 9,
2,2022-10-02 11:00,8.8,3º,Lorient,32,32.6%/Probabilidad gana/1.14/Goles esperados,1.29,40.0,Lille,7º,Ligue 1. Jornada 9,
3,2022-10-02 13:00,15.9,20º,Ajaccio,24,24.6%/Probabilidad gana/0.74/Goles esperados,1.1,43.0,Clermont,11º,Ligue 1. Jornada 9,
4,2022-10-02 13:00,9.6,15º,Auxerre,44,44.4%/Probabilidad gana/1.34/Goles esperados,1.01,28.0,Stade Brestois,18º,Ligue 1. Jornada 9,
5,2022-10-02 13:00,2.7,13º,Toulouse,63,63.5%/Probabilidad gana/2.39/Goles esperados,1.21,18.0,Montpellier,8º,Ligue 1. Jornada 9,
6,2022-10-02 13:00,9.1,10º,Troyes,43,43.6%/Probabilidad gana/1.35/Goles esperados,1.05,29.0,Stade de Reims,17º,Ligue 1. Jornada 9,
7,2022-10-02 15:05,10.3,5º,Monaco,56,56.4%/Probabilidad gana/1.54/Goles esperados,0.74,17.0,Nantes,16º,Ligue 1. Jornada 9,
8,2022-10-02 18:45,5.7,4º,Lens,45,45.2%/Probabilidad gana/1.6/Goles esperados,1.26,30.0,Olympique Lyonnais,6º,Ligue 1. Jornada 9,


In [16]:
# ordena un DataFrame por columna
# se puede ordenar por varias columnas añadiendo el nombre de la siguiente columna e.j. ('date', 'competition')

df.sort_values(['date', 'competition']).to_csv('matches.csv', header = True)

In [17]:
# df.to_csv('matches.csv', header = False)

In [18]:
######################################################################
## métodos para trabajar con los datos de pandas                    ##
##                                                                  ##
## del(df['newcolumn'])  --- elimina una columna                    ##
## df.rename(columns = {'NoGoal':'NoGoal%'}, inplace = True)        ##
######################################################################