In [1]:
################################################################################################
################################################################################################
## REVISIÓN DE VERSIONES                                                                      ##
##                                                                                            ##
## v.3.2.                                                                                     ##
##  -                                                                                         ##
##                                                                                            ##
## v.3.1.                                                                                     ##
## - Menú para elegir si scrapear sólo competiciones, sólo partidos diarios o todo (VS Code)  ##
## - limpieza de código                                                                       ##
## - sustituido .append por pd.concat                                                         ##
## - detecta automáticamente los tres días siguientes para escrapear partidos diarios         ##
## - detecta automáticamente zona horaria para ajustar hora de los partidos                   ##
##                                                                                            ##
## v.3.0                                                                                      ##
## - hace scraping de uns lista de competiciones y página de partidos diarios                 ##
## - busca registros duplicados y los elimina                                                 ##
## - añade columna con los porcentajes de partidos NoGoal                                     ##
##                                                                                            ##
## v.2.1                                                                                      ##
## - añade la paginación de los partidos diarios                                              ##
##                                                                                            ##
## v.2.0                                                                                      ##
## - scraping de una página específica de partidos diarios                                    ##
## - crea dataframe y lo envía a archivo .csv                                                 ##
##                                                                                            ##
################################################################################################
################################################################################################

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
from tqdm import tqdm
import datetime
from datetime import datetime, date, timedelta, timezone
import pytz as tz
from pytz import timezone

In [3]:
def obtener_stats(func_stats):
    stats_dict = {}
    
    date = func_stats.find('div', attrs={'class':'info match-link'})
    if date:
        stats_dict['date'] = date.get('starttime').replace('T',' ').replace(':00+00:00','')
    else:
        stats_dict['date'] = '-'
 
    zerozero = func_stats.find('div', attrs={'class':'content-box draw'}).find('div', attrs={'class':'cont'})
    if zerozero:
        stats_dict['zerozero'] = zerozero.get_text('/',strip=True).replace('%','')[4:10]
    else:
        stats_dict['zerozero'] = '-' 
        
    homeRank = func_stats.find('div', attrs={'class':'position t1'})
    if homeRank:
        stats_dict['homeRank'] = homeRank.get_text()
    else:
        stats_dict['homeRank'] = '-'    
            
    homeTeam = func_stats.find('p', attrs={'itemprop':'homeTeam'})
    if homeTeam:
        stats_dict['homeTeam'] = homeTeam.get_text('/', strip=True)
    else:
        stats_dict['homeTeam'] = '-'

    homeVictory = func_stats.find('div', attrs={'class':'content-box t-1'}).find('div', attrs={'class':'poss-box'})
    if homeVictory:
        stats_dict['homeVictory'] = homeVictory.get_text('/', strip=True).replace('/Probabilidad gana/',' - ')[0:2].replace('.','').replace('%','')
    else:
        stats_dict['homeVictory'] = '-'     
        
    homeGoals = func_stats.find('div', attrs={'class':'content-box t-1'}).find('div', attrs={'class':'poss-box'})
    if homeGoals:
        stats_dict['homeGoals'] = homeGoals.get_text('/', strip=True).replace('/Probabilidad gana/',' - ').replace('/Goles esperados','')[6::].replace('-','').replace('%','')
    else:
        stats_dict['homeGoals'] = '-'   

    awayGoals = func_stats.find('div', attrs={'class':'content-box t-2'}).find('div', attrs={'class':'poss-box'})
    if awayGoals:
        stats_dict['awayGoals'] = awayGoals.get_text('/', strip=True).replace('/Probabilidad gana/',' - ').replace('/Goles esperados','')[6::].replace('-','').replace('%','')
    else:
        stats_dict['awayGoals'] = '-'   
        
    awayVictory = func_stats.find('div', attrs={'class':'content-box t-2'}).find('div', attrs={'class':'poss-box'})
    if awayVictory:
        stats_dict['awayVictory'] = awayVictory.get_text('/', strip=True).replace('/Probabilidad gana/',' - ')[0:2].replace('.','').replace('%','')
    else:
        stats_dict['awayVictory'] = '-'     

    awayTeam = func_stats.find('p', attrs={'itemprop':'awayTeam'})
    if awayTeam:
        stats_dict['awayTeam'] = awayTeam.get_text('/', strip=True)
    else:
        stats_dict['awayTeam'] = '-'     
     
    awayRank = func_stats.find('div', attrs={'class':'position t2'})
    if awayRank:
        stats_dict['awayRank'] = awayRank.get_text()
    else:
        stats_dict['awayRank'] = '-' 
        
    competition = func_stats.find('h3', attrs={'class':'competition'})
    if competition:
        stats_dict['competition'] = competition.get_text('/', strip=True)
    else:
        stats_dict['competition'] = '-'
   
    return stats_dict

In [4]:
df = pd.DataFrame()

In [5]:
lista_competiciones = [
    'https://es.besoccer.com/competicion/ligue_1',
    'https://es.besoccer.com/competicion/escocia',
    'https://es.besoccer.com/competicion/portugal',
    'https://es.besoccer.com/competicion/segunda_brasilena',
    'https://es.besoccer.com/competicion/japon',
    'https://es.besoccer.com/competicion/liga_republica_irlanda',
    'https://es.besoccer.com/competicion/premier',
    'https://es.besoccer.com/competicion/segunda',
    'https://es.besoccer.com/competicion/bundesliga_2',
    'https://es.besoccer.com/competicion/j_two_league',
    'https://es.besoccer.com/competicion/brasil',
    'https://es.besoccer.com/competicion/league_one',
    'https://es.besoccer.com/competicion/ligue_2',
    'https://es.besoccer.com/competicion/primera_division_argentina',
    'https://es.besoccer.com/competicion/first_division',
    'https://es.besoccer.com/competicion/vitalis',
    'https://es.besoccer.com/competicion/serie_b',
    'https://es.besoccer.com/competicion/suecia',
    'https://es.besoccer.com/competicion/polonia',
    'https://es.besoccer.com/competicion/resultados/1_league_polonia/2023',
    'https://es.besoccer.com/competicion/resultados/2_league_polonia/2023',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo1',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo2',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo3',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo4',
    'https://es.besoccer.com/competicion/corea',
    'https://es.besoccer.com/competicion/k_league_corea',
    'https://es.besoccer.com/competicion/national_league_corea',
    'https://es.besoccer.com/competicion/apertura_mexico',
    'https://es.besoccer.com/competicion/liga_de_expansion_mx_apertura',
    'https://es.besoccer.com/competicion/usa'
    'https://es.besoccer.com/competicion/japon',
    'https://es.besoccer.com/competicion/j_two_league',
    'https://es.besoccer.com/competicion/japon_league_3'
    ]

In [6]:
hoy = date.today()
manana = (hoy + timedelta(days=1)).strftime('%Y-%m-%d')
pasado = (hoy + timedelta(days=2)).strftime('%Y-%m-%d')
elotro = (hoy + timedelta(days=3)).strftime('%Y-%m-%d')

lista_diaria = []
url_diaria1 = f'https://es.besoccer.com/livescore/{manana}'
for i in range(1,5):
    url = url_diaria1+f'/{i}'
    lista_diaria.append(url)
url_diaria2 = f'https://es.besoccer.com/livescore/{pasado}'
for i in range(1,5):
    url = url_diaria2+f'/{i}'
    lista_diaria.append(url)
url_diaria3 = f'https://es.besoccer.com/livescore/{elotro}'
for i in range(1,5):
    url = url_diaria3+f'/{i}'
    lista_diaria.append(url)

lista_diaria

In [7]:
lista_scrapear = lista_competiciones + lista_diaria
lista_scrapear

['https://es.besoccer.com/competicion/vitalis']

In [8]:
for url in lista_scrapear:
    besoccer = requests.get(url)
    s_besoccer = BeautifulSoup(besoccer.text, 'lxml')
    try:
        matches = s_besoccer.find('div', attrs={'class':'comp-matches'}).find_all('a', attrs={'data-status':'-1'})
    except Exception as e1:
        print(i,'.- La url ',url,' no se pudo scrapear')
        print(i,'.-',e1)
        print(i,'.- Probando otra configuración...')
        try:
            matches = s_besoccer.find('div', attrs={'class':'matches'}).find_all('a', attrs={'data-status':'-1'})
        except Exception as e2:
            print(i,'.- La url ',url,' no se pudo scrapear')
            print(i,'.-',e2)

    links_matches = [match.get('href') for match in matches]
    for i in range(len(links_matches)):
        list_analisis = []
        r_match = requests.get(links_matches[i])
        s_match = BeautifulSoup(r_match.text, 'lxml')
        try:
            find_analisis = s_match.find('div', attrs={'class':'menu-scroll'}).select('a[href*="analisis"]')
            analisis = find_analisis[0]
            link_analisis = analisis.get('href')
            r_link_analisis = requests.get(link_analisis)
            s_link_analisis = BeautifulSoup(r_link_analisis.text, 'lxml')
            list_iter = [obtener_stats(s_link_analisis)]
            df_iter = pd.DataFrame(list_iter)
            df = pd.concat([df, df_iter], axis = 0, ignore_index = True)
            print(i,'.- Scrapeando',url)
            print(i,'.-', link_analisis)
        except Exception as e3:
            print(i,'.- La url ',links_matches[i],' no tiene sección análisis')
            print(i,'.-',e3)
            


0 .- Scrapeando https://es.besoccer.com/competicion/vitalis
0 .- https://es.besoccer.com/partido/trofense/feirense/202396351/analisis


In [9]:
# cuenta el número de registros encontrados

len(df)

1

In [10]:
# busca si hay registros duplicados

df.duplicated()

0    False
dtype: bool

In [11]:
# elimina los registros duplicados

df = df.drop_duplicates()

In [12]:
# cuenta el número de registros restantes después de eliminar duplicados

len(df)

1

In [13]:
# df.loc[df.competition.str.contains('liga escocia', case = False), "NoGoal%"] = '92.85'
# df.loc[df.competition.str.contains('serie b - brasil', case = False), "NoGoal%"] = '92.06'
# df.loc[df.competition.str.contains('liga fútbol japón', case = False), "NoGoal%"] = '88.67'
# df.loc[df.competition.str.contains('liga irlanda.', case = False), "NoGoal%"] = '87.67'
# df.loc[df.competition.str.contains('segunda división.', case = False), "NoGoal%"] = '86.36'
# df.loc[df.competition.str.contains('segunda japonesa j2', case = False), "NoGoal%"] = '84.72'
# df.loc[df.competition.str.contains('league one.', case = False), "NoGoal%"] = '84.25'
# df.loc[df.competition.str.contains('liga profesional argentina', case = False), "NoGoal%"] = '83.45'
# df.loc[df.competition.str.contains('ligue 2', case = False), "NoGoal%"] = '83.14'

In [14]:
######################################################################
## métodos para trabajar con los datos de pandas                    ##
##                                                                  ##
## del(df['newcolumn'])  --- elimina una columna                    ##
## df.rename(columns = {'NoGoal':'NoGoal%'}, inplace = True)        ##
######################################################################

In [15]:
df['draw'] = 100 - df['homeVictory'].astype(int) - df['awayVictory'].astype(int)
df['zerozero'] = df['zerozero'].astype('float64')
hora = '%H'
ahora = datetime.now().strftime(hora)
besoccerzone = timezone('Etc/Greenwich')
besoccertime = datetime.now(besoccerzone).strftime(hora)
diferencia_horaria = int(ahora) - int(besoccertime)
df['date'] = pd.to_datetime(df["date"]) + pd.Timedelta(hours=diferencia_horaria)
df = df.reindex(columns=['date','zerozero','homeRank','homeTeam','homeGoals','homeVictory','draw','awayVictory','awayGoals','awayTeam','awayRank','competition'])   
df = df.round(decimals = 3)

In [16]:
# ordena un DataFrame por columna
# se puede ordenar por varias columnas añadiendo el nombre de la siguiente columna e.j. ('date', 'competition')

df.sort_values(['date', 'competition']).to_csv('matches.csv', header = True)

In [17]:
df.style.set_properties(**{'text-align': 'center'})

Unnamed: 0,date,zerozero,homeRank,homeTeam,homeGoals,homeVictory,draw,awayVictory,awayGoals,awayTeam,awayRank,competition
0,2022-10-09 20:00:00,7.3,13º,Trofense,1.2,31,28,41,1.41,Feirense,9º,Segunda Liga. Jornada 8
