In [1]:
################################################################################################
################################################################################################
## REVISIÓN DE VERSIONES                                                                      ##
##                                                                                            ##
## v.3.1.                                                                                     ##
## - Menú para elegir si scrapear sólo competiciones, sólo partidos diarios o todo (VS Code)  ##
## - limpieza de código                                                                       ##
## - sustituido .append por pd.concat                                                         ##
## - detecta automáticamente los tres días siguientes para escrapear partidos diarios         ##
## - detecta automáticamente zona horaria para ajustar hora de los partidos                   ##
##                                                                                            ##
## v.3.0                                                                                      ##
## - hace scraping de uns lista de competiciones y página de partidos diarios                 ##
## - busca registros duplicados y los elimina                                                 ##
## - añade columna con los porcentajes de partidos NoGoal                                     ##
##                                                                                            ##
## v.2.1                                                                                      ##
## - añade la paginación de los partidos diarios                                              ##
##                                                                                            ##
## v.2.0                                                                                      ##
## - scraping de una página específica de partidos diarios                                    ##
## - crea dataframe y lo envía a archivo .csv                                                 ##
##                                                                                            ##
################################################################################################
################################################################################################

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
from tqdm import tqdm
import datetime
from datetime import datetime, date, timedelta, timezone
import pytz as tz
from pytz import timezone

In [3]:
def obtener_stats(func_stats):
    stats_dict = {}
    
    date = func_stats.find('div', attrs={'class':'info match-link'})
    if date:
        stats_dict['date'] = date.get('starttime').replace('T',' ').replace(':00+00:00','')
    else:
        stats_dict['date'] = '-'
 
    zerozero = func_stats.find('div', attrs={'class':'content-box draw'}).find('div', attrs={'class':'cont'})
    if zerozero:
        stats_dict['zerozero'] = zerozero.get_text('/',strip=True).replace('%','')[4:10]
    else:
        stats_dict['zerozero'] = '-' 
        
    homeRank = func_stats.find('div', attrs={'class':'position t1'})
    if homeRank:
        stats_dict['homeRank'] = homeRank.get_text()
    else:
        stats_dict['homeRank'] = '-'    
            
    homeTeam = func_stats.find('p', attrs={'itemprop':'homeTeam'})
    if homeTeam:
        stats_dict['homeTeam'] = homeTeam.get_text('/', strip=True)
    else:
        stats_dict['homeTeam'] = '-'

    homeVictory = func_stats.find('div', attrs={'class':'content-box t-1'}).find('div', attrs={'class':'poss-box'})
    if homeVictory:
        stats_dict['homeVictory'] = homeVictory.get_text('/', strip=True).replace('/Probabilidad gana/',' - ')[0:2].replace('.','').replace('%','')
    else:
        stats_dict['homeVictory'] = '-'     
        
    homeGoals = func_stats.find('div', attrs={'class':'content-box t-1'}).find('div', attrs={'class':'poss-box'})
    if homeGoals:
        stats_dict['homeGoals'] = homeGoals.get_text('/', strip=True).replace('/Probabilidad gana/',' - ').replace('/Goles esperados','')[6::].replace('-','').replace('%','')
    else:
        stats_dict['homeGoals'] = '-'   

    awayGoals = func_stats.find('div', attrs={'class':'content-box t-2'}).find('div', attrs={'class':'poss-box'})
    if awayGoals:
        stats_dict['awayGoals'] = awayGoals.get_text('/', strip=True).replace('/Probabilidad gana/',' - ').replace('/Goles esperados','')[6::].replace('-','').replace('%','')
    else:
        stats_dict['awayGoals'] = '-'   
        
    awayVictory = func_stats.find('div', attrs={'class':'content-box t-2'}).find('div', attrs={'class':'poss-box'})
    if awayVictory:
        stats_dict['awayVictory'] = awayVictory.get_text('/', strip=True).replace('/Probabilidad gana/',' - ')[0:2].replace('.','').replace('%','')
    else:
        stats_dict['awayVictory'] = '-'     

    awayTeam = func_stats.find('p', attrs={'itemprop':'awayTeam'})
    if awayTeam:
        stats_dict['awayTeam'] = awayTeam.get_text('/', strip=True)
    else:
        stats_dict['awayTeam'] = '-'     
     
    awayRank = func_stats.find('div', attrs={'class':'position t2'})
    if awayRank:
        stats_dict['awayRank'] = awayRank.get_text()
    else:
        stats_dict['awayRank'] = '-' 
        
    competition = func_stats.find('h3', attrs={'class':'competition'})
    if competition:
        stats_dict['competition'] = competition.get_text('/', strip=True)
    else:
        stats_dict['competition'] = '-'
   
    return stats_dict

In [4]:
df = pd.DataFrame()

In [5]:
lista_competiciones = [
    'https://es.besoccer.com/competicion/ligue_1',
    'https://es.besoccer.com/competicion/escocia',
    'https://es.besoccer.com/competicion/portugal',
    'https://es.besoccer.com/competicion/segunda_brasilena',
    'https://es.besoccer.com/competicion/japon',
    'https://es.besoccer.com/competicion/liga_republica_irlanda',
    'https://es.besoccer.com/competicion/premier',
    'https://es.besoccer.com/competicion/segunda',
    'https://es.besoccer.com/competicion/bundesliga_2',
    'https://es.besoccer.com/competicion/j_two_league',
    'https://es.besoccer.com/competicion/brasil',
    'https://es.besoccer.com/competicion/league_one',
    'https://es.besoccer.com/competicion/ligue_2',
    'https://es.besoccer.com/competicion/primera_division_argentina',
    'https://es.besoccer.com/competicion/first_division',
    'https://es.besoccer.com/competicion/vitalis',
    'https://es.besoccer.com/competicion/serie_b',
    'https://es.besoccer.com/competicion/suecia',
    'https://es.besoccer.com/competicion/polonia',
    'https://es.besoccer.com/competicion/resultados/1_league_polonia/2023',
    'https://es.besoccer.com/competicion/resultados/2_league_polonia/2023',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo1',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo2',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo3',
    'https://es.besoccer.com/competicion/resultados/3_league_polonia/2023/grupo4',
    'https://es.besoccer.com/competicion/corea',
    'https://es.besoccer.com/competicion/k_league_corea',
    'https://es.besoccer.com/competicion/national_league_corea',
    'https://es.besoccer.com/competicion/apertura_mexico',
    'https://es.besoccer.com/competicion/liga_de_expansion_mx_apertura',
    'https://es.besoccer.com/competicion/usa'
    'https://es.besoccer.com/competicion/japon',
    'https://es.besoccer.com/competicion/j_two_league',
    'https://es.besoccer.com/competicion/japon_league_3'
    ]

In [6]:
hoy = date.today()
manana = (hoy + timedelta(days=1)).strftime('%Y-%m-%d')
pasado = (hoy + timedelta(days=2)).strftime('%Y-%m-%d')
elotro = (hoy + timedelta(days=3)).strftime('%Y-%m-%d')

lista_diaria = []
url_diaria1 = f'https://es.besoccer.com/livescore/{manana}'
for i in range(1,5):
    url = url_diaria1+f'/{i}'
    lista_diaria.append(url)
url_diaria2 = f'https://es.besoccer.com/livescore/{pasado}'
for i in range(1,5):
    url = url_diaria2+f'/{i}'
    lista_diaria.append(url)
url_diaria3 = f'https://es.besoccer.com/livescore/{elotro}'
for i in range(1,5):
    url = url_diaria3+f'/{i}'
    lista_diaria.append(url)

lista_diaria

['https://es.besoccer.com/livescore/2022-10-10/1',
 'https://es.besoccer.com/livescore/2022-10-10/2',
 'https://es.besoccer.com/livescore/2022-10-10/3',
 'https://es.besoccer.com/livescore/2022-10-10/4',
 'https://es.besoccer.com/livescore/2022-10-11/1',
 'https://es.besoccer.com/livescore/2022-10-11/2',
 'https://es.besoccer.com/livescore/2022-10-11/3',
 'https://es.besoccer.com/livescore/2022-10-11/4',
 'https://es.besoccer.com/livescore/2022-10-12/1',
 'https://es.besoccer.com/livescore/2022-10-12/2',
 'https://es.besoccer.com/livescore/2022-10-12/3',
 'https://es.besoccer.com/livescore/2022-10-12/4']

In [7]:
lista_scrapear = lista_competiciones + lista_diaria
lista_scrapear

['https://es.besoccer.com/competicion/ligue_1',
 'https://es.besoccer.com/competicion/escocia',
 'https://es.besoccer.com/competicion/portugal',
 'https://es.besoccer.com/competicion/segunda_brasilena',
 'https://es.besoccer.com/competicion/japon',
 'https://es.besoccer.com/competicion/liga_republica_irlanda',
 'https://es.besoccer.com/competicion/premier',
 'https://es.besoccer.com/competicion/segunda',
 'https://es.besoccer.com/competicion/bundesliga_2',
 'https://es.besoccer.com/competicion/j_two_league',
 'https://es.besoccer.com/competicion/brasil',
 'https://es.besoccer.com/competicion/league_one',
 'https://es.besoccer.com/competicion/ligue_2',
 'https://es.besoccer.com/competicion/primera_division_argentina',
 'https://es.besoccer.com/competicion/first_division',
 'https://es.besoccer.com/competicion/vitalis',
 'https://es.besoccer.com/competicion/serie_b',
 'https://es.besoccer.com/competicion/suecia',
 'https://es.besoccer.com/competicion/polonia',
 'https://es.besoccer.com/c

In [8]:
for url in lista_scrapear:
    besoccer = requests.get(url)
    s_besoccer = BeautifulSoup(besoccer.text, 'lxml')
    try:
        matches = s_besoccer.find('div', attrs={'class':'comp-matches'}).find_all('a', attrs={'data-status':'-1'})
    except Exception as e1:
        print(i,'.- La url ',url,' no se pudo scrapear')
        print(i,'.-',e1)
        print(i,'.- Probando otra configuración...')
        try:
            matches = s_besoccer.find('div', attrs={'class':'matches'}).find_all('a', attrs={'data-status':'-1'})
        except Exception as e2:
            print(i,'.- La url ',url,' no se pudo scrapear')
            print(i,'.-',e2)

    links_matches = [match.get('href') for match in matches]
    for i in range(len(links_matches)):
        list_analisis = []
        r_match = requests.get(links_matches[i])
        s_match = BeautifulSoup(r_match.text, 'lxml')
        try:
            find_analisis = s_match.find('div', attrs={'class':'menu-scroll'}).select('a[href*="analisis"]')
            analisis = find_analisis[0]
            link_analisis = analisis.get('href')
            r_link_analisis = requests.get(link_analisis)
            s_link_analisis = BeautifulSoup(r_link_analisis.text, 'lxml')
            list_iter = [obtener_stats(s_link_analisis)]
            df_iter = pd.DataFrame(list_iter)
            df = pd.concat([df, df_iter], axis = 0, ignore_index = True)
            print(i,'.- Scrapeando',url)
            print(i,'.-', link_analisis)
        except Exception as e3:
            print(i,'.- La url ',links_matches[i],' no tiene sección análisis')
            print(i,'.-',e3)
            


0 .- Scrapeando https://es.besoccer.com/competicion/ligue_1
0 .- https://es.besoccer.com/partido/lillestrom/lens/202324726/analisis
0 .- Scrapeando https://es.besoccer.com/competicion/portugal
0 .- https://es.besoccer.com/partido/casa-pia/vizela/202396080/analisis
1 .- Scrapeando https://es.besoccer.com/competicion/portugal
1 .- https://es.besoccer.com/partido/sporting-braga/chaves/202396078/analisis
2 .- Scrapeando https://es.besoccer.com/competicion/portugal
2 .- https://es.besoccer.com/partido/arouca/famalicao/202396075/analisis
0 .- Scrapeando https://es.besoccer.com/competicion/segunda_brasilena
0 .- https://es.besoccer.com/partido/sport-recife/cruzeiro-belo-horizonte/2022382523/analisis
0 .- Scrapeando https://es.besoccer.com/competicion/premier
0 .- https://es.besoccer.com/partido/everton-fc/manchester-united-fc/202318321/analisis
1 .- Scrapeando https://es.besoccer.com/competicion/premier
1 .- https://es.besoccer.com/partido/nottingham-forest-fc/aston-villa-fc/202318333/analisi

0 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/1
0 .- https://es.besoccer.com/partido/nottingham-forest-fc/aston-villa-fc/202318333/analisis
1 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/1
1 .- https://es.besoccer.com/partido/elche/mallorca/202349415/analisis
2 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/1
2 .- https://es.besoccer.com/partido/fiorentina/lazio/202353469/analisis
3 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/1
3 .- https://es.besoccer.com/partido/patronato/ca-river-plate/2022493533/analisis
4 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/1
4 .- https://es.besoccer.com/partido/ca-rosario-central/defensa-justicia/2022493536/analisis
5 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/1
5 .- https://es.besoccer.com/partido/argentinos-juniors/ca-huracan/2022493531/analisis
6 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/1
6 .- https://es.besoccer.com/partido/atletico-go/palmeiras/20

4 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/2
4 .- https://es.besoccer.com/partido/sigma-olomouc-ii/slavia-praha-ii/202353604/analisis
5 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/2
5 .- https://es.besoccer.com/partido/emelec-guayaquil/orense-sc/2022367011/analisis
6 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/2
6 .- https://es.besoccer.com/partido/flower-city-union/michigan-stars-fc/2022402889/analisis
7 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/2
7 .- https://es.besoccer.com/partido/radomlje/gorica/202343639/analisis
8 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/2
8 .- https://es.besoccer.com/partido/liniers-bahia-blanca/cs-desamparados/2022427124/analisis
9 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/2
9 .- https://es.besoccer.com/partido/circulo-deportivo/camioneros-lujan/2022427125/analisis
10 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/2
10 .- https://es.besoccer.com/part

9 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/3
9 .- https://es.besoccer.com/partido/andijan/buxoro/2022662499/analisis
10 .- La url  https://es.besoccer.com/partido/9-de-julio-rafaela/atletico-rafaela/2022640674  no tiene sección análisis
10 .- list index out of range
11 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/3
11 .- https://es.besoccer.com/partido/skjetten-fotball/tromso-2/2022316928/analisis
12 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/3
12 .- https://es.besoccer.com/partido/lillestrom-ii/stromsgodset-ii/2022316924/analisis
13 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/3
13 .- https://es.besoccer.com/partido/halsen-if/sarpsborg-08-ii/2022317287/analisis
14 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/3
14 .- https://es.besoccer.com/partido/honefoss/molde-ii/2022317654/analisis
15 .- Scrapeando https://es.besoccer.com/livescore/2022-10-10/3
15 .- https://es.besoccer.com/partido/viking-2/sola-fotball/202

5 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/1
5 .- https://es.besoccer.com/partido/fc-shakhtar-donetsk/real-madrid/2023365695/analisis
6 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/1
6 .- https://es.besoccer.com/partido/celtic-fc/rb-leipzig/2023365697/analisis
7 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/1
7 .- https://es.besoccer.com/partido/dinamo-zagreb/salzburgo/2023365671/analisis
8 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/1
8 .- https://es.besoccer.com/partido/estudiantes-plata/ca-lanus/2022493532/analisis
9 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/1
9 .- https://es.besoccer.com/partido/racing-club-avellaneda/atletico-tucuman/2022493535/analisis
10 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/1
10 .- https://es.besoccer.com/partido/central-cordob/newells-old-boys/2022493517/analisis
11 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/1
11 .- https://es.besoccer.com/partido/

8 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/2
8 .- https://es.besoccer.com/partido/altona-93/victoria-hamburg/2023150138/analisis
9 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/2
9 .- https://es.besoccer.com/partido/tura-harksheide/suderelbe/2023150141/analisis
10 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/2
10 .- https://es.besoccer.com/partido/hebc-hamburg/union-tornesch/2023150142/analisis
11 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/2
11 .- https://es.besoccer.com/partido/memmingen/ingolstadt-ii/2023134751/analisis
12 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/2
12 .- https://es.besoccer.com/partido/paloma/buchholz/2023150144/analisis
13 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/2
13 .- https://es.besoccer.com/partido/tus-osdorf/wandsbeker-tsv-concordia/2023150146/analisis
14 .- Scrapeando https://es.besoccer.com/livescore/2022-10-11/2
14 .- https://es.besoccer.com/partido/niendorfer-ts

14 .- La url  https://es.besoccer.com/partido/waham-forest/hadley/2023252548  no tiene sección análisis
14 .- list index out of range
15 .- La url  https://es.besoccer.com/partido/bristol-manor-farm/bishop-s-cleeve/2023253116  no tiene sección análisis
15 .- list index out of range
16 .- La url  https://es.besoccer.com/partido/kempston-rovers/kidlinon/2023252546  no tiene sección análisis
16 .- list index out of range
17 .- La url  https://es.besoccer.com/partido/heybridge-swifts/gorleston/2023246659  no tiene sección análisis
17 .- list index out of range
18 .- La url  https://es.besoccer.com/partido/bideford/willand-rovers/2023253115  no tiene sección análisis
18 .- list index out of range
19 .- La url  https://es.besoccer.com/partido/boldmere-st-michaels/halesowen-town/2023250944  no tiene sección análisis
19 .- list index out of range
20 .- La url  https://es.besoccer.com/partido/didcot-town/afc-dunstable/2023252545  no tiene sección análisis
20 .- list index out of range
21 .- La 

26 .- La url  https://es.besoccer.com/partido/pagham/fareham-town/2023232334  no tiene sección análisis
26 .- list index out of range
27 .- La url  https://es.besoccer.com/partido/alresford-town/laverstock-ford/2023232271  no tiene sección análisis
27 .- list index out of range
28 .- La url  https://es.besoccer.com/partido/takeley/clapton/2023217051  no tiene sección análisis
28 .- list index out of range
29 .- La url  https://es.besoccer.com/partido/christchurch/moneyfields/2023232273  no tiene sección análisis
29 .- list index out of range
30 .- La url  https://es.besoccer.com/partido/stanway-rovers-fc/halstead-town/2023217106  no tiene sección análisis
30 .- list index out of range
31 .- La url  https://es.besoccer.com/partido/walsall-wood/studley-fc/2023234271  no tiene sección análisis
31 .- list index out of range
32 .- La url  https://es.besoccer.com/partido/atherstone-town/racing-club-warwick/2023234268  no tiene sección análisis
32 .- list index out of range
33 .- La url  http

33 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/1
33 .- https://es.besoccer.com/partido/rampla-juniors-fc/la-luz-fc/2023473722/analisis
34 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/1
34 .- https://es.besoccer.com/partido/almyros-ao-anagesis-gaziou/panthrakikos/2023490233/analisis
35 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/1
35 .- https://es.besoccer.com/partido/monterrey-rayados-expansion/soccer-pumas-tabasco/202321048/analisis
36 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/1
36 .- https://es.besoccer.com/partido/cancun-futbol-club/tepatitlan-de-morelos/202321046/analisis
37 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/1
37 .- https://es.besoccer.com/partido/dorados/oaxaca/202321047/analisis
38 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/1
38 .- https://es.besoccer.com/partido/ferro-carril-oeste/almagro/2022365639/analisis
39 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/1
39 .- h

39 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/2
39 .- https://es.besoccer.com/partido/msv-dusseldorf/cronenberger-sc/2023151331/analisis
40 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/2
40 .- https://es.besoccer.com/partido/1-fc-monheim/tdv-velbert/2023151326/analisis
41 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/2
41 .- https://es.besoccer.com/partido/tsv-sasel/dassendorf/2023150145/analisis
42 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/2
42 .- https://es.besoccer.com/partido/germania-egestorf/fsv-schoningen/202365057/analisis
43 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/2
43 .- https://es.besoccer.com/partido/hurth/sc-fortuna-koln-ii/2023151012/analisis
44 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/2
44 .- https://es.besoccer.com/partido/turu-1880-dusseldorf/sc-union-nettetal/2023151332/analisis
45 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/2
45 .- https://es.besoccer.com/p

46 .- La url  https://es.besoccer.com/partido/darlaston-town-fc/shifnal-town-fc/2023234273  no tiene sección análisis
46 .- list index out of range
47 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/3
47 .- https://es.besoccer.com/partido/in-ija/napredak/2023462378/analisis
48 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/3
48 .- https://es.besoccer.com/partido/nea-salamis/peyia/2023461156/analisis
48 .- La url  https://es.besoccer.com/livescore/2022-10-12/4  no se pudo scrapear
48 .- 'NoneType' object has no attribute 'find_all'
48 .- Probando otra configuración...
0 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/4
0 .- https://es.besoccer.com/partido/enosis/olympiada-lympion/2023461154/analisis
1 .- La url  https://es.besoccer.com/partido/cf-verato/torreorgaz/2023423725  no tiene sección análisis
1 .- list index out of range
2 .- Scrapeando https://es.besoccer.com/livescore/2022-10-12/4
2 .- https://es.besoccer.com/partido/once-municipal/alianza/20

In [9]:
# cuenta el número de registros encontrados

len(df)

413

In [10]:
# busca si hay registros duplicados

df.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
408    False
409    False
410    False
411    False
412    False
Length: 413, dtype: bool

In [11]:
# elimina los registros duplicados

df = df.drop_duplicates()

In [12]:
# cuenta el número de registros restantes después de eliminar duplicados

len(df)

383

In [13]:
# df.loc[df.competition.str.contains('liga escocia', case = False), "NoGoal%"] = '92.85'
# df.loc[df.competition.str.contains('serie b - brasil', case = False), "NoGoal%"] = '92.06'
# df.loc[df.competition.str.contains('liga fútbol japón', case = False), "NoGoal%"] = '88.67'
# df.loc[df.competition.str.contains('liga irlanda.', case = False), "NoGoal%"] = '87.67'
# df.loc[df.competition.str.contains('segunda división.', case = False), "NoGoal%"] = '86.36'
# df.loc[df.competition.str.contains('segunda japonesa j2', case = False), "NoGoal%"] = '84.72'
# df.loc[df.competition.str.contains('league one.', case = False), "NoGoal%"] = '84.25'
# df.loc[df.competition.str.contains('liga profesional argentina', case = False), "NoGoal%"] = '83.45'
# df.loc[df.competition.str.contains('ligue 2', case = False), "NoGoal%"] = '83.14'

In [14]:
######################################################################
## métodos para trabajar con los datos de pandas                    ##
##                                                                  ##
## del(df['newcolumn'])  --- elimina una columna                    ##
## df.rename(columns = {'NoGoal':'NoGoal%'}, inplace = True)        ##
######################################################################

In [1]:
df['draw'] = 100 - df['homeVictory'].astype(int) - df['awayVictory'].astype(int)
df['zerozero'] = df['zerozero'].astype('float64')
hora = '%H'
ahora = datetime.now().strftime(hora)
besoccerzone = timezone('Etc/Greenwich')
besoccertime = datetime.now(besoccerzone).strftime(hora)
diferencia_horaria = int(ahora) - int(besoccertime)
df['date'] = pd.to_datetime(df["date"]) + pd.Timedelta(hours=diferencia_horaria)
df = df.reindex(columns=['date','zerozero','homeRank','homeTeam','homeGoals','homeVictory','draw','awayVictory','awayGoals','awayTeam','awayRank','competition'])   
df = df.round(decimals = 3)

NameError: name 'df' is not defined

In [16]:
# ordena un DataFrame por columna
# se puede ordenar por varias columnas añadiendo el nombre de la siguiente columna e.j. ('date', 'competition')

df.sort_values(['date', 'competition']).to_csv('matches.csv', header = True)

In [22]:
df.style.set_properties(**{'text-align': 'center'})

Unnamed: 0,date,zerozero,homeRank,homeTeam,homeGoals,homeVictory,draw,awayVictory,awayGoals,awayTeam,awayRank,competition
0,2022-10-10 03:45:00,8.0,9º,Lille,1.55,50,27,23,0.98,Lens,4º,Ligue 1. Jornada 10
1,2022-10-10 02:00:00,4.4,4º,Casa Pia,1.33,28,24,48,1.81,Vizela,14º,Liga Portuguesa. Jornada 9
2,2022-10-10 04:30:00,8.2,3º,Sporting Braga,1.87,67,22,11,0.63,Chaves,12º,Liga Portuguesa. Jornada 9
3,2022-10-11 04:15:00,7.6,13º,Arouca,1.4,42,27,31,1.18,Famalicão,15º,Liga Portuguesa. Jornada 9
4,2022-10-10 04:00:00,13.1,7º,Sport Recife,1.03,35,31,34,1.0,Cruzeiro,1º,Serie B - Brasil. Jornada 34
5,2022-10-10 03:00:00,13.5,13º,Everton,0.95,32,31,37,1.05,Man. Utd,8º,Premier League. Jornada 10
6,2022-10-11 04:00:00,2.6,20º,Nottingham Forest,2.15,52,21,27,1.51,Aston Villa,16º,Premier League. Jornada 10
7,2022-10-10 04:00:00,16.1,22º,Málaga,0.94,35,33,32,0.88,FC Andorra,9º,Segunda División. Jornada 9
8,2022-10-11 04:00:00,6.1,8º,Eibar,2.24,76,17,7,0.55,Mirandés,21º,Segunda División. Jornada 9
9,2022-10-12 03:45:00,5.7,14º,Charlton Athletic,1.39,35,26,39,1.47,Exeter City,9º,League One. Jornada 8
