
<table>
    <tr>
      <td>Minería de datos y paradigma BigData (<b>MIN</b>) - Facultad de Informática - UCM
      </td>
      <td>
      <img src="https://biblioteca.ucm.es/data/cont/media/www/pag-88746//escudo.jpg"  width=50/>
      </td>
     </tr>
</table>




## Un poquito de Web Scraping
### Pablo C. Cañizares
Cuando los datos no son fáciles de obtener de una página web debemos analizar directemente el código HTML de la práctica. Para esto podemos usar, entre otras, dos bibliotecas:

- BeautifulSoup: el estándar para manejar directamente código HTML. Permite navegar por los elementos de la página de forma sencilla
- Selenium: cuando la página requiere interactividad, y se quiere automatizar la pulsación de botones, selección de listas desplegables, etc.


In [1]:
pip install beautifulsoup4

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 26.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
import pandas as pd
from bs4 import BeautifulSoup
import requests

url = "https://as.com/resultados/futbol/primera/clasificacion/"



page = requests.get(url)
# error, no hay tablas, por eso usamos BeautifulSoup.
# dfs = pd.read_html(page.text)
soup = BeautifulSoup(page.text, 'html.parser')  # le pasamos el texto en HTML para que lo analice

soup

<!DOCTYPE html>

<html lang="es">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
<meta content="index, follow" name="robots">
<link href="https://as.com/resultados/futbol/primera/clasificacion/" rel="canonical"/>
<link href="https://as.com/resultados/futbol/primera/clasificacion/" hreflang="es" rel="alternate"/>
<link href="https://chile.as.com/resultados/futbol/primera/clasificacion/" hreflang="es-cl" rel="alternate"/>
<link href="https://mexico.as.com/resultados/futbol/primera/clasificacion/" hreflang="es-mx" rel="alternate"/>
<link href="https://colombia.as.com/resultados/futbol/primera/clasificacion/" hreflang="es-co" rel="alternate"/>
<link href="https://en.as.com/resultados/futbol/primera/clasificacion/" hreflang="en-us" rel="alternate"/>
<link href="https://as.com/resultados/futbol/primera/clasificacion/amp/" rel="amphtml"/>
<meta content="https://as.com/resultados/futbol/primera/clasificacion/" property="og

El paso anterior ha analizado el texto y extraído sus componentes. Ahora podemos escribir, por ejemplo:

In [5]:
print(soup.head.title)

<title>Clasificación LALIGA EA Sports 2025/2026 - AS.com</title>


In [6]:
print(soup.head.title.text)

Clasificación LALIGA EA Sports 2025/2026 - AS.com


Esta forma de "navegar" la página de arriba a abajo puede resultar muy tediosa y además solo permite llegar a algunos elementos, es la llamada "dot navegation" que usaremos cuando ya estemos cerca de la información que queremos

In [7]:
soup.body.div

<div class="mha-wr"><div class="ad ad-ldb ad-ldb-1 _hidden-xs _hidden-md" data-adtype="LDB" data-dynamic-id="layouts.full-headers.1" data-slot="/7811748/as_mob/google" data-vars-ad-slot="/7811748/as_mob/google"></div><header class="mh" role="banner"><div class="mh_wr"><div class="mh_c"><button aria-label="desplegar menú" class="mh_hb" type="button"><span class="ai ai-menu"><svg viewbox="0 0 48 48"><use xlink:href="#svg-menu"></use></svg></span></button><div class="mh_nav"><a aria-label="Resultados" class="mh_n_i" href="https://as.com/resultados/">Resultados</a><a aria-label="Fútbol" class="mh_n_i" href="https://as.com/futbol/">Fútbol</a><a aria-label="Vídeos" class="mh_n_i" href="https://as.com/videos/">Vídeos</a></div><span class="mh_logo"><a href="https://as.com" title="Diario AS - Diario online de deportes"><span class="ai ai-as"><svg viewbox="0 0 47 26"><use xlink:href="#svg-as"></use></svg></span><span class="_hidden">AS.com</span></a></span><div class="mh_to"><button class="mh_su

Para buscar con más libertad tendremos otras funciones como 'find' y 'find_all' que encuentran, respectivamente, la primera aparición o todas las apariciones de un tag:

In [8]:
cabecera = soup.find('h1')
cabecera

<h1 class="a_hd_t">Clasificación<span class="a_hd_st">LALIGA EA Sports 2025/2026</span></h1>

In [9]:
cabeceras = soup.find_all('h2')
len(cabeceras)

5

In [10]:
cabeceras[1]

<h2 class="c_t"><a href="https://as.com/futbol/primera/alaves-getafe-en-directo-laliga-ea-sports-hoy-en-vivo-f202602-d//#?utm_medium=interno&amp;utm_source=crosslinking&amp;utm_campaign=crosslinking_resultados">Alavés - Getafe, en directo: LaLiga EA Sports, hoy en vivo</a></h2>

Ahora vamos a buscar la información que nos interesa. Tras inspeccionar la página en google Chrome (por ejemplo), vemos que parece que cada fila viene en un elemento de tipo `tr`. La función `select`devuelve todos los elementos que cumplen esto.

In [11]:
row = soup.select('tr')
len(row)

22

In [12]:
for i in range(len(row)):
    print(i,row[i].text.strip().replace("\n", ""))

0 TotalesEn casaFuera
1 Posición variación y equipoPTSPJGEPGFGCDIF.RachaProx. partidoPTSPJGEPGFGCDIF.RachaProx. partidoPTSPJGEPGFGCDIF.RachaProx. partido
2 1 BarcelonaBCN58231913632340GPGGG 3311110034529GGGGG 2512813291811GGGPG
3 2 Real MadridRMA54221732471829GGGGG 3011100125718PGGGG 2411731221111EEGGG
4 3 AtléticoATM45221363381721GEGGE 3111101026719GGGGG 141135312102PPGEE
5 4 VillarrealVLL42211335392316GGPPE 251181223914GGPGP 171052316142GGGPE
6 5 BetisBET352298536288PEGPG 2211713221210EPGGG 13112721416-2GEPEP
7 6 EspanyolESP342210482627-1PEPPP 19126151416-2GGPPP 151043312111GGGEP
8 7 CeltaCEL332389630255GGPEP 141235417152PGGGP 191154213103GEGPE
9 8 R. SociedadRSO312387833312GGGEG 201262421174PEGGG 11112541214-2GPEGE
10 9 OsasunaOSA2923851028280PGGEG 211163220137GGEGE 812228815-7EPPGG
11 10 AlavésALA252274112027-7EPPGG 181153314113PGPEG 711218616-10PPPPG
12 11 AthleticATH252274112131-10PEPPE 17115241112-1GPGPE 8112271019-9GPEPP
13 12 GironaGIR25226792136-15GGGEP 13113441018-8GEPGE 121

Dentro de cada fila obtendremos los datos uno a uno. El nombre del equipo está en un elemento team-name, como solo hay uno usamos `select_one`. Las dos primeras filas son cabeceras

In [13]:
team = row[2].select_one("th")
team_name = team.select_one("span._hidden-xs")
print(team_name.get_text(strip=True))

Barcelona


Los elementos de cada fila:

In [14]:
print(len(row[2]))

63


In [15]:
row[1].text.strip()

'Posición variación y equipo\nPTS\nPJ\nG\nE\nP\nGF\nGC\nDIF.\nRacha\nProx. partido\nPTS\nPJ\nG\nE\nP\nGF\nGC\nDIF.\nRacha\nProx. partido\nPTS\nPJ\nG\nE\nP\nGF\nGC\nDIF.\nRacha\nProx. partido'

In [16]:
row[2].text.strip()

'1\n\n\n \n\n\nBarcelona\nBCN\n\n\n\n58\n23\n19\n1\n3\n63\n23\n40\n\nG\nP\nG\nG\nG\n\n\n\n \n\n33\n11\n11\n0\n0\n34\n5\n29\n\nG\nG\nG\nG\nG\n\n\n\n \n\n25\n12\n8\n1\n3\n29\n18\n11\n\nG\nG\nG\nP\nG'

Ya podemos trabajar

In [17]:
import pandas as pd
from bs4 import BeautifulSoup
import requests

# URL de la clasificación total en AS
url = "https://as.com/resultados/futbol/primera/clasificacion/"

page = requests.get(url)
soup = BeautifulSoup(page.text, 'html.parser')

# Seleccionamos la tabla de clasificación total
table = soup.select_one("div.tb-sc")
rows = table.select("tbody tr")


data = {"Posición":[],"Equipos":[],"Puntos":[],"Jugados":[],"Ganados":[],"Empates":[],"Perdidos":[], "GF":[],"GC":[]}

i=0
for row in rows:
    print("Processing row {0}".format(i))
    # Extraemos la celda con el nombre del equipo y posición
    team_cell = row.find("th")
    if team_cell:
        pos_tag = team_cell.select_one("span.a_tb_ps")
        pos =  pos_tag.get_text(strip=True)
        team_name = team_cell.select_one("span._hidden-xs")
    
        # Los datos "totales" se encuentran en los primeros 7 td
        tds = row.find_all("td")
        if len(tds) >= 7:
            puntos = tds[0].text.strip()
            jugados = tds[1].text.strip()
            ganados = tds[2].text.strip()
            empatados = tds[3].text.strip()
            perdidos = tds[4].text.strip()
            gf = tds[5].text.strip()
            gc = tds[6].text.strip()
            # ... 
            #El resto los omitimos

            #Los insertamos en el diccionario
            data["Posición"].append(int(pos))
            data["Equipos"].append(team_name)
            data["Puntos"].append(int(puntos))
            data["Jugados"].append(int(jugados))
            data["Ganados"].append(int(ganados))
            data["Empates"].append(int(empatados))
            data["Perdidos"].append(int(perdidos))
            data["GF"].append(int(gf))
            data["GC"].append(int(gc))
        else:
            print("Skipping data")

    else:
        print("Skipping data")
    i=i+1    

# Convertimos a DataFrame
df = pd.DataFrame(data)
print(df)

Processing row 0
Processing row 1
Processing row 2
Processing row 3
Processing row 4
Processing row 5
Processing row 6
Processing row 7
Processing row 8
Processing row 9
Processing row 10
Processing row 11
Processing row 12
Processing row 13
Processing row 14
Processing row 15
Processing row 16
Processing row 17
Processing row 18
Processing row 19
    Posición        Equipos  Puntos  Jugados  Ganados  Empates  Perdidos  GF  \
0          1    [Barcelona]      58       23       19        1         3  63   
1          2  [Real Madrid]      54       22       17        3         2  47   
2          3     [Atlético]      45       22       13        6         3  38   
3          4   [Villarreal]      42       21       13        3         5  39   
4          5        [Betis]      35       22        9        8         5  36   
5          6     [Espanyol]      34       22       10        4         8  26   
6          7        [Celta]      33       23        8        9         6  30   
7         