<a href="https://colab.research.google.com/github/hugo32torres/R-Class/blob/main/Web_Scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Mg. Leandro Pájaro Fuentes**

[www.konradlorenz.edu.co](https://www.konradlorenz.edu.co)

# Web Scraping

En los proyectos de analítica las fuentes de datos que se pueden utilizar son variadas, en algunos casos pueden ser archivos de Excel, CSVs, bases de datos, repositorios Open Data desde los cuales acceder mediante APIs, no obstante, existe mucha información en paginas web y es en estos casos que la extracción de datos se pude tornar compleja si se realiza de forma manual.

El web scraping que traducido literalmente del inglés, se refiere al raspado
web, es el proceso mediante el cual es posible obtener información de sitios web


> El web scraping que traducido literalmente del inglés, se refiere al raspado
web, es el proceso mediante el cual es posible obtener información de sitios web


# Objetivos

Al compleatar este módulo estará en capacidad de:


*   Conocer el significado y principales usos del web scraping
*   Realizar web scraping básico utilizando Python
*   Extraer imágenes de sitios web
*   Creación de repositorio de datos extraídos de sitios web




# ¿Por qué realizar web scraping?

Al navegar por distintos sitios es posible encontrarnos con información valiosa que pudiera ser útil almacenarla para realizar un análisis o complementarla con alguna otra información que se obtenga de otras fuentes.  Por ejemplo:


*   Listado de todos los programas academicos que ofrece una institución
*   Estadísiticas de sitios deportivos
*   Listados de precios de articulos
*   Precios y características de hoteles o sitios de recreación
*   Entre otros casos.

Algunos sitios web como Twitter, Facebook, Linkedin permiten al acceso a los datos mediante APIs pero en algunos casos estas APIs tienen limitantes o son pagas.  En estas situaciones el web scraping puede ser utilizado para la descarga de información.






# Pasos para realizar web scraping

Para poder obtener información de una página web es imprescindible conocer como funciona un navegador para acceder a un sitio web.

## 1 Funcionamiento de un navegador web

El funcionamiento puede dividirse en 3 pasos:

*   Envio de peticiones HTTP
*   Recepción de peticiones HTTP
*   Conversión de contenido en pagina web


### Envio de peticiones HTTP

El Hypertext Transfer Protocol (HTTP) es un protocolo de comunicación para la transferencia de documentos de tipo hipertexto a través de internet.

El siguiente código permite enviar una petición HTTP al sitio https://www.konradlorenz.edu.co

In [None]:
import requests

respuesta = requests.get('https://www.konradlorenz.edu.co/')

In [None]:
respuesta

<Response [404]>

### Recepción de respuesta HTTP

Una vez se realiza la petición HTTP el sitio retornará una respuesta  indicando el código, encabezado y contenido.

Los códigos de respuesta pueden ser:

* Respuestas informativas (100–199),
* Respuestas satisfactorias (200–299),
* Redirecciones (300–399),
* Errores de los clientes (400–499),
* y errores de los servidores (500–599).

Para mayor detalle de los códigos ver [Códigos de estado de respuesta HTTP](https://developer.mozilla.org/es/docs/Web/HTTP/Status)

A continuación se presenta código de respuesta de la petición realizada a sitio konradlorenz.edu.co


In [None]:
#Código de respuesta de petición
respuesta.status_code


200

In [None]:
#Enabezado de la respuesta
for key, value in respuesta.headers.items():
  print(f"{key} : {value}")

Content-Type : text/html; charset=utf-8
Date : Fri, 12 May 2023 01:20:21 GMT
Server : nginx
Content-Encoding : gzip
Last-Modified : Thu, 11 May 2023 23:30:46 GMT
Transfer-Encoding : chunked
X-Powered-By : PHP/7.2.13
Fastcgi-Cache : HIT
X-XSS-Protection : 1; mode=block
X-Frame-Options : SAMEORIGIN
X-Content-Type-Options : nosniff


Es posible obtner alguna información del dominio del sitio al cual se está accediendo. El siguiente código muestra información del sitio web

In [None]:
!pip install python-whois
import whois
print(whois.whois('https://www.konradlorenz.edu.co/'))

El contenido de la respuesta se puede obtener mediante la propiedad content.  A continuación, se muestra el contenido de la respuesta

In [None]:
respuesta.content

### Conversión de contenido en página web

El contenido mostrado no es fácilmente identificado en formato texto y es el navegador web el que realiza el proceso de conversión basado en el formato HTML para que se visualice en un formato legible por el usuario.

![picture](https://drive.google.com/uc?export=view&id=1omDYnYnw8i6OF6BCTmFKgnMSJXiXfBsA)

## 2 Descarga y conversión de la página

Para poder comprender el proceso de conversión de la página, es necesario conocer los fundamentos del lenguaje HTML con el cual se construyen las páginas web



### Introducción HTML

HTML HyperText Markup Language, es el lenguaje estándar para la construcción de páginas web.

Se basa en el uso de etiquetas para definir el comportamiento de cada elemento de la página.  La estructura de un documento HTML es la siguiente:

![picture](https://drive.google.com/uc?export=view&id=1I1CGpId40WkXLtgCaTFE4UuCnlCmFlWI)

Un ejemplo de un documento HTML es el siguiente:

``` HTML
<!DOCTYPE html>
<html>
<head>
<title>Título de la página</title>
</head>
<body>

<h1>Esto es un ecabezado H1 </h1>
<p>Esto es un bloque de texto</p>

</body>
</html>
```

Para visualizar el documento como lo genera un navegador web es posible utilizar un editor en línea como https://www.programiz.com/html/online-compiler/


### Encabezados

Los textos tipo título o encabezados pueden ser definidos con las etiquetas `<h1>` a `<h6>`

Ejemplo:

``` HTML
<h1>Encabezado 1</h1>
<h2>Encabezado 2</h2>
<h3>Encabezado 3</h3>
```



### Párrafos

El texto tipo párrafo se puede representar con etiquetas `<p>`

``` HTML
<p>Texto tipo párrafo</p>
<p>Otro bloque de párrafo</p>
```

### Enlaces

La creación de enlaces en los documentos HTML pueden crearse con la etiqueta `
<a> `

```
<a href="https://www.google.com/">Esto es un un link a la página de Google</a>
```

### Imágenes

Para colocar una imagen dentro de un documento HTML se usa la etiqueta `<img>`

```
<img src="logoKonrad.png" alt="Logo Konrad" width="104" height="142">
```



### Tablas

Las tablas permiten crear una estructura en forma de filas y columnas

A continuación, ejemplo de la construcción de una tabla en documento HTML

```
<table>
  <tr>
    <th>Código</th>
    <th>Nombres</th>
    <th>Profesión</th>
  </tr>
  <tr>
    <td>E01</td>
    <td>Maria Londoño</td>
    <td>Periodista</td>
  </tr>
  <tr>
    <td>E02</td>
    <td>Pepe Renteria</td>
    <td>Locutor</td>
  </tr>
</table>
```



## 3 Recorrido Página Web

Beautiful Soup es una libreria de Python que permite la extracción de contenido de docuemnto HTML

In [None]:
from bs4 import BeautifulSoup
import requests
r = requests.get('https://lpajarof.github.io/')
r.text

'<html lang="es">\n<head>\n    <meta charset="UTF-8">\n    <title>Página para realizar web scraping</title>\n</head>\n<body>\n<div id="main" class="full-width">\n    <h1>Esto es un texto tipo encabezado</h1>\n    <p>Este es el primer párrafo</p>\n    <p>Este es el segundo párrafo</p>\n    <div id="innerDiv">\n        <div class="links">\n            <a href="https://www.konradlorenz.edu.co/">Enlace 1</a>\n            <a href="https://virtual.konradlorenz.edu.co/login/index.php">Enlace 2</a>\n        </div>\n        <div class="right">\n            <div class="links">\n                <a href="https://www.google.com/">Enlace 3</a>\n                <a href="https://www.datos.gov.co/">Enlace 4</a>\n            </div>\n        </div>\n    </div>\n\t<p>Esto es una tabla</p>\n\t<table>\n\t  <tr>\n\t\t<th>Código</th>\n\t\t<th>Nombres</th>\n\t\t<th>Profesión</th>\n\t  </tr>\n\t  <tr>\n\t\t<td>E01</td>\n\t\t<td>Maria Londoño</td>\n\t\t<td>Periodista</td>\n\t  </tr>\n\t  <tr>\n\t\t<td>E02</td>\n

In [None]:
pagina = BeautifulSoup(r.text,'lxml')
#imprimer código de la página
print(pagina.prettify())

In [None]:
#Obtener el título de la página
pagina.title

<title>Página para realizar web scraping</title>

In [None]:
#obtener el valor dentro de la etiqueta
pagina.title.text

'Página para realizar web scraping'

In [None]:
#Extraer todos los elementos párrafos
parrafos = pagina('p')
parrafos

[<p>Este es el primer párrafo</p>,
 <p>Este es el segundo párrafo</p>,
 <p>Esto es una tabla</p>,
 <p>Este párrafo está en el footer</p>]

In [None]:
#Recorrido
for i in parrafos:
  print(i.text)

Este es el primer párrafo
Este es el segundo párrafo
Esto es una tabla
Este párrafo está en el footer


In [None]:
#Obtener todos los enlaces
enlaces = pagina.find_all('a')
print(enlaces)
print("*"*50)
for e in enlaces:
  print(f"{e.get('href')} {e.text}")

[<a href="https://www.konradlorenz.edu.co/">Enlace 1</a>, <a href="https://virtual.konradlorenz.edu.co/login/index.php">Enlace 2</a>, <a href="https://www.google.com/">Enlace 3</a>, <a href="https://www.datos.gov.co/">Enlace 4</a>, <a href="https://pagina5.xyz/">Enlace 5</a>]
**************************************************
https://www.konradlorenz.edu.co/ Enlace 1
https://virtual.konradlorenz.edu.co/login/index.php Enlace 2
https://www.google.com/ Enlace 3
https://www.datos.gov.co/ Enlace 4
https://pagina5.xyz/ Enlace 5


In [None]:
#Extraer datos de Div
divs = pagina.find_all('div', id='innerDiv')
print(divs)

[<div id="innerDiv">
<div class="links">
<a href="https://www.konradlorenz.edu.co/">Enlace 1</a>
<a href="https://virtual.konradlorenz.edu.co/login/index.php">Enlace 2</a>
</div>
<div class="right">
<div class="links">
<a href="https://www.google.com/">Enlace 3</a>
<a href="https://www.datos.gov.co/">Enlace 4</a>
</div>
</div>
</div>]


In [None]:
#Extraer datos de tabla
import pandas as pd
columnas_df = []
tabla = pagina.find_all('table')
tabla

[<table>
 <tr>
 <th>Código</th>
 <th>Nombres</th>
 <th>Profesión</th>
 </tr>
 <tr>
 <td>E01</td>
 <td>Maria Londoño</td>
 <td>Periodista</td>
 </tr>
 <tr>
 <td>E02</td>
 <td>Pepe Renteria</td>
 <td>Locutor</td>
 </tr>
 <tr>
 <td>E03</td>
 <td>Debora</td>
 <td>Plata</td>
 </tr>
 </table>]

In [None]:
#primera fila
primera_fila = tabla[0].find_all('tr')[0]
primera_fila

<tr>
<th>Código</th>
<th>Nombres</th>
<th>Profesión</th>
</tr>

In [None]:

# print(primera_fila)
#Columnas
columnas = primera_fila.find_all('th')
columnas

[<th>Código</th>, <th>Nombres</th>, <th>Profesión</th>]

In [None]:
for col in columnas:
  #print(col.text)
  columnas_df.append(col.text)



In [None]:
columnas_df

['Código', 'Nombres', 'Profesión']

In [None]:
df = pd.DataFrame(columns=columnas_df)
df

Unnamed: 0,Código,Nombres,Profesión


In [None]:
#Filas datos columnas
#print(tabla)

#tabla[0].find_all('tr')

numero_filas = len(tabla[0].find_all('tr'))

numero_filas

4

In [None]:
len(df)

0

In [None]:
for t in range(1,numero_filas):
  fila = tabla[0].find_all('tr')[t]
  #print(fila.find_all('td')[0].text, ' ', fila.find_all('td')[1].text, ' ',fila.find_all('td')[2].text)
  df.loc[len(df)] = [fila.find_all('td')[0].text, fila.find_all('td')[1].text, fila.find_all('td')[2].text]

df

Unnamed: 0,Código,Nombres,Profesión
0,E01,Maria Londoño,Periodista
1,E02,Pepe Renteria,Locutor
2,E03,Debora,Plata


## 4 Extracción y almacenamiento de datos




### Ejemplo 1

Listado de programas académicos

In [None]:
r_programas_kl = requests.get('https://www.konradlorenz.edu.co/tipo_programa/especializacion/')
pagina_programas = BeautifulSoup(r_programas_kl.text,'lxml')

listado_programas = pagina_programas.find_all('div', class_='negro font-18 lato700 mb-2')
for pr in listado_programas:
  print(pr.text)

Especialización en Psicología Forense y Criminal
Especialización en Analítica Estratégica de Datos
Especialización en Psicología del Consumidor
Especialización en Psicología Clínica Infantil, del Adolescente y la Familia
Especialización en Gestión de la Seguridad y Salud en el Trabajo
Especialización en Evaluación Clínica y Tratamiento de Trastornos Emocionales y Afectivos
Especialización en Gerencia Estratégica del Talento Humano



### Ejemplo 2
Listado de estadísticas sitio web

In [None]:
r_estadisticas = requests.get('https://resultados.as.com/resultados/futbol/primera/2022_2023/ranking/equipos/goles/')
pagina_estadisticas = BeautifulSoup(r_estadisticas.text,'lxml')


lista_ranking = []
lista_equipos = []
lista_goles = []

tabla_goles_equipos = pagina_estadisticas.find('tbody')

i = 1
for tge in tabla_goles_equipos.find_all('tr'):
  #print(tge.find_all('td')[0].text)
  lista_ranking.append(i)
  i+=1
  lista_equipos.append(tge.find_all('td')[1].find('span',class_='name').text)
  lista_goles.append(tge.find_all('td')[2].text.replace('Goles',''))

df_goles = pd.DataFrame({'ranking':lista_ranking,'equipo':lista_equipos,'goles':lista_goles})
df_goles

###Ejemplo 3

Descarga de imágenes

In [None]:
import requests

#Función que realiza la descarga de una imagen
def descarga_imagenes(url_imagen):
  ruta = ''
  r = requests.get(url_imagen)
  if r.status_code == 200:
    split_url = url_imagen.split('/')
    ruta = "/content/"+split_url[len(split_url)-1]
    output = open(ruta,"wb")
    output.write(r.content)
    output.close()
  return ruta

ruta_imagen = descarga_imagenes('https://www.konradlorenz.edu.co/wp-content/uploads/2022/10/2022_10_10_feria_emprendimiento_dest-2.jpg')
print(ruta_imagen)

/content/2022_10_10_feria_emprendimiento_dest-2.jpg


In [None]:
from bs4 import BeautifulSoup
#Realiza la descarga de imagenes
url = 'https://es.wikipedia.org/wiki/Anexo:Banderas_de_Estados_soberanos'
pagina = requests.get(url)
soup = BeautifulSoup(pagina.text,'lxml')

imagenes = []
i = 0
for img in soup.find_all('img'):
  imagenes.append(img.get('src'))
  if ('static' not in imagenes[i]):
    descarga_imagenes("https:"+imagenes[i])
  i = i+1



### Ejercicios prácticos



1.   Seleccionar otras 3 estadísticas de la página de resultados de as.com y crear DataFrame con los datos recolectados
2.   Crear DataFrame con la clasificación de los equipos de la url https://resultados.as.com/resultados/futbol/primera/clasificacion/
3. Almacenar DataFrame en base de datos Mongo



In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
r_estadisticas = requests.get('https://resultados.as.com/resultados/futbol/primera/clasificacion/')
pagina_estadisticas = BeautifulSoup(r_estadisticas.text,'lxml')


clasificacion = pagina_estadisticas.find_all('table')


In [2]:
clasificacion

[<table class="tabla-datos table-hover">
 <!-- table header for total resource -->
 <caption>
     Clasificación total</caption>
 <colgroup>
 <col/>
 <col/>
 <col/>
 <col/>
 <col/>
 <col/>
 <col class="hidden-xs"/>
 <col class="hidden-xs"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs"/>
 <col class="hidden-xs"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs hidden-sm"/>
 <col class="hidden-xs"/>
 <col class="hidden-xs"/>
 </colgroup>
 <thead>
 <tr class="agrup hidden-xs hidden-sm">
 <th class="no-border"></th>
 <th colspan="7">Total</th>
 <th colspan="7">En casa</th>
 <th colspan="7">Fuera</th>
 </tr>
 <tr>
 <th scope="col"><p class="hide">Equipo</p></th>
 <th class="destacado" scope="col"><abbr title="Puntos">

In [3]:
clasificacion[0].find_all('thead')

[<thead>
 <tr class="agrup hidden-xs hidden-sm">
 <th class="no-border"></th>
 <th colspan="7">Total</th>
 <th colspan="7">En casa</th>
 <th colspan="7">Fuera</th>
 </tr>
 <tr>
 <th scope="col"><p class="hide">Equipo</p></th>
 <th class="destacado" scope="col"><abbr title="Puntos">Pts.</abbr></th>
 <th scope="col"><abbr title="Partidos jugados">PJ</abbr></th>
 <th scope="col"><abbr title="Partidos ganados">PG</abbr></th>
 <th scope="col"><abbr title="Partidos empatados">PE</abbr></th>
 <th scope="col"><abbr title="Partidos perdidos">PP</abbr></th>
 <th class="hidden-xs" scope="col"><abbr title="Goles a favor">GF</abbr></th>
 <th class="hidden-xs" scope="col"><abbr title="Goles en contra">GC</abbr></th>
 <th class="destacado hidden-xs hidden-sm" scope="col"><abbr title="Puntos">Pts.</abbr></th>
 <th class="hidden-xs hidden-sm" scope="col"><abbr title="Partidos jugados">PJ</abbr></th>
 <th class="hidden-xs hidden-sm" scope="col"><abbr title="Partidos ganados">PG</abbr></th>
 <th class="h

In [4]:
clasificacion[0].find_all('thead')[0].find_all('tr')[1].find_all('th')

[<th scope="col"><p class="hide">Equipo</p></th>,
 <th class="destacado" scope="col"><abbr title="Puntos">Pts.</abbr></th>,
 <th scope="col"><abbr title="Partidos jugados">PJ</abbr></th>,
 <th scope="col"><abbr title="Partidos ganados">PG</abbr></th>,
 <th scope="col"><abbr title="Partidos empatados">PE</abbr></th>,
 <th scope="col"><abbr title="Partidos perdidos">PP</abbr></th>,
 <th class="hidden-xs" scope="col"><abbr title="Goles a favor">GF</abbr></th>,
 <th class="hidden-xs" scope="col"><abbr title="Goles en contra">GC</abbr></th>,
 <th class="destacado hidden-xs hidden-sm" scope="col"><abbr title="Puntos">Pts.</abbr></th>,
 <th class="hidden-xs hidden-sm" scope="col"><abbr title="Partidos jugados">PJ</abbr></th>,
 <th class="hidden-xs hidden-sm" scope="col"><abbr title="Partidos ganados">PG</abbr></th>,
 <th class="hidden-xs hidden-sm" scope="col"><abbr title="Partidos empatados">PE</abbr></th>,
 <th class="hidden-xs hidden-sm" scope="col"><abbr title="Partidos perdidos">PP</abbr

In [5]:
#Selecciono encabezados
encabezados = clasificacion[0].find_all('thead')[0].find_all('tr')[1].find_all('th')
columnas = []
for indice, e in enumerate(encabezados):
  if indice == 0:
    columnas.append(e.text)
  else:
    if indice <= 7:
      columnas.append(e.text + ' Total')
    elif indice <= 14:
      columnas.append(e.text + ' Casa')
    else:
      columnas.append(e.text + ' Fuera')

columnas

['Equipo',
 'Pts. Total',
 'PJ Total',
 'PG Total',
 'PE Total',
 'PP Total',
 'GF Total',
 'GC Total',
 'Pts. Casa',
 'PJ Casa',
 'PG Casa',
 'PE Casa',
 'PP Casa',
 'GF Casa',
 'GC Casa',
 'Pts. Fuera',
 'PJ Fuera',
 'PG Fuera',
 'PE Fuera',
 'PP Fuera',
 'GF Fuera',
 'GC Fuera']

In [6]:
#Creo Dataframe
df_clasificacion = pd.DataFrame(columns=columnas)
df_clasificacion

Unnamed: 0,Equipo,Pts. Total,PJ Total,PG Total,PE Total,PP Total,GF Total,GC Total,Pts. Casa,PJ Casa,...,PP Casa,GF Casa,GC Casa,Pts. Fuera,PJ Fuera,PG Fuera,PE Fuera,PP Fuera,GF Fuera,GC Fuera


In [7]:
lista_equipos2 = []
for e in clasificacion[0].find_all('tbody')[0].find_all('span', class_="nombre-equipo"):
  # print(e.text)
  lista_equipos2.append(e.text)

In [8]:
lista_equipos2

['Girona',
 'Real Madrid',
 'Barcelona',
 'Atlético',
 'Athletic',
 'R. Sociedad',
 'Betis',
 'Las Palmas',
 'Valencia',
 'Rayo',
 'Getafe',
 'Osasuna',
 'Sevilla',
 'Villarreal',
 'Alavés',
 'Cádiz',
 'Mallorca',
 'Celta',
 'Granada',
 'Almería']

In [9]:
lista_equipos3 = [ e.text for e in clasificacion[0].find_all('tbody')[0].find_all('span', class_="nombre-equipo")]

In [10]:
lista_equipos3

['Girona',
 'Real Madrid',
 'Barcelona',
 'Atlético',
 'Athletic',
 'R. Sociedad',
 'Betis',
 'Las Palmas',
 'Valencia',
 'Rayo',
 'Getafe',
 'Osasuna',
 'Sevilla',
 'Villarreal',
 'Alavés',
 'Cádiz',
 'Mallorca',
 'Celta',
 'Granada',
 'Almería']

In [11]:
#Equipos
lista_equipos = [ e.text for e in clasificacion[0].find_all('tbody')[0].find_all('span', class_="nombre-equipo")]

In [12]:
[dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[1:420:21]]


['13',
 '13',
 '13',
 '12',
 '13',
 '13',
 '13',
 '13',
 '13',
 '13',
 '13',
 '13',
 '12',
 '13',
 '13',
 '12',
 '12',
 '13',
 '13',
 '13']

In [16]:
clasificacion[0].find_all('tbody')[0].find_all('td')

[<td class="destacado">34</td>,
 <td>13</td>,
 <td>11</td>,
 <td>1 </td>,
 <td>1</td>,
 <td class="hidden-xs">31</td>,
 <td class="hidden-xs">16</td>,
 <td class="destacado2 hidden-xs hidden-sm">15</td>,
 <td class="hidden-xs hidden-sm">6</td>,
 <td class="hidden-xs hidden-sm">5</td>,
 <td class="hidden-xs hidden-sm">0</td>,
 <td class="hidden-xs hidden-sm">1</td>,
 <td class="hidden-xs">15</td>,
 <td class="hidden-xs">8</td>,
 <td class="destacado2 hidden-xs hidden-sm">19</td>,
 <td class="hidden-xs hidden-sm">7</td>,
 <td class="hidden-xs hidden-sm">6</td>,
 <td class="hidden-xs hidden-sm">1</td>,
 <td class="hidden-xs hidden-sm">0</td>,
 <td class="hidden-xs">16</td>,
 <td class="hidden-xs">8</td>,
 <td class="destacado">32</td>,
 <td>13</td>,
 <td>10</td>,
 <td>2 </td>,
 <td>1</td>,
 <td class="hidden-xs">28</td>,
 <td class="hidden-xs">9</td>,
 <td class="destacado2 hidden-xs hidden-sm">16</td>,
 <td class="hidden-xs hidden-sm">6</td>,
 <td class="hidden-xs hidden-sm">5</td>,
 <td

In [14]:
lista_numeros_pares =[]
for num in range (1,21):
  if num %2 ==0:
    lista_numeros_pares.append(num)
lista_numeros_pares

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

In [15]:
lista_numeros_pares =[num for num in range(1,21) if num % 2 == 0]
lista_numeros_pares

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

In [17]:
#Puntos total
puntos_total = [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[:420:21]]
#PJ total
pj_total= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[1:420:21]]
#PG total
pg_total= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[2:420:21]]
#PE total
pe_total= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[3:420:21]]
#PP total
pp_total= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[4:420:21]]
#GF total
gf_total= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[5:420:21]]
#GC total
gc_total= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[6:420:21]]

#Puntos en casa
puntos_casa = [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[7:420:21]]
#PJ casa
pj_casa= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[8:420:21]]
#PG casa
pg_casa= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[9:420:21]]
#PE casa
pe_casa= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[10:420:21]]
#PP casa
pp_casa= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[11:420:21]]
#GF casa
gf_casa= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[12:420:21]]
#GC casa
gc_casa = [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[13:420:21]]

#Puntos fuera
puntos_fuera = [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[14:420:21]]
#PJ fuera
pj_fuera= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[15:420:21]]
#PG fuera
pg_fuera= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[16:420:21]]
#PE fuera
pe_fuera= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[17:420:21]]
#PP fuera
pp_fuera= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[18:420:21]]
#GF fuera
gf_fuera= [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[19:420:21]]
#GC fuera
gc_fuera = [dato.text for dato in clasificacion[0].find_all('tbody')[0].find_all('td')[20:420:21]]

In [18]:
df_clasificacion['Equipo'] = lista_equipos
df_clasificacion['Pts. Total'] = puntos_total
df_clasificacion['PJ Total'] = pj_total
df_clasificacion['PG Total'] = pg_total
df_clasificacion['PE Total'] = pe_total
df_clasificacion['PP Total'] = pp_total
df_clasificacion['GF Total'] = gf_total
df_clasificacion['GC Total'] = gc_total
df_clasificacion['Pts. Casa'] = puntos_casa
df_clasificacion['PJ Casa'] = pj_casa
df_clasificacion['PG Casa'] = pg_casa
df_clasificacion['PE Casa'] = pe_casa
df_clasificacion['PP Casa'] = pp_casa
df_clasificacion['GF Casa'] = gf_casa
df_clasificacion['GC Casa'] = gc_casa
df_clasificacion['Pts. Fuera'] = puntos_fuera
df_clasificacion['PJ Fuera'] = pj_fuera
df_clasificacion['PG Fuera'] = pg_fuera
df_clasificacion['PE Fuera'] = pe_fuera
df_clasificacion['PP Fuera'] = pp_fuera
df_clasificacion['GF Fuera'] = gf_fuera
df_clasificacion['GC Fuera'] = gc_fuera


In [19]:
df_clasificacion

Unnamed: 0,Equipo,Pts. Total,PJ Total,PG Total,PE Total,PP Total,GF Total,GC Total,Pts. Casa,PJ Casa,...,PP Casa,GF Casa,GC Casa,Pts. Fuera,PJ Fuera,PG Fuera,PE Fuera,PP Fuera,GF Fuera,GC Fuera
0,Girona,34,13,11,1,1,31,16,15,6,...,1,15,8,19,7,6,1,0,16,8
1,Real Madrid,32,13,10,2,1,28,9,16,6,...,0,15,3,16,7,5,1,1,13,6
2,Barcelona,30,13,9,3,1,26,13,18,7,...,1,15,5,12,6,3,3,0,11,8
3,Atlético,28,12,9,1,2,29,12,18,6,...,0,16,7,10,6,3,1,2,13,5
4,Athletic,24,13,7,3,3,25,17,14,7,...,1,18,11,10,6,3,1,2,7,6
5,R. Sociedad,22,13,6,4,3,23,16,14,7,...,1,15,9,8,6,2,2,2,8,7
6,Betis,21,13,5,6,2,17,16,14,6,...,0,9,2,7,7,1,4,2,8,14
7,Las Palmas,18,13,5,3,5,11,12,11,6,...,1,6,4,7,7,2,1,4,5,8
8,Valencia,18,13,5,3,5,16,18,12,6,...,2,8,3,6,7,1,3,3,8,15
9,Rayo,18,13,4,6,3,15,17,6,6,...,2,8,14,12,7,3,3,1,7,3
