## Web Scraping con bs4 (BeautifulSoup)

**`BeautifulSoup`** es una biblioteca de python para extraer contenido de ficheros **`HTML`** y **`XML`**.

**`requests`** es una libreria que maneja los **requests** (o peticiones) de **HTTP** de una forma sencilla.

```html
pip install beautifulsoup4

pip install requests
```

Primero usamos **`requests`** para tener "acceso" a las páginas web, luego usamos **`BeautifulSoup`** para extraer la información del **`HTML`**.

In [1]:
import requests
from bs4 import BeautifulSoup

### requests

**`requests.get()`** toma un **`url`** (o enlace) y retorna la **"respuesta"** del servidor. Este nuevo objeto también extrae el código **`HTML`** del **`url`**.

Cada **"request"** toma un tiempo de respuesta, por lo que si intentamos hacer muchos **"request"** en un plazo corto de tiempo nuestro I.P. será baneado de la página web para evitar que colapse por el gran número de **"requests"**. En el peor de los casos la página recibirá tantos **"requests"** que colapsará y la dejaremos fuera de servicio.

El **`CAPTCHA`** es una herramienta que utilizan las páginas web para evitar el **web scraping** o evitar que un mismo usuario usando bots colapse la página.

_**"Completely Automated Public Turing test to tell Computers and Humans Apart"**_

In [2]:
url = "https://google.com/"

response = requests.get(url)

print(response)

print(bool(response))

<Response [200]>
True


In [3]:
# El atributo .text retorna el HTML de la página 

print(response.text)

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e inglés." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="TLZepq1AzEn1uhRoYiLWeQ">(function(){var _g={kEI:'VcbcZeq6G5qAvr0P9cmI2A8',kEXPI:'0,18168,1347300,206,2415,2389,1132070,1962,1195795,380734,44798,23792,12316,17583,4998,17075,38444,2872,2891,3926,213,7615,606,63304,13491,230,20583,4,59617,27050,6624,7596,1,42154,2,39761,6700,31122,4567,6256,24670,59704,8155,23351,22435,9779,42459,3141,17058,68055,4135,988,3030,15816,1804,22837,12432,960,10853,1635,51054,5214733,711,2,1390,716,105,76,5992678,412,2806254,32265,9,7443186,20540009,16673,43886,3,1603,3,2121778,2585,22636437,392914,12799,8408,1

In [4]:
type(response.text)

str

### BeautifulSoup

Si la respuesta del **`requests`** es positiva podemos pasar este objeto **`requests.get()`** a **`BeautifulSoup`** para que nos ayude a filtrar la información y extraerla más fácil. 

Los métodos más comunes de **`BeautifulSoup`** son:

|Método           |Descripción                                                                                        |
|-----------------|---------------------------------------------------------------------------------------------------|
|**`.body`**      | Retorna el contenido dentro de la etiqueta **`body`**.                                            |
|**`.title`**     | Retorna el titulo del **HTML**.                                                                   |
|**`.find()`**    | Busca en el **HTML** y retorna la primera ocurrencia del filtro en un objeto **`bs4`**.           |
|**`.find_all()`**| Busca en el **HTML** y retorna todas las ocurrencias del filtro en una lista de objetos **`bs4`**.|
|**`.text`**      | Retorna el contenido de un objeto **`bs4`** en un **`str`**.                                          |

In [5]:
soup = BeautifulSoup(response.text, "html.parser")

In [None]:
soup

In [7]:
type(soup)

bs4.BeautifulSoup

In [8]:
# sensacine

url = "https://www.sensacine.com/peliculas/en-cartelera/cines/"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

In [9]:
response.status_code

200

In [None]:
soup.body

In [12]:
# Esto retorna un objeto bs4
soup.title

<title>Películas en cartelera - SensaCine.com</title>

In [13]:
# Con .text lo convertimos a str

soup.title.text

'Películas en cartelera - SensaCine.com'

### Filtros con bs4

In [14]:
# Encontrar la primera etiqueta h2

soup.find("h2")

<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-277610/">Madame Web</a>
</h2>

In [18]:
soup.find("h2").find("a").text

'Madame Web'

In [20]:
# Con .find_all() encontramos todas las etiquetas y nos retorna una lista con objetos bs4

h2s = soup.find_all("h2")

In [26]:
[h2.find("a").text for h2 in h2s]

['Madame Web',
 'Bob Marley: One Love',
 'Políticamente incorrectos',
 'Ferrari',
 'Cualquiera menos tú',
 'Pobres criaturas',
 'La Piscina',
 'Guardianes de la Noche (Kimetsu no Yaiba): Rumbo al entrenamiento de los Pilares',
 'Priscilla',
 'Migración. Un viaje patas arriba',
 'Guardianes del museo',
 'Wonka']

In [29]:
# Encuentra la primera etiqueta a

soup.find("a")

<a href="/peliculas/pelicula-196675/">Agente X Última misión</a>

In [30]:
# Encuentra todas las etiquetas a

soup.find_all("a")

[<a href="/peliculas/pelicula-196675/">Agente X Última misión</a>,
 <a href="/peliculas/pelicula-288401/">Milady Los tres mosqueteros</a>,
 <a class="item" href="/">Portada</a>,
 <a class="item" href="/peliculas/">Cine</a>,
 <a class="item" href="/peliculas/todas-peliculas/">Películas recomendadas</a>,
 <a class="item" href="/peliculas/en-cartelera/mejores/nota-espectadores/">Mejores películas en cartelera</a>,
 <a class="item js-item-mq-medium" href="/peliculas/estrenos/">Estrenos de la semana</a>,
 <a class="item js-item-mq-medium" href="/peliculas/en-cartelera/infantil/">Películas para niños en cartelera</a>,
 <a class="item js-item-mq-medium" href="/peliculas/estrenos/es/">Próximos estrenos España</a>,
 <a class="meta-title-link" href="/peliculas/pelicula-277610/">Madame Web</a>,
 <a class="rating-title" href="#">Mis amigos </a>,
 <a class="button button-sm button-inverse-full" href="/peliculas/pelicula-277610/sesiones/">
 <span class="txt">Cartelera y Entrada (327)</span>
 </a>,
 

In [31]:
len(soup.find_all("a"))

71

In [32]:
# Podemos encadenar filtros siempre que nos retorne un objeto bs4

soup.find("h2")

<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-277610/">Madame Web</a>
</h2>

In [33]:
soup.find("h2").find("a")

<a class="meta-title-link" href="/peliculas/pelicula-277610/">Madame Web</a>

In [34]:
soup.find("h2").find("a")["href"]

'/peliculas/pelicula-277610/'

Cuando veamos una etiqueta con **class** en ella podemos usarla para hacer un filtro más específico.
```html
<li class="mdl">
```

Como en Python **`class`** es una palabra reservada, debemos usar **`class_`**.

In [35]:
soup.find("li", class_ = "mdl")

<li class="mdl">
<div class="card entity-card entity-card-list cf">
<figure class="thumbnail">
<span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yNzc2MTAvdHJhaWxlci0xOTU3NDAzOC8= thumbnail-container thumbnail-link" title=" Madame Web">
<img alt=" Madame Web" class="thumbnail-img" height="420" src="https://es.web.img3.acsta.net/c_310_420/pictures/23/12/13/12/59/0317379.jpg" width="310"/>
<span class="ico-play-wrapper">
<span class="icon icon-play-arrow"></span>
</span>
</span>
</figure>
<div class="meta">
<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-277610/">Madame Web</a>
</h2>
<div class="meta-body">
<div class="meta-body-item meta-body-info">
<span class="date">14 de febrero de 2024</span>
<span class="spacer">|</span>
1h 57min
<span class="spacer">|</span>
<span clas="dark-grey-link" class="ACrL3BACrlbGljdWxhcy90b2Rhcy1wZWxpY3VsYXMvZ2VuZXJvLTEzMDI1Lw==">Acción</span>,
<span clas="dark-grey-link" class="ACrL3BACrlbGljdWxhcy90b2Rhcy1wZWxpY3VsYXMvZ2VuZXJvLTE

In [None]:
soup.find_all("li", class_ = "mdl")

In [None]:
soup.find("span", class_ = "stareval-note")

In [None]:
soup.find_all("span", class_ = "stareval-note")

In [38]:
resultados = soup.find_all("a", class_ = "meta-title-link")
[resultado.text for resultado in resultados]

['Madame Web',
 'Bob Marley: One Love',
 'Políticamente incorrectos',
 'Ferrari',
 'Cualquiera menos tú',
 'Pobres criaturas',
 'La Piscina',
 'Guardianes de la Noche (Kimetsu no Yaiba): Rumbo al entrenamiento de los Pilares',
 'Priscilla',
 'Migración. Un viaje patas arriba',
 'Guardianes del museo',
 'Wonka']

Otra forma de usar estos filtros de **`bs4`** es atraves del parametro **`attrs`** de un diccionario.

Este diccionario tendrá como llave el nombre de las etiquetas y como valor el valor asociado a esa etiqueta:

In [39]:
dicc_bs4 = {"class" : "stareval-note"}

soup.find("span", attrs = dicc_bs4)

<span class="stareval-note">2,1</span>

In [40]:
soup.find("span", attrs = dicc_bs4).text

'2,1'

Utilizando bucles podemos iterar sobre los **`.find_all()`** y sacar información de forma automatizada.

In [None]:
# En la etiqueta h3 tenemos el url y el titulo de la pelicula

soup.find_all("h2")

In [43]:
soup.find("h2").find("a")['href']

'/peliculas/pelicula-277610/'

In [45]:
titulos = []
urls = []

for bs in soup.find_all("h2"):
    
    titulo = bs.find("a").text
    url = bs.find("a")["href"]
    titulos.append(titulo)
    urls.append(url)

Toda esta información se puede agrupar en un DataFrame y convertir a **`.csv`**

In [46]:
import numpy as np
import pandas as pd

In [47]:
df = pd.DataFrame()

df["titulo"] = titulos

df["url"] = urls

In [48]:
df

Unnamed: 0,titulo,url
0,Madame Web,/peliculas/pelicula-277610/
1,Bob Marley: One Love,/peliculas/pelicula-290882/
2,Políticamente incorrectos,/peliculas/pelicula-318272/
3,Ferrari,/peliculas/pelicula-237130/
4,Cualquiera menos tú,/peliculas/pelicula-187945/
5,Pobres criaturas,/peliculas/pelicula-290065/
6,La Piscina,/peliculas/pelicula-312090/
7,Guardianes de la Noche (Kimetsu no Yaiba): Rum...,/peliculas/pelicula-325052/
8,Priscilla,/peliculas/pelicula-308042/
9,Migración. Un viaje patas arriba,/peliculas/pelicula-253760/


In [49]:
df["url"] = df["url"].apply(lambda x : f"https://www.sensacine.com{x}")

In [50]:
df

Unnamed: 0,titulo,url
0,Madame Web,https://www.sensacine.com/peliculas/pelicula-2...
1,Bob Marley: One Love,https://www.sensacine.com/peliculas/pelicula-2...
2,Políticamente incorrectos,https://www.sensacine.com/peliculas/pelicula-3...
3,Ferrari,https://www.sensacine.com/peliculas/pelicula-2...
4,Cualquiera menos tú,https://www.sensacine.com/peliculas/pelicula-1...
5,Pobres criaturas,https://www.sensacine.com/peliculas/pelicula-2...
6,La Piscina,https://www.sensacine.com/peliculas/pelicula-3...
7,Guardianes de la Noche (Kimetsu no Yaiba): Rum...,https://www.sensacine.com/peliculas/pelicula-3...
8,Priscilla,https://www.sensacine.com/peliculas/pelicula-3...
9,Migración. Un viaje patas arriba,https://www.sensacine.com/peliculas/pelicula-2...


In [None]:
# path_or_buf = Nombre del archivo terminado en .csv
# index = False para que no se guarde el indice como nueva columna en el csv
# sep = "," para que el separador sea ",", se puede cambiar por cualquier otro separador.

df.to_csv("sensacine.csv", index = False, sep = ",")

In [None]:
df.to_pickle("sensacine.pkl")

In [51]:
url = "https://www.scrapethissite.com/pages/simple/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

In [75]:
data = []
countries = soup.find_all("div", class_ = "col-md-4 country")
for country in countries:
    country_name = country.find("h3", class_ = "country-name").text.strip()
    capital = country.find("span", class_ = "country-capital").text
    country_population = int(country.find("span", class_ = "country-population").text)
    country_area = float(country.find("span", class_ = "country-area").text)

    data.append([country_name, capital, country_population, country_area])

In [None]:
pd.DataFrame(data, columns = ["country_name", "capital", "population", "area"])

In [69]:
country.find("h3", class_ = "country-name").text.strip()

'Andorra'

In [73]:
int

int

### Agregar al DataFrame la duración de cada pelicula y su puntaje:

In [79]:
# sensacine

url = "https://www.sensacine.com/peliculas/en-cartelera/cines/"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

In [86]:
soup.find("div", class_ = "meta-body-item meta-body-info").text.split("|")[1].replace("\n", "")

'1h 57min'

In [None]:
# [np.nan if len(x.text.replace("\n", "").split("/")) < 3 else x.text.replace("\n", "").split("/")[1] for x in soup.find_all("div", class_ = "meta-body-item meta-body-info")]

In [None]:
lista_duraciones = list()

for x in soup.find_all("div", class_ = "meta-body-item meta-body-info"):
    
    x = x.text.replace("\n", "").split("/")
    
    if len(x) < 3:
        
        lista_duraciones.append(np.nan)
        
    else:
        
        lista_duraciones.append(x[1])
        
lista_duraciones

In [None]:
<div class="rating-holder rating-holder-3">
<div class="rating-item">
<div class="rating-item-content">
<a class="xXx rating-title" href="/peliculas/pelicula-246641/criticas-prensa/"> Medios </a>
<div class="stareval stareval-medium stareval-theme-default"><div class="rating-mdl n40 stareval-stars"><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div></div><span class="stareval-note">3,8</span></div>
</div>
</div>
<div class="rating-item">
<div class="rating-item-content">
<a class="xXx rating-title" href="/peliculas/pelicula-246641/criticas-espectadores/"> Usuarios </a>
<div class="stareval stareval-medium stareval-theme-default"><div class="rating-mdl n40 stareval-stars"><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div></div><span class="stareval-note">3,8</span></div>
</div>
</div>
<div class="rating-item">
<div class="rating-item-content js-user-friends-rating" data-entity-id="TW92aWU6MjQ2NjQx" data-size="medium" data-title="Mis amigos "><span><div class="rating-title">Mis amigos </div><div class="stareval stareval-medium"><span class="user-rating-note theme-yellow read-only no-del user-rating-medium"><span class="user-rating"><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div></span></span><span class="stareval-note no-rating">--</span></div><div class="zRJZkyoM6t6Z56xqtqmA"></div></span></div>
</div>
</div>

In [None]:
soup.find_all("li", class_ = "mdl")[0]

In [None]:
soup.find_all("li", class_ = "mdl")[1]

In [None]:
len(soup.find_all("li", class_ = "mdl"))

In [None]:
lista_puntaciones = list()

for pelicula in soup.find_all("li", class_ = "mdl"):
    
    if pelicula.find("a") != None:
    
        try:
            x = float(pelicula.find("div", class_ = "rating-item").find("span", class_ = "stareval-note").text.replace(",", "."))

        except:

            x = np.nan
    
        lista_puntaciones.append(x)
        
lista_puntaciones

In [None]:
df["duracion"] = lista_duraciones

df["puntuacion"] = lista_puntaciones

df

In [None]:
df.info()

### Información de 1 pelicula:

Vamos a entrar al primer **`url`** y sacar toda su información.

In [None]:
url = "https://www.sensacine.com/peliculas/pelicula-246641/"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

In [88]:
# Titulo

soup.find("div", class_ = "titlebar titlebar-page").text.strip()

'Guardianes de la Galaxia: Volumen 3'

In [93]:
soup.find("a", class_ = "xXx date ")

In [94]:
# Fecha

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.strip().split("\n")[0]

'4 de mayo de 2023'

In [None]:
# Duración

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[1]

In [None]:
# Guion 

soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text

In [None]:
# Reparto 

soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]

In [None]:
[x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]]

In [None]:
# Géneros

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(",")

In [None]:
# Sinopsis

soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text

In [None]:
from time import sleep

In [None]:
df["urls"]

In [None]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    titulo = soup.find("div", class_ = "titlebar titlebar-page").text
    fecha = soup.find("div", attrs = dict_bs4).text.strip().split("\n")[0]
    duracion = soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")[1]
    guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text
    reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])
    genero = " ".join(soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")[-1].split(","))
    sinopsis = soup.find("section", class_ = "section ovw ovw-synopsis").find("div", class_ = "content-txt").text
    
    titulos.append(titulo)
    fechas.append(fecha)
    duraciones.append(duracion)
    guiones.append(guion)
    repartos.append(reparto)
    generos.append(genero)
    sinopsises.append(sinopsis)
    
    sleep(3)

Muchas veces sucede que no todas las páginas tienen la misma información, por lo que tenemos que asegurarnos de que si no existe un dato lo sustituimos con un np.nan. Por eso podemos usar:
```python
try:
    
except:
```

In [None]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    
#### Titulo #######################################################################################################   

    try:
        titulo = soup.find("div", class_ = "titlebar titlebar-page").text
        
    except:
        titulo = np.nan
        
#### Fecha ########################################################################################################   

    try:
        fecha = soup.find("div", class_ = "meta-body-item meta-body-info").text.strip().split("\n")[0]
        
    except:
        fecha = np.nan

#### Duracion #####################################################################################################

    try:
        duracion = soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[1]
        
    except:
        duracion = np.nan

#### Guion ########################################################################################################

    try:
        guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text
        
    except:
        guion = np.nan

#### Reparto ######################################################################################################

    try:
        reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])
        
    except:
        reparto = np.nan

#### Genero #######################################################################################################

    try:
        genero = " ".join(soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(","))
        
    except:
        genero = np.nan

#### Sinopsis #####################################################################################################

    try:
        sinopsis = soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text
        
    except:
        sinopsis = np.nan
        
##################################################################################################################

    # appends
    
    titulos.append(titulo)
    fechas.append(fecha)
    duraciones.append(duracion)
    guiones.append(guion)
    repartos.append(reparto)
    generos.append(genero)
    sinopsises.append(sinopsis)
    
    sleep(3)

In [None]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["fecha"] = fechas
df_peliculas["duracion"] = duraciones
df_peliculas["guion"] = guiones
df_peliculas["reparto"] = repartos
df_peliculas["genero"] = generos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]

In [None]:
df_peliculas

### Ejercicio: Modificar el código para que no hayan errores

In [None]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    
#### Titulo #######################################################################################################   

    try:
        titulo = soup.find("div", class_ = "titlebar titlebar-page").text
        
    except:
        titulo = np.nan
        
#### Fecha ########################################################################################################   

    try:
        fecha = soup.find("div", class_ = "meta-body-item meta-body-info").text.strip().split("\n")[0]
        
    except:
        fecha = np.nan

#### Duracion #####################################################################################################

    try:
        duracion = soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")
        
        if len(duracion) < 3:
            
            duracion = np.nan
            
        else:
            
            duracion = duracion[1]
        
    except:
        duracion = np.nan

#### Guion ########################################################################################################

    try:
        guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text
        
    except:
        guion = np.nan

#### Reparto ######################################################################################################

    try:
        reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])
        
    except:
        reparto = np.nan

#### Genero #######################################################################################################

    try:
        genero = " ".join(soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(","))
        
    except:
        genero = np.nan

#### Sinopsis #####################################################################################################

    try:
        sinopsis = soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text
        
    except:
        sinopsis = np.nan
        
##################################################################################################################

    # appends
    
    titulos.append(titulo)
    fechas.append(fecha)
    duraciones.append(duracion)
    guiones.append(guion)
    repartos.append(reparto)
    generos.append(genero)
    sinopsises.append(sinopsis)
    
    sleep(3)

In [None]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["fecha"] = fechas
df_peliculas["duracion"] = duraciones
df_peliculas["guion"] = guiones
df_peliculas["reparto"] = repartos
df_peliculas["genero"] = generos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]
df_peliculas["puntuacion"] = df["puntuacion"]

df_peliculas

In [None]:
df_peliculas.to_csv("info_peliculas.csv", index = False, sep = ",")

In [None]:
################################################################################################################################

# Pandas - Tablas

In [106]:
url = "https://www.scrapethissite.com/pages/forms/"

In [108]:
response = requests.get(url)

In [110]:
tablas = pd.read_html(response.text)

  tablas = pd.read_html(response.text)


In [115]:
# SACAR TODAS

In [None]:
page_counter = 1
dfs = []

while True:
    url = f"https://www.scrapethissite.com/pages/forms/?page_num={page_counter}"
    response = requests.get(url)
    tablas = pd.read_html(response.text)
    df_temp = tablas[0]

    if df_temp.empty:
        break
    
    dfs.append(df_temp)
    page_counter += 1

In [127]:
a = pd.DataFrame()

In [None]:
page_counter = 1

df = pd.DataFrame()

while True:
    url = f"https://www.scrapethissite.com/pages/forms/?page_num={page_counter}"
    response = requests.get(url)
    tablas = pd.read_html(response.text)
    df_temp = tablas[0]

    if df_temp.empty:
        break

    df = pd.concat([df, df_temp])
    page_counter += 1