## Web Scraping con bs4 (BeautifulSoup)

**`BeautifulSoup`** es una biblioteca de python para extraer contenido de ficheros **`HTML`** y **`XML`**.

**`requests`** es una libreria que maneja los **requests** (o peticiones) de **HTTP** de una forma sencilla.

```html
pip install beautifulsoup4

pip install requests
```

Primero usamos **`requests`** para tener "acceso" a las páginas web, luego usamos **`BeautifulSoup`** para extraer la información del **`HTML`**.

In [1]:
import requests
from bs4 import BeautifulSoup

### requests

**`requests.get()`** toma un **`url`** (o enlace) y retorna la **"respuesta"** del servidor. Este nuevo objeto también extrae el código **`HTML`** del **`url`**.

Cada **"request"** toma un tiempo de respuesta, por lo que si intentamos hacer muchos **"request"** en un plazo corto de tiempo nuestro I.P. será baneado de la página web para evitar que colapse por el gran número de **"requests"**. En el peor de los casos la página recibirá tantos **"requests"** que colapsará y la dejaremos fuera de servicio.

El **`CAPTCHA`** es una herramienta que utilizan las páginas web para evitar el **web scraping** o evitar que un mismo usuario usando bots colapse la página.

_**"Completely Automated Public Turing test to tell Computers and Humans Apart"**_

In [2]:
url = "https://google.com/"

response = requests.get(url)

print(response)

print(bool(response))

<Response [200]>
True


In [3]:
# El atributo .text retorna el HTML de la página 

print(response.text)

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e inglés." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="hQIR2oa4ENq9wICk7TKuoQ">(function(){var _g={kEI:'TiokZfukBeHm2roP1sSWuAk',kEXPI:'0,1361119,4349,206,4804,2316,383,246,5,1129120,1197756,638,380096,16115,19397,9286,22432,1361,12319,17580,4998,17075,36218,2226,2872,2891,3926,213,4209,4012,30668,30021,6398,9938,20583,4,28690,30927,4437,22601,6636,7596,1,42154,2,39761,5679,1021,31121,4569,6252,23424,1252,59701,8155,8861,14489,873,19634,7,1922,9779,42459,20198,5797,3,14433,20206,8377,18988,550,4825,3030,15816,357,1447,22837,4257,6003,2172,5249,6564,1635,283,26416,7914,8844,787,8523,5206802,6

In [4]:
type(response.text)

str

In [10]:
response.text.split('</a>')[3]

' <a class=gb1 href="https://www.youtube.com/?tab=w1">YouTube'

### BeautifulSoup

Si la respuesta del **`requests`** es positiva podemos pasar este objeto **`requests.get()`** a **`BeautifulSoup`** para que nos ayude a filtrar la información y extraerla más fácil. 

Los métodos más comunes de **`BeautifulSoup`** son:

|Método           |Descripción                                                                                        |
|-----------------|---------------------------------------------------------------------------------------------------|
|**`.body`**      | Retorna el contenido dentro de la etiqueta **`body`**.                                            |
|**`.title`**     | Retorna el titulo del **HTML**.                                                                   |
|**`.find()`**    | Busca en el **HTML** y retorna la primera ocurrencia del filtro en un objeto **`bs4`**.           |
|**`.find_all()`**| Busca en el **HTML** y retorna todas las ocurrencias del filtro en una lista de objetos **`bs4`**.|
|**`.text`**      | Retorna el contenido de un objeto **`bs4`** en un **`str`**.                                          |

In [11]:
soup = BeautifulSoup(response.text, "html.parser")

In [12]:
soup

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e inglés." name="description"/><meta content="noodp" name="robots"/><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="hQIR2oa4ENq9wICk7TKuoQ">(function(){var _g={kEI:'TiokZfukBeHm2roP1sSWuAk',kEXPI:'0,1361119,4349,206,4804,2316,383,246,5,1129120,1197756,638,380096,16115,19397,9286,22432,1361,12319,17580,4998,17075,36218,2226,2872,2891,3926,213,4209,4012,30668,30021,6398,9938,20583,4,28690,30927,4437,22601,6636,7596,1,42154,2,39761,5679,1021,31121,4569,6252,23424,1252,59701,8155,8861,14489,873,19634,7,1922,9779,42459,20198,5797,3,14433,20206,8377,18988,550,4825,3030,15816,357,1447,22837,4257,6003,2172,5249,6564,1635,283,26416,7914,8844,787,8523,5206

In [13]:
type(soup)

bs4.BeautifulSoup

In [63]:
# sensacine

url = "https://www.sensacine.com/peliculas/en-cartelera/cines/"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

In [20]:
response.status_code

200

In [16]:
soup.body

<body class="sensacine sensacine__movies_playing_now_no_prefix logged-out" data-migration="graph" id="sensacine__movies_playing_now_no_prefix">
<div class="sub-body">
<div class="js-interstitial ad-interstitial ad-item" id="dfp-interstitial"></div>
<header class="header-main" id="header-main">
<div class="header-main-center">
<div class="header-main-top">
<div aria-label="Button Mobile menu" class="header-main-btn-mobile icon icon-hamburger" id="header-main-mobile-btn-menu"></div>
<div class="header-main-logo-holder">
<span class="ACrLw=ACr= header-main-logo">
<img alt="sensacine" class="header-main-logo-img" height="37" src="https://assets.sensacine.com/skin/img/sensacine/logo-main.71eda1dd.svg" width="162"/>
<span class="header-main-logo-name">SensaCine</span>
</span>
</div>
<form action="/buscar/" class="header-main-search" id="search-header" method="get">
<fieldset class="header-main-search-fieldset" id="search-engine">
<div class="header-search-form-container"><input class="header

In [21]:
# Esto retorna un objeto bs4
soup.title

<title>Películas en cartelera - SensaCine.com</title>

In [22]:
# Con .text lo convertimos a str

soup.title.text

'Películas en cartelera - SensaCine.com'

### Filtros con bs4

**Find:** Nos devuelve la primera concurrencia del elemento que queremos que encuentre

In [23]:
# Encontrar la primera etiqueta h2

soup.find("h2")

<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
</h2>

**Find all:** Nos devuelve todas los elementos que compartar la etiqueta dentro de todo el HTML dentro de una lista, la cual como cualquier elemento iterable podremos recorrer y extraer uno a uno los elementos de la misma.

In [24]:
# Con .find_all() encontramos todas las etiquetas y nos retorna una lista con objetos bs4

soup.find_all("h2")

[<h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-289029/">El exorcista: Creyente</a>
 </h2>,
 <h2 class="meta-title">
 <span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yMjc3MjYv meta-title-link">Los mercen4arios</span>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-302417/">Misterio en Venecia</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-291879/">Saw X</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-310519/">Campeonex</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-273411/">La monja II</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-306013/">Golpe de suerte</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/

In [25]:
# Encuentra la primera etiqueta a

soup.find("a")

<a href="/peliculas/pelicula-258080/">Los Juegos del Hambre Balada de pájaros cantores y serpientes</a>

In [26]:
# Encuentra todas las etiquetas a

soup.find_all("a")

[<a href="/peliculas/pelicula-258080/">Los Juegos del Hambre Balada de pájaros cantores y serpientes</a>,
 <a href="/peliculas/pelicula-227726/">Los mercenarios 4</a>,
 <a href="/peliculas/pelicula-267218/">Sound of Freedom</a>,
 <a class="item" href="/">Portada</a>,
 <a class="item" href="/peliculas/">Cine</a>,
 <a class="item" href="/peliculas/todas-peliculas/">Películas recomendadas</a>,
 <a class="item" href="/peliculas/en-cartelera/mejores/nota-espectadores/">Mejores películas en cartelera</a>,
 <a class="item js-item-mq-medium" href="/peliculas/estrenos/">Estrenos de la semana</a>,
 <a class="item js-item-mq-medium" href="/peliculas/en-cartelera/infantil/">Películas para niños en cartelera</a>,
 <a class="item js-item-mq-medium" href="/peliculas/estrenos/es/">Próximos estrenos España</a>,
 <a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>,
 <a class="blue-link" href="/actores/actor-455146/">Gareth Edwards (V)</a>,
 <a class="button button-sm button-inv

In [27]:
len(soup.find_all("a"))

82

In [28]:
# Podemos encadenar filtros siempre que nos retorne un objeto bs4

soup.find("h2")

<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
</h2>

In [29]:
soup.find("h2").find("a")

<a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>

A su vez podremos acceder a los atributos que tiene la etiqueta HTML poniendo entre cochetes el atributo al que queremos acceder

In [34]:
soup.find("h2").find("a")["href"]

'/peliculas/pelicula-280993/'

Cuando veamos una etiqueta con **class** en ella podemos usarla para hacer un filtro más específico.
```html
<li class="mdl">
```

Como en Python **`class`** es una palabra reservada, debemos usar **`class_`**.

In [35]:
soup.find("li", class_ = "mdl")

<li class="mdl">
<div class="card entity-card entity-card-list cf">
<figure class="thumbnail">
<span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yODA5OTMvdHJhaWxlci0xOTU3Mzc1NS8= thumbnail-container thumbnail-link" title=" The Creator">
<img alt=" The Creator" class="thumbnail-img" height="420" src="https://es.web.img3.acsta.net/c_310_420/pictures/23/08/30/12/00/5710521.jpg" width="310"/>
<span class="ico-play ico-play-yellow">
<span class="ico-play-inner"></span>
<i class="ico-play-arrow">
<i class="arrow"></i>
</i>
</span>
</span>
</figure>
<div class="meta">
<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
</h2>
<div class="meta-body">
<div class="meta-body-item meta-body-info">
<span class="date">29 de septiembre de 2023</span>
<span class="spacer">/</span>
2h 13min
<span class="spacer">/</span>
<span class="ACrL3BACrlbGljdWxhcy90b2Rhcy1wZWxpY3VsYXMvZ2VuZXJvLTEzMDIxLw==">Ciencia ficción</span>,
<span class="ACrL3BACrlbGljdWxhcy90b2Rh

In [39]:
soup.find_all("li", class_ = "mdl")

[<li class="mdl">
 <div class="card entity-card entity-card-list cf">
 <figure class="thumbnail">
 <span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yODA5OTMvdHJhaWxlci0xOTU3Mzc1NS8= thumbnail-container thumbnail-link" title=" The Creator">
 <img alt=" The Creator" class="thumbnail-img" height="420" src="https://es.web.img3.acsta.net/c_310_420/pictures/23/08/30/12/00/5710521.jpg" width="310"/>
 <span class="ico-play ico-play-yellow">
 <span class="ico-play-inner"></span>
 <i class="ico-play-arrow">
 <i class="arrow"></i>
 </i>
 </span>
 </span>
 </figure>
 <div class="meta">
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
 </h2>
 <div class="meta-body">
 <div class="meta-body-item meta-body-info">
 <span class="date">29 de septiembre de 2023</span>
 <span class="spacer">/</span>
 2h 13min
 <span class="spacer">/</span>
 <span class="ACrL3BACrlbGljdWxhcy90b2Rhcy1wZWxpY3VsYXMvZ2VuZXJvLTEzMDIxLw==">Ciencia ficción</span>,
 <span class="A

In [40]:
soup.find("span", class_ = "stareval-note")

<span class="stareval-note">3,7</span>

In [41]:
soup.find_all("span", class_ = "stareval-note")

[<span class="stareval-note">3,7</span>,
 <span class="stareval-note">3,7</span>,
 <span class="stareval-note">3,5</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">2,6</span>,
 <span class="stareval-note">3,0</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">2,0</span>,
 <span class="stareval-note">3,1</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">2,9</span>,
 <span class="stareval-note">3,4</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">3,3</span>,
 <span class="stareval-note">3,6</span>,
 <span class="stareval-note">3,0</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">2,8</span>,
 <span class="stareval-note">3,3</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">2,7</span>,
 <span class="stareval-note">2,9</span>,
 <span class="stareval-note no-rating">--</s

Otra forma de usar estos filtros de **`bs4`** es atraves del parametro **`attrs`** de un diccionario.

Este diccionario tendrá como llave el nombre de las etiquetas y como valor el valor asociado a esa etiqueta:

In [54]:
dicc_bs4 = {"class" : "stareval-note"}

soup.find("span", attrs = dicc_bs4)

<span class="stareval-note">3,7</span>

In [53]:
soup.find_all("span", attrs = dicc_bs4)[4].text

'2,6'

Si queremos acceder al texto del elemento que estamos capturando lo podemos hacer a través del atributo `.text` del objeto creado con beautifulsoup.

In [48]:
soup.find("span", attrs = dicc_bs4).text

'3,7'

Utilizando bucles podemos iterar sobre los **`.find_all()`** y sacar información de forma automatizada.

In [55]:
# En la etiqueta h2 tenemos el url y el titulo de la pelicula

soup.find_all("h2")

[<h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-289029/">El exorcista: Creyente</a>
 </h2>,
 <h2 class="meta-title">
 <span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yMjc3MjYv meta-title-link">Los mercen4arios</span>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-302417/">Misterio en Venecia</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-291879/">Saw X</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-310519/">Campeonex</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-273411/">La monja II</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-306013/">Golpe de suerte</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/

In [56]:
soup.find("h2").find("a").text

'The Creator'

In [57]:
titulos = list()

urls = list()

for bs in soup.find_all("h2"):
    
    titulo = bs.find("a").text #con esto extraemos el título de la película
    url = bs.find("a")["href"] # con esto el enlace a la página de la película
    
    titulos.append(titulo)
    urls.append(url)
    
    
for t, u in zip(titulos, urls):
    print(t, u)

AttributeError: 'NoneType' object has no attribute 'text'

Como no da error al 

In [66]:
titulos = list()

urls = list()

for bs in soup.find_all("h2"):
    try:
        titulos.append(bs.find("a").text)
        urls.append(bs.find("a")['href'])
    except:
        print(bs.find("a"))
        print(bs.find("span").text)
        titulos.append(bs.find("span").text)
        try:
            dictio = {'class': 'meta-title-link'}
            print(bs.find("h2", attrs= dictio)['href'])
            urls.append(bs.find("a")['href'])
        except:
            print('href no disponible')
            urls.append('unknown')
    
    
for t, u in zip(titulos, urls):
    print(t, u)

None
Los mercen4arios
href no disponible
The Creator /peliculas/pelicula-280993/
El exorcista: Creyente /peliculas/pelicula-289029/
Los mercen4arios unknown
Misterio en Venecia /peliculas/pelicula-302417/
Saw X /peliculas/pelicula-291879/
Campeonex /peliculas/pelicula-310519/
La monja II /peliculas/pelicula-273411/
Golpe de suerte /peliculas/pelicula-306013/
Golpe a Wall Street /peliculas/pelicula-290002/
The Equalizer 3 /peliculas/pelicula-300107/
La ternura /peliculas/pelicula-310657/
Ninja Turtles: Caos mutante /peliculas/pelicula-284995/


Toda esta información se puede agrupar en un DataFrame y convertir a **`.csv`**

In [67]:
import numpy as np
import pandas as pd

In [68]:
df = pd.DataFrame()

df["titulo"] = titulos

df["urls"] = urls

In [69]:
df

Unnamed: 0,titulo,urls
0,The Creator,/peliculas/pelicula-280993/
1,El exorcista: Creyente,/peliculas/pelicula-289029/
2,Los mercen4arios,unknown
3,Misterio en Venecia,/peliculas/pelicula-302417/
4,Saw X,/peliculas/pelicula-291879/
5,Campeonex,/peliculas/pelicula-310519/
6,La monja II,/peliculas/pelicula-273411/
7,Golpe de suerte,/peliculas/pelicula-306013/
8,Golpe a Wall Street,/peliculas/pelicula-290002/
9,The Equalizer 3,/peliculas/pelicula-300107/


Ahora vamos a corregir la url de la pelicula para que sea un enlace funcional

In [70]:
df["urls"] = df["urls"].apply(lambda x : f"https://www.sensacine.com{x}" if x != 'unknown' else np.nan)

In [71]:
df

Unnamed: 0,titulo,urls
0,The Creator,https://www.sensacine.com/peliculas/pelicula-2...
1,El exorcista: Creyente,https://www.sensacine.com/peliculas/pelicula-2...
2,Los mercen4arios,
3,Misterio en Venecia,https://www.sensacine.com/peliculas/pelicula-3...
4,Saw X,https://www.sensacine.com/peliculas/pelicula-2...
5,Campeonex,https://www.sensacine.com/peliculas/pelicula-3...
6,La monja II,https://www.sensacine.com/peliculas/pelicula-2...
7,Golpe de suerte,https://www.sensacine.com/peliculas/pelicula-3...
8,Golpe a Wall Street,https://www.sensacine.com/peliculas/pelicula-2...
9,The Equalizer 3,https://www.sensacine.com/peliculas/pelicula-3...


Y podremos exportar nuestro primer contacto con bs a un archivo y poder compartirlo, guardarlo, o hacer con el lo que queramos

In [73]:
# path_or_buf = Nombre del archivo terminado en .csv
# index = False para que no se guarde el indice como nueva columna en el csv
# sep = "," para que el separador sea ",", se puede cambiar por cualquier otro separador.

df.to_csv(path_or_buf = "data/sensacine.csv", index = False, sep = ",")

In [None]:
df.to_pickle("sensacine.pkl")

### Agregar al DataFrame la duración de cada pelicula y su puntaje:

In [80]:
soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")[1]

'2h 13min'

In [82]:
lista_duraciones = list()

for x in soup.find_all("div", class_ = "meta-body-item meta-body-info"):
    
    x = x.text.replace("\n", "").split("/")
    #print(x)
    '''
    Nos devuelve una lista con la info de cada una de las películas,
    como podemos ver no todas son iguales, pero si observamos que
    en la posición 2 (índice 1) de cada lista está la duración de cada
    una de las películas, por lo que comprobaremos la longitud de esta
    lista y si esta es menor de 2 es que no tiene la duración y lo que
    haremos será añadir un valor Nulo para esta posición
    '''
    if len(x) < 3:
        print(f'No se ha podido encontrar la duración en {x}')
        lista_duraciones.append(np.nan)
        
    else:
        
        lista_duraciones.append(x[1])
        
lista_duraciones

No se ha podido encontrar la duración en ['18 de agosto de 2023', 'Comedia dramática']
No se ha podido encontrar la duración en ['29 de septiembre de 2023', 'Comedia,Romántico,Histórico']


['2h 13min',
 '1h 51min',
 '1h 43min',
 '1h 44min',
 '1h 58min',
 nan,
 '1h 49min',
 '1h 33min',
 '1h 44min',
 '1h 50min',
 nan,
 '1h 39min']

In [84]:
# Lo mismo de arriba con una lista comprimida
[np.nan if len(x.text.replace("\n", "").split("/")) < 3 else x.text.replace("\n", "").split("/")[1] for x in soup.find_all("div", class_ = "meta-body-item meta-body-info")]

['2h 13min',
 '1h 51min',
 '1h 43min',
 '1h 44min',
 '1h 58min',
 nan,
 '1h 49min',
 '1h 33min',
 '1h 44min',
 '1h 50min',
 nan,
 '1h 39min']

### Ahora vamos a hacer lo mismo pero en esta ocasión extraeremos la puntuación de cada una de las películas

<div class="rating-holder rating-holder-3">
<div class="rating-item">
<div class="rating-item-content">
<a class="xXx rating-title" href="/peliculas/pelicula-246641/criticas-prensa/"> Medios </a>
<div class="stareval stareval-medium stareval-theme-default"><div class="rating-mdl n40 stareval-stars"><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div></div><span class="stareval-note">3,8</span></div>
</div>
</div>
<div class="rating-item">
<div class="rating-item-content">
<a class="xXx rating-title" href="/peliculas/pelicula-246641/criticas-espectadores/"> Usuarios </a>
<div class="stareval stareval-medium stareval-theme-default"><div class="rating-mdl n40 stareval-stars"><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div><div class="star icon"></div></div><span class="stareval-note">3,8</span></div>
</div>
</div>
<div class="rating-item">
<div class="rating-item-content js-user-friends-rating" data-entity-id="TW92aWU6MjQ2NjQx" data-size="medium" data-title="Mis amigos "><span><div class="rating-title">Mis amigos </div><div class="stareval stareval-medium"><span class="user-rating-note theme-yellow read-only no-del user-rating-medium"><span class="user-rating"><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div><div class="rating-star tooltip-parent"></div></span></span><span class="stareval-note no-rating">--</span></div><div class="zRJZkyoM6t6Z56xqtqmA"></div></span></div>
</div>
</div>

Volvemos a inspeccionar el HTML en busca del elemento que queremos capturar

In [85]:
soup.find_all("li", class_ = "mdl")[0]

<li class="mdl">
<div class="card entity-card entity-card-list cf">
<figure class="thumbnail">
<span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yODA5OTMvdHJhaWxlci0xOTU3Mzc1NS8= thumbnail-container thumbnail-link" title=" The Creator">
<img alt=" The Creator" class="thumbnail-img" height="420" src="https://es.web.img3.acsta.net/c_310_420/pictures/23/08/30/12/00/5710521.jpg" width="310"/>
<span class="ico-play ico-play-yellow">
<span class="ico-play-inner"></span>
<i class="ico-play-arrow">
<i class="arrow"></i>
</i>
</span>
</span>
</figure>
<div class="meta">
<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
</h2>
<div class="meta-body">
<div class="meta-body-item meta-body-info">
<span class="date">29 de septiembre de 2023</span>
<span class="spacer">/</span>
2h 13min
<span class="spacer">/</span>
<span class="ACrL3BACrlbGljdWxhcy90b2Rhcy1wZWxpY3VsYXMvZ2VuZXJvLTEzMDIxLw==">Ciencia ficción</span>,
<span class="ACrL3BACrlbGljdWxhcy90b2Rh

In [86]:
soup.find_all("li", class_ = "mdl")[1]

<li class="mdl">
<div class="card entity-card entity-card-list cf">
<figure class="thumbnail">
<span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yODkwMjkvdHJhaWxlci0xOTU3MzU0My8= thumbnail-container thumbnail-link" title=" El exorcista: Creyente">
<img alt=" El exorcista: Creyente" class="thumbnail-img" height="420" src="https://es.web.img2.acsta.net/c_310_420/pictures/23/08/30/12/24/1331915.jpg" width="310"/>
<span class="ico-play ico-play-yellow">
<span class="ico-play-inner"></span>
<i class="ico-play-arrow">
<i class="arrow"></i>
</i>
</span>
</span>
</figure>
<div class="meta">
<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-289029/">El exorcista: Creyente</a>
</h2>
<div class="meta-body">
<div class="meta-body-item meta-body-info">
<span class="date">6 de octubre de 2023</span>
<span class="spacer">/</span>
1h 51min
<span class="spacer">/</span>
<span class="ACrL3BACrlbGljdWxhcy90b2Rhcy1wZWxpY3VsYXMvZ2VuZXJvLTEzMDA5Lw==">Terror</span>
</div>
<div class="m

In [87]:
len(soup.find_all("li", class_ = "mdl"))

13

In [103]:
lista_puntaciones = list()

for pelicula in soup.find_all("li", class_ = "mdl"):
    print(pelicula.find("a"))
    
    if pelicula.find("a") != None:
    
        try:
            x = float(pelicula.find("div", class_ = "rating-item").find("span", class_ = "stareval-note").text.replace(",", "."))

        except:

            x = np.nan
    
        lista_puntaciones.append(x)
        
lista_puntaciones

<a class="meta-title-link" href="/peliculas/pelicula-280993/">The Creator</a>
<a class="meta-title-link" href="/peliculas/pelicula-289029/">El exorcista: Creyente</a>
None
<a class="blue-link" href="/actores/actor-104326/">Scott Waugh</a>
<a class="meta-title-link" href="/peliculas/pelicula-302417/">Misterio en Venecia</a>
<a class="meta-title-link" href="/peliculas/pelicula-291879/">Saw X</a>
<a class="meta-title-link" href="/peliculas/pelicula-310519/">Campeonex</a>
<a class="meta-title-link" href="/peliculas/pelicula-273411/">La monja II</a>
<a class="meta-title-link" href="/peliculas/pelicula-306013/">Golpe de suerte</a>
<a class="meta-title-link" href="/peliculas/pelicula-290002/">Golpe a Wall Street</a>
<a class="meta-title-link" href="/peliculas/pelicula-300107/">The Equalizer 3</a>
<a class="meta-title-link" href="/peliculas/pelicula-310657/">La ternura</a>
<a class="meta-title-link" href="/peliculas/pelicula-284995/">Ninja Turtles: Caos mutante</a>


[3.7, 2.6, 2.0, 2.9, 3.3, 2.8, 2.7, 3.4, 3.3, 3.0, 4.5, 3.8]

In [104]:
df["duracion"] = lista_duraciones

df["puntuacion"] = lista_puntaciones

df

Unnamed: 0,titulo,urls,duracion,puntuacion
0,The Creator,https://www.sensacine.com/peliculas/pelicula-2...,2h 13min,3.7
1,El exorcista: Creyente,https://www.sensacine.com/peliculas/pelicula-2...,1h 51min,2.6
2,Los mercen4arios,,1h 43min,2.0
3,Misterio en Venecia,https://www.sensacine.com/peliculas/pelicula-3...,1h 44min,2.9
4,Saw X,https://www.sensacine.com/peliculas/pelicula-2...,1h 58min,3.3
5,Campeonex,https://www.sensacine.com/peliculas/pelicula-3...,,2.8
6,La monja II,https://www.sensacine.com/peliculas/pelicula-2...,1h 49min,2.7
7,Golpe de suerte,https://www.sensacine.com/peliculas/pelicula-3...,1h 33min,3.4
8,Golpe a Wall Street,https://www.sensacine.com/peliculas/pelicula-2...,1h 44min,3.3
9,The Equalizer 3,https://www.sensacine.com/peliculas/pelicula-3...,1h 50min,3.0


In [105]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   titulo      12 non-null     object 
 1   urls        11 non-null     object 
 2   duracion    10 non-null     object 
 3   puntuacion  12 non-null     float64
dtypes: float64(1), object(3)
memory usage: 512.0+ bytes


### Información de 1 pelicula:

Vamos a entrar al primer **`url`** y sacar toda su información.

In [106]:
df.urls[0]

'https://www.sensacine.com/peliculas/pelicula-280993/'

In [107]:
url = df.urls[0]

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

<!DOCTYPE html>

<html lang="es">
<head>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8">
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
<meta content="index,follow,max-snippet:-1,max-image-preview:standard" name="robots">
<title>The Creator - Película 2023 - SensaCine.com</title>
<meta content="" name="keywords"/>
<meta content="noarchive" name="Googlebot"/>
<meta content="global" name="distribution"/>
<meta content="SensaCine" name="author"/>
<meta content="Spain" name="country"/>
<meta content="40.46131;-0.367224" name="geo.position"/>
<meta content="ES" name="geo.country"/>
<meta content="40.46131;-0.367224" name="ICBM"/>
<meta content="#FECC00" name="theme-color"/>
<meta content="The Creator es una película dirigida por Gareth Edwards (V) con John David Washington, Gemma Chan. Sinopsis : Thriller dramático de ciencia ficción que gira en torno al poder e inteligenc

In [115]:
# Titulo

soup.find("div", class_ = "titlebar titlebar-page").text.strip()

'The Creator'

In [119]:
# Fecha

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.strip().split("\n")[0]

'29 de septiembre de 2023'

In [123]:
# Duración

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[1]

'2h 13min'

In [111]:
# Guion 

soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text

'Gareth Edwards (V)'

In [128]:
# Reparto 

soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]

reparto = []

for actor in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]:
    
    reparto.append(actor.text)

    reparto

['John David Washington', 'Gemma Chan', 'Ken Watanabe']

In [130]:
# Esto es lo mismo de arriba pero en una lista comprimida
[x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]]

['John David Washington', 'Gemma Chan', 'Ken Watanabe']

In [134]:
# Géneros

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(",")

['Ciencia ficción', 'Drama', 'Aventura']

In [135]:
# Sinopsis

soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text

'\nThriller dramático de ciencia ficción que gira en torno al poder e inteligencia de las IA.\xa0Un futuro incierto en el que hace 10 años una Inteligencia Artificial detonó una cabeza nuclear. Ahora, cuando la humanidad está herida de muerte, las personas están en guerra contra las máquinas, y luchan por su propia existencia. Mientras las Inteligencias Artificiales sean una amenaza, una tecnología capaz de eliminar a la humanidad de la faz de la Tierra, no dejarán de perseguirlos. Joshua (John David Washington), un ex agente de las fuerzas especiales, es reclutado para localizar al Creador, la fría mente que se oculta detrás de la avanzada Inteligencia Artificial. Él debe localizar el arma con el que las IA luchan después de rebelarse contra los seres humanos. Pero ese arma es una niña, un ser con la apariencia de una niña. Será entonces cuando Joshua deba decidir si ejecutarla o dejar que la raza humana se extinga.\n'

In [136]:
from time import sleep

In [137]:
df["urls"]

0     https://www.sensacine.com/peliculas/pelicula-2...
1     https://www.sensacine.com/peliculas/pelicula-2...
2                                                   NaN
3     https://www.sensacine.com/peliculas/pelicula-3...
4     https://www.sensacine.com/peliculas/pelicula-2...
5     https://www.sensacine.com/peliculas/pelicula-3...
6     https://www.sensacine.com/peliculas/pelicula-2...
7     https://www.sensacine.com/peliculas/pelicula-3...
8     https://www.sensacine.com/peliculas/pelicula-2...
9     https://www.sensacine.com/peliculas/pelicula-3...
10    https://www.sensacine.com/peliculas/pelicula-3...
11    https://www.sensacine.com/peliculas/pelicula-2...
Name: urls, dtype: object

In [138]:
df.at[2, 'urls'] = 'https://www.sensacine.com/peliculas/pelicula-227726/'
df['urls']

0     https://www.sensacine.com/peliculas/pelicula-2...
1     https://www.sensacine.com/peliculas/pelicula-2...
2     https://www.sensacine.com/peliculas/pelicula-2...
3     https://www.sensacine.com/peliculas/pelicula-3...
4     https://www.sensacine.com/peliculas/pelicula-2...
5     https://www.sensacine.com/peliculas/pelicula-3...
6     https://www.sensacine.com/peliculas/pelicula-2...
7     https://www.sensacine.com/peliculas/pelicula-3...
8     https://www.sensacine.com/peliculas/pelicula-2...
9     https://www.sensacine.com/peliculas/pelicula-3...
10    https://www.sensacine.com/peliculas/pelicula-3...
11    https://www.sensacine.com/peliculas/pelicula-2...
Name: urls, dtype: object

In [146]:
df['urls'][10]

'https://www.sensacine.com/peliculas/pelicula-310657/'

In [147]:
# Crear un DataFrame

titulos = []
fechas = []
duraciones = []
guiones = []
repartos = []
generos = []
sinopsises = []

for url in df["urls"]:
    try:
        print(url)

        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")

        titulo = soup.find("div", class_ = "titlebar titlebar-page").text
        fecha = soup.find("div", attrs = dict_bs4).text.strip().split("\n")[0]
        duracion = soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")[1]
        guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text
        reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])
        genero = " ".join(soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")[-1].split(","))
        sinopsis = soup.find("section", class_ = "section ovw ovw-synopsis").find("div", class_ = "content-txt").text

        titulos.append(titulo)
        fechas.append(fecha)
        duraciones.append(duracion)
        guiones.append(guion)
        repartos.append(reparto)
        generos.append(genero)
        sinopsises.append(sinopsis)

        sleep(3)
    except:
        titulos.append(np.nan)
        fechas.append(np.nan)
        duraciones.append(np.nan)
        guiones.append(np.nan)
        repartos.append(np.nan)
        generos.append(np.nan)
        sinopsises.append(np.nan)


https://www.sensacine.com/peliculas/pelicula-280993/
https://www.sensacine.com/peliculas/pelicula-289029/
https://www.sensacine.com/peliculas/pelicula-227726/
https://www.sensacine.com/peliculas/pelicula-302417/
https://www.sensacine.com/peliculas/pelicula-291879/
https://www.sensacine.com/peliculas/pelicula-310519/
https://www.sensacine.com/peliculas/pelicula-273411/
https://www.sensacine.com/peliculas/pelicula-306013/
https://www.sensacine.com/peliculas/pelicula-290002/
https://www.sensacine.com/peliculas/pelicula-300107/
https://www.sensacine.com/peliculas/pelicula-310657/
https://www.sensacine.com/peliculas/pelicula-284995/


In [148]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["fecha"] = fechas
df_peliculas["duracion"] = duraciones
df_peliculas["guion"] = guiones
df_peliculas["reparto"] = repartos
df_peliculas["genero"] = generos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]

In [149]:
df_peliculas

Unnamed: 0,titulo,fecha,duracion,guion,reparto,genero,sinopsis,url
0,The Creator,29 de septiembre de 2023,2h 13min,Gareth Edwards (V),"John David Washington, Gemma Chan, Ken Watanabe",Ciencia ficción Drama Aventura,\nThriller dramático de ciencia ficción que gi...,https://www.sensacine.com/peliculas/pelicula-2...
1,El exorcista: Creyente,6 de octubre de 2023,1h 51min,Peter Sattler,"Leslie Odom Jr., Ellen Burstyn, Ann Dowd",Terror,\nDesde la muerte de su esposa embarazada en u...,https://www.sensacine.com/peliculas/pelicula-2...
2,Los mercen4arios,29 de septiembre de 2023,1h 43min,Kurt Wimmer,"Jason Statham, Sylvester Stallone, Andy Garcia",Acción Suspense,\nArmados con todas las armas a su alcance y c...,https://www.sensacine.com/peliculas/pelicula-2...
3,Misterio en Venecia,15 de septiembre de 2023,1h 44min,Michael Green,"Kenneth Branagh, Tina Fey, Camille Cottin",Crimen Drama Suspense,"\nEn la Venecia del siglo XX, en un contexto p...",https://www.sensacine.com/peliculas/pelicula-3...
4,Saw X,29 de septiembre de 2023,1h 58min,Josh Stolberg,"Tobin Bell, Shawnee Smith, Synnøve Macody Lund",Terror,"\nSituada entre los sucesos de Saw y Saw II, v...",https://www.sensacine.com/peliculas/pelicula-2...
5,Campeonex,18 de agosto de 2023,Comedia dramática,Javier Fesser,"Jesús Vidal, Jelen Garcia, Gloria Ramos",Comedia dramática,"\nEl grupo de ""Los Amigos"" regresa de sus aven...",https://www.sensacine.com/peliculas/pelicula-3...
6,La monja II,8 de septiembre de 2023,1h 49min,Ian B. Goldberg,"Taissa Farmiga, Jonas Bloquet, Storm Reid",Terror,\nAño 1956. Cuatro años antes la hermana Irene...,https://www.sensacine.com/peliculas/pelicula-2...
7,Golpe de suerte,29 de septiembre de 2023,1h 33min,Woody Allen,"Lou de Laâge, Melvil Poupaud, Niels Schneider",Suspense Romántico Drama Comedia,\nFanny (Lou de Laâge) y Jean (Melvil Poupaud)...,https://www.sensacine.com/peliculas/pelicula-3...
8,,,,,,,,https://www.sensacine.com/peliculas/pelicula-2...
9,The Equalizer 3,1 de septiembre de 2023,1h 50min,Richard Wenk,"Denzel Washington, Dakota Fanning, David Denman",Acción Suspense,\nTercera entrega de The Equalizer y capítulo ...,https://www.sensacine.com/peliculas/pelicula-3...


Muchas veces sucede que no todas las páginas tienen la misma información, por lo que tenemos que asegurarnos de que si no existe un dato lo sustituimos con un np.nan. Por eso podemos usar:
```python
try:
    
except:
```

In [150]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    try:
        print(url)

        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")

    #### Titulo #######################################################################################################   

        try:
            titulo = soup.find("div", class_ = "titlebar titlebar-page").text

        except:
            titulo = np.nan

    #### Fecha ########################################################################################################   

        try:
            fecha = soup.find("div", class_ = "meta-body-item meta-body-info").text.strip().split("\n")[0]

        except:
            fecha = np.nan

    #### Duracion #####################################################################################################

        try:
            duracion = soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[1]

        except:
            duracion = np.nan

    #### Guion ########################################################################################################

        try:
            guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text

        except:
            guion = np.nan

    #### Reparto ######################################################################################################

        try:
            reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])

        except:
            reparto = np.nan

    #### Genero #######################################################################################################

        try:
            genero = " ".join(soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(","))

        except:
            genero = np.nan

    #### Sinopsis #####################################################################################################

        try:
            sinopsis = soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text.replace('\n','')

        except:
            sinopsis = np.nan

    ##################################################################################################################

        # appends

        titulos.append(titulo)
        fechas.append(fecha)
        duraciones.append(duracion)
        guiones.append(guion)
        repartos.append(reparto)
        generos.append(genero)
        sinopsises.append(sinopsis)

        sleep(3)
    except:
        titulos.append(np.nan)
        fechas.append(np.nan)
        duraciones.append(np.nan)
        guiones.append(np.nan)
        repartos.append(np.nan)
        generos.append(np.nan)
        sinopsises.append(np.nan)
        

https://www.sensacine.com/peliculas/pelicula-280993/
https://www.sensacine.com/peliculas/pelicula-289029/
https://www.sensacine.com/peliculas/pelicula-227726/
https://www.sensacine.com/peliculas/pelicula-302417/
https://www.sensacine.com/peliculas/pelicula-291879/
https://www.sensacine.com/peliculas/pelicula-310519/
https://www.sensacine.com/peliculas/pelicula-273411/
https://www.sensacine.com/peliculas/pelicula-306013/
https://www.sensacine.com/peliculas/pelicula-290002/
https://www.sensacine.com/peliculas/pelicula-300107/
https://www.sensacine.com/peliculas/pelicula-310657/
https://www.sensacine.com/peliculas/pelicula-284995/


In [151]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["fecha"] = fechas
df_peliculas["duracion"] = duraciones
df_peliculas["guion"] = guiones
df_peliculas["reparto"] = repartos
df_peliculas["genero"] = generos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]

In [152]:
df_peliculas

Unnamed: 0,titulo,fecha,duracion,guion,reparto,genero,sinopsis,url
0,The Creator,29 de septiembre de 2023,2h 13min,Gareth Edwards (V),"John David Washington, Gemma Chan, Ken Watanabe",Ciencia ficción Drama Aventura,Thriller dramático de ciencia ficción que gira...,https://www.sensacine.com/peliculas/pelicula-2...
1,El exorcista: Creyente,6 de octubre de 2023,1h 51min,Peter Sattler,"Leslie Odom Jr., Ellen Burstyn, Ann Dowd",Terror,Desde la muerte de su esposa embarazada en un ...,https://www.sensacine.com/peliculas/pelicula-2...
2,Los mercen4arios,29 de septiembre de 2023,1h 43min,Kurt Wimmer,"Jason Statham, Sylvester Stallone, Andy Garcia",Acción Suspense,Armados con todas las armas a su alcance y con...,https://www.sensacine.com/peliculas/pelicula-2...
3,Misterio en Venecia,15 de septiembre de 2023,1h 44min,Michael Green,"Kenneth Branagh, Tina Fey, Camille Cottin",Crimen Drama Suspense,"En la Venecia del siglo XX, en un contexto pos...",https://www.sensacine.com/peliculas/pelicula-3...
4,Saw X,29 de septiembre de 2023,1h 58min,Josh Stolberg,"Tobin Bell, Shawnee Smith, Synnøve Macody Lund",Terror,"Situada entre los sucesos de Saw y Saw II, vem...",https://www.sensacine.com/peliculas/pelicula-2...
5,Campeonex,18 de agosto de 2023,Comedia dramática,Javier Fesser,"Jesús Vidal, Jelen Garcia, Gloria Ramos",Comedia dramática,"El grupo de ""Los Amigos"" regresa de sus aventu...",https://www.sensacine.com/peliculas/pelicula-3...
6,La monja II,8 de septiembre de 2023,1h 49min,Ian B. Goldberg,"Taissa Farmiga, Jonas Bloquet, Storm Reid",Terror,Año 1956. Cuatro años antes la hermana Irene s...,https://www.sensacine.com/peliculas/pelicula-2...
7,Golpe de suerte,29 de septiembre de 2023,1h 33min,Woody Allen,"Lou de Laâge, Melvil Poupaud, Niels Schneider",Suspense Romántico Drama Comedia,Fanny (Lou de Laâge) y Jean (Melvil Poupaud) t...,https://www.sensacine.com/peliculas/pelicula-3...
8,Golpe a Wall Street,6 de octubre de 2023,1h 44min,,"Seth Rogen, Sebastian Stan, Paul Dano",Drama Comedia,Basada en la loca historia real donde un grupo...,https://www.sensacine.com/peliculas/pelicula-2...
9,The Equalizer 3,1 de septiembre de 2023,1h 50min,Richard Wenk,"Denzel Washington, Dakota Fanning, David Denman",Acción Suspense,Tercera entrega de The Equalizer y capítulo fi...,https://www.sensacine.com/peliculas/pelicula-3...


### Ejercicio: Modificar el código para que no hayan errores

In [153]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    
#### Titulo #######################################################################################################   

    try:
        titulo = soup.find("div", class_ = "titlebar titlebar-page").text
        
    except:
        titulo = np.nan
        
#### Fecha ########################################################################################################   

    try:
        fecha = soup.find("div", class_ = "meta-body-item meta-body-info").text.strip().split("\n")[0]
        
    except:
        fecha = np.nan

#### Duracion #####################################################################################################

    try:
        duracion = soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")
        
        if len(duracion) < 3:
            
            duracion = np.nan
            
        else:
            
            duracion = duracion[1]
        
    except:
        duracion = np.nan

#### Guion ########################################################################################################

    try:
        guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text
        
    except:
        guion = np.nan

#### Reparto ######################################################################################################

    try:
        reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])
        
    except:
        reparto = np.nan

#### Genero #######################################################################################################

    try:
        genero = " ".join(soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(","))
        
    except:
        genero = np.nan

#### Sinopsis #####################################################################################################

    try:
        sinopsis = soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text
        
    except:
        sinopsis = np.nan
        
##################################################################################################################

    # appends
    
    titulos.append(titulo)
    fechas.append(fecha)
    duraciones.append(duracion)
    guiones.append(guion)
    repartos.append(reparto)
    generos.append(genero)
    sinopsises.append(sinopsis)
    
    sleep(3)

https://www.sensacine.com/peliculas/pelicula-280993/
https://www.sensacine.com/peliculas/pelicula-289029/
https://www.sensacine.com/peliculas/pelicula-227726/
https://www.sensacine.com/peliculas/pelicula-302417/
https://www.sensacine.com/peliculas/pelicula-291879/
https://www.sensacine.com/peliculas/pelicula-310519/
https://www.sensacine.com/peliculas/pelicula-273411/
https://www.sensacine.com/peliculas/pelicula-306013/
https://www.sensacine.com/peliculas/pelicula-290002/
https://www.sensacine.com/peliculas/pelicula-300107/
https://www.sensacine.com/peliculas/pelicula-310657/
https://www.sensacine.com/peliculas/pelicula-284995/


In [154]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["fecha"] = fechas
df_peliculas["duracion"] = duraciones
df_peliculas["guion"] = guiones
df_peliculas["reparto"] = repartos
df_peliculas["genero"] = generos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]
df_peliculas["puntuacion"] = df["puntuacion"]

df_peliculas

Unnamed: 0,titulo,fecha,duracion,guion,reparto,genero,sinopsis,url,puntuacion
0,The Creator,29 de septiembre de 2023,2h 13min,Gareth Edwards (V),"John David Washington, Gemma Chan, Ken Watanabe",Ciencia ficción Drama Aventura,\nThriller dramático de ciencia ficción que gi...,https://www.sensacine.com/peliculas/pelicula-2...,3.7
1,El exorcista: Creyente,6 de octubre de 2023,1h 51min,Peter Sattler,"Leslie Odom Jr., Ellen Burstyn, Ann Dowd",Terror,\nDesde la muerte de su esposa embarazada en u...,https://www.sensacine.com/peliculas/pelicula-2...,2.6
2,Los mercen4arios,29 de septiembre de 2023,1h 43min,Kurt Wimmer,"Jason Statham, Sylvester Stallone, Andy Garcia",Acción Suspense,\nArmados con todas las armas a su alcance y c...,https://www.sensacine.com/peliculas/pelicula-2...,2.0
3,Misterio en Venecia,15 de septiembre de 2023,1h 44min,Michael Green,"Kenneth Branagh, Tina Fey, Camille Cottin",Crimen Drama Suspense,"\nEn la Venecia del siglo XX, en un contexto p...",https://www.sensacine.com/peliculas/pelicula-3...,2.9
4,Saw X,29 de septiembre de 2023,1h 58min,Josh Stolberg,"Tobin Bell, Shawnee Smith, Synnøve Macody Lund",Terror,"\nSituada entre los sucesos de Saw y Saw II, v...",https://www.sensacine.com/peliculas/pelicula-2...,3.3
5,Campeonex,18 de agosto de 2023,,Javier Fesser,"Jesús Vidal, Jelen Garcia, Gloria Ramos",Comedia dramática,"\nEl grupo de ""Los Amigos"" regresa de sus aven...",https://www.sensacine.com/peliculas/pelicula-3...,2.8
6,La monja II,8 de septiembre de 2023,1h 49min,Ian B. Goldberg,"Taissa Farmiga, Jonas Bloquet, Storm Reid",Terror,\nAño 1956. Cuatro años antes la hermana Irene...,https://www.sensacine.com/peliculas/pelicula-2...,2.7
7,Golpe de suerte,29 de septiembre de 2023,1h 33min,Woody Allen,"Lou de Laâge, Melvil Poupaud, Niels Schneider",Suspense Romántico Drama Comedia,\nFanny (Lou de Laâge) y Jean (Melvil Poupaud)...,https://www.sensacine.com/peliculas/pelicula-3...,3.4
8,Golpe a Wall Street,6 de octubre de 2023,1h 44min,,"Seth Rogen, Sebastian Stan, Paul Dano",Drama Comedia,\nBasada en la loca historia real donde un gru...,https://www.sensacine.com/peliculas/pelicula-2...,3.3
9,The Equalizer 3,1 de septiembre de 2023,1h 50min,Richard Wenk,"Denzel Washington, Dakota Fanning, David Denman",Acción Suspense,\nTercera entrega de The Equalizer y capítulo ...,https://www.sensacine.com/peliculas/pelicula-3...,3.0


In [155]:
df_peliculas

Unnamed: 0,titulo,fecha,duracion,guion,reparto,genero,sinopsis,url,puntuacion
0,The Creator,29 de septiembre de 2023,2h 13min,Gareth Edwards (V),"John David Washington, Gemma Chan, Ken Watanabe",Ciencia ficción Drama Aventura,\nThriller dramático de ciencia ficción que gi...,https://www.sensacine.com/peliculas/pelicula-2...,3.7
1,El exorcista: Creyente,6 de octubre de 2023,1h 51min,Peter Sattler,"Leslie Odom Jr., Ellen Burstyn, Ann Dowd",Terror,\nDesde la muerte de su esposa embarazada en u...,https://www.sensacine.com/peliculas/pelicula-2...,2.6
2,Los mercen4arios,29 de septiembre de 2023,1h 43min,Kurt Wimmer,"Jason Statham, Sylvester Stallone, Andy Garcia",Acción Suspense,\nArmados con todas las armas a su alcance y c...,https://www.sensacine.com/peliculas/pelicula-2...,2.0
3,Misterio en Venecia,15 de septiembre de 2023,1h 44min,Michael Green,"Kenneth Branagh, Tina Fey, Camille Cottin",Crimen Drama Suspense,"\nEn la Venecia del siglo XX, en un contexto p...",https://www.sensacine.com/peliculas/pelicula-3...,2.9
4,Saw X,29 de septiembre de 2023,1h 58min,Josh Stolberg,"Tobin Bell, Shawnee Smith, Synnøve Macody Lund",Terror,"\nSituada entre los sucesos de Saw y Saw II, v...",https://www.sensacine.com/peliculas/pelicula-2...,3.3
5,Campeonex,18 de agosto de 2023,,Javier Fesser,"Jesús Vidal, Jelen Garcia, Gloria Ramos",Comedia dramática,"\nEl grupo de ""Los Amigos"" regresa de sus aven...",https://www.sensacine.com/peliculas/pelicula-3...,2.8
6,La monja II,8 de septiembre de 2023,1h 49min,Ian B. Goldberg,"Taissa Farmiga, Jonas Bloquet, Storm Reid",Terror,\nAño 1956. Cuatro años antes la hermana Irene...,https://www.sensacine.com/peliculas/pelicula-2...,2.7
7,Golpe de suerte,29 de septiembre de 2023,1h 33min,Woody Allen,"Lou de Laâge, Melvil Poupaud, Niels Schneider",Suspense Romántico Drama Comedia,\nFanny (Lou de Laâge) y Jean (Melvil Poupaud)...,https://www.sensacine.com/peliculas/pelicula-3...,3.4
8,Golpe a Wall Street,6 de octubre de 2023,1h 44min,,"Seth Rogen, Sebastian Stan, Paul Dano",Drama Comedia,\nBasada en la loca historia real donde un gru...,https://www.sensacine.com/peliculas/pelicula-2...,3.3
9,The Equalizer 3,1 de septiembre de 2023,1h 50min,Richard Wenk,"Denzel Washington, Dakota Fanning, David Denman",Acción Suspense,\nTercera entrega de The Equalizer y capítulo ...,https://www.sensacine.com/peliculas/pelicula-3...,3.0


In [None]:
df_peliculas.to_csv("info_peliculas.csv", index = False, sep = ",")

In [None]:
################################################################################################################################