# Web Scraping con bs4 (BeautifulSoup)

**`BeautifulSoup`** es una biblioteca de python para extraer contenido de ficheros **`HTML`** y **`XML`**.

**`requests`** es una libreria que maneja los **requests** (o peticiones) de **HTTP** de una forma sencilla.

**`bs4 : pip install beautifulsoup4`**

**`requests : pip install requests`**

Primero usamos **`requests`** para tener "acceso" a las páginas web, luego usamos **`BeautifulSoup`** para extraer la información del **`HTML`**.

In [1]:
import requests
from bs4 import BeautifulSoup

### requests

**`requests.get()`** toma un **`url`** (o enlace) y retorna la **"respuesta"** del servidor. Este nuevo objeto también extrae el código **`HTML`** del **`url`**.

**ADVERTENCIA: CADA "REQUEST" TOMA UN TIEMPO DE RESPUESTA, POR LO QUE SI INTENTAMOS HACER MUCHOS "REQUESTS" EN UN PLAZO CORTO DE TIEMPO NUESTRO IP SERÁ BANEADO DE LA PAGINA WEB PARA EVITAR COLAPSAR LA PÁGINA WEB. EN EL PEOR DE LOS CASOS LA PÁGINA RECIBIRÁ TANTOS "REQUESTS" QUE COLAPSARÁ Y LA DEJAREMOS FUERA DE SERVICIO.**

In [2]:
url = "https://google.com/"

response = requests.get(url)


print(response)

print(bool(response))

<Response [200]>
True


In [3]:
# El atributo .text retorna el HTML de la página 

print(response.text)

<!DOCTYPE html><html lang="es" dir="ltr"><head><style nonce="y/XZVCVmyGnBa6EX6jmB5Q">
a, a:link, a:visited, a:active, a:hover {
  color: #1a73e8;
  text-decoration: none;
}
body {
  font-family: Roboto,RobotoDraft,Helvetica,Arial,sans-serif;
  text-align: center;
  -ms-text-size-adjust: 100%;
  -moz-text-size-adjust: 100%;
  -webkit-text-size-adjust: 100%;
}
.box {
  border: 1px solid #dadce0;
  box-sizing: border-box;
  border-radius: 8px;
  margin: 24px auto 5px auto;
  max-width: 520px;
  padding: 24px;
}
h1 {
  color: #2c2c2c;
  font-size: 24px;
  hyphens: auto;
  margin: 24px 0;
}
p, .sub, .contentText {
  color: #5f6368;;
  font-size: 14px;
  line-height: 20px;
  letter-spacing: 0.2px;
  text-align: left;
}
.signin {
  text-align: right;
}
.image {
  display: block;
  margin: 14px auto;
}
.basebutton {
  border-radius: 4px;
  cursor: pointer;
  font-family: Roboto,RobotoDraft,Helvetica,Arial,sans-serif;
  font-size: 14px;
  font-weight: 500;
  height: 36px;
  margin: 12px 4px 0;


### BeautifulSoup

Si la respuesta del **`requests`** es positiva podemos pasar este objeto **`requests.get()`** a **`BeautifulSoup`** para que nos ayude a filtrar la información y extraerla más fácil. 

Los métodos más comunes de **`BeautifulSoup`** son:

|Método           |Descripción                                                                                        |
|-----------------|---------------------------------------------------------------------------------------------------|
|**`.body`**      | Retorna el contenido dentro de la etiqueta **`body`**.                                            |
|**`.title`**     | Retorna el titulo del **HTML**.                                                                   |
|**`.find()`**    | Busca en el **HTML** y retorna la primera ocurrencia del filtro en un objeto **`bs4`**.           |
|**`.find_all()`**| Busca en el **HTML** y retorna todas las ocurrencias del filtro en una lista de objetos **`bs4`**.|
|**`.text`**      | Retorna el texto de un objeto **`bs4`** en un **`str`**.                                          |

In [4]:
soup = BeautifulSoup(response.text, "html.parser")

In [5]:
soup

<!DOCTYPE html>
<html dir="ltr" lang="es"><head><style nonce="y/XZVCVmyGnBa6EX6jmB5Q">
a, a:link, a:visited, a:active, a:hover {
  color: #1a73e8;
  text-decoration: none;
}
body {
  font-family: Roboto,RobotoDraft,Helvetica,Arial,sans-serif;
  text-align: center;
  -ms-text-size-adjust: 100%;
  -moz-text-size-adjust: 100%;
  -webkit-text-size-adjust: 100%;
}
.box {
  border: 1px solid #dadce0;
  box-sizing: border-box;
  border-radius: 8px;
  margin: 24px auto 5px auto;
  max-width: 520px;
  padding: 24px;
}
h1 {
  color: #2c2c2c;
  font-size: 24px;
  hyphens: auto;
  margin: 24px 0;
}
p, .sub, .contentText {
  color: #5f6368;;
  font-size: 14px;
  line-height: 20px;
  letter-spacing: 0.2px;
  text-align: left;
}
.signin {
  text-align: right;
}
.image {
  display: block;
  margin: 14px auto;
}
.basebutton {
  border-radius: 4px;
  cursor: pointer;
  font-family: Roboto,RobotoDraft,Helvetica,Arial,sans-serif;
  font-size: 14px;
  font-weight: 500;
  height: 36px;
  margin: 12px 4px 0;

In [6]:
type(soup)

bs4.BeautifulSoup

In [7]:
# filmaffinity

url = "https://www.filmaffinity.com/es/topcat.php?id=new_th_es"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

In [8]:
soup.body

<body>
<script>
          (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
          (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
          m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
          })(window,document,'script','//www.google-analytics.com/analytics.js','ga');
          ga('create', 'UA-74155504-1', 'auto');
          ga('send', 'pageview');
        </script>
<div id="page-header">
<div id="header-top">
<div class="cpanel top-wrapper">
<div id="logo-container">
<a href="https://www.filmaffinity.com/es/main.html">
<img alt="logo" src="/images/logo4.png"/>
<div class="logo-siteloc">España</div>
</a>
</div><!-- logo-container -->
<div id="topsearch">
<form accept-charset="UTF-8" action="https://www.filmaffinity.com/es/search.php" method="get">
<input id="top-search-input" name="stext" size="20" tabindex="1" type="text" value=""/>
<i class="fas fa-times clear-search"></i>
<label for=

In [9]:
# Esto retorna un objeto bs4
soup.title

<title>Cartelera España - FilmAffinity</title>

In [10]:
# Con .text lo convertimos a str

soup.title.text

'Cartelera España - FilmAffinity'

### Filtros con bs4

In [11]:
# Encontrar la primera etiqueta h1

soup.find("h1")

<h1 id="main-title">
        Cartelera España    </h1>

In [12]:
# Con .find_all() encontramos todas las etiquetas y nos retorna una lista con objetos bs4

soup.find_all("h1")

[<h1 id="main-title">
         Cartelera España    </h1>]

In [13]:
# Encuentra la primera etiqueta h3

soup.find("h3")

<h3><a href="https://www.filmaffinity.com/es/film491812.html" title="Spider-Man: No Way Home ">Spider-Man: No Way Home </a></h3>

In [14]:
# Encuentra todas las etiquetas h3

soup.find_all("h3")

[<h3><a href="https://www.filmaffinity.com/es/film491812.html" title="Spider-Man: No Way Home ">Spider-Man: No Way Home </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film281888.html" title="Drive My Car ">Drive My Car </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film925403.html" title="El buen patrón ">El buen patrón </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film776481.html" title="West Side Story ">West Side Story </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film571166.html" title="Licorice Pizza ">Licorice Pizza </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film375190.html" title="Maixabel ">Maixabel </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film658785.html" title="El amor en su lugar ">El amor en su lugar </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film454387.html" title="No somos nada ">No somos nada </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film555900.html" title="Libertad ">Lib

In [15]:
len(soup.find_all("h3"))

40

In [16]:
# Podemos encadenar filtros siempre que nos retorne un objeto bs4

soup.find("h3").find("a")

<a href="https://www.filmaffinity.com/es/film491812.html" title="Spider-Man: No Way Home ">Spider-Man: No Way Home </a>

In [17]:
soup.find("h3").find("a")["href"]

'https://www.filmaffinity.com/es/film491812.html'

Cuando veamos una etiqueta con **class** en ella, podemos usarla para hacer un filtro más específico.
```html
<div class="duration">
```

Como en python **`class`** es una palabra reservada, debemos usar **`class_`**.

In [18]:
soup.find("div", class_ = "duration")

<div class="duration">
<i class="far fa-clock"></i> 148 min.            </div>

In [19]:
soup.find_all("div", class_ = "duration")

[<div class="duration">
 <i class="far fa-clock"></i> 148 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 179 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 120 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 156 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 133 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 115 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 103 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 100 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 104 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 85 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 98 min.            </div>,
 <div class="duration">
 <i class="far fa-clock"></i> 118 min.            </div>,
 <div class="durat

In [20]:
soup.find("div", class_ = "avg-rating")

<div class="avg-rating">7,4</div>

In [21]:
soup.find_all("div", class_ = "avg-rating")

[<div class="avg-rating">7,4</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,2</div>,
 <div class="avg-rating">7,1</div>,
 <div class="avg-rating">7,0</div>,
 <div class="avg-rating">7,0</div>,
 <div class="avg-rating">7,0</div>,
 <div class="avg-rating">6,9</div>,
 <div class="avg-rating">6,8</div>,
 <div class="avg-rating">6,8</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,6</div>,
 <div class="avg-rating">6,6</div>,
 <div class="avg-rating">6,6</div>,
 <div class="avg-rating">6,5</div>,
 <div class="avg-rating">6,5</div>,
 <div class="avg-rating">6,5</div>,
 <div class="avg-rating">6,4</div>,
 <div class="avg-rating">6,4</div>,
 <div class="avg-rating">6,3</div>,
 <div class="avg-rating">6,2

Otra forma de usar estos filtros de **`bs4`** es atraves del parametro **`attrs`** de un diccionario.

Este diccionario tendrá como llave el nombre de las etiquetas y como valor el valor asociado a esa etiqueta:

In [22]:
dicc_bs4 = {"class" : "avg-rating"}

soup.find("div", attrs = dicc_bs4)

<div class="avg-rating">7,4</div>

In [23]:
soup.find("div", attrs = dicc_bs4).text

'7,4'

In [24]:
dicc_bs4 = {"class" : "avg-rating"}

soup.find_all("div", attrs = dicc_bs4)

[<div class="avg-rating">7,4</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,3</div>,
 <div class="avg-rating">7,2</div>,
 <div class="avg-rating">7,1</div>,
 <div class="avg-rating">7,0</div>,
 <div class="avg-rating">7,0</div>,
 <div class="avg-rating">7,0</div>,
 <div class="avg-rating">6,9</div>,
 <div class="avg-rating">6,8</div>,
 <div class="avg-rating">6,8</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,7</div>,
 <div class="avg-rating">6,6</div>,
 <div class="avg-rating">6,6</div>,
 <div class="avg-rating">6,6</div>,
 <div class="avg-rating">6,5</div>,
 <div class="avg-rating">6,5</div>,
 <div class="avg-rating">6,5</div>,
 <div class="avg-rating">6,4</div>,
 <div class="avg-rating">6,4</div>,
 <div class="avg-rating">6,3</div>,
 <div class="avg-rating">6,2

Utilizando bucles podemos iterar sobre los **`.find_all()`** y sacar información de forma automatizada.

In [25]:
# En la etiqueta h3 tenemos el url y el titulo de la pelicual

soup.find_all("h3")

[<h3><a href="https://www.filmaffinity.com/es/film491812.html" title="Spider-Man: No Way Home ">Spider-Man: No Way Home </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film281888.html" title="Drive My Car ">Drive My Car </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film925403.html" title="El buen patrón ">El buen patrón </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film776481.html" title="West Side Story ">West Side Story </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film571166.html" title="Licorice Pizza ">Licorice Pizza </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film375190.html" title="Maixabel ">Maixabel </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film658785.html" title="El amor en su lugar ">El amor en su lugar </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film454387.html" title="No somos nada ">No somos nada </a></h3>,
 <h3><a href="https://www.filmaffinity.com/es/film555900.html" title="Libertad ">Lib

In [26]:
titulos = list()

urls = list()

for bs in soup.find_all("h3"):
    titulo = bs.find("a").text
    url = bs.find("a")["href"]
    
    titulos.append(titulo)
    urls.append(url)
    
    
for t, u in zip(titulos, urls):
    print(t, u)

Spider-Man: No Way Home  https://www.filmaffinity.com/es/film491812.html
Drive My Car  https://www.filmaffinity.com/es/film281888.html
El buen patrón  https://www.filmaffinity.com/es/film925403.html
West Side Story  https://www.filmaffinity.com/es/film776481.html
Licorice Pizza  https://www.filmaffinity.com/es/film571166.html
Maixabel  https://www.filmaffinity.com/es/film375190.html
El amor en su lugar  https://www.filmaffinity.com/es/film658785.html
No somos nada  https://www.filmaffinity.com/es/film454387.html
Libertad  https://www.filmaffinity.com/es/film555900.html
Seis días corrientes  https://www.filmaffinity.com/es/film465767.html
Belfast  https://www.filmaffinity.com/es/film407458.html
Un amor intranquilo  https://www.filmaffinity.com/es/film963718.html
¡Canta! 2  https://www.filmaffinity.com/es/film822006.html
La cordillera de los sueños  https://www.filmaffinity.com/es/film691628.html
La tragedia de Macbeth  https://www.filmaffinity.com/es/film767738.html
El método Williams  

Toda esta información se puede agrupar en un DataFrame y convertir a **`.csv`**

In [27]:
import numpy as np
import pandas as pd

In [28]:
df = pd.DataFrame()

df["titulo"] = titulos

df["urls"] = urls

In [29]:
df

Unnamed: 0,titulo,urls
0,Spider-Man: No Way Home,https://www.filmaffinity.com/es/film491812.html
1,Drive My Car,https://www.filmaffinity.com/es/film281888.html
2,El buen patrón,https://www.filmaffinity.com/es/film925403.html
3,West Side Story,https://www.filmaffinity.com/es/film776481.html
4,Licorice Pizza,https://www.filmaffinity.com/es/film571166.html
5,Maixabel,https://www.filmaffinity.com/es/film375190.html
6,El amor en su lugar,https://www.filmaffinity.com/es/film658785.html
7,No somos nada,https://www.filmaffinity.com/es/film454387.html
8,Libertad,https://www.filmaffinity.com/es/film555900.html
9,Seis días corrientes,https://www.filmaffinity.com/es/film465767.html


In [None]:
# path_or_buf = Nombre del archivo terminado en .csv
# index = False para que no se guarde el indice como nueva columna en el csv
# sep = "," para que el separador sea ",", se puede cambiar por cualquier otro separador.

df.to_csv(path_or_buf = "filmaffinity.csv", index = False, sep = ",")

### Agregar al DataFrame la duración de cada pelicula y su puntaje:

### Información de 1 pelicula:

Vamos a entrar al primer **`url`** y sacar toda su información.

In [30]:
url = "https://www.filmaffinity.com/es/film491812.html"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

<!DOCTYPE html>

<html lang="es">
<head>
<title>Spider-Man: No Way Home  (2021) - FilmAffinity</title>
<meta charset="utf-8"/>
<meta content="Spider-Man: No Way Home es una película dirigida por Jon Watts con Tom Holland, Zendaya, Benedict Cumberbatch, Alfred Molina .... Año: 2021. Título original: Spider-Man: No Way Home. Sinopsis: Por primera vez en la historia cinematográfica de Spider-Man, nuestro héroe, vecino y amigo es desenmascarado, y por tanto, ya no es capaz de separar su vida normal de los enormes riesgos que conlleva ..." name="description"/>
<meta content="FilmAffinity" property="og:site_name"/>
<meta content="summary" name="twitter:card"/>
<meta content="video.movie" property="og:type"/>
<meta name="twitter:site" value="@Filmaffinity"/>
<meta content="https://www.filmaffinity.com/es/film491812.html" property="og:url">
<meta content="Spider-Man: No Way Home  (2021)" property="og:title">
<meta content="Género: Fantástico | Sinopsis: Por primera vez en la historia cinematog

In [31]:
# Titulo

soup.find("dd").text

# soup.find("dd").text.strip()

'\n                Spider-Man: No Way Home             '

In [32]:
# Año

dict_bs4 = {"itemprop" : "datePublished"}

soup.find("dd", attrs = dict_bs4).text

'2021'

In [33]:
# Duracion

dict_bs4 = {"itemprop" : "duration"}

soup.find("dd", attrs = dict_bs4).text

'148 min.'

In [34]:
# Pais

dict_bs4 = {"id" : "country-img"}

soup.find("span", attrs = dict_bs4).find("img")["alt"]

'Estados Unidos'

In [35]:
# Guion (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[1].text

'Chris McKenna, Erik Sommers.  Cómic: Steve Ditko, Stan Lee'

In [36]:
# Musica (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[2].text

'Michael Giacchino'

In [37]:
# Fotografia (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[3].text

'Mauro Fiore'

In [38]:
# Reparto (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[4].text

'Tom Holland, Zendaya, Benedict Cumberbatch, Alfred Molina, Tobey Maguire, Andrew Garfield, Willem Dafoe, Marisa Tomei, Jacob Batalon, Jon Favreau, Angourie Rice, Jamie Foxx, J.K. Simmons, Thomas Haden Church, Rhys Ifans, Harry Holland, Christopher Cocke, J.B. Smoove, Benedict Wong, Hannibal Buress, Martin Starr, Tony Revolori.   Cameo: Charlie Cox, Tom Hardyver 11 más'

In [39]:
# Productora 

" ".join([t.text for t in soup.find("dd", class_ = "card-producer").find_all("span", class_ = "nb")])

'Pascal Pictures, Marvel Studios, Columbia Pictures.  Columbia Pictures, Sony Pictures Entertainment (SPE)'

In [40]:
# Géneros

" ".join(soup.find("dd", class_ = "card-genres").text.split())

'Fantástico. Acción. Ciencia ficción | Superhéroes. Secuela. Cómic. Marvel Comics. MCU'

In [41]:
# Grupos

" ".join(soup.find("dd", attrs = {"style" : "position: relative;"}).text.split())

'Marvel Cinematic Universe (MCU) | Spider-Man | Doctor Extraño | Marvel: Fase 4 (Películas y Series)'

In [42]:
# Sinopsis

soup.find("dd", attrs = {"itemprop" : "description"}).text

"Por primera vez en la historia cinematográfica de Spider-Man, nuestro héroe, vecino y amigo es desenmascarado, y por tanto, ya no es capaz de separar su vida normal de los enormes riesgos que conlleva ser un superhéroe. Cuando pide ayuda al Doctor Strange, los riesgos pasan a ser aún más peligrosos, obligándole a descubrir lo que realmente significa ser él. Secuela de 'Spider-Man: Far From Home'. "

In [43]:
from time import sleep

In [44]:
# Crear un DataFrame

titulos = list()
años = list()
duraciones = list()
paises = list()
direcciones = list()
guiones = list()
musicas = list()
fotografias = list()
repartos = list()
productoras = list()
generos = list()
grupos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    titulo = soup.find("dd").text.strip()
    año = soup.find("dd", attrs = {"itemprop" : "datePublished"}).text
    duracion = soup.find("dd", attrs = {"itemprop" : "duration"}).text
    pais = soup.find("span", attrs = {"id" : "country-img"}).find("img")["alt"]
    direccion = soup.find_all("div", class_ = "credits")[1].text
    guion = soup.find_all("div", class_ = "credits")[2].text
    musica = soup.find_all("div", class_ = "credits")[3].text
    fotografia = soup.find_all("div", class_ = "credits")[3].text
    reparto = soup.find_all("div", class_ = "credits")[4].text
    productora = " ".join([t.text for t in soup.find("dd", class_ = "card-producer").find_all("span", class_ = "nb")])
    genero = " ".join(soup.find("dd", class_ = "card-genres").text.split())
    grupo = " ".join(soup.find("dd", attrs = {"style" : "position: relative;"}).text.split())
    sinopsis = soup.find("dd", attrs = {"itemprop" : "description"}).text
    
    titulos.append(titulo)
    años.append(año)
    duraciones.append(duracion)
    paises.append(pais)
    direcciones.append(direccion)
    guiones.append(guion)
    musicas.append(musica)
    fotografias.append(fotografia)
    repartos.append(reparto)
    productoras.append(productora)
    generos.append(genero)
    grupos.append(grupo)
    sinopsises.append(sinopsis)
    
    sleep(3)

https://www.filmaffinity.com/es/film491812.html
https://www.filmaffinity.com/es/film281888.html


AttributeError: 'NoneType' object has no attribute 'text'

Muchas veces sucede que no todas las páginas tienen la misma información, por lo que tenemos que asegurarnos de que si no existe un dato lo sustituimos con un np.nan. Por eso podemos usar:
```python
try:
    
except:
```

In [45]:
# Crear un DataFrame

titulos = list()
años = list()
duraciones = list()
paises = list()
direcciones = list()
guiones = list()
musicas = list()
fotografias = list()
repartos = list()
productoras = list()
generos = list()
grupos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    
#### Titulo #######################################################################################################   

    try:
        titulo = soup.find("dd").text.strip()
        
    except:
        titulo = np.nan
        
#### Año ##########################################################################################################   

    try:
        año = soup.find("dd", attrs = {"itemprop" : "datePublished"}).text
        
    except:
        año = np.nan

#### Duracion #####################################################################################################

    try:
        duracion = soup.find("dd", attrs = {"itemprop" : "duration"}).text
        
    except:
        duracion = np.nan

#### Pais #########################################################################################################

    try:
        pais = soup.find("span", attrs = {"id" : "country-img"}).find("img")["alt"]
        
    except:
        pais = np.nan

#### Direccion ####################################################################################################

    try:
        direccion = soup.find_all("div", class_ = "credits")[1].text
        
    except:
        direccion = np.nan

#### Guion ########################################################################################################

    try:
        guion = soup.find_all("div", class_ = "credits")[2].text
        
    except:
        guion = np.nan

#### Musica #######################################################################################################

    try:
        musica = soup.find_all("div", class_ = "credits")[3].text
        
    except:
        musica = np.nan

#### Fotografia ###################################################################################################

    try:
        fotografia = soup.find_all("div", class_ = "credits")[3].text
        
    except:
        fotografia = np.nan

#### Reparto ######################################################################################################

    try:
        reparto = soup.find_all("div", class_ = "credits")[4].text
        
    except:
        reparto = np.nan

#### Productora ###################################################################################################

    try:
        productora = " ".join([t.text for t in soup.find("dd", class_ = "card-producer").find_all("span", class_ = "nb")])
        
    except:
        productora = np.nan

#### Genero #######################################################################################################

    try:
        genero = " ".join(soup.find("dd", class_ = "card-genres").text.split())
        
    except:
        genero = np.nan

#### Grupo ########################################################################################################

    try:
        grupo = " ".join(soup.find("dd", attrs = {"style" : "position: relative;"}).text.split())
        
    except:
        grupo = np.nan

#### Sinopsis #####################################################################################################

    try:
        sinopsis = soup.find("dd", attrs = {"itemprop" : "description"}).text
        
    except:
        sinopsis = np.nan
        
##################################################################################################################

    # appends
    
    titulos.append(titulo)
    años.append(año)
    duraciones.append(duracion)
    paises.append(pais)
    direcciones.append(direccion)
    guiones.append(guion)
    musicas.append(musica)
    fotografias.append(fotografia)
    repartos.append(reparto)
    productoras.append(productora)
    generos.append(genero)
    grupos.append(grupo)
    sinopsises.append(sinopsis)
    
    sleep(3)

https://www.filmaffinity.com/es/film491812.html
https://www.filmaffinity.com/es/film281888.html
https://www.filmaffinity.com/es/film925403.html
https://www.filmaffinity.com/es/film776481.html
https://www.filmaffinity.com/es/film571166.html
https://www.filmaffinity.com/es/film375190.html
https://www.filmaffinity.com/es/film658785.html
https://www.filmaffinity.com/es/film454387.html
https://www.filmaffinity.com/es/film555900.html
https://www.filmaffinity.com/es/film465767.html
https://www.filmaffinity.com/es/film407458.html
https://www.filmaffinity.com/es/film963718.html
https://www.filmaffinity.com/es/film822006.html
https://www.filmaffinity.com/es/film691628.html
https://www.filmaffinity.com/es/film767738.html
https://www.filmaffinity.com/es/film580527.html
https://www.filmaffinity.com/es/film115715.html
https://www.filmaffinity.com/es/film975136.html
https://www.filmaffinity.com/es/film468660.html
https://www.filmaffinity.com/es/film880572.html
https://www.filmaffinity.com/es/film4059

In [46]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["año"] = años
df_peliculas["duracion"] = duraciones
df_peliculas["pais"] = paises
df_peliculas["direccion"] = direcciones
df_peliculas["guion"] = guiones
df_peliculas["fotografia"] = fotografias
df_peliculas["reparto"] = repartos
df_peliculas["productora"] = productoras
df_peliculas["genero"] = generos
df_peliculas["grupo"] = grupos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]

In [47]:
df_peliculas

Unnamed: 0,titulo,año,duracion,pais,direccion,guion,fotografia,reparto,productora,genero,grupo,sinopsis,url
0,Spider-Man: No Way Home,2021,148 min.,Estados Unidos,"Chris McKenna, Erik Sommers. Cómic: Steve Dit...",Michael Giacchino,Mauro Fiore,"Tom Holland, Zendaya, Benedict Cumberbatch, Al...","Pascal Pictures, Marvel Studios, Columbia Pict...",Fantástico. Acción. Ciencia ficción | Superhér...,Marvel Cinematic Universe (MCU) | Spider-Man |...,Por primera vez en la historia cinematográfica...,https://www.filmaffinity.com/es/film491812.html
1,Doraibu mai kâ,2021,179 min.,Japón,"Ryûsuke Hamaguchi, Takamasa Oe. Historia: Har...",Eiko Ishibashi,Hidetoshi Shinomiya,"Hidetoshi Nishijima, Tôko Miura, Reika Kirishi...","Bitters End, C&I Entertainment, Culture Entert...",Drama | Teatro,,Pese a no ser capaz de recuperarse de un drama...,https://www.filmaffinity.com/es/film281888.html
2,El buen patrón,2021,120 min.,España,Fernando León de Aranoa,Zeltia Montes,Pau Esteve Birba,"Javier Bardem, Manolo Solo, Almudena Amor, Ósc...","Reposado Producciones, Mediapro, RTVE, TV3, MK...",Comedia. Drama | Trabajo/empleo,,"Julio Blanco, el carismático propietario de un...",https://www.filmaffinity.com/es/film925403.html
3,West Side Story,2021,156 min.,Estados Unidos,Tony Kushner. Libro: Arthur Laurents. Musica...,Leonard Bernstein,Janusz Kaminski,"Rachel Zegler, Ansel Elgort, David Alvarez, Ar...","Amblin Entertainment, 20th Century Studios. 2...",Musical. Romance. Drama | Drama romántico. Ban...,,"Los adolescentes Tony y María, a pesar de tene...",https://www.filmaffinity.com/es/film776481.html
4,Licorice Pizza,2021,133 min.,Estados Unidos,Paul Thomas Anderson,Jonny Greenwood,"Paul Thomas Anderson, Michael Bauman","Alana Haim, Cooper Hoffman, Sean Penn, Tom Wai...","Ghoulardi Film Company, Bron Studios, Focus Fe...",Comedia. Drama. Romance | Adolescencia. Años 7...,,"Es la historia de Alana Kane y Gary Valentine,...",https://www.filmaffinity.com/es/film571166.html
5,Maixabel,2021,115 min.,España,"Icíar Bollaín, Isa Campo",Alberto Iglesias,Javier Agirre Erauso,"Blanca Portillo, Luis Tosar, Urko Olazabal, Ma...","Kowalski Films, Feel good Media, ETB, Movistar...",Drama | Basado en hechos reales. Terrorismo. ETA,,Maixabel Lasa pierde en el año 2000 a su marid...,https://www.filmaffinity.com/es/film375190.html
6,Love Gets a Room,2021,103 min.,España,"Rodrigo Cortés, David Safier. Obra: Jerzy Jur...",Víctor Reyes,Rafael García,"Clara Rugaard, Ferdia Walsh-Peelo, Magnus Krep...",Nostromo Pictures,Drama. Romance. Musical | Basado en hechos rea...,,"Enero de 1942, 400.000 judíos de toda Polonia ...",https://www.filmaffinity.com/es/film658785.html
7,No somos nada,2021,100 min.,España,"Javier Corcuera, Manuel Viqueira",La Polla Records,Mariano Agudo,"Documental, intervenciones de: Evaristo Páramos","Tamboura Films, La Mula Producciones, Intermed...",Documental | Documental sobre música,,"La Polla Records, una de las bandas más legen...",https://www.filmaffinity.com/es/film454387.html
8,Libertad,2021,104 min.,España,Clara Roquet,Paul Tyan,Gris Jordana,"María Morera, Nicolle García, Nora Navas, Vick...","Avalon P.C, Lastor Media, Bulletproof Cupid",Drama | Adolescencia,,La familia Vidal pasa en su casa de verano las...,https://www.filmaffinity.com/es/film555900.html
9,Sis dies corrents aka,2021,85 min.,España,"Neus Ballús, Margarita Melgar",René-Marc Bini,Anna Molins,"Valero Escolar, Mohamed Mellali, Pep Sarrà, Pa...","Distinto Films, El Kinògraf, Movistar+, RTVE, TV3",Comedia | Trabajo/empleo,,"Relata una semana en la vida de Valero, Moha y...",https://www.filmaffinity.com/es/film465767.html


In [None]:
df_peliculas.to_csv("info_peliculas.csv", index = False, sep = ",")

In [1]:
################################################################################################################################