## Web Scraping con bs4 (BeautifulSoup)

**`BeautifulSoup`** es una biblioteca de python para extraer contenido de ficheros **`HTML`** y **`XML`**.

```sh
pip install beautifulsoup4
```

Primero usamos **`requests`** para tener acceso al contenido **`HTML`** de las páginas web, luego usamos **`BeautifulSoup`** para extraer la información de ese conteido.

In [62]:
import numpy as np

import requests
import bs4 # Para ver la versión
from bs4 import BeautifulSoup

In [63]:
# Versiones

print(f"numpy=={np.__version__}")
print(f"requests=={requests.__version__}")
print(f"bs4=={bs4.__version__}")

numpy==2.2.1
requests==2.32.3
bs4==4.12.3


### requests

**`requests.get()`** toma un **`url`** (o enlace) y retorna la **"respuesta"** del servidor. Este nuevo objeto también extrae el código **`HTML`** del **`url`**.

Cada **"request"** toma un tiempo de respuesta, por lo que si intentamos hacer muchos **"request"** en un plazo corto de tiempo nuestro I.P. será baneado de la página web para evitar que colapse por el gran número de **"requests"**. En el peor de los casos la página recibirá tantos **"requests"** que colapsará y la dejaremos fuera de servicio.

El **`CAPTCHA`** es una herramienta que utilizan las páginas web para evitar el **web scraping** o evitar que un mismo usuario usando bots colapse la página.

_**"Completely Automated Public Turing test to tell Computers and Humans Apart"**_

In [117]:
url = "https://google.com/"

response = requests.get(url)

print(response)

print(bool(response))

<Response [200]>
True


In [65]:
# El atributo .text retorna el HTML de la página 

print(response.text)

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e inglés." name="description"><meta content="noodp, " name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="ESTrD_n7rnewX8P_okqu5A">(function(){var _g={kEI:'9hSBZ52AErOHptQP-8qQyAw',kEXPI:'0,793110,2907142,1132,538661,2872,2891,43028,30022,16105,344796,45786,166265,35269,11813,1635,9707,19569,21778,5208502,10475,766,5988808,3281,10280959,16496045,4043710,25228681,11731,7432,100586,3354,15165,8181,5939,22908,22273,266,1,19718,6748,23879,9139,4599,328,6226,23407,6,4577,5633,688,18361,10719,774,1341,13708,49,8166,7419,3751,14060,3491,33,26708,10669,10901,2,1,92,5,5220,8109,785,4567,41,6133,5749,1757,1,1518,5223,729,3377,350,4104,3282,665,10829,

In [66]:
type(response.text)

str

In [116]:
url = "https://www.python.org/downloads/"

response = requests.get(url)

print(response.text)

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <!-- Google tag (gtag.js) -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-TF35YF9CVH"></script>
    <script>
      window.dataLayer = window.dataLayer || [];
      function gtag(){dataLayer.push(arguments);}
      gtag('js', new Date());
      gtag('config', 'G-TF35YF9CVH');
    </script>
    <!-- Plausible.io analytics -->
    <script defer data-domain="python.org" src="https://plausible.io/js/script.js"></script>

    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">
    <link rel="prefetch" 

### BeautifulSoup

Si la respuesta del **`requests`** es positiva podemos pasar este objeto **`requests.get()`** a **`BeautifulSoup`** para que nos ayude a filtrar la información y extraerla más fácil. 

Los métodos más comunes de **`BeautifulSoup`** son:

|Método           |Descripción                                                                                        |
|-----------------|---------------------------------------------------------------------------------------------------|
|**`.body`**      | Retorna el contenido dentro de la etiqueta **`body`**.                                            |
|**`.title`**     | Retorna el titulo del **HTML**.                                                                   |
|**`.find()`**    | Busca en el **HTML** y retorna la primera ocurrencia del filtro en un objeto **`bs4`**.           |
|**`.find_all()`**| Busca en el **HTML** y retorna todas las ocurrencias del filtro en una lista de objetos **`bs4`**.|
|**`.text`**      | Retorna el contenido de un objeto **`bs4`** en un **`str`**.                                          |

In [67]:
soup = BeautifulSoup(response.text, "html.parser")

In [68]:
soup

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e inglés." name="description"/><meta content="noodp, " name="robots"/><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="ESTrD_n7rnewX8P_okqu5A">(function(){var _g={kEI:'9hSBZ52AErOHptQP-8qQyAw',kEXPI:'0,793110,2907142,1132,538661,2872,2891,43028,30022,16105,344796,45786,166265,35269,11813,1635,9707,19569,21778,5208502,10475,766,5988808,3281,10280959,16496045,4043710,25228681,11731,7432,100586,3354,15165,8181,5939,22908,22273,266,1,19718,6748,23879,9139,4599,328,6226,23407,6,4577,5633,688,18361,10719,774,1341,13708,49,8166,7419,3751,14060,3491,33,26708,10669,10901,2,1,92,5,5220,8109,785,4567,41,6133,5749,1757,1,1518,5223,729,3377,350,4104,3282,665,1

In [69]:
type(soup)

bs4.BeautifulSoup

In [70]:
# sensacine

url = "https://www.sensacine.com/peliculas/en-cartelera/cines/"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

In [71]:
response.status_code

200

In [72]:
soup.body

<body class="sensacine sensacine__movies_playing_now_no_prefix logged-out" data-migration="graph" id="sensacine__movies_playing_now_no_prefix">
<div class="sub-body">
<div class="js-interstitial ad-interstitial ad-item" id="dfp-interstitial"></div>
<header class="header-main" id="header-main">
<div class="header-main-center">
<div class="header-main-top">
<div aria-label="Button Mobile menu" class="header-main-btn-mobile icon icon-hamburger" id="header-main-mobile-btn-menu"></div>
<div class="header-main-logo-holder">
<span class="ACrLw=ACr= header-main-logo">
<img alt="sensacine" class="header-main-logo-img" height="37" src="https://assets.sensacine.com/skin/img/sensacine/logo-main.71eda1dd.svg" width="162"/>
<span class="header-main-logo-name">SensaCine</span>
</span>
</div>
<form action="/buscar/" class="header-main-search" id="search-header" method="get">
<fieldset class="header-main-search-fieldset" id="search-engine">
<div class="header-search-form-container"><input class="header

In [73]:
# Esto retorna un objeto bs4
soup.title

<title>Películas en cartelera - SensaCine.com</title>

In [74]:
# Con .text lo convertimos a str

soup.title.text

'Películas en cartelera - SensaCine.com'

In [75]:
type(soup.title.text)

str

### Filtros con bs4

In [118]:
soup.find("h1").text

'\n    Guardianes de la Galaxia: Volumen 3    '

In [76]:
# Encontrar la primera etiqueta h2

soup.find("h2").text

'\nMufasa: El rey león\n'

In [77]:
# Con .find_all() encontramos todas las etiquetas y nos retorna una lista con objetos bs4

soup.find_all("h2")

[<h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-300949/">Sonic 3. La película</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-239839/">Nosferatu</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-312511/">Vaiana 2</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-137974/">Juego de ladrones 2: Pantera</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-304895/">Conclave</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-317061/">Heretic (Hereje)</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-314383/">Vivir el momento</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/pelicula

In [78]:
# Encuentra la primera etiqueta a

soup.find("a")

<a href="/peliculas/pelicula-196675/">Agente X Última misión</a>

In [79]:
# Encuentra todas las etiquetas a

soup.find_all("a")

[<a href="/peliculas/pelicula-196675/">Agente X Última misión</a>,
 <a href="/peliculas/pelicula-288401/">Milady Los tres mosqueteros</a>,
 <a class="item" href="/">Portada</a>,
 <a class="item" href="/peliculas/">Cine</a>,
 <a class="item" href="/peliculas/todas-peliculas/">Películas recomendadas</a>,
 <a class="item" href="/peliculas/en-cartelera/mejores/nota-espectadores/">Mejores películas en cartelera</a>,
 <a class="item js-item-mq-medium" href="/peliculas/estrenos/">Estrenos de la semana</a>,
 <a class="item js-item-mq-medium" href="/peliculas/en-cartelera/infantil/">Películas para niños en cartelera</a>,
 <a class="item js-item-mq-medium" href="/peliculas/estrenos/es/">Próximos estrenos España</a>,
 <a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>,
 <a class="rating-title" href="#">Mis amigos </a>,
 <a class="button button-sm button-inverse-full" href="/peliculas/pelicula-286777/sesiones/">
 <span class="txt">Cartelera y Entrada (334)</span>

In [80]:
len(soup.find_all("a"))

70

In [81]:
# Podemos encadenar filtros siempre que nos retorne un objeto bs4

soup.find("h2")

<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>
</h2>

In [82]:
soup.find("h2").find("a")

<a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>

In [83]:
soup.find("h2").find("a")["href"]

'/peliculas/pelicula-286777/'

In [84]:
soup.find("h2").find("a").text

'Mufasa: El rey león'

In [85]:
soup.find("h2").find("a")["class"]

['meta-title-link']

Cuando veamos una etiqueta con **class** en ella podemos usarla para hacer un filtro más específico.
```html
<li class="mdl">
```

Como en Python **`class`** es una palabra reservada, debemos usar **`class_`**.

In [86]:
soup.find("li", class_ = "mdl")

<li class="mdl">
<div class="card entity-card entity-card-list cf">
<figure class="thumbnail">
<span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yODY3NzcvdHJhaWxlci0yMDYwNzcyMy8= thumbnail-container thumbnail-link" title=" Mufasa: El rey león">
<img alt=" Mufasa: El rey león" class="thumbnail-img" height="420" src="https://es.web.img3.acsta.net/c_310_420/img/fa/96/fa96c4c78e2d47db7bc917e5d93b9c49.jpg" width="310"/>
<span class="ico-play-wrapper">
<span class="icon icon-play-arrow"></span>
</span>
</span>
</figure>
<div class="meta">
<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>
</h2>
<div class="meta-body">
<div class="meta-body-item meta-body-info">
<span class="date">20 de diciembre de 2024</span>
<span class="spacer">|</span>
                    
                                                            
                                            1h 58min
                                        
                         

In [87]:
soup.find_all("li", class_ = "mdl")

[<li class="mdl">
 <div class="card entity-card entity-card-list cf">
 <figure class="thumbnail">
 <span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yODY3NzcvdHJhaWxlci0yMDYwNzcyMy8= thumbnail-container thumbnail-link" title=" Mufasa: El rey león">
 <img alt=" Mufasa: El rey león" class="thumbnail-img" height="420" src="https://es.web.img3.acsta.net/c_310_420/img/fa/96/fa96c4c78e2d47db7bc917e5d93b9c49.jpg" width="310"/>
 <span class="ico-play-wrapper">
 <span class="icon icon-play-arrow"></span>
 </span>
 </span>
 </figure>
 <div class="meta">
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>
 </h2>
 <div class="meta-body">
 <div class="meta-body-item meta-body-info">
 <span class="date">20 de diciembre de 2024</span>
 <span class="spacer">|</span>
                     
                                                             
                                             1h 58min
                                         
   

In [88]:
soup.find("span", class_ = "stareval-note")

<span class="stareval-note">2,8</span>

In [89]:
soup.find_all("span", class_ = "stareval-note")

[<span class="stareval-note">2,8</span>,
 <span class="stareval-note">3,9</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">3,0</span>,
 <span class="stareval-note">3,7</span>,
 <span class="stareval-note">4,0</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">3,3</span>,
 <span class="stareval-note">3,2</span>,
 <span class="stareval-note">4,0</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">3,5</span>,
 <span class="stareval-note">3,5</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">2,0</span>,
 <span class="stareval-note">3,0</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">3,4</span>,
 <span class="stareval-note">3,5</span>,
 <span class="stareval-note">4,5</span>,
 <span class="stareval-note no-rating">--</span>,
 <span class="stareval-note">3,6</span>,
 <span class="stareval-note">2,8</span>,
 <s

Otra forma de usar estos filtros de **`bs4`** es atraves del parametro **`attrs`** de un diccionario.

Este diccionario tendrá como llave el nombre de las etiquetas y como valor el valor asociado a esa etiqueta:

In [90]:
dicc_bs4 = {"class" : "stareval-note"}

soup.find("span", attrs = dicc_bs4)

<span class="stareval-note">2,8</span>

In [91]:
soup.find("span", attrs = dicc_bs4).text

'2,8'

Utilizando bucles podemos iterar sobre los **`.find_all()`** y sacar información de forma automatizada.

In [92]:
# En la etiqueta h3 tenemos el url y el titulo de la pelicula

soup.find_all("h2")

[<h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-300949/">Sonic 3. La película</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-239839/">Nosferatu</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-312511/">Vaiana 2</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-137974/">Juego de ladrones 2: Pantera</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-304895/">Conclave</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-317061/">Heretic (Hereje)</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/peliculas/pelicula-314383/">Vivir el momento</a>
 </h2>,
 <h2 class="meta-title">
 <a class="meta-title-link" href="/pelicula

In [93]:
soup.find("h2").find("a").text

'Mufasa: El rey león'

In [94]:
titulos = list()

urls = list()

for bs in soup.find_all("h2"):
    
    try:
        titulo = bs.find("a").text
    except:
        titulo = np.nan
        
    try:
        url = bs.find("a")["href"]
    except:
        url = np.nan
    
    titulos.append(titulo)
    urls.append(url)
    
    
for t, u in zip(titulos, urls):
    print(t, u)

Mufasa: El rey león /peliculas/pelicula-286777/
Sonic 3. La película /peliculas/pelicula-300949/
Nosferatu /peliculas/pelicula-239839/
Vaiana 2 /peliculas/pelicula-312511/
Juego de ladrones 2: Pantera /peliculas/pelicula-137974/
Conclave /peliculas/pelicula-304895/
Heretic (Hereje) /peliculas/pelicula-317061/
Vivir el momento /peliculas/pelicula-314383/
Bambi, una vida en el bosque /peliculas/pelicula-1000002053/
Sin instrucciones /peliculas/pelicula-1000009339/
Gladiator II /peliculas/pelicula-269223/
Better Man /peliculas/pelicula-290583/


Toda esta información se puede agrupar en un DataFrame y convertir a **`.csv`**

In [95]:
import pandas as pd

In [96]:
df = pd.DataFrame()

df["titulo"] = titulos

df["urls"] = urls

In [97]:
df

Unnamed: 0,titulo,urls
0,Mufasa: El rey león,/peliculas/pelicula-286777/
1,Sonic 3. La película,/peliculas/pelicula-300949/
2,Nosferatu,/peliculas/pelicula-239839/
3,Vaiana 2,/peliculas/pelicula-312511/
4,Juego de ladrones 2: Pantera,/peliculas/pelicula-137974/
5,Conclave,/peliculas/pelicula-304895/
6,Heretic (Hereje),/peliculas/pelicula-317061/
7,Vivir el momento,/peliculas/pelicula-314383/
8,"Bambi, una vida en el bosque",/peliculas/pelicula-1000002053/
9,Sin instrucciones,/peliculas/pelicula-1000009339/


In [98]:
df["urls"] = df["urls"].apply(lambda x : f"https://www.sensacine.com{x}" if type(x) == str else x)

In [99]:
df

Unnamed: 0,titulo,urls
0,Mufasa: El rey león,https://www.sensacine.com/peliculas/pelicula-2...
1,Sonic 3. La película,https://www.sensacine.com/peliculas/pelicula-3...
2,Nosferatu,https://www.sensacine.com/peliculas/pelicula-2...
3,Vaiana 2,https://www.sensacine.com/peliculas/pelicula-3...
4,Juego de ladrones 2: Pantera,https://www.sensacine.com/peliculas/pelicula-1...
5,Conclave,https://www.sensacine.com/peliculas/pelicula-3...
6,Heretic (Hereje),https://www.sensacine.com/peliculas/pelicula-3...
7,Vivir el momento,https://www.sensacine.com/peliculas/pelicula-3...
8,"Bambi, una vida en el bosque",https://www.sensacine.com/peliculas/pelicula-1...
9,Sin instrucciones,https://www.sensacine.com/peliculas/pelicula-1...


In [100]:
# path_or_buf = Nombre del archivo terminado en .csv
# index = False para que no se guarde el indice como nueva columna en el csv
# sep = "," para que el separador sea ",", se puede cambiar por cualquier otro separador.

df.to_csv(path_or_buf = "sensacine.csv", index = False, sep = ",")

In [101]:
df.to_pickle(path = "sensacine.pkl")

### Agregar al DataFrame la duración de cada pelicula y su puntaje:

In [102]:
soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")#[1]

['20 de diciembre de 2024|                                                                                                                            1h 58min                                                                                    |Aventura,                                                                                                                                                                                                                                    Animación,                                                                                                                                                                                                                                    Familia']

In [103]:
# [np.nan if len(x.text.replace("\n", "").split("/")) < 3 else x.text.replace("\n", "").split("/")[1] for x in soup.find_all("div", class_ = "meta-body-item meta-body-info")]

In [104]:
lista_duraciones = list()

for x in soup.find_all("div", class_ = "meta-body-item meta-body-info"):
    
    x = x.text.replace("\n", "").split("/")
    
    if len(x) < 3:
        
        lista_duraciones.append(np.nan)
        
    else:
        
        lista_duraciones.append(x[1])
        
lista_duraciones

[nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan]

In [105]:
soup.find_all("li", class_ = "mdl")[0]

<li class="mdl">
<div class="card entity-card entity-card-list cf">
<figure class="thumbnail">
<span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0yODY3NzcvdHJhaWxlci0yMDYwNzcyMy8= thumbnail-container thumbnail-link" title=" Mufasa: El rey león">
<img alt=" Mufasa: El rey león" class="thumbnail-img" height="420" src="https://es.web.img3.acsta.net/c_310_420/img/fa/96/fa96c4c78e2d47db7bc917e5d93b9c49.jpg" width="310"/>
<span class="ico-play-wrapper">
<span class="icon icon-play-arrow"></span>
</span>
</span>
</figure>
<div class="meta">
<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-286777/">Mufasa: El rey león</a>
</h2>
<div class="meta-body">
<div class="meta-body-item meta-body-info">
<span class="date">20 de diciembre de 2024</span>
<span class="spacer">|</span>
                    
                                                            
                                            1h 58min
                                        
                         

In [106]:
soup.find_all("li", class_ = "mdl")[1]

<li class="mdl">
<div class="card entity-card entity-card-list cf">
<figure class="thumbnail">
<span class="ACrL3BACrlbGljdWxhcy9wZWxpY3VsYS0zMDA5NDkvdHJhaWxlci0yMDYxMjg5NC8= thumbnail-container thumbnail-link" title=" Sonic 3. La película">
<img alt=" Sonic 3. La película" class="thumbnail-img" height="420" src="https://es.web.img2.acsta.net/c_310_420/img/c3/70/c3703dc747fb19cf232978ea08e8e9f4.jpg" width="310"/>
<span class="ico-play-wrapper">
<span class="icon icon-play-arrow"></span>
</span>
</span>
</figure>
<div class="meta">
<h2 class="meta-title">
<a class="meta-title-link" href="/peliculas/pelicula-300949/">Sonic 3. La película</a>
</h2>
<div class="meta-body">
<div class="meta-body-item meta-body-info">
<span class="date">25 de diciembre de 2024</span>
<span class="spacer">|</span>
                    
                                                            
                                            1h 49min
                                        
                      

In [107]:
len(soup.find_all("li", class_ = "mdl"))

13

In [108]:
lista_puntaciones = list()

for pelicula in soup.find_all("li", class_ = "mdl"):
    
    if pelicula.find("a") != None:
    
        try:
            x = float(pelicula.find("div", class_ = "rating-item").find("span", class_ = "stareval-note").text.replace(",", "."))

        except:

            x = np.nan
    
        lista_puntaciones.append(x)
        
lista_puntaciones

[2.8, 3.0, 3.3, 3.5, 2.0, 3.4, 3.6, 3.1, nan, 4.0, 3.2, 3.3]

In [109]:
df["duracion"] = lista_duraciones

df["puntuacion"] = lista_puntaciones

df

Unnamed: 0,titulo,urls,duracion,puntuacion
0,Mufasa: El rey león,https://www.sensacine.com/peliculas/pelicula-2...,,2.8
1,Sonic 3. La película,https://www.sensacine.com/peliculas/pelicula-3...,,3.0
2,Nosferatu,https://www.sensacine.com/peliculas/pelicula-2...,,3.3
3,Vaiana 2,https://www.sensacine.com/peliculas/pelicula-3...,,3.5
4,Juego de ladrones 2: Pantera,https://www.sensacine.com/peliculas/pelicula-1...,,2.0
5,Conclave,https://www.sensacine.com/peliculas/pelicula-3...,,3.4
6,Heretic (Hereje),https://www.sensacine.com/peliculas/pelicula-3...,,3.6
7,Vivir el momento,https://www.sensacine.com/peliculas/pelicula-3...,,3.1
8,"Bambi, una vida en el bosque",https://www.sensacine.com/peliculas/pelicula-1...,,
9,Sin instrucciones,https://www.sensacine.com/peliculas/pelicula-1...,,4.0


In [110]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   titulo      12 non-null     object 
 1   urls        12 non-null     object 
 2   duracion    0 non-null      float64
 3   puntuacion  11 non-null     float64
dtypes: float64(2), object(2)
memory usage: 516.0+ bytes


### Información de 1 pelicula:

Vamos a entrar al primer **`url`** y sacar toda su información.

In [111]:
url = "https://www.sensacine.com/peliculas/pelicula-246641/"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

<!DOCTYPE html>

<html lang="es">
<head>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8">
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
<meta content="index,follow,max-snippet:-1,max-image-preview:standard" name="robots">
<title>Guardianes de la Galaxia: Volumen 3 - Película 2023 - SensaCine.com</title>
<meta content="" name="keywords"/>
<meta content="noarchive" name="Googlebot"/>
<meta content="global" name="distribution"/>
<meta content="SensaCine" name="author"/>
<meta content="Spain" name="country"/>
<meta content="40.46131;-0.367224" name="geo.position"/>
<meta content="ES" name="geo.country"/>
<meta content="40.46131;-0.367224" name="ICBM"/>
<meta content="#FECC00" name="theme-color"/>
<meta content="Guardianes de la Galaxia: Volumen 3 es una película dirigida por James Gunn con Chris Pratt, Zoe Saldana. Sinopsis : Puede que Thanos (Josh Brolin), así como el pa

In [112]:
# Titulo

soup.find("div", class_ = "titlebar titlebar-page").text.strip()

'Guardianes de la Galaxia: Volumen 3'

In [113]:
# Fecha

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.strip().split("\n")[0]

'4 de mayo de 2023'

In [114]:
# Duración

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

div_texto = soup.find("div", attrs = dict_bs4).text

# Limpiar el texto del div
lineas = [line.strip() for line in div_texto.splitlines() if line.strip()]

# Buscar la duración
duracion = next((line for line in lineas if 'h' in line and 'min' in line), None)

print("Duración encontrada:", duracion)

Duración encontrada: 2h 30min


In [115]:
# Guion 

soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text

IndexError: list index out of range

In [None]:
# Reparto 

soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]

In [None]:
[x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]]

In [None]:
# Géneros

dict_bs4 = {"class" : "meta-body-item meta-body-info"}

soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(",")

In [None]:
# Sinopsis

soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text

In [None]:
from time import sleep

In [None]:
df["urls"]

In [None]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    try:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")

        titulo = soup.find("div", class_ = "titlebar titlebar-page").text
        fecha = soup.find("div", attrs = dict_bs4).text.strip().split("\n")[0]
        duracion = soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")[1]
        guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text
        reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])
        genero = " ".join(soup.find("div", class_ = "meta-body-item meta-body-info").text.replace("\n", "").split("/")[-1].split(","))
        sinopsis = soup.find("section", class_ = "section ovw ovw-synopsis").find("div", class_ = "content-txt").text

        titulos.append(titulo)
        fechas.append(fecha)
        duraciones.append(duracion)
        guiones.append(guion)
        repartos.append(reparto)
        generos.append(genero)
        sinopsises.append(sinopsis)
        
    except:
        
        titulos.append(np.nan)
        fechas.append(np.nan)
        duraciones.append(np.nan)
        guiones.append(np.nan)
        repartos.append(np.nan)
        generos.append(np.nan)
        sinopsises.append(np.nan)
    
    sleep(3)

Muchas veces sucede que no todas las páginas tienen la misma información, por lo que tenemos que asegurarnos de que si no existe un dato lo sustituimos con un np.nan. Por eso podemos usar:
```python
try:
    
except:
```

In [None]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    if type(url) == str:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")
    
#### Titulo #######################################################################################################   

        try:
            titulo = soup.find("div", class_ = "titlebar titlebar-page").text

        except:
            titulo = np.nan
        
#### Fecha ########################################################################################################   

        try:
            fecha = soup.find("div", class_ = "meta-body-item meta-body-info").text.strip().split("\n")[0]

        except:
            fecha = np.nan

#### Duracion #####################################################################################################

        try:
            duracion = soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[1]

        except:
            duracion = np.nan

#### Guion ########################################################################################################

        try:
            guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text

        except:
            guion = np.nan

#### Reparto ######################################################################################################

        try:
            reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])

        except:
            reparto = np.nan

#### Genero #######################################################################################################

        try:
            genero = " ".join(soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(","))

        except:
            genero = np.nan

#### Sinopsis #####################################################################################################

        try:
            sinopsis = soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text

        except:
            sinopsis = np.nan
        
##################################################################################################################

        # appends
    
        titulos.append(titulo)
        fechas.append(fecha)
        duraciones.append(duracion)
        guiones.append(guion)
        repartos.append(reparto)
        generos.append(genero)
        sinopsises.append(sinopsis)

        sleep(3)

In [None]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["fecha"] = fechas
df_peliculas["duracion"] = duraciones
df_peliculas["guion"] = guiones
df_peliculas["reparto"] = repartos
df_peliculas["genero"] = generos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]

In [None]:
df_peliculas

### Ejercicio: Modificar el código para que no hayan errores

In [None]:
# Crear un DataFrame

titulos = list()
fechas = list()
duraciones = list()
guiones = list()
repartos = list()
generos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    
    if type(url) == str:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")
    
#### Titulo #######################################################################################################   

        try:
            titulo = soup.find("div", class_ = "titlebar titlebar-page").text

        except:
            titulo = np.nan
        
#### Fecha ########################################################################################################   

        try:
            fecha = soup.find("div", class_ = "meta-body-item meta-body-info").text.strip().split("\n")[0]

        except:
            fecha = np.nan

#### Duracion #####################################################################################################

        try:
            duracion = soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")

            if len(duracion) < 3:

                duracion = np.nan

            else:

                duracion = duracion[1]

        except:
            duracion = np.nan

#### Guion ########################################################################################################

        try:
            guion = soup.find_all("div", class_ = "meta-body-item meta-body-direction")[1].find_all("span")[1].text

        except:
            guion = np.nan

#### Reparto ######################################################################################################

        try:
            reparto = ", ".join([x.text for x in soup.find("div", class_ = "meta-body-item meta-body-actor").find_all("span")[1:]])

        except:
            reparto = np.nan

#### Genero #######################################################################################################

        try:
            genero = " ".join(soup.find("div", attrs = dict_bs4).text.replace("\n", "").split("/")[-1].split(","))

        except:
            genero = np.nan

#### Sinopsis #####################################################################################################

        try:
            sinopsis = soup.find("section", attrs = {"class" : "section ovw ovw-synopsis"}).find("div", class_ = "content-txt").text

        except:
            sinopsis = np.nan
        
##################################################################################################################

        # appends

        titulos.append(titulo)
        fechas.append(fecha)
        duraciones.append(duracion)
        guiones.append(guion)
        repartos.append(reparto)
        generos.append(genero)
        sinopsises.append(sinopsis)

        sleep(3)

In [None]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["fecha"] = fechas
df_peliculas["duracion"] = duraciones
df_peliculas["guion"] = guiones
df_peliculas["reparto"] = repartos
df_peliculas["genero"] = generos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]
df_peliculas["puntuacion"] = df["puntuacion"]

df_peliculas

In [None]:
df_peliculas.to_csv("info_peliculas.csv", index = False, sep = ",")

In [None]:
################################################################################################################################