# Web Scraping con bs4 (BeautifulSoup)

**`BeautifulSoup`** es una biblioteca de python para extraer contenido de ficheros **`HTML`** y **`XML`**.

**`requests`** es una libreria que maneja los **requests** (o peticiones) de **HTTP** de una forma sencilla.

**`bs4 : pip install beautifulsoup4`**

**`requests : pip install requests`**

Primero usamos **`requests`** para tener "acceso" a las páginas web, luego usamos **`BeautifulSoup`** para extraer la información del **`HTML`**.

In [None]:
import requests
from bs4 import BeautifulSoup

### requests

**`requests.get()`** toma un **`url`** (o enlace) y retorna la **"respuesta"** del servidor. Este nuevo objeto también extrae el código **`HTML`** del **`url`**.

**ADVERTENCIA: CADA "REQUEST" TOMA UN TIEMPO DE RESPUESTA, POR LO QUE SI INTENTAMOS HACER MUCHOS "REQUESTS" EN UN PLAZO CORTO DE TIEMPO NUESTRO IP SERÁ BANEADO DE LA PAGINA WEB PARA EVITAR COLAPSAR LA PÁGINA WEB. EN EL PEOR DE LOS CASOS LA PÁGINA RECIBIRÁ TANTOS "REQUESTS" QUE COLAPSARÁ Y LA DEJAREMOS FUERA DE SERVICIO.**

In [None]:
url = "https://google.com/"

response = requests.get(url)

print(response)

print(bool(response))

In [None]:
# El atributo .text retorna el HTML de la página 

print(response.text)

### BeautifulSoup

Si la respuesta del **`requests`** es positiva podemos pasar este objeto **`requests.get()`** a **`BeautifulSoup`** para que nos ayude a filtrar la información y extraerla más fácil. 

Los métodos más comunes de **`BeautifulSoup`** son:

|Método           |Descripción                                                                                        |
|-----------------|---------------------------------------------------------------------------------------------------|
|**`.body`**      | Retorna el contenido dentro de la etiqueta **`body`**.                                            |
|**`.title`**     | Retorna el titulo del **HTML**.                                                                   |
|**`.find()`**    | Busca en el **HTML** y retorna la primera ocurrencia del filtro en un objeto **`bs4`**.           |
|**`.find_all()`**| Busca en el **HTML** y retorna todas las ocurrencias del filtro en una lista de objetos **`bs4`**.|
|**`.text`**      | Retorna el texto de un objeto **`bs4`** en un **`str`**.                                          |

In [None]:
soup = BeautifulSoup(response.text, "html.parser")

In [None]:
soup

In [None]:
type(soup)

In [None]:
# filmaffinity

url = "https://www.filmaffinity.com/es/topcat.php?id=new_th_es"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

In [None]:
soup.body

In [None]:
# Esto retorna un objeto bs4
soup.title

In [None]:
# Con .text lo convertimos a str

soup.title.text

### Filtros con bs4

In [None]:
# Encontrar la primera etiqueta h1

soup.find("h1")

In [None]:
# Con .find_all() encontramos todas las etiquetas y nos retorna una lista con objetos bs4

soup.find_all("h1")

In [None]:
# Encuentra la primera etiqueta h3

soup.find("h3")

In [None]:
# Encuentra todas las etiquetas h3

soup.find_all("h3")

In [None]:
len(soup.find_all("h3"))

In [None]:
# Podemos encadenar filtros siempre que nos retorne un objeto bs4

soup.find("h3").find("a")

In [None]:
soup.find("h3").find("a")["href"]

Cuando veamos una etiqueta con **class** en ella, podemos usarla para hacer un filtro más específico.
```html
<div class="duration">
```

Como en python **`class`** es una palabra reservada, debemos usar **`class_`**.

In [None]:
soup.find("div", class_ = "duration")

In [None]:
soup.find_all("div", class_ = "duration")

In [None]:
soup.find("div", class_ = "avg-rating")

In [None]:
soup.find_all("div", class_ = "avg-rating")

Otra forma de usar estos filtros de **`bs4`** es atraves del parametro **`attrs`** de un diccionario.

Este diccionario tendrá como llave el nombre de las etiquetas y como valor el valor asociado a esa etiqueta:

In [None]:
dicc_bs4 = {"class" : "avg-rating"}

soup.find("div", attrs = dicc_bs4)

In [None]:
soup.find("div", attrs = dicc_bs4).text

In [None]:
dicc_bs4 = {"class" : "avg-rating"}

soup.find_all("div", attrs = dicc_bs4)

Utilizando bucles podemos iterar sobre los **`.find_all()`** y sacar información de forma automatizada.

In [None]:
# En la etiqueta h3 tenemos el url y el titulo de la pelicual

soup.find_all("h3")

In [None]:
titulos = list()

urls = list()

for bs in soup.find_all("h3"):
    titulo = bs.find("a").text
    url = bs.find("a")["href"]
    
    titulos.append(titulo)
    urls.append(url)
    
    
for t, u in zip(titulos, urls):
    print(t, u)

Toda esta información se puede agrupar en un DataFrame y convertir a **`.csv`**

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame()

df["titulo"] = titulos

df["urls"] = urls

In [None]:
df

In [None]:
# path_or_buf = Nombre del archivo terminado en .csv
# index = False para que no se guarde el indice como nueva columna en el csv
# sep = "," para que el separador sea ",", se puede cambiar por cualquier otro separador.

df.to_csv(path_or_buf = "filmaffinity.csv", index = False, sep = ",")

### Agregar al DataFrame la duración de cada pelicula y su puntaje:

### Información de 1 pelicula:

Vamos a entrar al primer **`url`** y sacar toda su información.

In [None]:
url = "https://www.filmaffinity.com/es/film491812.html"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

In [None]:
# Titulo

soup.find("dd").text

# soup.find("dd").text.strip()

In [None]:
# Año

dict_bs4 = {"itemprop" : "datePublished"}

soup.find("dd", attrs = dict_bs4).text

In [None]:
# Duracion

dict_bs4 = {"itemprop" : "duration"}

soup.find("dd", attrs = dict_bs4).text

In [None]:
# Pais

dict_bs4 = {"id" : "country-img"}

soup.find("span", attrs = dict_bs4).find("img")["alt"]

In [None]:
# Guion (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[1].text

In [None]:
# Musica (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[2].text

In [None]:
# Fotografia (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[3].text

In [None]:
# Reparto (Aqui es más complicado por como esta estructurada la página)

soup.find_all("div", class_ = "credits")[4].text

In [None]:
# Productora 

" ".join([t.text for t in soup.find("dd", class_ = "card-producer").find_all("span", class_ = "nb")])

In [None]:
# Géneros

" ".join(soup.find("dd", class_ = "card-genres").text.split())

In [None]:
# Grupos

" ".join(soup.find("dd", attrs = {"style" : "position: relative;"}).text.split())

In [None]:
# Sinopsis

soup.find("dd", attrs = {"itemprop" : "description"}).text

In [None]:
from time import sleep

In [None]:
# Crear un DataFrame

titulos = list()
años = list()
duraciones = list()
paises = list()
direcciones = list()
guiones = list()
musicas = list()
fotografias = list()
repartos = list()
productoras = list()
generos = list()
grupos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    titulo = soup.find("dd").text.strip()
    año = soup.find("dd", attrs = {"itemprop" : "datePublished"}).text
    duracion = soup.find("dd", attrs = {"itemprop" : "duration"}).text
    pais = soup.find("span", attrs = {"id" : "country-img"}).find("img")["alt"]
    direccion = soup.find_all("div", class_ = "credits")[1].text
    guion = soup.find_all("div", class_ = "credits")[2].text
    musica = soup.find_all("div", class_ = "credits")[3].text
    fotografia = soup.find_all("div", class_ = "credits")[3].text
    reparto = soup.find_all("div", class_ = "credits")[4].text
    productora = " ".join([t.text for t in soup.find("dd", class_ = "card-producer").find_all("span", class_ = "nb")])
    genero = " ".join(soup.find("dd", class_ = "card-genres").text.split())
    grupo = " ".join(soup.find("dd", attrs = {"style" : "position: relative;"}).text.split())
    sinopsis = soup.find("dd", attrs = {"itemprop" : "description"}).text
    
    titulos.append(titulo)
    años.append(año)
    duraciones.append(duracion)
    paises.append(pais)
    direcciones.append(direccion)
    guiones.append(guion)
    musicas.append(musica)
    fotografias.append(fotografia)
    repartos.append(reparto)
    productoras.append(productora)
    generos.append(genero)
    grupos.append(grupo)
    sinopsises.append(sinopsis)
    
    sleep(3)

Muchas veces sucede que no todas las páginas tienen la misma información, por lo que tenemos que asegurarnos de que si no existe un dato lo sustituimos con un np.nan. Por eso podemos usar:
```python
try:
    
except:
```

In [None]:
# Crear un DataFrame

titulos = list()
años = list()
duraciones = list()
paises = list()
direcciones = list()
guiones = list()
musicas = list()
fotografias = list()
repartos = list()
productoras = list()
generos = list()
grupos = list()
sinopsises = list()

for url in df["urls"]:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")
    
#### Titulo #######################################################################################################   

    try:
        titulo = soup.find("dd").text.strip()
        
    except:
        titulo = np.nan
        
#### Año ##########################################################################################################   

    try:
        año = soup.find("dd", attrs = {"itemprop" : "datePublished"}).text
        
    except:
        año = np.nan

#### Duracion #####################################################################################################

    try:
        duracion = soup.find("dd", attrs = {"itemprop" : "duration"}).text
        
    except:
        duracion = np.nan

#### Pais #########################################################################################################

    try:
        pais = soup.find("span", attrs = {"id" : "country-img"}).find("img")["alt"]
        
    except:
        pais = np.nan

#### Direccion ####################################################################################################

    try:
        direccion = soup.find_all("div", class_ = "credits")[1].text
        
    except:
        direccion = np.nan

#### Guion ########################################################################################################

    try:
        guion = soup.find_all("div", class_ = "credits")[2].text
        
    except:
        guion = np.nan

#### Musica #######################################################################################################

    try:
        musica = soup.find_all("div", class_ = "credits")[3].text
        
    except:
        musica = np.nan

#### Fotografia ###################################################################################################

    try:
        fotografia = soup.find_all("div", class_ = "credits")[3].text
        
    except:
        fotografia = np.nan

#### Reparto ######################################################################################################

    try:
        reparto = soup.find_all("div", class_ = "credits")[4].text
        
    except:
        reparto = np.nan

#### Productora ###################################################################################################

    try:
        productora = " ".join([t.text for t in soup.find("dd", class_ = "card-producer").find_all("span", class_ = "nb")])
        
    except:
        productora = np.nan

#### Genero #######################################################################################################

    try:
        genero = " ".join(soup.find("dd", class_ = "card-genres").text.split())
        
    except:
        genero = np.nan

#### Grupo ########################################################################################################

    try:
        grupo = " ".join(soup.find("dd", attrs = {"style" : "position: relative;"}).text.split())
        
    except:
        grupo = np.nan

#### Sinopsis #####################################################################################################

    try:
        sinopsis = soup.find("dd", attrs = {"itemprop" : "description"}).text
        
    except:
        sinopsis = np.nan
        
##################################################################################################################

    # appends
    
    titulos.append(titulo)
    años.append(año)
    duraciones.append(duracion)
    paises.append(pais)
    direcciones.append(direccion)
    guiones.append(guion)
    musicas.append(musica)
    fotografias.append(fotografia)
    repartos.append(reparto)
    productoras.append(productora)
    generos.append(genero)
    grupos.append(grupo)
    sinopsises.append(sinopsis)
    
    sleep(3)

In [None]:
df_peliculas = pd.DataFrame()

df_peliculas["titulo"] = titulos
df_peliculas["año"] = años
df_peliculas["duracion"] = duraciones
df_peliculas["pais"] = paises
df_peliculas["direccion"] = direcciones
df_peliculas["guion"] = guiones
df_peliculas["fotografia"] = fotografias
df_peliculas["reparto"] = repartos
df_peliculas["productora"] = productoras
df_peliculas["genero"] = generos
df_peliculas["grupo"] = grupos
df_peliculas["sinopsis"] = sinopsises

df_peliculas["url"] = df["urls"]

In [None]:
df_peliculas

In [None]:
df_peliculas.to_csv("info_peliculas.csv", index = False, sep = ",")

In [1]:
################################################################################################################################