## Ejercicios Web Scraping BeautifulSoup

In [None]:
import numpy as np
import pandas as pd

import requests
from bs4 import BeautifulSoup

from time import sleep

De la pagina:

https://www.recetasgratis.net/Recetas-de-Ensaladas-listado_receta-4_1.html

- Sacar la siguiente información de las recetas de la primera página:

1. **Nombre**
2. **Descripcion**
3. **Comensales**
4. **Tiempo**
5. **Categoria**
6. **Dificultad**
7. **Ingredientes**
8. **Instrucciones**

Guardalo en un DataFrame y luego en un **`.csv`**.

In [None]:
url = "https://www.recetasgratis.net/Recetas-de-Ensaladas-listado_receta-4_1.html"

response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

urls_recetas = [s["href"] for s in soup.find_all("a", class_ = "titulo titulo--resultado")]

In [None]:
response = requests.get(urls_recetas[0])

soup = BeautifulSoup(response.text, "html.parser")

In [None]:
# Nombre
soup.find("h1").text

In [None]:
# Descripcion
soup.find("p").text

In [None]:
# Comensales
soup.find("span", class_ = "property comensales").text

In [None]:
# Tiempo
soup.find("span", class_ = "property duracion").text

In [None]:
# Categorias
[s.text for s in soup.find_all("a", class_ = "tag ga")]

In [None]:
# Dificultad
soup.find("span", class_ = "property dificultad").text

In [None]:
# Ingredientes
[s.text.strip() for s in soup.find("div", class_ = "ingredientes").find_all("label")]

In [None]:
# Instrucciones
[s.text.strip() for s in soup.find_all("div", class_ = "apartado")]

In [None]:
nombres, descripciones, comensales = list(), list(), list()
tiempos, categorias, dificultades = list(), list(), list()
ingredientes, instrucciones = list(), list()

for url in urls_recetas:
    
    print(url)
    
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

### Nombre #####################################################################################################################
    try:
        nombre = soup.find("h1").text
    except:
        nombre = np.nan
        
### Descripción ################################################################################################################
    try:
        descripcion = soup.find("p").text
    except:
        descripcion = np.nan
        
### Comensales #################################################################################################################
    try:
        comensal = soup.find("span", class_ = "property comensales").text
    except:
        comensal = np.nan
        
### Tiempo #####################################################################################################################
    try:
        tiempo = soup.find("span", class_ = "property duracion").text
    except:
        tiempo = np.nan
        
### Categorias #################################################################################################################
    try:
        categoria = [s.text for s in soup.find_all("a", class_ = "tag ga")]
    except:
        categoria = np.nan
        
### Dificultad #################################################################################################################
    try:
        dificultad = soup.find("span", class_ = "property dificultad").text
    except:
        dificultad = np.nan
        
### Ingredientes ###############################################################################################################
    try:
        ingrediente = [s.text.strip() for s in soup.find("div", class_ = "ingredientes").find_all("label")]
    except:
        ingrediente = np.nan
        
### Instrucciones ##############################################################################################################
    try:
        instruccion = [s.text.strip() for s in soup.find_all("div", class_ = "apartado")]
    except:
        instruccion = np.nan
        
    nombres.append(nombre)
    descripciones.append(descripcion)
    comensales.append(comensal)
    tiempos.append(tiempo)
    categorias.append(categoria)
    dificultades.append(dificultad)
    ingredientes.append(ingrediente)
    instrucciones.append(instruccion)
    
    sleep(3)

In [None]:
df = pd.DataFrame()

df["nombres"] = nombres
df["descripciones"] = descripciones
df["comensales"] = comensales
df["tiempos"] = tiempos
df["categorias"] = categorias
df["dificultades"] = dificultades
df["ingredientes"] = ingredientes
df["instrucciones"] = instrucciones

df

- Repetir el ejercicio para todas las recetas de todas las páginas.

In [None]:
%%time

nombres, descripciones, comensales = list(), list(), list()
tiempos, categorias, dificultades = list(), list(), list()
ingredientes, instrucciones = list(), list()

for i in range(1, 22):
    
    recetas_url = f"https://www.recetasgratis.net/Recetas-de-Ensaladas-listado_receta-4_{i}.html"
    
    print(recetas_url)
    
    response = requests.get(recetas_url)
    
    soup = BeautifulSoup(response.text, "html.parser")

    urls_recetas = [s.find("a", class_ = "titulo titulo--resultado")["href"] for s in soup.find_all("div", class_ = "resultado link")]
    
    for url in urls_recetas:

        print(url)

        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")

### Nombre #####################################################################################################################
        try:
            nombre = soup.find("h1").text
        except:
            nombre = np.nan

### Descripción ################################################################################################################
        try:
            descripcion = soup.find("p").text
        except:
            descripcion = np.nan

### Comensales #################################################################################################################
        try:
            comensal = soup.find("span", class_ = "property comensales").text
        except:
            comensal = np.nan

### Tiempo #####################################################################################################################
        try:
            tiempo = soup.find("span", class_ = "property duracion").text
        except:
            tiempo = np.nan

### Categorias #################################################################################################################
        try:
            categoria = [s.text for s in soup.find_all("a", class_ = "tag ga")]
        except:
            categoria = np.nan

### Dificultad #################################################################################################################
        try:
            dificultad = soup.find("span", class_ = "property dificultad").text
        except:
            dificultad = np.nan

### Ingredientes ###############################################################################################################
        try:
            ingrediente = [s.text.strip() for s in soup.find("div", class_ = "ingredientes").find_all("label")]
        except:
            ingrediente = np.nan

### Instrucciones ##############################################################################################################
        try:
            instruccion = [s.text.strip() for s in soup.find_all("div", class_ = "apartado")]
        except:
            instruccion = np.nan

        nombres.append(nombre)
        descripciones.append(descripcion)
        comensales.append(comensal)
        tiempos.append(tiempo)
        categorias.append(categoria)
        dificultades.append(dificultad)
        ingredientes.append(ingrediente)
        instrucciones.append(instruccion)

        sleep(1)

In [None]:
df = pd.DataFrame()

df["nombres"] = nombres
df["descripciones"] = descripciones
df["comensales"] = comensales
df["tiempos"] = tiempos
df["categorias"] = categorias
df["dificultades"] = dificultades
df["ingredientes"] = ingredientes
df["instrucciones"] = instrucciones

df

In [None]:
df.to_csv("todas_recetas.csv", index = False, sep = ",")

In [None]:
################################################################################################################################