# Web Scraping

In [39]:
#Creamos un dataframe vacío con las columnas donde guardaremos todos los datos para la base de datos sacados mediante web scraping
import pandas as pd
df = pd.DataFrame(columns=["Nombre de la receta", "Link de la receta", "Tiempo de preparación", "Dificultad", "Coste por persona", "Ingredientes", "Link de la imagen"])
df.head()

Unnamed: 0,Nombre de la receta,Link de la receta,Tiempo de preparación,Dificultad,Coste por persona,Ingredientes,Link de la imagen


In [40]:
#Empezamos el web scraping
import requests
import regex as re
from bs4 import BeautifulSoup

url ='https://www.recetasderechupete.com/recetas-faciles/'

page = requests.get(url)

soup = BeautifulSoup(page.content,'html.parser')
#Guardamos en una lista todo el código html de todas las recetas buscando el elemento clave <div id='itemreceta ....'>
#Cada elemento de la lista será el código html de una receta.
listarecetas = soup.find_all('div', {'class': re.compile(r'^itemreceta')})
len(listarecetas)

937

In [43]:
#Aquí creamos listas para guardar todos los datos para luego llevarlos al dataframe
#Es posible que pudiéramos hacerlo directamente pero de momento lo he hecho así.
nombres = []
links = []
dificultades = [] 
tiempos = []
costes = []
imagenes = []
#Bucle que hace el scraping recogiendo todos los datos de la página principal pero sin los ingredientes.
for receta in listarecetas:
    nombres.append(receta.find_all("h2")[0].getText())
    link = receta.find_all("a", href=True)
    for el in link:
        linkreceta = el['href']
        links.append(linkreceta)
    dificultades.append(receta.find_all("li")[0].getText().split(' · ')[0])
    tiempos.append(receta.find_all("li")[0].getText().split(' · ')[1])
    costes.append(receta.find_all("li")[1].getText())
    for img in receta.find_all("img"):
        imagenes.append(img['src'])

In [44]:
#Guardamos en el dataframe creado arriba de todo las listas con todos los datos del punto anterior.
df["Nombre de la receta"] = nombres
df["Link de la receta"] = links
df["Dificultad"] = dificultades
df["Tiempo de preparación"] = tiempos
df["Coste por persona"] = costes
df["Link de la imagen"] = imagenes

In [45]:
df.head(5)

Unnamed: 0,Nombre de la receta,Link de la receta,Tiempo de preparación,Dificultad,Coste por persona,Ingredientes,Link de la imagen
0,Tarta de queso fácil. Receta sin horno,https://www.recetasderechupete.com/receta-faci...,25 min,Fácil,0.5€ por persona,,https://www.recetasderechupete.com/wp-content/...
1,Cómo preparar merengue italiano,https://www.recetasderechupete.com/como-prepar...,15 min,Fácil,0.4€ por persona,,https://www.recetasderechupete.com/wp-content/...
2,Frixuelos asturianos,https://www.recetasderechupete.com/frixuelos-a...,40 min,Fácil,0.3€ por persona,,https://www.recetasderechupete.com/wp-content/...
3,Tosta de salmón y naranja. Aperitivo fácil y d...,https://www.recetasderechupete.com/receta-de-t...,10 min,Fácil,0.35€ por persona,,https://www.recetasderechupete.com/wp-content/...
4,Vichyssoise o crema de puerros,https://www.recetasderechupete.com/vichyssoise...,35 min,Fácil,0.8€ por persona,,https://www.recetasderechupete.com/wp-content/...


In [46]:
#Creamos la lista que guardará todos los ingredientes y luego la pasaremos al dataframe.
ingredientes = []
#Bucle que hace el scraping cogiendo los links de cada receta del dataframe y busca y guarda los ingredientes en una lista.
for url_receta in df['Link de la receta']:
    page = requests.get(url_receta)
    soup = BeautifulSoup(page.content,'html.parser')
    divingredientes = soup.find_all('div', {'id': 'ingredients'})
    ingredientes_de_la_receta = []
    for ingrediente in divingredientes:
        for li in ingrediente.findAll('li'):
            ingredientes_de_la_receta.append(li.getText())
    ingredientes.append(ingredientes_de_la_receta)

In [48]:
#Pasamos la lista de ingredientes al dataframe
df['Ingredientes'] = ingredientes

In [51]:
df.tail()

Unnamed: 0,Nombre de la receta,Link de la receta,Tiempo de preparación,Dificultad,Coste por persona,Ingredientes,Link de la imagen
932,Galaktoboureko o pastel de leche griego,https://www.recetasderechupete.com/receta-de-g...,50 min,Fácil,0.35€ por persona,"[6 huevos, 300 g de azúcar, 150 g de sémola fi...",https://www.recetasderechupete.com/wp-content/...
933,Fideos japoneses (Udon Noodle) con pollo al curry,https://www.recetasderechupete.com/receta-de-f...,25 min,Fácil,1.2€ por persona,"[2 cebollas, 1/2 pimiento morrón, 100 g de bro...",https://www.recetasderechupete.com/wp-content/...
934,Bizcocho de cerezas de Vilariño,https://www.recetasderechupete.com/receta-de-b...,40 min,Fácil,0.75€ por persona,"[300 g de harina de trigo., 200 g de azúcar bl...",https://www.recetasderechupete.com/wp-content/...
935,Espaguetis con pollo y champiñones,https://www.recetasderechupete.com/receta-de-e...,45 min,Fácil,0.9€ por persona,"[2 cebollas, 2 zanahorias, Sal y pimienta reci...",https://www.recetasderechupete.com/wp-content/...
936,Ensalada Gigli con atún y anchoas,https://www.recetasderechupete.com/receta-de-e...,25 min,Fácil,1€ por persona,"[1 bolsa de pasta Capricci o similar, 2 latas ...",https://www.recetasderechupete.com/wp-content/...


In [66]:
#Guardamos el dataframe con ingredientes en un archivo .csv
df.to_csv('data/recetasfaciles.csv', encoding ='utf-8-sig')

# Cleaning the ingredients

In [67]:
#No es para el código final pero es para nosotros, bucle para contar el número de ingredientes totales que hay, incluye repetidos.
listaingredientes = list(df[df['Ingredientes'].notna()].Ingredientes)
sumaingredientes = 0
for receta in listaingredientes:
    for ingrediente in receta:
        sumaingredientes += 1
sumaingredientes# Web Scraping for ingredients

8103

In [68]:
#Limpieza de los ingredientes
lista_limpia = md.limpieza(listaingredientes)        
len(set(lista_limpia))

2470

In [69]:
# guardamos los ingredientes en un dataframe.
dfingredientes = pd.DataFrame(data = set(lista_limpia), columns = ['Ingredientes'])
dfingredientes.to_csv('data/Ingredientes.csv', encoding ='utf-8-sig')

In [38]:
misingredientes = ['salmón', 'aguacate', 'sal']
recetas = []
for i in range(len(df)):
    cuenta = 0
    for miingrediente in misingredientes:
        for ingrediente in df.loc[i, 'Ingredientes']:
            if miingrediente in ingrediente:
                cuenta +=1 
    if cuenta == len(misingredientes):
        recetas.append(df.loc[i, ['Nombre de la receta', 'Ingredientes']])

dfencontradas = pd.DataFrame(data=recetas, columns=['Nombre de la receta', 'Ingredientes'])
dfencontradas.head()
dfencontradas.to_csv('data/encontradas.csv', encoding ='utf-8-sig')

In [33]:
dfencontradas

Unnamed: 0,Nombre de la receta,Ingredientes
27,Ensalada de pasta con salmón y aguacate. La co...,"[300 g. pasta Elicoidali de Garofalo, 200 g. d..."
96,"Ensalada de arroz, aguacate y salmón","[4 vasitos arroz basmati Brillante, 200 g. sal..."
99,Cómo hacer quesadillas de pollo y queso. 2 rec...,[Ingredientes para las quesadillas de pollo y ...
116,Ensalada Waldorf con pollo. Receta fácil y del...,"[Para la salsa Waldorf: 250 g. de mayonesa, El..."
121,Cómo hacer huevos rancheros. Receta de un desa...,"[4 tomates pera maduros, 2 chiles serranos, ½ ..."
230,Tostas de salmón ahumado,"[100 g. de salmón ahumado, 4 rebanadas de pan ..."
274,Dorada a la sal. Receta fácil para un pescado ...,[2 doradas de ración (600-700 gramos cada una)...
289,Cómo hacer 5 canapés navideños fáciles y sabro...,[Para las cestitas de aguacate y mango: 1 agua...
302,"Arepas rellenas de aguacate, pollo y mayonesa","[Para las arepas: 300 g. de agua, 200 g. de ha..."
313,Albóndigas de salmón y langostinos. Receta con...,"[4 rodajas de salmón (200 g. cada una), 300 g...."
