## Ejercicios Web Scraping BeautifulSoup

In [23]:
import numpy as np
import pandas as pd

import requests
import bs4 # Para ver la versión
from bs4 import BeautifulSoup

from time import sleep

In [24]:
# Versiones

print(f"numpy=={np.__version__}")
print(f"pandas=={pd.__version__}")
print(f"requests=={requests.__version__}")
print(f"bs4=={bs4.__version__}")

numpy==2.2.1
pandas==2.2.3
requests==2.32.3
bs4==4.12.3


De la pagina:

https://www.recetasgratis.net/Recetas-de-Ensaladas-listado_receta-4_1.html

- Sacar la siguiente información de las recetas de la primera página:

1. **Nombre**
2. **Descripcion**
3. **Comensales**
4. **Tiempo**
5. **Categoria**
6. **Dificultad**
7. **Ingredientes**
8. **Instrucciones**

Guardalo en un DataFrame y luego en un **`.csv`**.

In [25]:
# Realizar la solicitud HTTP
response = requests.get('https://www.recetasgratis.net/Recetas-de-Ensaladas-listado_receta-4_1.html')

# Analizar el contenido HTML
soup = BeautifulSoup(response.text, "html.parser")

# Verificar el contenido de la página
soup.body

<body class="ctrl-search action-index">
<div class="container" id="top">
<header class="header-layout">
<nav class="menu" data-js-selector="menu">
<div class="cerrar-menu"></div>
<div class="wrap-menu max_width clear">
<div class="descubre">
<div class="table">
<div class="centrar">Descubre
<svg fill="#ffffff" transform="rotate(90)" viewbox="0 0 330 330">
<path d="M250.606,154.389l-150-149.996c-5.857-5.858-15.355-5.858-21.213,0.001 c-5.857,5.858-5.857,15.355,0.001,21.213l139.393,139.39L79.393,304.394c-5.857,5.858-5.857,15.355,0.001,21.213 C82.322,328.536,86.161,330,90,330s7.678-1.464,10.607-4.394l149.999-150.004c2.814-2.813,4.394-6.628,4.394-10.606 C255,161.018,253.42,157.202,250.606,154.389z"></path>
</svg>
</div>
</div>
</div>
<div class="lista_menu">
<div class="clear">
<a class="ga" data-category="Header" data-event="Go to hub" data-label="1" href="https://www.recetasgratis.net/Recetas-de-Aperitivos-tapas-listado_receta-1_1.html"><div class="hubicon hubicon--menu hubicon--aperitivo

In [26]:
sprimera_receta_url = soup.find('a', class_='titulo titulo--resultado')['href']
sprimera_receta_url

'https://www.recetasgratis.net/receta-de-ensalada-rusa-chilena-77853.html'

In [27]:
response = requests.get(sprimera_receta_url)
soup = BeautifulSoup(response.text, "html.parser")
soup.body

<body class="ctrl-post action-index">
<div class="container" id="top">
<header class="header-layout">
<nav class="menu" data-js-selector="menu">
<div class="cerrar-menu"></div>
<div class="wrap-menu max_width clear">
<div class="descubre">
<div class="table">
<div class="centrar">Descubre
<svg fill="#ffffff" transform="rotate(90)" viewbox="0 0 330 330">
<path d="M250.606,154.389l-150-149.996c-5.857-5.858-15.355-5.858-21.213,0.001 c-5.857,5.858-5.857,15.355,0.001,21.213l139.393,139.39L79.393,304.394c-5.857,5.858-5.857,15.355,0.001,21.213 C82.322,328.536,86.161,330,90,330s7.678-1.464,10.607-4.394l149.999-150.004c2.814-2.813,4.394-6.628,4.394-10.606 C255,161.018,253.42,157.202,250.606,154.389z"></path>
</svg>
</div>
</div>
</div>
<div class="lista_menu">
<div class="clear">
<a class="ga" data-category="Header" data-event="Go to hub" data-label="1" href="https://www.recetasgratis.net/Recetas-de-Aperitivos-tapas-listado_receta-1_1.html"><div class="hubicon hubicon--menu hubicon--aperitivos-

In [28]:
titulo = soup.find('h1', class_='titulo titulo--articulo').text
titulo

'Receta de Ensalada rusa chilena'

In [29]:
# encontramos el primer parrafo
soup.find('p').text

'La ensalada rusa chilena es un acompañamiento clásico que nunca falta en las mesas familiares, especialmente en celebraciones como asados y fiestas patrias. Esta elaboración se caracteriza por su sencillez, cremosidad y versatilidad, combinando papas, zanahorias y arvejas en un delicioso aderezo.'

In [30]:
# Buscamos el primer parrafo dentro de la clase intro, par aasegurasrnos que es el primero
description = soup.find('div', class_='intro').find('p').text
description

'La ensalada rusa chilena es un acompañamiento clásico que nunca falta en las mesas familiares, especialmente en celebraciones como asados y fiestas patrias. Esta elaboración se caracteriza por su sencillez, cremosidad y versatilidad, combinando papas, zanahorias y arvejas en un delicioso aderezo.'

In [31]:
comensales = soup.find("span", class_="property comensales").text
comensales

'5 comensales'

In [32]:
# Pasamos a entero el numero de comensales
comensales_num = int(comensales.split(' ')[0])
comensales_num

5

In [33]:
# buscar el tiempo y quitar la H y la M y convertirlo todo a minutos
def obtener_minutos(tiempo):
    
    # no hay nada
    if not tiempo:
        return 0
   
    # hay h y hay m
    if 'h' in tiempo and 'm' in tiempo:
        horas = int(tiempo.split(' ')[0].replace('h',''))
        minutos = int(tiempo.split(' ')[1].replace('m',''))
        return horas * 60 + minutos
        
    # hay solo h
    if 'h' in tiempo:
        horas = int(tiempo.replace('h',''))
        return horas * 60
        
    # hay solo m
    if 'm' in tiempo:
        return int(tiempo.replace('m',''))

In [34]:
tiempo = soup.find("span", class_="property duracion").text
tiempo

'30m'

In [35]:
tiempo_minutos = obtener_minutos(tiempo)
tiempo_minutos

30

In [36]:
categoria = soup.find("span", class_="property para").text
categoria

'Acompañamiento'

In [37]:
dificultad = soup.find("span", class_="property dificultad").text.lower().replace('dificultad', '')
dificultad

' muy baja'

In [38]:
ingredientes = [ingrediente.text.strip() for ingrediente in soup.find('div', class_='ingredientes').find_all('label')]
ingredientes

['5 papas',
 '2 zanahorias',
 '½ taza de arvejas cocidas',
 '1 yogur griego (opcional)',
 '½ taza de mayonesa',
 'cilantro',
 'sal',
 'pimienta']

In [39]:
#problema: los últimos 3 apartados quizá no sean Pasos como tal en la receta
[paso.text for paso in soup.find_all('div', class_='apartado')]

['\n1\nLava y pela las zanahorias y papas.\n\n\n\n\n\n\n\n\n',
 '\n2\nCorta las zanahorias y papas en cubos.\n\n\n\n\n\n\n\n\n',
 '\n3\nEn una olla agrega agua, sal, las papas y zanahorias en cubos. Lleva a hervir hasta que esté cocido.\n\n\n\n\n\n\n\n\n',
 '\n4\nCuando esté cocido, escurre y coloca las papas y zanahorias en un bol.\n\n\n\n\n\n\n\n\n',
 '\n5\nLava y escurre las arvejas cocidas para retirar el exceso de sal.\n\n\n\n\n\n\n\n\n',
 '\n6\nAgrega las arvejas al bol con los demás ingredientes.\n\n\n\n\n\n\n\n\n',
 '\n7\nLava y corta cilantro finamente.\n\n\n\n\n\n\n\n\n',
 '\n8\nAgrega la mayonesa y el yogur griego.\nTruco: si no quieres usar yogur griego, reemplázalo agregando más mayonesa a la preparación.\n\n\n\n\n\n\n\n\n',
 '\n9\nSazona al gustoagregando la sal y pimienta.\n\n\n\n\n\n\n\n\n',
 '\n10\nMezcla bien hasta integrar y lleva a refrigerar.\n\n\n\n\n\n\n\n\n',
 '\n11\nSirve la ensalada en una fuente y decora con cilantro fresco picado. Sirve fría como acompañamie

In [40]:
ingredientes

['5 papas',
 '2 zanahorias',
 '½ taza de arvejas cocidas',
 '1 yogur griego (opcional)',
 '½ taza de mayonesa',
 'cilantro',
 'sal',
 'pimienta']

In [41]:
ingredientes_str = ''
for ingrediente in ingredientes:
    ingredientes_str += ingrediente
    ingredientes_str += ' '
    
ingredientes_str.strip()

'5 papas 2 zanahorias ½ taza de arvejas cocidas 1 yogur griego (opcional) ½ taza de mayonesa cilantro sal pimienta'

In [42]:
'''%bookmarkdf = pd.DataFrame()
df['titulo'] = [titulo]
df['descripcion'] = [descripcion]
df['comensales'] = [comensales_num]
df['tiempo_minutos'] = [tiempo_minutos]
df['categoria'] = [categoria]
df['dificultad'] = [dificultad]
#Si lo queremos como una lista:
df['ingredientes'] = [ingredientes]
# Si lo queremos como un string:
# df['ingredientes'] = [ingredientes_str]
df['pasos'] = [pasos]
df.head()'''

"%bookmarkdf = pd.DataFrame()\ndf['titulo'] = [titulo]\ndf['descripcion'] = [descripcion]\ndf['comensales'] = [comensales_num]\ndf['tiempo_minutos'] = [tiempo_minutos]\ndf['categoria'] = [categoria]\ndf['dificultad'] = [dificultad]\n#Si lo queremos como una lista:\ndf['ingredientes'] = [ingredientes]\n# Si lo queremos como un string:\n# df['ingredientes'] = [ingredientes_str]\ndf['pasos'] = [pasos]\ndf.head()"

In [43]:
#df[df['dificultad'].str.contains('baja', na=False)]

In [44]:
#df.explode('ingredientes')['ingredientes'].str.contains('zanahoria')

In [45]:
#df.explode('ingredientes')['ingredientes'].str.contains('zanahoria').any()

In [46]:
'''if df.explode('ingredientes')['ingredientes'].str.contains('zanahoria').any():
    index = df.explode('ingredientes')['ingredientes'].str.contains('zanahoria').index
    print(f'Si hay Zanahorias, en los productos con index: {index.unique()}')'''

"if df.explode('ingredientes')['ingredientes'].str.contains('zanahoria').any():\n    index = df.explode('ingredientes')['ingredientes'].str.contains('zanahoria').index\n    print(f'Si hay Zanahorias, en los productos con index: {index.unique()}')"

In [47]:
#'zanahoria' in df['ingredientes']

In [48]:
# Lo guardamnos como csv
#df.to_csv('recetas.csv', sep=';', index=False)

- Repetir el ejercicio para todas las recetas de todas las páginas.