# Web Scraping con Python
Vamos a usar las librerías [Requests](https://requests.kennethreitz.org/en/master/) y [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para extraer los ingredientes de las recetas de [Directo a Paladar](https://www.directoalpaladar.com)

In [15]:
import requests
from bs4 import BeautifulSoup

In [16]:
r = requests.get("https://www.directoalpaladar.com/postres/tortas-fritas-carnaval-suizas-fasnachtschuechli-receta-suiza-nombre-impronunciable-muy-similar-a-nuestras-orejas")

In [23]:
soup = BeautifulSoup(r.text, "html.parser")

In [24]:
#La receta está en
receta = soup.div.find(class_="article-asset-recipe")

In [7]:
receta

<div class="article-asset-recipe">
<div class="asset-recipe">
<div class="asset-recipe-meta">
<h2 class="asset-recipe-section-title">Ingredientes</h2>
<div class="asset-recipe-yield">Para 6 unidades</div>
<ul class="asset-recipe-list">
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Mantequilla a temperatura ambiente</span></span>
<span class="asset-recipe-ingr-amount">15 <abbr title="gramos">g</abbr></span>
</li>
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Huevo a temperatura ambiente</span></span>
<span class="asset-recipe-ingr-amount">1 <abbr title=""></abbr></span>
</li>
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Azúcar vainillado (o normal)</span></span>
<span class="asset-recipe-ingr-amount">15 <abbr title="gramos">g</abbr></span>
</li>
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Leche a temperatura ambien

In [8]:
#la lista de ingredientes está en un <ul> a continuación del <h2> de ingredientes
contenidos = receta.find_all("h2")
for i,c in enumerate(contenidos):
    print(i, c)

0 <h2 class="asset-recipe-section-title">Ingredientes</h2>
1 <h2 class="asset-recipe-section-title">Cómo hacer tortas fritas de Carnaval o Fasnachtschüechli</h2>


In [9]:
def ingredientes(tag):
    return(tag.name=="h2" and tag.string=="Ingredientes")

In [10]:
receta.find(ingredientes)

<h2 class="asset-recipe-section-title">Ingredientes</h2>

In [11]:
receta.find(ingredientes).find_next_siblings("ul")[0]

<ul class="asset-recipe-list">
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Mantequilla a temperatura ambiente</span></span>
<span class="asset-recipe-ingr-amount">15 <abbr title="gramos">g</abbr></span>
</li>
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Huevo a temperatura ambiente</span></span>
<span class="asset-recipe-ingr-amount">1 <abbr title=""></abbr></span>
</li>
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Azúcar vainillado (o normal)</span></span>
<span class="asset-recipe-ingr-amount">15 <abbr title="gramos">g</abbr></span>
</li>
<li class="asset-recipe-list-item m-is-ingr">
<span class="asset-recipe-ingr-name"><span>Leche a temperatura ambiente</span></span>
<span class="asset-recipe-ingr-amount">45 <abbr title="gramos">g</abbr></span>
</li>
<li class="asset-recipe-list-item m-is-ingr m-no-amount">
<span class="asset-recipe-ingr-name"><span>Ra

In [30]:
#podemos buscar simplemente
receta.find_all(class_="m-is-ingr")


[<li class="asset-recipe-list-item m-is-ingr">
 <span class="asset-recipe-ingr-name"><span>Mantequilla a temperatura ambiente</span></span>
 <span class="asset-recipe-ingr-amount">15 <abbr title="gramos">g</abbr></span>
 </li>,
 <li class="asset-recipe-list-item m-is-ingr">
 <span class="asset-recipe-ingr-name"><span>Huevo a temperatura ambiente</span></span>
 <span class="asset-recipe-ingr-amount">1 <abbr title=""></abbr></span>
 </li>,
 <li class="asset-recipe-list-item m-is-ingr">
 <span class="asset-recipe-ingr-name"><span>Azúcar vainillado (o normal)</span></span>
 <span class="asset-recipe-ingr-amount">15 <abbr title="gramos">g</abbr></span>
 </li>,
 <li class="asset-recipe-list-item m-is-ingr">
 <span class="asset-recipe-ingr-name"><span>Leche a temperatura ambiente</span></span>
 <span class="asset-recipe-ingr-amount">45 <abbr title="gramos">g</abbr></span>
 </li>,
 <li class="asset-recipe-list-item m-is-ingr m-no-amount">
 <span class="asset-recipe-ingr-name"><span>Ralladura d

In [13]:
import re

lista = []
for i in receta.find_all("li", class_="m-is-ingr"):
    nombre = i.find("span", "asset-recipe-ingr-name").span.text
    span_cantidad = i.find("span", "asset-recipe-ingr-amount")
    if span_cantidad:
        cantidad = re.search(r"\d+", span_cantidad.text)[0]
        if span_cantidad.find("abbr"):
            unidades = span_cantidad.abbr["title"]
        else:
            unidades = ""
    else:
        cantidad = ""
        unidades = ""
    lista.append({
        "nombre" : nombre,
        "cantidad" : cantidad,
        "unidades" : unidades
        })
lista

[{'nombre': 'Mantequilla a temperatura ambiente',
  'cantidad': '15',
  'unidades': 'gramos'},
 {'nombre': 'Huevo a temperatura ambiente', 'cantidad': '1', 'unidades': ''},
 {'nombre': 'Azúcar vainillado (o normal)',
  'cantidad': '15',
  'unidades': 'gramos'},
 {'nombre': 'Leche a temperatura ambiente',
  'cantidad': '45',
  'unidades': 'gramos'},
 {'nombre': 'Ralladura de naranja al gusto', 'cantidad': '', 'unidades': ''},
 {'nombre': 'Harina de repostería y algo más para estirar',
  'cantidad': '150',
  'unidades': 'gramos'},
 {'nombre': 'Sal ', 'cantidad': '2', 'unidades': 'gramos'},
 {'nombre': 'Aceite de oliva virgen extra o girasol para freír',
  'cantidad': '',
  'unidades': ''},
 {'nombre': 'Azúcar glasé para espolvorear', 'cantidad': '', 'unidades': ''}]

In [14]:
import pandas as pd

pd.DataFrame(lista)

Unnamed: 0,nombre,cantidad,unidades
0,Mantequilla a temperatura ambiente,15.0,gramos
1,Huevo a temperatura ambiente,1.0,
2,Azúcar vainillado (o normal),15.0,gramos
3,Leche a temperatura ambiente,45.0,gramos
4,Ralladura de naranja al gusto,,
5,Harina de repostería y algo más para estirar,150.0,gramos
6,Sal,2.0,gramos
7,Aceite de oliva virgen extra o girasol para freír,,
8,Azúcar glasé para espolvorear,,


#### Ejercicio 1.- Obtener en un dataframe los tiempos de elaboración de las tortitas de carnaval 