# Request

Requests é uma biblioteca fazer requisições HTTP, no caso get, nas páginas que queremos extrair dados.

In [1]:
# Importando a Requests
import requests

def request_pag(link):
  # Vamos testar a biblioteca requests
  html = requests.get(link)

  # Diferente da urllib, usamos text para apresentar o conteudo que o get nos trouxe
  return html.text

request_pag("https://www.tudogostoso.com.br/")

'<!DOCTYPE html>\n<html>\n<head>\n<script src="/cdn-cgi/apps/head/zDkgo_qZgR6bCvrjxyPRRQ4omP8.js"></script><script src="/assets/desktop/mobile_detector.js?v13092018"></script>\n<title>\nTudoGostoso - Onde nascem todas as receitas\n</title>\n<LINK href="/favicon-v2.1.ico" rel="SHORTCUT ICON"></LINK>\n<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport" />\n<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />\n<script type="text/javascript">window.NREUM||(NREUM={});NREUM.info={"beacon":"bam.nr-data.net","errorBeacon":"bam.nr-data.net","licenseKey":"b26d34575a","applicationID":"16891756","transactionName":"cw1fREEJW1VRRksJDl0HHlldAlJB","queueTime":0,"applicationTime":608,"agent":""}</script>\n<script type="text/javascript">(window.NREUM||(NREUM={})).loader_config={xpid:"VQYCUF9XChABUllbBgYCUA==",licenseKey:"b26d34575a",applicationID:"16891756"};window.NREUM||(NREUM={}),__nr_require=function(t,n,e){function r(e){if(!n[e]){var o=n[e]={export

# BeautifulSoup

Com a BeautifulSoup tudo será mais fácil, esta biblioteca do Python serve para extrairmos dados de HTML e XML, de forma 
fácil e descomplicada podemos acessar os 'nós' da estrutura do HTML da página ou até mesmo classes e pegar as informações.

In [2]:
# Importando a BeautifulSoup
from bs4 import BeautifulSoup

# URL
url = "https://www.tudogostoso.com.br/"

# lendo a URL 
html = requests.get(url)

# Enfim mostrando o poder da bs4
bs = BeautifulSoup(html.text, 'lxml')

# Imprimindo o título da página
print(bs.title)

<title>
TudoGostoso - Onde nascem todas as receitas
</title>


In [3]:
# find_all: todos os elementos encontrados
print(bs.find_all('p'),'\n')

[<p class="copy">
© Copyright 2005-2020 TudoGostoso Internet Ltda, todos os direitos reservados. Proibida a reprodução sem autorização.
</p>] 



In [4]:
# find: apenas o primeiro resultado ser extraído
print(bs.find('p'))

<p class="copy">
© Copyright 2005-2020 TudoGostoso Internet Ltda, todos os direitos reservados. Proibida a reprodução sem autorização.
</p>


# Categorias de Receitas

In [5]:
# Encontrando todas as categorias (todas as tags de classe "category-item"):
categorias = bs.find_all('a',class_='category-item')

# Para todas as categorias:
for i in categorias:
#  if i.text in categorias_pra_pular:
#    continue
  # Printamos o texto "em url" que especifica a categoria em questão.
  print(i.text,"->",i['href'],'\n')

Bolos e  Tortas -> /categorias/1000-bolos-e-tortas-doces 

Carnes -> /categorias/1004-carnes 

Aves -> /categorias/1009-aves 

Peixes e Frutos do Mar -> /categorias/1014-peixes-e-frutos-do-mar 

Saladas e Molhos -> /categorias/1023-saladas-molhos-e-acompanhamentos 

Sopas -> /categorias/1027-sopas 

Massas -> /categorias/1028-massas 

Bebidas -> /categorias/1032-bebidas 

Doces e Sobremesas -> /categorias/1037-doces-e-sobremesas 

Lanches -> /categorias/1044-lanches 

Alimentação Saudável -> /categorias/1334-alimentacao-saudavel 

Vídeos -> /videos 

Todas as Receitas -> /receitas 



# Receitas por Categoria

In [6]:
# Encontrando todas as categorias (todas as tags de classe "category-item"):
categorias = bs.find_all('a',class_='category-item')
# url raiz:
url = "https://www.tudogostoso.com.br/"

# Para cada uma das categorias existentes:
for i in categorias:
  print(i.text,':',)
  # Estamos fazendo a requisição da página que contém todas as receitas daquela categoria. 'href' é o texto "em url" que
  # especifica a categoria em questão.
  categoria = request_pag(url+i['href'])
  # Estamos instanciando um objeto BeautifulSoup com a página retornada pela requisição para que possemos extrair os dados
  # desejados.
  categoria_html = BeautifulSoup(categoria, 'lxml')

  # Estamos inserindo na variável receitas tudo aquilo que se encontra no bloco representado pela classe "recipe-card".
  # O primeiro parâmetro, "div", sinaliza que se trata de um dos blocos/divisões da página em questão. 
  # O segundo informa a classe que classifica essa divisão.
  receitas = categoria_html.find_all('div', class_="recipe-card")
  # Para cada uma das receitas encontradas:
  for r in receitas:
    # Printamos o elemento de texto classificado por "recipe-title".
    print("\t\t",str(r.find('h4',class_="recipe-title").text).replace("\n",""))
    # Printamos todas as tags de classe "row".
    print(str(r.find('a',class_="row")['href']))
  print("\n")

Bolos e  Tortas :
		 Bolo de maçã de liquidificador - o melhor do mundo
/receita/109535-bolo-de-maca-de-liquidificador-o-melhor-do-mundo.html
		 Bolo de fubá com goiabada
/receita/3004-bolo-de-fuba-com-goiabada.html
		 Bolo de banana caramelada
/receita/41516-bolo-de-banana-caramelada.html
		 Bolo de fubá de liquidificador
/receita/25518-bolo-de-fuba-de-liquidificador.html
		 Bolo de milho cremoso
/receita/94018-bolo-de-milho-cremoso.html
		 Bolo de laranja de liquidificador
/receita/85429-bolo-de-laranja-de-liquidificador.html
		 Bolo gelado
/receita/2313-bolo-gelado.html
		 Bolo de brigadeiro
/receita/10782-bolo-de-brigadeiro.html
		 Nega maluca
/receita/54-nega-maluca.html
		 Bolo de cenoura
/receita/23-bolo-de-cenoura.html
		 Bolo de maçã com canela
/receita/78068-bolo-de-maca-com-canela.html
		 Pavê de baunilha e chocolate
/receita/108677-pave-de-baunilha-e-chocolate.html
		 Bolo de milho
/receita/1650-bolo-de-milho.html
		 Pavê de morango com chocolate
/receita/581-pave-de-morang

		 Panqueca de carne moída
/receita/760-panqueca-de-carne-moida.html
		 Panquecas (receita da vovó)
/receita/1316-panquecas-receita-da-vovo.html
		 Macarrão com requeijão
/receita/83793-macarrao-com-requeijao.html
		 Lasanha à bolonhesa
/receita/19817-lasanha-a-bolonhesa.html
		 Pão recheado da Tânia
/receita/8738-pao-recheado-da-tania.html
		 Massa de panqueca
/receita/82681-massa-de-panqueca.html
		 Panqueca americana
/receita/13110-panqueca-americana.html
		 Broa de fubá de liquidificador
/receita/29110-broa-de-fuba-de-liquidificador.html
		 Massa para crepe
/receita/1520-massa-para-crepe.html
		 Massa de panqueca simples
/receita/113143-massa-de-panqueca-simples.html
		 Lasanha de carne moída
/receita/876-lasanha-de-carne-moida.html
		 Empadão de frango
/receita/6351-empadao-de-frango.html
		 Macarrão com calabresa na panela de pressão
/receita/15559-macarrao-com-calabresa-na-panela-de-pressao.html
		 Pão Recheado
/receita/105067-pao-recheado.html
		 Pizza de pão de forma
/receita/

# Paginas por Categoria

In [7]:
# Para cada uma das categorias existentes:
for i in categorias:
  print(i.text,':',)
  # Estamos fazendo a requisição da página que contém todas as receitas daquela categoria. 'href' é o texto "em url" que
  # especifica a categoria em questão.
  categoria = request_pag(url+i['href']) #Requisitando a pagina da categoria
  # Estamos instanciando um objeto BeautifulSoup com a página retornada pela requisição para que possemos extrair os dados
  # desejados.
  categoria_html = BeautifulSoup(categoria, 'lxml')
  # Criando uma lista vazia.
  pag_visitadas= []
  # Encontrando na divisão da página especificada pela classe "pagination" todas as tags de classe "row".
  paginas = categoria_html.find('div', class_="pagination").find_all(class_='row')
  pagina_atual = 1
  # Para todas as páginas existentes
  for pag in paginas:
    # Caso encontremos um span de classe "current"
    if pag.find("span",class_="current"):
      pagina_atual = int(pag.span.text)
  #break

Bolos e  Tortas :
Carnes :
Aves :
Peixes e Frutos do Mar :
Saladas e Molhos :
Sopas :
Massas :
Bebidas :
Doces e Sobremesas :
Lanches :
Alimentação Saudável :
Vídeos :
Todas as Receitas :


# Scraping dados de uma Receita

Informações Iniciais

In [8]:
# Estamos fazendo a requisição da página que contém a receita desejada.
receita = request_pag("https://www.tudogostoso.com.br/receita/47884-esfiha-de-carne-adaptada-receita-turca.html")
# Estamos instanciando um objeto BeautifulSoup com a página retornada pela requisição para que possemos extrair os dados
# desejados.
receita_html = BeautifulSoup(receita, 'lxml')

Tempo de Preparo:

In [9]:
# Encontrando informações sobre a tag "time"
tempo_de_preparo = receita_html.find('time' )
# Utilizamos o .text para representar o conteúdo contido em tempo_de_preparo
print("Tempo de Preparo:",tempo_de_preparo.text.replace("\n",""))

Tempo de Preparo: 90MIN


Rendimento:

In [10]:
# Encontrando informações sobre a propriedade "recipeYield" do item.
rendimento = receita_html.find(itemprop="recipeYield")
# Utilizamos o .text para representar o conteúdo contido em tempo_de_preparo
print("Rendimento:",rendimento.text.replace("\n",""))

Rendimento: 30 porções


Ingredientes:

In [11]:
# Encontrando todas as informações existentes na divisão da página receita_html classificada por "ingredients-card".
ingredientes_html = receita_html.find_all('div', class_="ingredients-card")

# Para cada um dos ingredientes:
for i in ingredientes_html:
  ingredientes = i.find_all(["li", "h3"])
  for ingrediente in ingredientes:
    # Utilizamos o .text para representar o conteúdo textual contido em ingrediente.
    print(ingrediente.text)

1 colher (sopa) bem cheia de fermento para pão (eu usei fermento granulado instantâneo para pão)
2 colheres (sopa) cheias de açúcar refinado
1/2 colher (chá) de sal
1/2 xícara de leite morno (100 ml)
1 xícara de água morna (200 ml)
1 ovo
650 ou 700 g de farinha de trigo
1/2 xícara (chá) de óleo ou 100 ml
Recheio:
1/2 kg de carne moída magra
3 tomates picadinhos
1 cebola picada
1 dente de alho (opcional)
1/2 xícara (chá) de azeitonas picadas
1/2 colher (chá) de noz moscada (opcional)
Salsinha e cebolinha a gosto (opcional)
Gotas de molho de pimenta (opcional)
Para pincelar:
1 gema
Gergelim torrado ou preto para salpicar depois que pincelar


Modo de Preparo

In [12]:
# Encontrando todas as informações existentes na divisão da página receita_html classificada por "instructions".
preparo_html = receita_html.find('div', class_="instructions")

preparo = str(preparo_html).replace("</li>","\n")
preparo = preparo.replace("<li>","")
preparo = preparo.replace("<ol>","")
preparo = preparo.replace('<span tabindex="0">',"")
preparo = preparo.replace('<div class="instructions e-instructions" itemprop="recipeInstructions">',"")
preparo = preparo.replace('</ol>\n</div>]',"")
preparo = preparo.replace('<h3 class="card-subtitle">',"\n")
preparo = preparo.replace('</h3>',"\n")
preparo = preparo.replace('</ol>',"")
preparo = preparo.replace('</span>',"")

print(preparo)


Em ma tigela grande e larga colocar o fermento em pó, o açúcar e despejar a água morna, o leite morno, o sal e o óleo.
Mexer bem.
Em seguida, acrescentar a metade da farinha de trigo aos poucos e mexer com uma colher de pau ou de plástico.
Colocar o ovo e continuar acrescentando a farinha de trigo.
Antes de finalizar a farinha, comece a trabalhar a massa com uma das mãos para sentir a textura da mesma e ver se precisa colocar realmente toda a farinha.
Dependendo do tamanho do ovo, 650 g de farinha é suficiente, caso contrário, use 700 g, mas atenção, muita farinha pode deixar a massa dura.
Sove a massa por uns 5 minutos na própria tigela com uma das mãos em movimentos de vai e vem.
A massa fica bem maleável, gostosa de trabalhar e não gruda nas mãos.
Coloque a tigela dentro de um saco plástico ou feche-a com um filme plástico.
Deixe descansar por 20 minutos em local que vá favorecer o crescimento da massa.
Eu deixei recebendo a luz do sol através de uma janela, com os vidros fechados.

# Automatização do scrapping

In [13]:
#ENTRAR NA PAGINA INICIAL utilizando os pages 
url = "https://www.tudogostoso.com.br"

pag_inicial = request_pag(url)
pag_inicial_html = BeautifulSoup(pag_inicial, 'lxml')

base_de_dados = {"receita":[],"ingredientes":[],"preparo":[],"tempo_de_preparo":[],"rendimento":[],"categoria":[]}


#Ir nas seções de tipos de receitas
categorias = pag_inicial_html.find_all('a',class_='category-item')

for c in categorias:
  cat_link = url+c['href']
  cat_nome = str(c.text)
  print("Categoria: ",cat_nome)
  categoria = request_pag(cat_link) 
  secao = BeautifulSoup(categoria, 'lxml')
  receitas = secao.find_all('div', class_="recipe-card")
  #Pegar as receitas da seção
  for r in receitas:
    titulo = str(r.find('h4',class_="recipe-title").text).replace("\n","")
    
    receita_link = str(r.find('a',class_="row")['href'])

    receita_html = request_pag(url+receita_link)

    receita = BeautifulSoup(receita_html, 'lxml')

    ingredientes_html = receita.find_all('div', class_="ingredients-card")
    ingredientes_str = ""
    
    #Pegando os ingredientes da receita
    for i in ingredientes_html:
      ingredientes = i.find_all(["li", "h3"])
      for ingrediente in ingredientes:
        ingredientes_str += str(ingrediente.text)+"\n"
    
    #pegando o modo de preparo
    preparo_html = receita.find('div', class_="instructions")
    preparo = str(preparo_html).replace("</li>","\n")
    preparo = preparo.replace("<li>","")
    preparo = preparo.replace("<ol>","")
    preparo = preparo.replace('<span tabindex="0">',"")
    preparo = preparo.replace('<div class="instructions e-instructions" itemprop="recipeInstructions">',"")
    preparo = preparo.replace('</ol>\n</div>]',"")
    preparo = preparo.replace('<h3 class="card-subtitle">',"\n")
    preparo = preparo.replace('</h3>',"\n")
    preparo = preparo.replace('</ol>',"")
    preparo = preparo.replace('<p>',"")
    preparo = preparo.replace('</p>',"")
    preparo = preparo.replace('</div>',"")
    preparo = preparo.replace('</strong>',"")
    preparo = preparo.replace('<strong>',"")
    preparo = preparo.replace('</span>',"")
    
    
    #Informacoes da receita
    tempo_de_preparo = receita.find('time').text.replace("\n","")
    rendimento = receita.find(itemprop="recipeYield").text.replace("\n","")

    
    #Adicionando na lista
    base_de_dados["receita"].append(titulo)
    base_de_dados["ingredientes"].append(ingredientes_str)
    base_de_dados["preparo"].append(preparo)
    base_de_dados["tempo_de_preparo"].append(tempo_de_preparo)
    base_de_dados["rendimento"].append(rendimento)
    base_de_dados["categoria"].append(cat_nome)
    #break

Categoria:  Bolos e  Tortas
Categoria:  Carnes
Categoria:  Aves
Categoria:  Peixes e Frutos do Mar
Categoria:  Saladas e Molhos
Categoria:  Sopas
Categoria:  Massas
Categoria:  Bebidas
Categoria:  Doces e Sobremesas
Categoria:  Lanches
Categoria:  Alimentação Saudável
Categoria:  Vídeos
Categoria:  Todas as Receitas


# DataFrame

Criando um DataFrame com a base de dados construida

In [14]:
import pandas as pd

df_receitas = pd.DataFrame(data=base_de_dados)

print(len(df_receitas))
df_receitas.head()

250


Unnamed: 0,receita,ingredientes,preparo,tempo_de_preparo,rendimento,categoria
0,Bolo de maçã de liquidificador - o melhor do m...,2 xícaras de farinha de trigo\n2 xícaras de aç...,\nUnte e polvilhe com farinha um tabuleiro méd...,40MIN,25 porções,Bolos e Tortas
1,Bolo de fubá com goiabada,1 ovo\n1 copo (americano) de leite\n1 copo (am...,"\nMisture no liquidificador o ovo, o leite, o ...",40MIN,10 porções,Bolos e Tortas
2,Bolo de banana caramelada,Massa:\n3 ovos\n3 colheres (sopa) de margarina...,\nCobertura:\nDespeje o açúcar em uma forma re...,60MIN,12 porções,Bolos e Tortas
3,Bolo de fubá de liquidificador,1 copo de óleo\n3 ovos\n1 e 1/2 copo de açúcar...,\nBater tudo no liquidificador.\nColocar em um...,50MIN,15 porções,Bolos e Tortas
4,Bolo de milho cremoso,1 lata de milho verde\n1 lata de óleo (medida ...,"\nEm um liquidificador, adicione o milho verde...",90MIN,10 porções,Bolos e Tortas
