# Notebook - Crash Course em Beautiful Soup para Web Scrapping

 - **<h3> Introdução: Beautiful Soup e Web Scrapping </h3>**
 ---
 
Nota: Não irei repetir muito os conteúdos repetidos do primeiro notebook "Web_Scrapping", caso sentir falta de algúm conteúdo, provavelmente o mesmo estará lá (XPath e CSS). 

A *library* BeautifulSoup permite adquirir quaisquer informações publicadas em websites publicamente acessíveis. Todas as informações dentro de um documento HTML estão dispostas em TAGS. Uma tag de interesse é < meta >, que define metadata, ou seja dados que descrevem as característricas da TAG que pertencem. 

In [2]:
from bs4 import BeautifulSoup

# Abrindo um arquivo HTML e lendo os conteúdos
with open('Observatorio.html', 'r') as html_file: 
    content = html_file.read()
    print(content)
    



<html lang="pt" xmlns="https://www.w3.org/1999/xhtml">
    
    <!-- head -->
    <head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">

    <meta property="og:locale" content="pt_BR"/>
    <meta property="og:type" content="website"/>
    <meta property="og:url" content="https://observatoriodacana.com.br/"/>
    <meta property="og:site_name" content="ObservatÃ³rio da Cana"/>
    <meta property="og:title" content="ObservatÃ³rio da Cana"/>
    <meta name="description" content="Hist&oacute;rico de produ&ccedil;&atilde;o e moagem por safra" />    <meta name="keywords" content="Hist&oacute;rico de produ&ccedil;&atilde;o e moagem por safra" />
    <link rel="shortcut icon" href="favicon.ico" type="image/x-icon"/>
    <link rel="apple-touch-icon" sizes="57x57" href="images/apple-icon-57x57.png">
    <link rel="apple-touch-icon" sizes="60x60" href="images/apple-icon-60x60.png">
    

In [3]:
# Trabalhando com as Tags do HTML como variáveis do Python

with open('Observatorio.html', 'r') as html_file: 
    content = html_file.read()
    soup = BeautifulSoup(content, 'lxml')
    pretty_soup = soup.prettify()

<html lang="pt" xmlns="https://www.w3.org/1999/xhtml">
 <!-- head -->
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <meta content="pt_BR" property="og:locale"/>
  <meta content="website" property="og:type"/>
  <meta content="https://observatoriodacana.com.br/" property="og:url"/>
  <meta content="ObservatÃ³rio da Cana" property="og:site_name"/>
  <meta content="ObservatÃ³rio da Cana" property="og:title"/>
  <meta content="Histórico de produção e moagem por safra" name="description"/>
  <meta content="Histórico de produção e moagem por safra" name="keywords"/>
  <link href="favicon.ico" rel="shortcut icon" type="image/x-icon"/>
  <link href="images/apple-icon-57x57.png" rel="apple-touch-icon" sizes="57x57"/>
  <link href="images/apple-icon-60x60.png" rel="apple-touch-icon" sizes="60x60"/>
  <link href="images/pple-icon-72x72.png" rel="apple-touch-icon" sizes="72x72"/>
 

In [5]:
# Extraindo tag de um determinado tipo: 

with open('Observatorio.html', 'r') as html_file: 
    content = html_file.read()
    soup = BeautifulSoup(content, 'lxml')
    tags = soup.find('footer') # Funciona até encontrar a primeira TAG
    print(tags)


<footer class="footer ml-sm-auto">
<div class="container d-flex align-items-center justify-content-between">
<p>Copyright 2020 Â· Todos os direitos reservados - ObservatÃ³rio da Cana</p>
<a class="mwg" href="https://mwg.art.br/" title="MWG"></a>
</div>
</footer>


In [7]:
# Extraindo todas as tag de um determinado tipo: 
# Output será uma lista

with open('Observatorio.html', 'r') as html_file: 
    content = html_file.read()
    soup = BeautifulSoup(content, 'lxml')
    tags = soup.find_all('body') 
    print(tags)


[<body class="">
<!-- MOBILE MENU -->
<div class="header-mobile">
<div class="logo">
<a href="https://observatoriodacana.com.br/" title="ObservatÃ³rio da Cana"><img alt="ObservatÃ³rio da Cana" src="images/logo.svg"/></a>
</div>
<div class="menu">
<a class="btn-menu" href="#" title="Menu"></a>
</div>
</div>
<!-- CONTENT -->
<div class="container-fluid">
<!-- Menu Lateral -->
<aside class="sidebar ml-sm-auto px-4">
<!-- LOGO -->
<div class="logo-web">
<a href="https://observatoriodacana.com.br/" title="ObservatÃ³rio da Cana"><img alt="ObservatÃ³rio da Cana" src="images/logo-vert.svg"/></a>
</div>
<!-- NAV -->
<nav>
<ul class="nav nav-pills flex-column">
<li class="nav-item">
<a class="nav-link" href="https://observatoriodacana.com.br/" title="HOME">HOME</a>
</li>
<li class="nav-item dropdown"><a aria-expanded="false" aria-haspopup="true" class="nav-link dropdown-toggle" data-toggle="dropdown" href="javascript:;" role="button" title="Acompanhamento de safra">Acompanhamento de safra</a>
<u

In [30]:
# Extraindo todas as tag de um determinado tipo e extraindo o texto: 
# Output será uma lista

with open('Observatorio.html', 'r') as html_file: 
    content = html_file.read()
    soup = BeautifulSoup(content, 'lxml')
    tags = soup.find_all('body') 
    A = []
    for i in tags: 
        A.append(i.text)
    print(A)
        
        

['\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nHOME\n\nAcompanhamento de safra\n\nANUÁRIO DA SAFRAColetiva de final de anoQualidade da matéria-prima (SISTEMA ATR)ÚLTIMO RELATÓRIO QUINZENALPAINEL DINÂMICO DE SAFRACana Zoom\nÁrea e produçãoPreços e cotações\n\nAcompanhamento semanal de preçosAo consumidorAo produtorPreço - Diesel e Gasolina A\n\nPreço médio de venda - Gasolina A - por ponto de fornecimentoPreço médio diário\n\nConsumo de combustÃ\xadveisExportação e importação\n\nPainel Dinâmico de Exportações e Importações\nRenovabio\n\nPainel de Certificações, Metas e Mercado de CBios\nBioeletricidade\n\nPainel de Geração de Bioeletricidade e das demais fontes da matriz elétricaBoletim de BioeletricidadeCapacidade Instalada\n\nPor combustívelAcréscimo anual de capacidade da BiomassaPotência Outorgada\n\nVeículos automotoresDados de EmpregoConsecana - SP \n\n\n\n\n\n\n\n\nHISTÃ“RICO DE PRODUÃ‡ÃƒO E MOAGEM\n\n\n\nEnglish\n\n\n\n\n\nPOR SAFRAPOR PRODUTO\n\n\n\n\n\nHome\n Área e produção Hi

In [40]:
# Extraindo todas as tag de um determinado tipo filtrando pelo 
#  atributo classe: 

with open('Observatorio.html', 'r') as html_file: 
    content = html_file.read()
    soup = BeautifulSoup(content, 'lxml')
    tags = soup.find_all('th', scope = 'col') 
    texto = []
    for a in tags:
        texto.append(a.text)

print(texto)

['Estados', 'Cana-de-aÃ§Ãºcar (mil toneladas)', '\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0AÃ§Ãºcar\xa0\xa0\xa0\xa0\xa0\xa0\xa0\xa0(mil toneladas)', 'Etanol Anidro (mil mÂ³)', 'Etanol Hidratado (mil mÂ³)', 'Etanol Total (mil mÂ³)']
