<h3> Fundamentos de Web Scrapping </h3>

A habilidade adquirir dados armazenados na internet e adequadamente analisar e readequá-los para o ambiente Python é fundamental para a Ciência de Dados. ***Adquirir dados da internet e automaticamente atualizar bancos*** de dados com informações em tempo real é fundamental para aplicações cotidianas e ainda mais fundamental para aplicações de ***reinforced learning.***

Web Scrapping: Forma fundamental de se adquirir informações em um mundo onde a **presença na internet é obrigatória** para os negócios de qualquer setor e qualquer tamanho. Exemplos de informações podem ser preços, avaliações, comentários, palavras chaves e etc. Trata-se de uma forma de também organizar dados contidos em múltiplas fontes não uniformes. 

***Pipeline de Tratamento de Dados + Modelagem:*** 

&nbsp;

> Dados da Internet **%>%** Web Scrapping **%>%** Formatação **%>%** DataSets **%>%** DataFrames **%>%** Modelagem **%>%** Ajuste **%>%** Insights

&nbsp;

 Essa pipeline pode ser resumida em 3 grandes fases: 

***Introdução:*** Inicialmente, devemos definir qual nosso objetivo, ou seja, o quje desejamos construir, analisar ou modelar. Uma vez que obtivermos nosso objetivo, devemos encontrar fontes para as informações que nos auxiliaram a atingir nossos objetivos. 

***Aquisição:*** Ler os dados brutos contidos na internet via nosso environment de python (mediante pacotes como ***beautiful soup, selenium e scrapy***) e formatar os dados adquiridos de forma a se tornarem passivos de utilização (i.e Data Frames de Pandas, listas, dicionários e etc..)

***Processamento***: Basicamente aqui se foca em conduzir as análises de Algoritmos, modelagem, ajuste e visualização de resultados, usando os dados formatados anteriormente. 

&nbsp;

- **H.T.M.L** = HyperText Markup Language

Trata-se de uma linguagem para ler e dispor elementos em sites (Ctrl + U geralmente é utilizado para mostrar o código fonte de html). Geralmente se analisa um código HTML por meio de uma árvore genealógica. Todos os elementos tem como origem o par < H T M L> </ H T M L >. É atraves da navegação desta árvore que podemos acessar os elementos/informações de ineteresse para nossos projetos. 

&nbsp;

<img src = 'HTML_Tree.png' alt = 'Mean' width = 300/>

- **Tags e Atributos:** 

Informações contidas no interior dos tags de HTML podem ser valiosas para nossos propósitos. Exemplos de Tags de HTML podem ser ***html, div, p, title e etc..***. Essas tags podem possuir atributos, que modificam a forma com que o conteúdo no interior destas tags é disposto. Geralmente, a sintaxe é dada por: 


In [14]:
%%HTML

<Nome do Tag   Nome do Atributo = 'Informação do Atributo'>

    Conteúdo do Tag

</Nome do Tag>

In [19]:
%%HTML

<!-- Aqui o Atributio id, usado para identificar este elemento, é colocado como Id1 -->
<!-- De Maneira geral, assim como em todo o mundo, a identificação de um tag deve ser ÚNICA-->
 
<div id = "Id1" >

    Ola meu Nome é ....

</div>

In [24]:
%%HTML 

<!-- Um Exemplo de Tag comum é "a", para hyperlinks-->
<!-- O Atributo "href" é o Hyperlink em si -->

<a href=https://www.youtube.com/watch?v=dQw4w9WgXcQ"> 
    
    Este é Meu Vídeo Favorito 

</a>

- ***XPath Notation***: 

Trata-se de uma [linguagem de consulta (query)](https://pt.wikipedia.org/wiki/XPath) de documentos do tipo XML. Um exemplo de XPath notation, que facilita a identificação de elementos no código HTML, é dada a seguir: 

***Path = "/html/body/div[2]"*** 

&nbsp;


In [27]:
%%HTML

<html>

    <body>

        <div id = "Id1">
            Conjunto Div 1
        </div>

        <div>
            Conjunto Div 2 (Resultado do Path)
        </div>

    </body>
    
</html>

&nbsp;

***Esse caminho identifica a segunda tag "div", contida no interior da tag "body" do código html***. 

Este tipo de notação é muito familiar para aqueles acostumados a navegar entre diretórios e para qualquer pessoa acostumada em utilizar powershell. Ale´m do número da tag, podemos identificar elementos em XPath via seus atributos específicos. 

***Path = "/html/body/div[@id = "Id1"]"*** 

&nbsp;

In [28]:
%%HTML

<html>

    <body>

        <div id = "Id1">
            Conjunto Div 1 (Resultado do Path)
        </div>

        <div>
            Conjunto Div 2 
        </div>

    </body>
    
</html>

***Esse caminho identifica a tag "div", contida no interior da tag "body", com atributo "id" igual a "Id1" do código html***. 

EM XPath, @ indica um atributo de uma tag. Exemplos são **@id, @hef e @class**. Podemos selecionar todas as tags que possuem dado atributo mediante a seguinte sintaxe: '//*[@id = "id"]'. O operador " * " seleciona todas as tags, independentemente de seu nome, enquanto " // " seleciona TODOS os descendentes. Uma função de XPath que também realiza esta procura é a função "contains". 

**xpath = '//*[contains(@class , "class-1")]**

Nessa XPath, procuram-se todas as tags que, em seu atributo *Class* possuem a **substring** *class-1*. Podemos também obter atributos de uma determinada tag via XPath. Ao final da path, adicionamos @atributo que desejamos descobrir (i.e .../p[2]/@id). 

- **Scrapy e a função Selector:**

In [44]:
from scrapy import Selector

# Código HTML de um site de Interesse: 
# Nesse caso, o site do "Observatório da Cana"

# HTML copiado Diretamente do Código Fonte
html = ''' 
<html lang="pt" xmlns="https://www.w3.org/1999/xhtml">
    
    <!-- head -->
    <head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">

    <meta property="og:locale" content="pt_BR"/>
    <meta property="og:type" content="website"/>
    <meta property="og:url" content="https://observatoriodacana.com.br/"/>
    <meta property="og:site_name" content="Observatório da Cana"/>
    <meta property="og:title" content="Observatório da Cana"/>
    <meta name="description" content="Hist&oacute;rico de produ&ccedil;&atilde;o e moagem por safra" />    <meta name="keywords" content="Hist&oacute;rico de produ&ccedil;&atilde;o e moagem por safra" />
    <link rel="shortcut icon" href="favicon.ico" type="image/x-icon"/>
    <link rel="apple-touch-icon" sizes="57x57" href="images/apple-icon-57x57.png">
    <link rel="apple-touch-icon" sizes="60x60" href="images/apple-icon-60x60.png">
    <link rel="apple-touch-icon" sizes="72x72" href="images/pple-icon-72x72.png">
    <link rel="apple-touch-icon" sizes="76x76" href="images/apple-icon-76x76.png">
    <link rel="apple-touch-icon" sizes="114x114" href="images/apple-icon-114x114.png">
    <link rel="apple-touch-icon" sizes="120x120" href="images/apple-icon-120x120.png">
    <link rel="apple-touch-icon" sizes="144x144" href="images/apple-icon-144x144.png">
    <link rel="apple-touch-icon" sizes="152x152" href="images/apple-icon-152x152.png">
    <link rel="apple-touch-icon" sizes="180x180" href="images/apple-icon-180x180.png">
    <link rel="icon" type="image/png" sizes="192x192"  href="images/android-icon-192x192.png">
    <link rel="icon" type="image/png" sizes="32x32" href="images/favicon-32x32.png">
    <link rel="icon" type="image/png" sizes="96x96" href="images/favicon-96x96.png">
    <link rel="icon" type="image/png" sizes="16x16" href="images/favicon-16x16.png">
    <link rel="manifest" href="images/manifest.json">
    <meta name="msapplication-TileColor" content="#ffffff">
    <meta name="msapplication-TileImage" content="images/ms-icon-144x144.png">
    <meta name="theme-color" content="#ffffff">

    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>Observatório da Cana - POR SAFRA</title>

    <link rel="stylesheet" href="css/bootstrap-grid.min.css" type="text/css" media="all">
    <link rel="stylesheet" href="css/bootstrap-reboot.min.css" type="text/css" media="all">
    <link rel="stylesheet" href="css/bootstrap.min.css" type="text/css" media="all">
    <link rel="stylesheet" href="css/custom.css" type="text/css" media="all">
</head>    <script type="text/javascript">var IDIOMA = '1';</script>
    <body class="">  
        <!-- MOBILE MENU -->
        <div class="header-mobile">
            <div class="logo">
                <a href="https://observatoriodacana.com.br/" title="Observatório da Cana"><img src="images/logo.svg" alt="Observatório da Cana"/></a>
            </div>
            <div class="menu">
                <a href="#" title="Menu" class="btn-menu"></a>
            </div>
        </div>
        
        <!-- CONTENT -->
        <div class="container-fluid">
            <!-- Menu Lateral -->
            <aside class="sidebar ml-sm-auto px-4">
    <!-- LOGO -->
    <div class="logo-web">
        <a href="https://observatoriodacana.com.br/" title="Observatório da Cana"><img src="images/logo-vert.svg" alt="Observatório da Cana"/></a>
    </div>
    <!-- NAV -->
    <nav>
        <ul class="nav nav-pills flex-column">
                        <li class="nav-item">
                <a class="nav-link " href="https://observatoriodacana.com.br/" title="HOME">HOME</a>
            </li>
            <li class="nav-item dropdown"><a class="nav-link dropdown-toggle " data-toggle="dropdown" href="javascript:;" title="Acompanhamento de safra" role="button" aria-haspopup="true" aria-expanded="false">Acompanhamento de safra</a>
                            <ul class="dropdown-menu sub1">
                                <li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=148" title="ANU&Aacute;RIO DA SAFRA">ANU&Aacute;RIO DA SAFRA</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=139" title="Coletiva de final de ano">Coletiva de final de ano</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=140" title="Qualidade da mat&eacute;ria-prima (SISTEMA ATR)">Qualidade da mat&eacute;ria-prima (SISTEMA ATR)</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=63" title="&Uacute;LTIMO RELAT&Oacute;RIO QUINZENAL">&Uacute;LTIMO RELAT&Oacute;RIO QUINZENAL</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=135" title="PAINEL DIN&Acirc;MICO DE SAFRA">PAINEL DIN&Acirc;MICO DE SAFRA</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=119" title="Cana Zoom">Cana Zoom</a></li>
                            </ul></li><li class="nav-item"><a class="nav-link " href="listagem.php?idMn=4" title="&Aacute;rea e produ&ccedil;&atilde;o" style="padding-right: 0px;">&Aacute;rea e produ&ccedil;&atilde;o</a></li><li class="nav-item dropdown"><a class="nav-link dropdown-toggle " data-toggle="dropdown" href="javascript:;" title="Pre&ccedil;os e cota&ccedil;&otilde;es" role="button" aria-haspopup="true" aria-expanded="false">Pre&ccedil;os e cota&ccedil;&otilde;es</a>
                            <ul class="dropdown-menu sub1">
                                <li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=93" title="Acompanhamento semanal de pre&ccedil;os">Acompanhamento semanal de pre&ccedil;os</a></li><li class=""><a class="dropdown-item nav-link" href="preco-ao-consumidor.php?idMn=9&tipoHistorico=8" title="Ao consumidor">Ao consumidor</a></li><li class=""><a class="dropdown-item nav-link" href="preco-ao-produtor.php?idMn=42&tipoHistorico=7" title="Ao produtor">Ao produtor</a></li><li class="dropdown dropdown-submenu"><a class="nav-link dropdown-item dropdown-toggle"  href="javascript:;" title="Pre&ccedil;o - Diesel e Gasolina A" role="button" aria-haspopup="true" aria-expanded="false">Pre&ccedil;o - Diesel e Gasolina A</a>
                            <ul class="dropdown-menu sub2">
                                <li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=108" title="Pre&ccedil;o m&eacute;dio de venda - Gasolina A - por ponto de fornecimento">Pre&ccedil;o m&eacute;dio de venda - Gasolina A - por ponto de fornecimento</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=106" title="Pre&ccedil;o m&eacute;dio di&aacute;rio">Pre&ccedil;o m&eacute;dio di&aacute;rio</a></li>
                            </ul></li>
                            </ul></li><li class="nav-item"><a class="nav-link " href="listagem.php?idMn=11" title="Consumo de combustíveis" style="padding-right: 0px;">Consumo de combustíveis</a></li><li class="nav-item dropdown"><a class="nav-link dropdown-toggle " data-toggle="dropdown" href="javascript:;" title="Exporta&ccedil;&atilde;o e importa&ccedil;&atilde;o" role="button" aria-haspopup="true" aria-expanded="false">Exporta&ccedil;&atilde;o e importa&ccedil;&atilde;o</a>
                            <ul class="dropdown-menu sub1">
                                <li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=143" title="Painel Din&acirc;mico de Exporta&ccedil;&otilde;es e Importa&ccedil;&otilde;es">Painel Din&acirc;mico de Exporta&ccedil;&otilde;es e Importa&ccedil;&otilde;es</a></li>
                            </ul></li><li class="nav-item dropdown"><a class="nav-link dropdown-toggle " data-toggle="dropdown" href="javascript:;" title="Renovabio" role="button" aria-haspopup="true" aria-expanded="false">Renovabio</a>
                            <ul class="dropdown-menu sub1">
                                <li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=142" title="Painel de Certifica&ccedil;&otilde;es, Metas e Mercado de CBios">Painel de Certifica&ccedil;&otilde;es, Metas e Mercado de CBios</a></li>
                            </ul></li><li class="nav-item dropdown"><a class="nav-link dropdown-toggle " data-toggle="dropdown" href="javascript:;" title="Bioeletricidade" role="button" aria-haspopup="true" aria-expanded="false">Bioeletricidade</a>
                            <ul class="dropdown-menu sub1">
                                <li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=145" title="Painel de Gera&ccedil;&atilde;o de Bioeletricidade e das demais fontes da matriz el&eacute;trica">Painel de Gera&ccedil;&atilde;o de Bioeletricidade e das demais fontes da matriz el&eacute;trica</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=134" title="Boletim de Bioeletricidade">Boletim de Bioeletricidade</a></li><li class="dropdown dropdown-submenu"><a class="nav-link dropdown-item dropdown-toggle"  href="javascript:;" title="Capacidade Instalada" role="button" aria-haspopup="true" aria-expanded="false">Capacidade Instalada</a>
                            <ul class="dropdown-menu sub2">
                                <li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=127" title="Por combust&iacute;vel">Por combust&iacute;vel</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=128" title="Acr&eacute;scimo anual de capacidade da Biomassa">Acr&eacute;scimo anual de capacidade da Biomassa</a></li><li class=""><a class="dropdown-item nav-link" href="listagem.php?idMn=133" title="Pot&ecirc;ncia Outorgada">Pot&ecirc;ncia Outorgada</a></li>
                            </ul></li>
                            </ul></li><li class="nav-item"><a class="nav-link " href="listagem.php?idMn=147" title="Ve&iacute;culos automotores" style="padding-right: 0px;">Ve&iacute;culos automotores</a></li><li class="nav-item"><a class="nav-link " href="listagem.php?idMn=146" title="Dados de Emprego" style="padding-right: 0px;">Dados de Emprego</a></li><li class="nav-item"><a class="nav-link " href="listagem.php?idMn=14" title="Consecana - SP" style="padding-right: 0px;">Consecana - SP</a></li>        </ul>
    </nav>
</aside>            
            <main role="main" class="ml-sm-auto">
                <!-- HEADER -->
                <header class="d-inline-flex flex-column">                       
                    <div class="col-12 d-flex justify-content-between align-items-center mb-4">
                        <!-- TITLE -->
                        <div class="title">
                                                            <h1>HISTÓRICO DE PRODUÇÃO E MOAGEM</h1>
                                                    </div>

                        <!-- LANGUAGE -->
                        <div class="language">
                                                        <a href="https://observatoriodacana.com.br/historico-de-producao-e-moagem.php?idMn=32&tipoHistorico=4&acao=visualizar&idTabela=2493&safra=1980%2F1981&estado=RS%2CSC%2CPR%2CSP%2CRJ%2CMG%2CES%2CMS%2CMT%2CGO%2CDF%2CBA%2CSE%2CAL%2CPE%2CPB%2CRN%2CCE%2CPI%2CMA%2CTO%2CPA%2CAP%2CRO%2CAM%2CAC%2CRR&idioma=2" title="Language"><img src="images/icon-language.png" alt="Language"/>English</a>
                        </div>
                    </div>

                    <div class="col-12 d-flex justify-content-between align-items-center mb-4">
                        <!-- BUTTONS -->
                        <div class="switch d-inline-flex col-xl-3 col-lg-3 col-12 align-items-center justify-content-between">
                            <a href="historico-de-producao-e-moagem.php?idMn=32&tipoHistorico=4" class="active" role="button" title="POR SAFRA">POR SAFRA</a><a href="historico-de-producao-e-moagem.php?idMn=31&tipoHistorico=2" class="" role="button" title="POR PRODUTO">POR PRODUTO</a>                            
                        </div>
                    
                        <!-- BREADCRUMB -->
                        <div class="content-breadcrumb d-inline-flex justify-content-end col-xl-9 col-lg-9 col-12">
    <nav aria-label="breadcrumb">
        <ol class="breadcrumb">
            <li class="breadcrumb-item"><a href="index.php" title="Home">Home</a></li>
            <li class="breadcrumb-item active" aria-current="page"> <a href="listagem.php?idMn=4" title="&Aacute;rea e produ&ccedil;&atilde;o" class="verde">&Aacute;rea e produ&ccedil;&atilde;o</a></li><li class="breadcrumb-item active" aria-current="page"> <a href="javascript:;" title="Histórico de produção e moagem" class="verde">Histórico de produção e moagem</a></li><li class="breadcrumb-item active" aria-current="page"> <a href="historico-de-producao-e-moagem.php?idMn=32&tipoHistorico=4" title="Por safra" class="azul">Por safra</a></li>        </ol>
    </nav>
</div>                    </div>

                    <div class="col-12 d-flex justify-content-between align-items-center mb-4">
                        <div class="filter">
                            <form id="formulario" name="formulario" method="GET" action="historico-de-producao-e-moagem.php">
                                <input type="hidden" name="idMn" id="idMn" value="32"/>
                                <input type="hidden" name="tipoHistorico" id="tipoHistorico" value="4"/>
                                <input type="hidden" name="acao" id="acao" value=""/>
                                                                <div class="form-row align-items-center">
                                    <div class="justify-content-start">
                                        <div class="label col-auto mr-2">
                                            <p>Selecione os parâmetros para a consulta:</p>
                                        </div>
                                    </div>
                                    <div class="form-row justify-content-end flex-fill align-items-center">
                                                                                            <input type="hidden" name="idTabela" id="idTabela" value="2493"/>
                                                                                                            <div class="col-4 mr-2 field-form">
                                                            <label>Produto</label>
                                                            <img src="images/icon-calendar.svg" alt="Data"/>
                                                            <select name="safra" class="form-control">
                                                                <option value="">Selecione</option>
                                                                <option value="2020/2021" >2020/2021</option><option value="2019/2020" >2019/2020</option><option value="2018/2019" >2018/2019</option><option value="2017/2018" >2017/2018</option><option value="2016/2017" >2016/2017</option><option value="2015/2016" >2015/2016</option><option value="2014/2015" >2014/2015</option><option value="2013/2014" >2013/2014</option><option value="2012/2013" >2012/2013</option><option value="2011/2012" >2011/2012</option><option value="2010/2011" >2010/2011</option><option value="2009/2010" >2009/2010</option><option value="2008/2009" >2008/2009</option><option value="2007/2008" >2007/2008</option><option value="2006/2007" >2006/2007</option><option value="2005/2006" >2005/2006</option><option value="2004/2005" >2004/2005</option><option value="2003/2004" >2003/2004</option><option value="2002/2003" >2002/2003</option><option value="2001/2002" >2001/2002</option><option value="2000/2001" >2000/2001</option><option value="1999/2000" >1999/2000</option><option value="1998/1999" >1998/1999</option><option value="1997/1998" >1997/1998</option><option value="1996/1997" >1996/1997</option><option value="1995/1996" >1995/1996</option><option value="1994/1995" >1994/1995</option><option value="1993/1994" >1993/1994</option><option value="1992/1993" >1992/1993</option><option value="1991/1992" >1991/1992</option><option value="1990/1991" >1990/1991</option><option value="1989/1990" >1989/1990</option><option value="1988/1989" >1988/1989</option><option value="1987/1988" >1987/1988</option><option value="1986/1987" >1986/1987</option><option value="1985/1986" >1985/1986</option><option value="1984/1985" >1984/1985</option><option value="1983/1984" >1983/1984</option><option value="1982/1983" >1982/1983</option><option value="1981/1982" >1981/1982</option><option value="1980/1981" selected>1980/1981</option>                                                            </select>
                                                        </div>
                                                        <div class="col-4 mr-2 field-form">
                                                            <label>Estados</label>
                                                            <input type="hidden" name="estado" id="estado" value="RS,SC,PR,SP,RJ,MG,ES,MS,MT,GO,DF,BA,SE,AL,PE,PB,RN,CE,PI,MA,TO,PA,AP,RO,AM,AC,RR" />
                                                            <img src="images/icon-pin.svg" alt="Local" class="img-estado"/>
                                                            <a style="font-size: 14px; color: #777777; line-height: 30px;" href="javascript:abrePopEstados('formulario');" class="bt-selecione-os-estados" title="Selecione os Estados">Selecione os Estados</a>
                                                        </div>
                                                                                                            <div class="col-2">
                                                        <a class="btn btn-primary" href="javascript:visualizarHistoricoMoagem(4)" title="VISUALIZAR" class="bt-visualizar">VISUALIZAR</a>
                                                        <!-- <button type="submit" class="btn btn-primary">Filtrar</button> -->
                                                    </div>
                                                                                        </div> 
                                </div>
                            </form>
                        </div>
                    </div> 
                    
                                                <div class="content-termos col-12 d-flex justify-content-between align-items-center mb-1">       
                                <!-- TERMS -->
                                <div class="termo-busca d-inline-flex justify-content-start align-items-end col-xl-8 col-lg-12 col-12"> 
                                    <p>Moagem de cana-de-açúcar e produção de açúcar e etanol - safra  <b>1980/1981</b> </p>
                                </div>

                                <!-- BUTTONS -->
                                <div class="actions d-inline-flex justify-content-end col-xl-4 col-lg-12 col-12">
                                    <a class="btn btn-primary download mr-4" href="pdfHPM.php?idioma=1&tipoHistorico=4&idTabela=2493&produto=&safra=1980/1981&safraIni=&safraFim=&estado=RS,SC,PR,SP,RJ,MG,ES,MS,MT,GO,DF,BA,SE,AL,PE,PB,RN,CE,PI,MA,TO,PA,AP,RO,AM,AC,RR" title="PDF" class="bt-pdf2" target="_blank" >Baixar o PDF</a>
                                    <a class="btn btn-primary download verde" href="xlsHPM.php?idioma=1&tipoHistorico=4&idTabela=2493&produto=&safra=1980/1981&safraIni=&safraFim=&estado=RS,SC,PR,SP,RJ,MG,ES,MS,MT,GO,DF,BA,SE,AL,PE,PB,RN,CE,PI,MA,TO,PA,AP,RO,AM,AC,RR" title="EXCEL" class="bt-excel2" target="_blank">Baixar o Excel</a>
                                </div>
                            </div>
                                            </header>
                <!-- CONTENT -->
                <section>
                    <div>
                        <div class="row">
                                                                    <div class="col-12">
                                            <div class="content-table">
                                                <div class="table-responsive-xl">
                                                    <table class="table">
                                                        <thead>
                                                            <tr>
                                                                <th scope="col">Estados</th>
                                                                <th scope="col">Cana-de-açúcar (mil toneladas)</th>
                                                                <th scope="col">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Açúcar&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br/>(mil toneladas)</th>
                                                                <th scope="col">Etanol Anidro (mil m³)</th>
                                                                <th scope="col">Etanol Hidratado (mil m³)</th>
                                                                <th scope="col">Etanol Total (mil m³)</th>
                                                            </tr>
                                                        </thead>
                                                        <tbody>
                                                            <tr class='corsim'><td class="left">Acre</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td></tr><tr ><td class="left">Alagoas</td><td class="">17.668</td><td class="">1.216</td><td class="">160</td><td class="">149</td><td class="">309</td></tr><tr class='corsim'><td class="left">Amazonas</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td></tr><tr ><td class="left">Bahia</td><td class="">559</td><td class="">44</td><td class="">1</td><td class="">0</td><td class="">1</td></tr><tr class='corsim'><td class="left">Cear&aacute;</td><td class="">425</td><td class="">37</td><td class="">1</td><td class="">3</td><td class="">5</td></tr><tr ><td class="left">Esp&iacute;rito Santo</td><td class="">687</td><td class="">46</td><td class="">18</td><td class="">0</td><td class="">18</td></tr><tr class='corsim'><td class="left">Goi&aacute;s</td><td class="">311</td><td class="">21</td><td class="">4</td><td class="">6</td><td class="">9</td></tr><tr ><td class="left">Maranh&atilde;o</td><td class="">189</td><td class="">18</td><td class="">2</td><td class="">1</td><td class="">4</td></tr><tr class='corsim'><td class="left">Mato Grosso</td><td class="">303</td><td class="">20</td><td class="">9</td><td class="">1</td><td class="">10</td></tr><tr ><td class="left">Mato Grosso do Sul</td><td class="">0</td><td class="">0</td><td class="">24</td><td class="">4</td><td class="">28</td></tr><tr class='corsim'><td class="left">Minas Gerais</td><td class="">5.934</td><td class="">482</td><td class="">70</td><td class="">35</td><td class="">105</td></tr><tr ><td class="left">Par&aacute;</td><td class="">136</td><td class="">8</td><td class="">0</td><td class="">3</td><td class="">3</td></tr><tr class='corsim'><td class="left">Para&iacute;ba</td><td class="">1.682</td><td class="">132</td><td class="">33</td><td class="">41</td><td class="">74</td></tr><tr ><td class="left">Paran&aacute;</td><td class="">3.269</td><td class="">210</td><td class="">109</td><td class="">32</td><td class="">142</td></tr><tr class='corsim'><td class="left">Pernambuco</td><td class="">17.197</td><td class="">1.349</td><td class="">59</td><td class="">145</td><td class="">205</td></tr><tr ><td class="left">Piau&iacute;</td><td class="">40</td><td class="">3</td><td class="">0</td><td class="">0</td><td class="">0</td></tr><tr class='corsim'><td class="left">Rio de Janeiro</td><td class="">6.439</td><td class="">433</td><td class="">44</td><td class="">86</td><td class="">130</td></tr><tr ><td class="left">Rio Grande do Norte</td><td class="">1.199</td><td class="">90</td><td class="">23</td><td class="">21</td><td class="">44</td></tr><tr class='corsim'><td class="left">Rio Grande do Sul</td><td class="">129</td><td class="">10</td><td class="">0</td><td class="">1</td><td class="">1</td></tr><tr ><td class="left">Rond&ocirc;nia</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td></tr><tr class='corsim'><td class="left">Santa Catarina</td><td class="">393</td><td class="">62</td><td class="">0</td><td class="">6</td><td class="">6</td></tr><tr ><td class="left">S&atilde;o Paulo</td><td class="">65.967</td><td class="">3.968</td><td class="">1.545</td><td class="">1.063</td><td class="">2.608</td></tr><tr class='corsim'><td class="left">Sergipe</td><td class="">1.153</td><td class="">105</td><td class="">2</td><td class="">3</td><td class="">5</td></tr><tr ><td class="left">Tocantins</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td><td class="">0</td></tr>                                                                                                                            <tr class="destaque">
                                                                    <td class="regiao left">Região Centro-Sul</td>
                                                                    <td class="right">83.432</td><td class="right">5.253</td><td class="right">1.823</td><td class="right">1.233</td><td class="right">3.056</td>                                                                </tr>
                                                              
                                                                <tr class="destaque">
                                                                    <td class="regiao left">Região Norte-Nordeste</td> 
                                                                    <td class="right">40.248</td><td class="right">3.001</td><td class="right">283</td><td class="right">368</td><td class="right">650</td>                                                                </tr>
                                                               
                                                                <tr class="destaque">
                                                                    <td class="regiao left">Brasil</td>
                                                                    <td class="right">123.681</td><td class="right">8.254</td><td class="right">2.105</td><td class="right">1.601</td><td class="right">3.706</td>                                                                </tr>
                                                             
                                                        </tbody>
                                                    </table>
                                                    <p>Fonte: UNICA, ALCOPAR, BIOSUL, SIAMIG, SINDALCOOL, SIFAEG, SINDAAF, SUDES e MAPA. <br/> <br/> <br/> <br/> </p>
                                                </div>
                                            </div>
                                        </div>
                                                                </div>
                    </div>
                </section>
            </main>
        </div>
        <iframe name="frmAjax" id="frmAjax" frameborder="0" width="0" height="0"></iframe>
         <!-- FOOTER -->
 <footer class="footer ml-sm-auto">
    <div class="container d-flex align-items-center justify-content-between">
        <p>Copyright 2020 · Todos os direitos reservados - Observatório da Cana</p>
        <a href="https://mwg.art.br/" title="MWG" class="mwg"></a>
    </div>
</footer>
<!--  SCRIPTS  -->
<script type='text/javascript' src='js/jquery-1.11.1.js'></script>
<script type='text/javascript' src='js/popper.min.js'></script>
<script type='text/javascript' src='js/bootstrap.min.js'></script>
<script type='text/javascript' src='js/functions.js'></script>


<script type="text/javascript" src="js/Popup.js"></script>
<script type="text/javascript" src="js/scripts.js"></script>
<script type="text/javascript" src="js/swfobject.js"></script>

<script type="text/javascript">
  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-31435733-1']);
  _gaq.push(['_trackPageview']);
  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
  })();
</script>    </body>
</html>
'''

# O objeto "seleciona" todo o documento HTML  
Sele = Selector(text = html)

# Utilizamos o método "xpath" dentro do objeto Selector para
# criar novos objetos Selector para partes específicas do código HTML 

# Selecionando todos os parágrafos do site:
Paragrafos = Sele.xpath("//p")

# Imprimindo todas as respectivas Tags
print(Paragrafos)



[<Selector xpath='//p' data='<p>Selecione os parâmetros para a con...'>, <Selector xpath='//p' data='<p>Moagem de cana-de-açúcar e produçã...'>, <Selector xpath='//p' data='<p>Fonte: UNICA, ALCOPAR, BIOSUL, SIA...'>, <Selector xpath='//p' data='<p>Copyright 2020 · Todos os direitos...'>]


In [40]:
# O método Extract é utilizado para extrair dados dos objetos
print('\n')
print('Todos as Tags <p> contidas no HTML: ')
print(Paragrafos.extract())
print('\n')

# Extraindo o primeiro da lista
print('Primeira Tag <p> contida no HTML: ')
print(Paragrafos.extract_first())




Todos as Tags <p> contidas no HTML: 
['<p>Selecione os parâmetros para a consulta:</p>', '<p>Moagem de cana-de-açúcar e produção de açúcar e etanol - safra  <b>1980/1981</b> </p>', '<p>Fonte: UNICA, ALCOPAR, BIOSUL, SIAMIG, SINDALCOOL, SIFAEG, SINDAAF, SUDES e MAPA. <br> <br> <br> <br> </p>', '<p>Copyright 2020 · Todos os direitos reservados - Observatório da Cana</p>']


Primeira Tag <p> contida no HTML: 
<p>Selecione os parâmetros para a consulta:</p>


In [43]:
# Uma forma alternativa de selecionar o primeiro elemento/tag:
Sele = Selector(text = html)
Paragrafos = Sele.xpath("//p")

# Como "Paragrafos" é uma lista, para selecionarmos o primeiro Elemento: 
print(Paragrafos[0].extract())

<p>Selecione os parâmetros para a consulta:</p>


- **Inspecionando HTML:**

Geralmente os exploradores da web possuem inúmeras opções para acessar o código fonte dos websites e webapps que utilizamos. Mediante um clique direito na página, podemos acessar a ***"Origem da Página"***, que abre uma aba separada com todo o código HTML, ou podemos ***"Inspecionar um Elemento"*** para simultaneamente inspecionar o site em questão e o respectivo código HTML dos elementos.  

&nbsp;

<img src = 'Web_Inspect.png' alt = "mean" width = 900>

&nbsp;

Para acessarmos o código HTML de uma página, sem necessitar de inspecionar manualmente o código fonte, utiliza-se o módulo **requests** de Python.

In [45]:
from scrapy import Selector

import requests

url = 'https://observatoriodacana.com.br/historico-de-producao-e-moagem.php?idMn=32&tipoHistorico=4&acao=visualizar&idTabela=2493&safra=1980%2F1981&estado=RS%2CSC%2CPR%2CSP%2CRJ%2CMG%2CES%2CMS%2CMT%2CGO%2CDF%2CBA%2CSE%2CAL%2CPE%2CPB%2CRN%2CCE%2CPI%2CMA%2CTO%2CPA%2CAP%2CRO%2CAM%2CAC%2CRR'

html = requests.get(url).content

Sele = Selector(text = html)

print(Sele.xpath('//p'))


[<Selector xpath='//p' data='<p>Selecione os parâmetros para a con...'>, <Selector xpath='//p' data='<p>Moagem de cana-de-açúcar e produçã...'>, <Selector xpath='//p' data='<p>Fonte: UNICA, ALCOPAR, BIOSUL, SIA...'>, <Selector xpath='//p' data='<p>Copyright 2020 · Todos os direitos...'>]


- ***XPath e CSS Locators***: 

CSS Locators constitui em uma segunda forma de navegar HTML. ***CSS - Cascading Style Sheets*** descreve como os elementos são mostrados. Ambas são passíveis de utilização para Web Scrapping e por isso é fundamental possuir uma noção de como utilizá-las. **O operador "/" de Xpath tem como contrapartida o operador ">" em CSS**. O operador ***"//"*** é substituído por um **espaço vazio** em CSS. 

&nbsp;

> **XPath:** &nbsp; /html/header//div/p[5]

> **CSS:** &nbsp; html > header div > p:nth-of-type(5)

&nbsp;

Para encontrarmos tags por via de seu atributo classe em CSS, utilizamos **Tag.classe_A**. Para encontrar via o attributo ID, utiliza-se **tag#ID_A**. O operador **"*"** disponível em XPath para ilustrar **qualquer tag** também está disponível em CSS, funcionando da mesma forma. Esses comandos podem ser passados para o **objeto Selector** da mesma forma que Xpath, mas dessa vez utilizando o método **.css**. 

&nbsp;

In [48]:
url = 'https://observatoriodacana.com.br/historico-de-producao-e-moagem.php?idMn=32&tipoHistorico=4&acao=visualizar&idTabela=2493&safra=1980%2F1981&estado=RS%2CSC%2CPR%2CSP%2CRJ%2CMG%2CES%2CMS%2CMT%2CGO%2CDF%2CBA%2CSE%2CAL%2CPE%2CPB%2CRN%2CCE%2CPI%2CMA%2CTO%2CPA%2CAP%2CRO%2CAM%2CAC%2CRR'

html = requests.get(url).content

Sele = Selector(text = html)

print('Usando XPAth:')
print(Sele.xpath('/html//p'))

print('\n')

print('Usando CSS:')
print(Sele.css('html p'))



Usando XPAth:
[<Selector xpath='/html//p' data='<p>Selecione os parâmetros para a con...'>, <Selector xpath='/html//p' data='<p>Moagem de cana-de-açúcar e produçã...'>, <Selector xpath='/html//p' data='<p>Fonte: UNICA, ALCOPAR, BIOSUL, SIA...'>, <Selector xpath='/html//p' data='<p>Copyright 2020 · Todos os direitos...'>]


Usando CSS:
[<Selector xpath='descendant-or-self::html/descendant-or-self::*/p' data='<p>Selecione os parâmetros para a con...'>, <Selector xpath='descendant-or-self::html/descendant-or-self::*/p' data='<p>Moagem de cana-de-açúcar e produçã...'>, <Selector xpath='descendant-or-self::html/descendant-or-self::*/p' data='<p>Fonte: UNICA, ALCOPAR, BIOSUL, SIA...'>, <Selector xpath='descendant-or-self::html/descendant-or-self::*/p' data='<p>Copyright 2020 · Todos os direitos...'>]


Para se selecionar atributos em CSS, utilizamos: 

> <CSS-Até-a-Tag> >::attr(nome-atributo)

&nbsp;



In [55]:
# Para Acessarmos as informações de Texto contidas nas tags de HTML:

url = 'https://observatoriodacana.com.br/historico-de-producao-e-moagem.php?idMn=32&tipoHistorico=4&acao=visualizar&idTabela=2493&safra=1980%2F1981&estado=RS%2CSC%2CPR%2CSP%2CRJ%2CMG%2CES%2CMS%2CMT%2CGO%2CDF%2CBA%2CSE%2CAL%2CPE%2CPB%2CRN%2CCE%2CPI%2CMA%2CTO%2CPA%2CAP%2CRO%2CAM%2CAC%2CRR'

html = requests.get(url).content

Sele = Selector(text = html)

# Extraindo o Texto via /text() e .extract()
Sele.xpath('/html//p/text()')[0:3].extract()

['Selecione os parâmetros para a consulta:',
 'Moagem de cana-de-açúcar e produção de açúcar e etanol - safra  ',
 ' ']