# Aula 11 - HTML e webscraping

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Web Front-end: HTML
- 2) Webscraping

_______


____
____
____

## 1) Web Front-end: HTML

O desenvolvimento web é normalmente dividido em duas componentes: o **front-end** e o **back-end**.

- front-end e refere à página que aparece no navegador do usuário. É a "fachada";
- back-end é o que está por trás do site no servidor: comunicação, acesso a banco de dados etc.

Enquanto no back-end qualquer linguagem pode ser usada, no front estamos limitados ao tripé **HTML, CSS e JavaScript**.

- HTML é o "esqueleto" do site. É ele que irá posicionar diferentes elementos, como textos, figuras, vídeos entre outros na tela.

- CSS serve para darmos estilo ao site. Podemos definir classes (e nelas definir comportamentos como cor, fonte e animações) para aplicar ao HTML.

- JavaScript serve para aplicar lógica no próprio site, podendo rodar aplicações e deixar o site mais dinâmico.

Para nossas aplicações de webscrapping, estaremos interessados apenas no HTML.


HTML é a sigla para **HyperText Markup Language**. 

Os "comandos" HTML são chamados de **tags**, e servem para marcar **pedaços do texto**, separando-os entre cabeçalho, corpo, tabelas, etc.

As **tags HTML** são comandos iniciados em `<` e terminados em `>`. 

A maioria das tags vem em pares: utilizamos uma `<tag>`, colocamos algum conteúdo que desejamos que seja afetado por ela, e em seguida fechamos com  `</tag>`.

Um documento HTML costuma abrir e fechar com as tags `<html>` e `</html>`. 

Em seguida, ele se subdivide em **head** e **body**.

A tag `<head>` é o cabeçalho. 

> Nela colocamos informações úteis para o navegador interpretar o restante do documento, como padrões de estilo, links base, scripts etc.

A tag `<body>` é aonde entra todo o conteúdo: textos, imagens, links... 

Um exemplo de código HTML para uma página bem simples (cole no bloco de notas):

```html
<html>
    <head>
        <title>Meu primeiro site!</title>
    </head>

    <body>
        <h1>Um site de exemplo</h1>
        <h2>Site de exemplo pra entendermos HTML.</h2>
        <p>Este é um site feio e bobo para vermos como HTML funciona.</p>
        <p>Se você quer aprender HTML de verdade, clique <a href="https://letscode-academy.com/cursos/web-frontend-react">aqui</a>.</p>
    </body>
</html>
```


Podemos acessar o código-fonte HTML de qualquer site, de maneira bem simples!

Podemos simplesmente clicar em algum lugar da página **com o botão direito**, e depois selecionar **exibir código-fonte**, ou algo do tipo (varia de navegador pra navegador).

Há também algumas ferramentas um pouco mais avançadas, que são de grande auxilio aos desenvolvedores, como o **inspecionador** ou **inspetor de elemento**

Em navegadores como Chrome e Firefox atalhos como **ctrl+shift+i** ou **F12** funcionam.

Agora que conhecemos um pouco mais sobre HTML, vamos ao nosso objetivo principal: webscraping!

___
___
___

## 2) Webscraping

O webscraping significa "raspagem de sites", e é exatamente esse o seu propósito: **extrair informações de um website**, para que estas possam ser utilizadas no Python.

**Para que iríamos querer fazer isso?**

Imagine que você queira coletar dados de um site que não disponibiliza uma API: usar webscraping é uma forma direta de fazer isso!

Ou então, se vc precisa periodicamente tomar informações de um site, de forma automática.


A biblioteca padrão para webscraping do Python é o `beautiful soup`.

Essa biblioteca é capaz de ler o HTML de um site, e criar um objeto a partir dele.

Com isso, fica fácil acessar alguns elementos do site, como tabelas ou valores!

Vamos aprender a usá-lo!

__IMPORTANTE: em webscraping, cada caso é um caso!!!!!!!!!!!!!!__

Então, é importante aprender o princípio da técnica, e adapta-la para seu caso.

Nesta aula, vamos extrair as informações resumidas sobre cada curso que a Let's Code oferece. 

Extrairemos: **título, pré-requisito e link para a página do curso.** 

O site é: https://letscode-academy.com/

In [2]:
import bs4

A primeira coisa é explorar o site, para descobrir como a informação que queremos extrair está codificada em HTML.

Pelas ferramentas de inspeção de código e elementos em um navegador, observamos que todas elas estão contidas em tags `<a class='card__link'>`

Vamos utilizar o bs4 para encontrar essa estrutura no HTML!

O passo-a-passo é:

- Use a requests para fazer uma requisição ao site, com o método `.get()`;
- Capte o HTML do site com o atributo `.text`;
- Instancie a classe `BeautifulSoup` da `bs4`para criar o objeto referente ao HTML;
    - Os argumentos são o HTML captado do requests e o argumento "html.parser" para a construção do objeto
- Com issso, o objeto está criado!

### OBSERVAÇÃO IMPORTANTE:

Com o uso dos frameworks de frontend, há casos (como, por exemplo, do site da Let's Code até, pelo menos, Setembro de 2020) em que o HTML não está presente no código fonte da página, de modo a ser acessado imediatamente com a requests, pois o HTML é renderizado apenas no navegador. Nestes casos, é necessário usar o webdriver do selenium para que o HTML seja captado!

Por esta ser uma abordagem mais geral, é ela que seguiremos aqui neste Notebook, e recomendamos ser seguida.

No entanto, é importante frisar que **a única alteração** no procedimento é na forma como o HTML é capturado. Daí pra frente, o procedimento é **exatamente o mesmo** (do que seria se o HTML fosse capturado com o requests), com a utilização do bs4 para a criação do objeto sopa, e daí por diante.

Assim, o passo-a-passo acima é alterado para:

- Use o selenium e seu webdriver para fazer a requisição ao site, com o método `get()`;
- Capte o HTML do site com os métodos `find_element_by_tag_name('body')` e `get_attribute('innerHTML')`;
- Instancie a classe `BeautifulSoup` da `bs4`para criar o objeto referente ao HTML;
    - Os argumentos são o HTML captado do requests e o argumento "html.parser" para a construção do objeto
- Com isso, o objeto está criado!

In [None]:
!pip install selenium

In [5]:
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://letscode-academy.com/")
element = driver.find_element_by_tag_name(
    'body'
)
resposta = element.get_attribute(
    'innerHTML'
) 

In [6]:
resposta

'<noscript>\n      <iframe src="https://www.googletagmanager.com/ns.html?id=GTM-PQZB6GR&gtm_auth=&gtm_preview=&gtm_cookies_win=x"\n        height="0" width="0" style="display:none;visibility:hidden" id="tag-manager"></iframe></noscript><div id="__next"><div class="styles__Container-tke1hi-0 ilbCiQ"><div class="navbar is-fixed-top "><div><div class="navbar-brand"><a id="navbar-logo" class="navbar-item item-img" href="/"><img class="navbar-img  scrolled" src="/images/logoLcPng.png" alt="Home Let\'s Code" aria-label="Home Let\'s Code" height="120" width="120"></a></div></div><div class="navbar-menu  " hoverable="!false"><div class="navbar-end"><a class="navbar-item  active" href="/"><span class="nav-item-name">Home</span></a><a class="navbar-item  " href="/lets-code-zero"><span class="nav-item-name">Zero $</span></a><a class="navbar-item  " href="/nosso-time"><span class="nav-item-name">Nosso Time</span></a><div class="navbar-item  "><span class="nav-item-name">Cursos</span><span class="n

In [7]:
# aqui, criamos um objeto da classe BeautifulSoup, passando como argumento
site = bs4.BeautifulSoup(resposta, 'html.parser')

In [8]:
print(site.prettify())

<noscript>
 <iframe height="0" id="tag-manager" src="https://www.googletagmanager.com/ns.html?id=GTM-PQZB6GR&gt;m_auth=&gt;m_preview=&gt;m_cookies_win=x" style="display:none;visibility:hidden" width="0">
 </iframe>
</noscript>
<div id="__next">
 <div class="styles__Container-tke1hi-0 ilbCiQ">
  <div class="navbar is-fixed-top">
   <div>
    <div class="navbar-brand">
     <a class="navbar-item item-img" href="/" id="navbar-logo">
      <img alt="Home Let's Code" aria-label="Home Let's Code" class="navbar-img scrolled" height="120" src="/images/logoLcPng.png" width="120"/>
     </a>
    </div>
   </div>
   <div class="navbar-menu" hoverable="!false">
    <div class="navbar-end">
     <a class="navbar-item active" href="/">
      <span class="nav-item-name">
       Home
      </span>
     </a>
     <a class="navbar-item" href="/lets-code-zero">
      <span class="nav-item-name">
       Zero $
      </span>
     </a>
     <a class="navbar-item" href="/nosso-time">
      <span class="nav-i

Agora que temos o objeto do bs criado, podemos usar os métodos especiais deste objeto para extrair a informação que queremos!

Lembrando que já descobrimos que queremos extrair os dados dentro da seguinte tag: 

`<a class='card__link'>`

Pra isso, utilizaremos o método `.find()` ou `.find_all()`. Esses métodos suportam diversos argumentos para busca. Os mais comuns são:

- Primeiro argumento posicional: A **tag HTML** que queremos extrair (no nosso caso, é a `a`).
- O argumento nomeado "class_", que indica qual é a **classe CSS** que queremos extrair (no nosso caso, é a `card__link`)

`.find()` vai retornar **a primeira aparição** da tag no HTML, enquanto `.find_all()` retorna **uma lista com as aparições**:

In [10]:
len(site.find_all('a', class_ = 'card__link'))

6

In [11]:
# encontrando a tag desejada
total = site.find_all('a', class_ = 'card__link')[2]

total

<a class="card__link" href="/cursos/python_adulto"><div class="card trail__python"><div class="card__imagem__container"><div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0"></div></div><div class="card__trail__icon"><div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0">
 <div class="card trail__python">
  <div class="card__imagem__container">
   <div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0">
    
   </div>
  </div>
  <div class="card__trail__icon">
   <div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0">
    
```

- Pré-requisitos

```html
<div class="card__text__desktop">
    <div>
        <span style="font-weight:500">
            ...
            <p style="font-weight:400">
                Nenhum
            </p>
         </span>
    </div>
    ...
</div>
``` 

- Carga horária:

```html
<div class="card__text__desktop__desc">
    <span style="font-weight:500">
        ...
        <p style="font-weight:400">
            ...
            48h
        </p>
    </span>
</div>
```


Vamos criar objetos pra essas tags:

In [15]:
titulo = total.find('p', class_ = 'card__text__title')

print(titulo.prettify())

<p class="card__text__title">
 Python
</p>



In [16]:
requisitos = (
    total
    .find('div', class_ = 'card__text__desktop')
    .div
    .span
    .p)

print(requisitos.prettify())

<p style="font-weight:400">
 Nenhum
</p>


In [17]:
horario = (
    total
    .find('div', class_ = 'card__text__desktop__desc')
    .span
    .p
)

print(horario.prettify())

<p style="font-weight:400">
 <svg class="card__clock__icon desktop" height="19.45" viewbox="0 0 19.45 19.45" width="19.45" xmlns="http://www.w3.org/2000/svg">
  <g transform="translate(8.972 4.512)">
   <path class="a" d="M240.388,125.709l-2.712-2.034v-4.143a.753.753,0,1,0-1.507,0v4.52a.752.752,0,0,0,.3.6l3.013,2.26a.753.753,0,0,0,.9-1.205Z" transform="translate(-236.169 -118.779)">
   </path>
  </g>
  <path class="a" d="M9.725,0A9.725,9.725,0,1,0,19.45,9.725,9.736,9.736,0,0,0,9.725,0Zm0,17.944a8.219,8.219,0,1,1,8.219-8.219A8.229,8.229,0,0,1,9.725,17.944Z">
  </path>
 </svg>
 <!-- -->
 48h
</p>


Vamos pegar o atributo text de cada um:

In [18]:
print('Titulo:', titulo.text)
print('Requisitos:', requisitos.text)
print('Horario:', horario.text)

Titulo: Python
Requisitos: Nenhum
Horario:  48h


Agora só falta pegar o link!

Para fazer isso, identificamos que o link é o que já está com a tag `<a class="card__link" href="/cursos/python_adulto">`

Neste caso, o link está dentro da própria tag, com o parâmetro `href`

> Note que o `href` é `/cursos/python_adulto`. Mas o link completo deve conter também o domnínio-base do site, que nada mais é do que o que vem antes da barra: `https://letscode-academy.com`.

> Assim, o link completo é: `https://letscode-academy.com/cursos/python_adulto`

Como o link está dentro da tag, sua extração **não é com o `.text`**, mas sim utilizando uma estrutura de dicionário:

In [19]:
print(total.prettify())

<a class="card__link" href="/cursos/python_adulto">
 <div class="card trail__python">
  <div class="card__imagem__container">
   <div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0">
    
   </div>
  </div>
  <div class="card__trail__icon">
   <div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0">
     [0;32m<ipython-input-27-4bf98e0d7cdf>[0m(9)[0;36mextrai_curso[0;34m()[0m
[0;32m      7 [0;31m[0;34m[0m[0m
[0m[0;32m      8 [0;31m    requisitos = (
[0m[0;32m----> 9 [0;31m        [0mtag[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m     10 [0;31m        [0;34m.[0m[0mfind[0m[0;34m([0m[0;34m'div'[0m[0;34m,[0m [0mclass_[0m [0;34m=[0m [0;34m'card__text__desktop'[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m     11 [0;31m        [0;34m.[0m[0mdiv[0m[0;34m[0m[0;34m[0m[0m
[0m
ipdb> tag
<a class="card__link" href="/pi/ds"><div class="card trail__python card__pi"><div class="card__imagem__container"><div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0"><cidades><cidade><nome>São Paulo</nome><uf>SP</uf><id>244</id></cidade><cidade><nome>São Paulo das Missões</nome><uf>RS</uf><id>5019</id></cidade><cidade><nome>São Paulo de Olivença</nome><uf>AM</uf><id>5020</id></cidade><cidade><nome>São Paulo do Potengi</nome><uf>RN</uf><id>5021</id></cidade></cidades>"

In [45]:
import requests
resposta = requests.get("http://servicos.cptec.inpe.br/XML/listaCidades?city=sao paulo")

sopa = bs4.BeautifulSoup(resposta.text, 'lxml')

print(sopa.html.prettify())

<html>
 <body>
  <cidades>
   <cidade>
    <nome>
     São Paulo
    </nome>
    <uf>
     SP
    </uf>
    <id>
     244
    </id>
   </cidade>
   <cidade>
    <nome>
     São Paulo das Missões
    </nome>
    <uf>
     RS
    </uf>
    <id>
     5019
    </id>
   </cidade>
   <cidade>
    <nome>
     São Paulo de Olivença
    </nome>
    <uf>
     AM
    </uf>
    <id>
     5020
    </id>
   </cidade>
   <cidade>
    <nome>
     São Paulo do Potengi
    </nome>
    <uf>
     RN
    </uf>
    <id>
     5021
    </id>
   </cidade>
  </cidades>
 </body>
</html>


In [46]:
sopa.id

<id>244</id>

In [47]:
codigo = 244
url = f'http://servicos.cptec.inpe.br/XML/cidade/{codigo}/previsao.xml'

resposta = requests.get(url)

resposta

<Response [200]>

In [48]:
resposta.headers

{'Date': 'Tue, 13 Apr 2021 00:36:43 GMT', 'Cache-Control': 'no-cache', 'Content-Type': 'text/xml', 'Access-Control-Allow-Origin': '*', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '217', 'Keep-Alive': 'timeout=10, max=10000', 'Connection': 'Keep-Alive'}

In [49]:
resposta.text

"<?xml version='1.0' encoding='ISO-8859-1'?><cidade><nome>São Paulo</nome><uf>SP</uf><atualizacao>2021-04-12</atualizacao><previsao><dia>2021-04-13</dia><tempo>ci</tempo><maxima>21</maxima><minima>17</minima><iuv>8.0</iuv></previsao><previsao><dia>2021-04-14</dia><tempo>pn</tempo><maxima>23</maxima><minima>14</minima><iuv>8.0</iuv></previsao><previsao><dia>2021-04-15</dia><tempo>n</tempo><maxima>25</maxima><minima>16</minima><iuv>8.0</iuv></previsao><previsao><dia>2021-04-16</dia><tempo>n</tempo><maxima>25</maxima><minima>15</minima><iuv>8.0</iuv></previsao></cidade>"

In [51]:
site = bs4.BeautifulSoup(resposta.text, 'lxml')

print(site.html.prettify())

<html>
 <body>
  <cidade>
   <nome>
    São Paulo
   </nome>
   <uf>
    SP
   </uf>
   <atualizacao>
    2021-04-12
   </atualizacao>
   <previsao>
    <dia>
     2021-04-13
    </dia>
    <tempo>
     ci
    </tempo>
    <maxima>
     21
    </maxima>
    <minima>
     17
    </minima>
    <iuv>
     8.0
    </iuv>
   </previsao>
   <previsao>
    <dia>
     2021-04-14
    </dia>
    <tempo>
     pn
    </tempo>
    <maxima>
     23
    </maxima>
    <minima>
     14
    </minima>
    <iuv>
     8.0
    </iuv>
   </previsao>
   <previsao>
    <dia>
     2021-04-15
    </dia>
    <tempo>
     n
    </tempo>
    <maxima>
     25
    </maxima>
    <minima>
     16
    </minima>
    <iuv>
     8.0
    </iuv>
   </previsao>
   <previsao>
    <dia>
     2021-04-16
    </dia>
    <tempo>
     n
    </tempo>
    <maxima>
     25
    </maxima>
    <minima>
     15
    </minima>
    <iuv>
     8.0
    </iuv>
   </previsao>
  </cidade>
 </body>
</html>


In [52]:
site.nome

<nome>São Paulo</nome>

In [None]:
site.nome.text

In [None]:
site.previsao

In [None]:
site.previsao.dia

In [53]:
site.find_all("previsao")

[<previsao><dia>2021-04-13</dia><tempo>ci</tempo><maxima>21</maxima><minima>17</minima><iuv>8.0</iuv></previsao>,
 <previsao><dia>2021-04-14</dia><tempo>pn</tempo><maxima>23</maxima><minima>14</minima><iuv>8.0</iuv></previsao>,
 <previsao><dia>2021-04-15</dia><tempo>n</tempo><maxima>25</maxima><minima>16</minima><iuv>8.0</iuv></previsao>,
 <previsao><dia>2021-04-16</dia><tempo>n</tempo><maxima>25</maxima><minima>15</minima><iuv>8.0</iuv></previsao>]

In [54]:
cidade = site.nome.text
print("Cidade:", cidade)

for previsao in site.find_all("previsao"):
    
    dia = previsao.dia.text
    tempo = previsao.tempo.text
    maxima = previsao.maxima.text
    minima = previsao.minima.text
    iuv = previsao.iuv.text
    
    print("Dia:", dia, " | ", "Tempo:", tempo, " | ","T_max:", maxima, " | ",
          "T_min:", minima, " | ", "IUV:", iuv)

Cidade: São Paulo
Dia: 2021-04-13  |  Tempo: ci  |  T_max: 21  |  T_min: 17  |  IUV: 8.0
Dia: 2021-04-14  |  Tempo: pn  |  T_max: 23  |  T_min: 14  |  IUV: 8.0
Dia: 2021-04-15  |  Tempo: n  |  T_max: 25  |  T_min: 16  |  IUV: 8.0
Dia: 2021-04-16  |  Tempo: n  |  T_max: 25  |  T_min: 15  |  IUV: 8.0


In [55]:
import requests
import bs4

codigos_cidades = [244, 241, 222, 797]

for codigo in codigos_cidades:
    
    url = f'http://servicos.cptec.inpe.br/XML/cidade/{codigo}/previsao.xml'

    resposta = requests.get(url)
    
    site = bs4.BeautifulSoup(resposta.text, 'lxml')
    
    cidade = site.nome.text
    print("Cidade:", cidade)
    
    for previsao in site.find_all("previsao"):
        
        dia = previsao.dia.text
        tempo = previsao.tempo.text
        maxima = previsao.maxima.text
        minima = previsao.minima.text
        iuv = previsao.iuv.text
        
        print("Dia:", dia, " | ", "Tempo:", tempo, " | ","T_max:", maxima, " | ",
              "T_min:", minima, " | ", "IUV:", iuv)
        
    print("\n#######################################################\n")

Cidade: São Paulo
Dia: 2021-04-13  |  Tempo: ci  |  T_max: 21  |  T_min: 17  |  IUV: 8.0
Dia: 2021-04-14  |  Tempo: pn  |  T_max: 23  |  T_min: 14  |  IUV: 8.0
Dia: 2021-04-15  |  Tempo: n  |  T_max: 25  |  T_min: 16  |  IUV: 8.0
Dia: 2021-04-16  |  Tempo: n  |  T_max: 25  |  T_min: 15  |  IUV: 8.0

#######################################################

Cidade: Rio de Janeiro
Dia: 2021-04-13  |  Tempo: c  |  T_max: 27  |  T_min: 24  |  IUV: 8.0
Dia: 2021-04-14  |  Tempo: pn  |  T_max: 27  |  T_min: 23  |  IUV: 8.0
Dia: 2021-04-15  |  Tempo: e  |  T_max: 27  |  T_min: 21  |  IUV: 8.0
Dia: 2021-04-16  |  Tempo: pn  |  T_max: 28  |  T_min: 21  |  IUV: 8.0

#######################################################

Cidade: Belo Horizonte
Dia: 2021-04-13  |  Tempo: pn  |  T_max: 30  |  T_min: 18  |  IUV: 9.0
Dia: 2021-04-14  |  Tempo: pn  |  T_max: 27  |  T_min: 18  |  IUV: 9.0
Dia: 2021-04-15  |  Tempo: c  |  T_max: 27  |  T_min: 16  |  IUV: 9.0
Dia: 2021-04-16  |  Tempo: pn  |  T_max: 27 

In [None]:
palavra = 'TESTE'
nova_palavra = "_____"
letter = 'T'

for i in range(len(palavra)):
    letra = palavra[i]
    if letter == letra:
        nova_palavra += letra
    else:
        nova_palavra
print(nova_palavra)