In [1]:
%config Completer.use_jedi = False

# Aula 9 - HTML e webscraping

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Web Front-end: HTML
- 2) Webscraping


____
____
____

## 1) Web Front-end: HTML

O desenvolvimento web é normalmente dividido em duas componentes: o **front-end** e o **back-end**.

- front-end e refere à página que aparece no navegador do usuário. É a "fachada";
- back-end é o que está por trás do site no servidor: comunicação, acesso a banco de dados etc.

Enquanto no back-end qualquer linguagem pode ser usada, no front estamos limitados ao tripé **HTML, CSS e JavaScript**.

- HTML é o "esqueleto" do site. É ele que irá posicionar diferentes elementos, como textos, figuras, vídeos entre outros na tela.

- CSS serve para darmos estilo ao site. Podemos definir classes (e nelas definir comportamentos como cor, fonte e animações) para aplicar ao HTML.

- JavaScript serve para aplicar lógica no próprio site, podendo rodar aplicações e deixar o site mais dinâmico.

Para nossas aplicações de webscrapping, estaremos interessados apenas no HTML.


HTML é a sigla para **HyperText Markup Language**. 

Os "comandos" HTML são chamados de **tags**, e servem para marcar **pedaços do texto**, separando-os entre cabeçalho, corpo, tabelas, etc.

As **tags HTML** são comandos iniciados em `<` e terminados em `>`. 

A maioria das tags vem em pares: utilizamos uma `<tag>`, colocamos algum conteúdo que desejamos que seja afetado por ela, e em seguida fechamos com  `</tag>`.

Um documento HTML costuma abrir e fechar com as tags `<html>` e `</html>`. 

Em seguida, ele se subdivide em **head** e **body**.

A tag `<head>` é o cabeçalho. 

> Nela colocamos informações úteis para o navegador interpretar o restante do documento, como padrões de estilo, links base, scripts etc.

A tag `<body>` é aonde entra todo o conteúdo: textos, imagens, links... 

Um exemplo de código HTML para uma página bem simples (cole no bloco de notas):

```html
<html>
    <head>
        <title>Meu primeiro site!</title>
    </head>

    <body>
        <h1>Um site de exemplo</h1>
        <h2>Site de exemplo pra entendermos HTML.</h2>
        <p>Este é um site feio e bobo para vermos como HTML funciona.</p>
        <p>Se você quer aprender HTML de verdade, clique <a href="https://letscode-academy.com/cursos/web-frontend-react">aqui</a>.</p>
    </body>
</html>
```


Podemos acessar o código-fonte HTML de qualquer site, de maneira bem simples!

Podemos simplesmente clicar em algum lugar da página **com o botão direito**, e depois selecionar **exibir código-fonte**, ou algo do tipo (varia de navegador pra navegador).

Há também algumas ferramentas um pouco mais avançadas, que são de grande auxilio aos desenvolvedores, como o **inspecionador** ou **inspetor de elemento**

Em navegadores como Chrome e Firefox atalhos como **ctrl+shift+i** ou **F12** funcionam.

In [None]:
!pip install requests

In [2]:
import requests

resposta = requests.get('https://letscode.com.br/')


In [3]:
print('Código de Status')
print(resposta.status_code)
print('-'*32)
print('Cabeçalho | header')
print(resposta.headers)
print('-'*32)
print('Conteudo')
print(resposta.text)

Código de Status
200
--------------------------------
Cabeçalho | header
{'Date': 'Wed, 21 Jul 2021 22:02:43 GMT', 'Content-Type': 'text/html; charset=utf-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Server': 'nginx/1.18.0', 'X-Powered-By': 'Next.js', 'ETag': '"2f1e4-BCD5tvhJo9HDndf2bUQuqynphoY"', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip'}
--------------------------------
Conteudo
<!DOCTYPE html><html lang="pt-BR"><head><link rel="preconnect" href="https://fonts.gstatic.com" crossorigin /><meta name="viewport" content="width=device-width"/><meta charSet="utf-8"/><link rel="preconnect" href="https://fonts.googleapis.com"/><link rel="preconnect" href="https://fonts.gstatic.com" crossorigin="true"/><link rel="stylesheet" data-href="https://fonts.googleapis.com/css?family=Montserrat:300,400,500,600,700,800,900&amp;display=swap" data-optimized-fonts="true"/><title>Let&#x27;s Code | Cursos de Programação</title><meta name="title" property="og:title" content="L

Agora que conhecemos um pouco mais sobre HTML, vamos ao nosso objetivo principal: webscraping!

___
___
___

## 2) Webscraping

O webscraping significa "raspagem de sites", e é exatamente esse o seu propósito: **extrair informações de um website**, para que estas possam ser utilizadas no Python.

**Para que iríamos querer fazer isso?**

Imagine que você queira coletar dados de um site que não disponibiliza uma API: usar webscraping é uma forma direta de fazer isso!

Ou então, se vc precisa periodicamente tomar informações de um site, de forma automática.


A biblioteca padrão para webscraping do Python é o `beautiful soup`.

Essa biblioteca é capaz de ler o HTML de um site, e criar um objeto a partir dele.

Com isso, fica fácil acessar alguns elementos do site, como tabelas ou valores!

Vamos aprender a usá-lo!

__IMPORTANTE: em webscraping, cada caso é um caso!__

Então, é importante aprender o princípio da técnica, e adapta-la para seu caso.

Nesta aula, vamos extrair as informações resumidas sobre cada curso que a Let's Code oferece. 

Extrairemos: **título, pré-requisito e link para a página do curso.** 

O site é: https://letscode-academy.com/

A primeira coisa é explorar o site, para descobrir como a informação que queremos extrair está codificada em HTML.

Pelas ferramentas de inspeção de código e elementos em um navegador, observamos que todas elas estão contidas em tags `<a class='card__link'>`

Vamos utilizar o bs4 para encontrar essa estrutura no HTML!

O passo-a-passo é:

- Use a requests para fazer uma requisição ao site, com o método `.get()`;
- Capte o HTML do site com o atributo `.text`;
- Instancie a classe `BeautifulSoup` da `bs4`para criar o objeto referente ao HTML;
    - Os argumentos são o HTML captado do requests e o argumento "html.parser" para a construção do objeto
- Com issso, o objeto está criado!

### OBSERVAÇÃO IMPORTANTE:

Com o uso dos frameworks de frontend, há casos (como, por exemplo, do site da Let's Code até, pelo menos, Abril de 2021) em que o HTML não está completo no momento do carregamento da página, de modo a ser acessado imediatamente com a requests, pois parte do HTML é renderizado apenas no navegador. Nestes casos, é necessário usar o webdriver do selenium para que o HTML seja captado!

Por esta ser uma abordagem mais geral, é ela que seguiremos aqui neste Notebook, e recomendamos ser seguida.

No entanto, é importante frisar que **a única alteração** no procedimento é na forma como o HTML é capturado. Daí pra frente, o procedimento é **exatamente o mesmo** (do que seria se o HTML fosse capturado com o requests), com a utilização do bs4 para a criação do objeto sopa, e daí por diante.

Assim, o passo-a-passo acima é alterado para:

- Use o selenium e seu webdriver para fazer a requisição ao site, com o método `get()`;
- Capte o HTML do site com os métodos `find_element_by_tag_name('body')` e `get_attribute('innerHTML')`;
- Instancie a classe `BeautifulSoup` da `bs4`para criar o objeto referente ao HTML;
    - Os argumentos são o HTML captado do requests e o argumento "html.parser" para a construção do objeto
- Com isso, o objeto está criado!

**Obs.:** para instalar o selenium siga as orientações na página: https://pypi.org/project/selenium/

Coloque o arquivo do driver baixado em uma pasta e adicione essa pasta ao PATH ou, mais fácil, passe o endereço do driver na hora de instanciar o webdriver, como em:  

```python 
from selenium import webdriver
driver = webdriver.Chrome('caminho/para/o/driver/chromedriver.exe')
```

In [None]:
!pip install selenium

In [15]:
import bs4
import requests
from bs4 import BeautifulSoup

In [16]:
pagina = requests.get('https://letscode.com.br/').text

In [17]:
type(pagina)

str

In [18]:
soup = BeautifulSoup(pagina, 'html.parser')

In [11]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="pt-BR">
 <head>
  <link crossorigin="" href="https://fonts.gstatic.com" rel="preconnect"/>
  <meta content="width=device-width" name="viewport"/>
  <meta charset="utf-8"/>
  <link href="https://fonts.googleapis.com" rel="preconnect"/>
  <link crossorigin="true" href="https://fonts.gstatic.com" rel="preconnect"/>
  <link data-href="https://fonts.googleapis.com/css?family=Montserrat:300,400,500,600,700,800,900&amp;display=swap" data-optimized-fonts="true" rel="stylesheet"/>
  <title>
   Let's Code | Cursos de Programação
  </title>
  <meta content="Let's Code | Cursos de Programação" name="title" property="og:title"/>
  <meta content="website" name="type" property="og:type"/>
  <meta content="Cursos de programação presenciais e online em diversas linguagens. Teste grátis nossa plataforma." name="description" property="og:description"/>
  <meta content="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/2020/siteLink.webp" property="og:image"/>
  <meta 

In [24]:
soup.find_all('div')[4]

<div class="navbar-brand"><a class="navbar-item item-img" href="/" id="navbar-logo"><div style="display:inline-block;max-width:100%;overflow:hidden;position:relative;box-sizing:border-box;margin:0"><div style="box-sizing:border-box;display:block;max-width:100%"></div><noscript><img alt="Home Let's Code" aria-label="Home Let's Code" class="navbar-img" decoding="async" src="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Logos/logoLcPng.webp" srcset="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Logos/logoLcPng.webp 1x, https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Logos/logoLcPng.webp 2x" style="position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;padding:0;border:none;margin:a

In [33]:
from selenium import webdriver
import time

driver = webdriver.Chrome('./chromedriver')  # o arquivo do chromedrive está na mesma pasta do notebook
driver.get('https://letscode.com.br/')  # entrando na pagina
# time.sleep(1.5)


In [None]:
element = driver.find_element_by_tag_name('body')
resposta = element.get_attribute('innerHTML')

In [34]:
type(resposta)

str

In [35]:
site = bs4.BeautifulSoup(resposta, 'html.parser')
len(site.find_all('a', class_="card__link"))

In [37]:
print(site.prettify())

<noscript>
 <iframe height="0" id="tag-manager" src="https://www.googletagmanager.com/ns.html?id=GTM-PQZB6GR&gt;m_auth=&gt;m_preview=&gt;m_cookies_win=x" style="display:none;visibility:hidden" width="0">
 </iframe>
</noscript>
<div id="__next">
 <div class="styles__Container-tke1hi-0 doOaWk">
  <div class="navbar is-fixed-top">
   <div>
    <div class="navbar-brand">
     <a class="navbar-item item-img" href="/" id="navbar-logo">
      <div style="display:inline-block;max-width:100%;overflow:hidden;position:relative;box-sizing:border-box;margin:0">
       <div style="box-sizing:border-box;display:block;max-width:100%">
        
       </div>
       <img alt="Home Let's Code" aria-label="Home Let's Code" class="navbar-img scrolled

6

In [41]:
element = driver.find_element_by_tag_name('body')
resposta = element.get_attribute('innerHTML')
site = bs4.BeautifulSoup(resposta, 'html.parser')
len(site.find_all('a', class_="card__link"))

11

In [None]:
# 7

Agora que temos o objeto do bs criado, podemos usar os métodos especiais deste objeto para extrair a informação que queremos!

Lembrando que já descobrimos que queremos extrair os dados dentro da seguinte tag: 

`<a class='card__link'>`

Pra isso, utilizaremos o método `.find()` ou `.find_all()`. Esses métodos suportam diversos argumentos para busca. Os mais comuns são:

- Primeiro argumento posicional: A **tag HTML** que queremos extrair (no nosso caso, é a `a`).
- O argumento nomeado "class_", que indica qual é a **classe CSS** que queremos extrair (no nosso caso, é a `card__link`)

`.find()` vai retornar **a primeira aparição** da tag no HTML, enquanto `.find_all()` retorna **uma lista com as aparições**:

In [None]:
site = bs4.BeautifulSoup(resposta, 'html.parser')
len(site.find_all('a', class_="card__link"))

É possível visualizar a extração de forma mais bonita, usando o método `.prettify()`:

In [None]:
print(site.prettify())

Como extraímos agora as informações que queremos (título do curso, pré-requisitos e link)?

O atributo `.text` retorna **apenas os textos** do objeto sopa em forma de string, sem as Tags.

Com isso, é possível selecionar toda a informação que queremos! Mas, com alguns detalhes...

In [42]:
site.text

"\nHomeZero $Nosso Time CursosPython & DadosDegreeData ScienceUpskillingPythonData Science & I.APython For FinanceBanco De DadosOnline Python BasicsPython TeensWeb Full StackDegreeWeb Full StackUpskillingWeb Front-End & ReactJavaOnline Web & ReactPython & DadosWeb Full StackBlogCertificadosAo navegar pelo nosso site, você concorda com a nossapolítica de privacidade.Ok, entendi.Vamos muito além de um diploma, te preparamos para o mundo real.Conheça nossas trilhas de Data Science e Web Full Stack.Comece agoraTrilhasEncontre seu cursoEncontre seu cursoTrilha Python & DadosDegreeData ScienceUpskillingPythonData Science & I.APython For FinanceBanco De DadosOnline Python BasicsPython TeensTrilha Web Full StackDegreeWeb Full StackUpskillingWeb Front-End & ReactJavaOnline Web & ReactPython & DadosA principal linguagem para análise de dados, Data Science e Machine Learning.Web Full StackFormação completa com as ferramentas mais modernas para o desenvolvimento de Web Apps.Escolha a trilha deseja

Procurando especificamente pelas informações que queremos dentro do card do curso, identificamos as seguintes tags:

- Titulo do curso:

```html
<p class="card__text__title">
```

- Pré-requisitos

```html
<div class="card__text__desktop">
    <div>
        <span style="font-weight:500">
            ...
            <p style="font-weight:400">
                Nenhum
            </p>
         </span>
    </div>
    ...
</div>
``` 

- Carga horária:

```html
<div class="card__text__desktop__desc">
    <span style="font-weight:500">
        ...
        <p style="font-weight:400">
            ...
            48h
        </p>
    </span>
</div>
```


Vamos criar objetos pra essas tags:

In [43]:
cards = site.find_all('a', class_="card__link")

In [48]:
print(cards[1].prettify())

<a class="card__link" href="/degree/web">
 <div class="card trail__web card__pi" style="opacity: 1; transform: none;">
  <div class="card__imagem__container">
   <div style="display:block;overflow:hidden;position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;margin:0">
    <img alt="Ícone do curso Web Full Stack Degree" decoding="async" name="Web Full Stack Degree" sizes="100vw" src="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Icons/piHomeIcon.svg" srcset="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Icons/piHomeIcon.svg 640w, https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Icons/piHomeIcon.svg 750w, https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Icons/piHomeIcon.svg 828w, https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Icons/piHomeIcon.svg 1080w, https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Icons/piHomeIcon.svg 1200w, https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Icons/piHomeIcon.s

In [56]:
cards[4].find('p', class_='card__text__title').text

'Data Science & I.A.'

In [64]:
for card in cards:
    href = card['href']
    print(href)
    if 'degree' in href:
        print('Titulo do Degree:', card.find('p', class_='card__text__title').text)
    else:
        print('Titulo do curso:', card.find('p', class_='card__text__title').text)
    print('-'*32)

/degree/ds
Titulo do Degree: Data Science Degree
--------------------------------
/degree/web
Titulo do Degree: Web Full Stack Degree
--------------------------------
/cursos/python-adulto
Titulo do curso: Python
--------------------------------
/cursos/web-frontend-react
Titulo do curso: Web Front-End & React
--------------------------------
/cursos/ds-ia
Titulo do curso: Data Science & I.A.
--------------------------------
/cursos/java
Titulo do curso: Java
--------------------------------
/cursos/python-finance
Titulo do curso: Python For Finance
--------------------------------
/cursos/banco-de-dados
Titulo do curso: Banco De Dados
--------------------------------
/curso-online/python-basics
Titulo do curso: Online Python Basics
--------------------------------
/curso-online/web-and-react
Titulo do curso: Online Web & React
--------------------------------
/curso-online/python-teens
Titulo do curso: Python Teens
--------------------------------


In [78]:
(cards[0]
     .find('div', class_='card__text__desktop__desc')
)

In [81]:
# Carga horario dos cursos! Falta o degree
for card in cards:
    card = card.find('div', class_='card__text__desktop__desc')
    if card:
        print('Carga horaria:',
              card.span
                  .p
                  .text
                  .strip()
             )

Carga horaria: 48h
Carga horaria: 72h
Carga horaria: 72h
Carga horaria: 72h
Carga horaria: 24h
Carga horaria: 24h
Carga horaria: 10h
Carga horaria: 10h
Carga horaria: 20h


In [88]:
(cards[4]
     .find('div', class_='card__text__desktop')
     .div
     .span
     .p
     .text
)


'Python'

In [None]:
for card in cards:
    href = card['href']
    print(href)
    if 'degree' in href:
        print('Titulo do Degree:', card.find('p', class_='card__text__title').text)
    else:
        print('Titulo do curso:', card.find('p', class_='card__text__title').text)
    print('-'*32)
    
# Carga horario dos cursos! Falta o degree
for card in cards:
    card = card.find('div', class_='card__text__desktop__desc')
    if card:
        print('Carga horaria:',
              card.span
                  .p
                  .text
                  .strip()
             )
# Carga horario dos cursos! Falta o degree
for card in cards:
    card = card.find('div', class_='card__text__desktop')
    if card:
        print('Pré-requisitos:',
                (card
                     .div
                     .span
                     .p
                     .text
                ))


In [91]:
# Carga horario dos cursos! Falta o degree
for card in cards:
    card = card.find('div', class_='card__text__desktop')
    if card:
        print('Pré-requisitos:',
                (card
                     .div
                     .span
                     .p
                     .text
                ))


Pré-requisitos: Nenhum
Pré-requisitos: Nenhum
Pré-requisitos: Python
Pré-requisitos: Nenhum
Pré-requisitos: Python
Pré-requisitos: Nenhum
Pré-requisitos: Nenhum
Pré-requisitos: Nenhum
Pré-requisitos: Nenhum


Vamos pegar o atributo text de cada um:

In [None]:
# 14

Agora só falta pegar o link!

Para fazer isso, identificamos que o link é o que já está com a tag `<a class="card__link" href="/cursos/python_adulto">`

Neste caso, o link está dentro da própria tag, com o parâmetro `href`

> Note que o `href` é `/cursos/python_adulto`. Mas o link completo deve conter também o domnínio-base do site, que nada mais é do que o que vem antes da barra: `https://letscode-academy.com`.

> Assim, o link completo é: `https://letscode-academy.com/cursos/python_adulto`

Como o link está dentro da tag, sua extração **não é com o `.text`**, mas sim utilizando uma estrutura de dicionário:

In [98]:
for card in cards:
    base = "https://letscode.com.br"
    link = base + card['href']
    print(link)

https://letscode.com.br/degree/ds
https://letscode.com.br/degree/web
https://letscode.com.br/cursos/python-adulto
https://letscode.com.br/cursos/web-frontend-react
https://letscode.com.br/cursos/ds-ia
https://letscode.com.br/cursos/java
https://letscode.com.br/cursos/python-finance
https://letscode.com.br/cursos/banco-de-dados
https://letscode.com.br/curso-online/python-basics
https://letscode.com.br/curso-online/web-and-react
https://letscode.com.br/curso-online/python-teens


Agora sim! Temos extraídos:

Vamos juntar tudo agora:

In [100]:
for card in cards:
    if 'degree' in href:
        titulo = card.find('p', class_='card__text__title').text
    else:
        titulo = card.find('p', class_='card__text__title').text
    
    carga_horaria = card.find('div', class_='card__text__desktop__desc')
    carga_texto = ''
    if carga_horaria:
        carga_texto = (carga_horaria.span
                  .p
                  .text
                  .strip()
             )

    requisitos = card.find('div', class_='card__text__desktop')
    requisito_texto = ''
    if requisitos:
        requisito_texto = (requisitos
                     .div
                     .span
                     .p
                     .text
                )
    base = "https://letscode.com.br"
    link = base + card['href']
    print(titulo)
    print(requisito_texto)
    print(carga_texto)
    print(link)
    print('-'*32)

Data Science Degree


https://letscode.com.br/degree/ds
--------------------------------
Web Full Stack Degree


https://letscode.com.br/degree/web
--------------------------------
Python
Nenhum
48h
https://letscode.com.br/cursos/python-adulto
--------------------------------
Web Front-End & React
Nenhum
72h
https://letscode.com.br/cursos/web-frontend-react
--------------------------------
Data Science & I.A.
Python
72h
https://letscode.com.br/cursos/ds-ia
--------------------------------
Java
Nenhum
72h
https://letscode.com.br/cursos/java
--------------------------------
Python For Finance
Python
24h
https://letscode.com.br/cursos/python-finance
--------------------------------
Banco De Dados
Nenhum
24h
https://letscode.com.br/cursos/banco-de-dados
--------------------------------
Online Python Basics
Nenhum
10h
https://letscode.com.br/curso-online/python-basics
--------------------------------
Online Web & React
Nenhum
10h
https://letscode.com.br/curso-online/web-and-react
----------

Perfeito!

Agora que sabemos exatamente o que queremos extrair, usando a primeira aparição, vamos fazer o mesmo pra **todas as aparições**. 

Mas, antes, vamos organizar o nosso código que faz a extração das infomações de 1 curso em uma função para facilitar o nosso trabalho daqui para frente:

In [None]:
card__text__container 

In [124]:
import re
def extrai_curso(tag):
    titulo = (
        tag
        .find('p', class_='card__text__title')
        .text
    )
    # Tratando a falta de requisito como não disponível
    try:
        requisito = (
            tag
             .find('div', class_='card__text__desktop')
             .div
             .span
             .p
             .text   
        )
    except:
        requisito = 'Não disponível'

    # Extraindo a informação de horário de cards Degree e "Cursos"
    try:
        horario = (
            tag
            .find('div', class_='card__text__desktop__desc')
            .span
            .p
            .text
            .strip()
        )
    except:
        regex = re.compile(r'\d+h')  # regex para pegar n digitos e que termine com h
        for info in (card.find('div', class_='card__text__container').find_all('p')):
            matches = regex.search(info.text)
            if matches:
                horario = (matches.group()).strip()
                
    # extraindo o link
    base = "https://letscode.com.br"
    link = base + card['href']
    
    return (titulo, requisito, horario, link)

Vamos então adicionar gerenciamento de errors ao nosso código.

Nos casos em que houver um erro, vamos adicionar "Não disponível" ao campo

In [125]:
for card in cards:
    print(extrai_curso(card))

('Data Science Degree', 'Não disponível', '900h', 'https://letscode.com.br/degree/ds')
('Web Full Stack Degree', 'Não disponível', '1160h', 'https://letscode.com.br/degree/web')
('Python', 'Nenhum', '48h', 'https://letscode.com.br/cursos/python-adulto')
('Web Front-End & React', 'Nenhum', '72h', 'https://letscode.com.br/cursos/web-frontend-react')
('Data Science & I.A.', 'Python', '72h', 'https://letscode.com.br/cursos/ds-ia')
('Java', 'Nenhum', '72h', 'https://letscode.com.br/cursos/java')
('Python For Finance', 'Python', '24h', 'https://letscode.com.br/cursos/python-finance')
('Banco De Dados', 'Nenhum', '24h', 'https://letscode.com.br/cursos/banco-de-dados')
('Online Python Basics', 'Nenhum', '10h', 'https://letscode.com.br/curso-online/python-basics')
('Online Web & React', 'Nenhum', '10h', 'https://letscode.com.br/curso-online/web-and-react')
('Python Teens', 'Nenhum', '20h', 'https://letscode.com.br/curso-online/python-teens')


Mas espera. Tem muito mais curso oferecido na Let\`s Code! Então qual o problema?

Note que na pagina nem todos os cursos são carregados. Temos que clicar no botão "Mais Cursos" para que eles sejam exibidos. 

Vamos clickar usando o Selenium:

In [133]:
from selenium import webdriver
import time

driver = webdriver.Chrome('./chromedriver')  # o arquivo do chromedrive está na mesma pasta do notebook
driver.get('https://letscode.com.br/')  # entrando na pagina
time.sleep(1.)
btn = driver.find_element_by_class_name('btn__maiscursos')
print(btn)
time.sleep(1.)
btn.click()

element = driver.find_element_by_tag_name('body')
resposta = element.get_attribute('innerHTML')

site = bs4.BeautifulSoup(resposta, 'html.parser')

total_todos = site.find_all('a', class_='card__link')
lista_todos = []
for total in total_todos:
    lista_todos.append(extrai_curso(total))
    
lista_todos

NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=91.0.4472.77)


Parece que precisamos rolar a pagina até o botão

In [129]:
btn.location

{'x': 368, 'y': 3400}

[-200, -100, 0, 100, 200]

In [147]:
from selenium import webdriver
import time

driver = webdriver.Chrome('./chromedriver')  # o arquivo do chromedrive está na mesma pasta do notebook
driver.get('https://letscode.com.br/')  # entrando na pagina
time.sleep(1.)
lista_posicoes = list(range(-200, 201, 100))
sucesso = False
for posicao in lista_posicoes:
    print('offset', posicao)
    time.sleep(1)
    try:
        btn = driver.find_element_by_class_name('btn__maiscursos')
        driver.execute_script(f"window.scrollTo(0, {btn.location['y'] + (-1*posicao)})")
        time.sleep(1.)
        btn.click()

        element = driver.find_element_by_tag_name('body')
        resposta = element.get_attribute('innerHTML')

        site = bs4.BeautifulSoup(resposta, 'html.parser')

        total_todos = site.find_all('a', class_='card__link')
        lista_todos = []
        for total in total_todos:
            lista_todos.append(extrai_curso(total))

        sucesso = True
    except:
        pass
    if sucesso:
        break
lista_todos

offset -200
offset -100
offset 0
offset 100


[('Data Science Degree',
  'Não disponível',
  '20h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Web Full Stack Degree',
  'Não disponível',
  '20h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Python',
  'Nenhum',
  '48h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Web Front-End & React',
  'Nenhum',
  '72h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Data Science & I.A.',
  'Python',
  '72h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Java',
  'Nenhum',
  '72h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Python For Finance',
  'Python',
  '24h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Banco De Dados',
  'Nenhum',
  '24h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Online Python Basics',
  'Nenhum',
  '10h',
  'https://letscode.com.br/curso-online/python-teens'),
 ('Online Web & React',
  'Nenhum',
  '10h',
  'https://letscode.com.br/curso-online/python-tee

Agora que temos nossa lista de listas, podemos escrevê-la pra um arquivo da maneira que quisermos

# Extraindo informação com requests

In [177]:
import requests
resposta = requests.get("http://servicos.cptec.inpe.br/XML/listaCidades?city=manaus")

sopa = bs4.BeautifulSoup(resposta.text, 'lxml')

print(sopa.html.prettify())

<html>
 <body>
  <cidades>
   <cidade>
    <nome>
     Manaus
    </nome>
    <uf>
     AM
    </uf>
    <id>
     234
    </id>
   </cidade>
  </cidades>
 </body>
</html>


In [156]:
sopa.find_all('id')

[<id>244</id>, <id>5019</id>, <id>5020</id>, <id>5021</id>]

In [157]:
codigo = 244
url = f'http://servicos.cptec.inpe.br/XML/cidade/{codigo}/previsao.xml'
resposta = requests.get(url)
resposta

<Response [200]>

In [158]:
resposta.headers

{'Date': 'Thu, 22 Jul 2021 00:23:54 GMT', 'Cache-Control': 'no-cache', 'Content-Type': 'text/xml', 'Access-Control-Allow-Origin': '*', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '220', 'Keep-Alive': 'timeout=10, max=10000', 'Connection': 'Keep-Alive'}

In [159]:
resposta.text

"<?xml version='1.0' encoding='ISO-8859-1'?><cidade><nome>São Paulo</nome><uf>SP</uf><atualizacao>2021-07-21</atualizacao><previsao><dia>2021-07-22</dia><tempo>ps</tempo><maxima>20</maxima><minima>10</minima><iuv>5.0</iuv></previsao><previsao><dia>2021-07-23</dia><tempo>pn</tempo><maxima>24</maxima><minima>11</minima><iuv>5.0</iuv></previsao><previsao><dia>2021-07-24</dia><tempo>ps</tempo><maxima>25</maxima><minima>9</minima><iuv>6.0</iuv></previsao><previsao><dia>2021-07-25</dia><tempo>ps</tempo><maxima>26</maxima><minima>10</minima><iuv>6.0</iuv></previsao></cidade>"

In [160]:
site = bs4.BeautifulSoup(resposta.text, 'lxml')

In [162]:
site.nome

<nome>São Paulo</nome>

In [163]:
site.nome.text

'São Paulo'

In [164]:
site.previsao

<previsao><dia>2021-07-22</dia><tempo>ps</tempo><maxima>20</maxima><minima>10</minima><iuv>5.0</iuv></previsao>

In [166]:
site.previsao.dia.text

'2021-07-22'

In [167]:
site.find_all('previsao')

[<previsao><dia>2021-07-22</dia><tempo>ps</tempo><maxima>20</maxima><minima>10</minima><iuv>5.0</iuv></previsao>,
 <previsao><dia>2021-07-23</dia><tempo>pn</tempo><maxima>24</maxima><minima>11</minima><iuv>5.0</iuv></previsao>,
 <previsao><dia>2021-07-24</dia><tempo>ps</tempo><maxima>25</maxima><minima>9</minima><iuv>6.0</iuv></previsao>,
 <previsao><dia>2021-07-25</dia><tempo>ps</tempo><maxima>26</maxima><minima>10</minima><iuv>6.0</iuv></previsao>]

In [171]:
import datetime as dt

In [176]:
cidade = site.nome.text
print('Cidade:', cidade)
for previsao in site.find_all('previsao'):
    dia = dt.datetime.strptime(previsao.dia.text, "%Y-%m-%d")
    tempo = previsao.tempo.text
    maxima = previsao.maxima.text
    minima = previsao.minima.text
    iuv = previsao.iuv.text
    print(f"""
Dia: {dia:%d/%m/%Y}
Dia da semana: {dia:%A}
Tempo: {tempo}
Maxima: {maxima}
Minima: {minima}
IUV: {iuv}""")
    print('-'*32)

Cidade: São Paulo

Dia: 22/07/2021
Dia da semana: Thursday
Tempo: ps
Maxima: 20
Minima: 10
IUV: 5.0
--------------------------------

Dia: 23/07/2021
Dia da semana: Friday
Tempo: pn
Maxima: 24
Minima: 11
IUV: 5.0
--------------------------------

Dia: 24/07/2021
Dia da semana: Saturday
Tempo: ps
Maxima: 25
Minima: 9
IUV: 6.0
--------------------------------

Dia: 25/07/2021
Dia da semana: Sunday
Tempo: ps
Maxima: 26
Minima: 10
IUV: 6.0
--------------------------------


In [178]:
import requests
import bs4
codigos_cidades = [244, 241, 222, 797, 234]
for codigo in codigos_cidades:
    url = f'http://servicos.cptec.inpe.br/XML/cidade/{codigo}/previsao.xml'
    resposta = requests.get(url)
    site = bs4.BeautifulSoup(resposta.text, 'lxml')

    cidade = site.nome.text
    print('Cidade:', cidade)
    for previsao in site.find_all('previsao'):
        dia = dt.datetime.strptime(previsao.dia.text, "%Y-%m-%d")
        tempo = previsao.tempo.text
        maxima = previsao.maxima.text
        minima = previsao.minima.text
        iuv = previsao.iuv.text
        print(f"""
Dia: {dia:%d/%m/%Y}
Dia da semana: {dia:%A}
Tempo: {tempo}
Maxima: {maxima}
Minima: {minima}
IUV: {iuv}""")
        print('-'*32)

Cidade: São Paulo

Dia: 22/07/2021
Dia da semana: Thursday
Tempo: ps
Maxima: 20
Minima: 10
IUV: 5.0
--------------------------------

Dia: 23/07/2021
Dia da semana: Friday
Tempo: pn
Maxima: 24
Minima: 11
IUV: 5.0
--------------------------------

Dia: 24/07/2021
Dia da semana: Saturday
Tempo: ps
Maxima: 25
Minima: 9
IUV: 6.0
--------------------------------

Dia: 25/07/2021
Dia da semana: Sunday
Tempo: ps
Maxima: 26
Minima: 10
IUV: 6.0
--------------------------------
Cidade: Rio de Janeiro

Dia: 22/07/2021
Dia da semana: Thursday
Tempo: ps
Maxima: 22
Minima: 17
IUV: 5.0
--------------------------------

Dia: 23/07/2021
Dia da semana: Friday
Tempo: ps
Maxima: 23
Minima: 18
IUV: 5.0
--------------------------------

Dia: 24/07/2021
Dia da semana: Saturday
Tempo: pn
Maxima: 24
Minima: 17
IUV: 6.0
--------------------------------

Dia: 25/07/2021
Dia da semana: Sunday
Tempo: pn
Maxima: 25
Minima: 18
IUV: 6.0
--------------------------------
Cidade: Belo Horizonte

Dia: 22/07/2021
Dia da s

In [186]:
import requests
import bs4
codigos_cidades = [244, 241, 222, 797, 234]
respostas = []
for codigo in codigos_cidades:
    url = f'http://servicos.cptec.inpe.br/XML/cidade/{codigo}/previsao.xml'
    resposta = requests.get(url)
    site = bs4.BeautifulSoup(resposta.text, 'lxml')

    cidade = site.nome.text
    print('Extraindo informacao da cidade:', cidade)
    for previsao in site.find_all('previsao'):
        dia = dt.datetime.strptime(previsao.dia.text, "%Y-%m-%d")
        tempo = previsao.tempo.text
        maxima = previsao.maxima.text
        minima = previsao.minima.text
        iuv = previsao.iuv.text
        respostas.append([
            cidade,
            f'{dia:%d/%m/%Y}',
            f'{dia:%A}',
            tempo,
            maxima,
            minima,
            iuv
        ])

Extraindo informacao da cidade: São Paulo
Extraindo informacao da cidade: Rio de Janeiro
Extraindo informacao da cidade: Belo Horizonte
Extraindo informacao da cidade: Barueri
Extraindo informacao da cidade: Manaus


In [187]:
respostas

[['São Paulo', '22/07/2021', 'Thursday', 'ps', '20', '10', '5.0'],
 ['São Paulo', '23/07/2021', 'Friday', 'pn', '24', '11', '5.0'],
 ['São Paulo', '24/07/2021', 'Saturday', 'ps', '25', '9', '6.0'],
 ['São Paulo', '25/07/2021', 'Sunday', 'ps', '26', '10', '6.0'],
 ['Rio de Janeiro', '22/07/2021', 'Thursday', 'ps', '22', '17', '5.0'],
 ['Rio de Janeiro', '23/07/2021', 'Friday', 'ps', '23', '18', '5.0'],
 ['Rio de Janeiro', '24/07/2021', 'Saturday', 'pn', '24', '17', '6.0'],
 ['Rio de Janeiro', '25/07/2021', 'Sunday', 'pn', '25', '18', '6.0'],
 ['Belo Horizonte', '22/07/2021', 'Thursday', 'ps', '23', '12', '6.0'],
 ['Belo Horizonte', '23/07/2021', 'Friday', 'ps', '23', '13', '6.0'],
 ['Belo Horizonte', '24/07/2021', 'Saturday', 'n', '24', '11', '6.0'],
 ['Belo Horizonte', '25/07/2021', 'Sunday', 'n', '25', '11', '6.0'],
 ['Barueri', '22/07/2021', 'Thursday', 'ps', '22', '9', '5.0'],
 ['Barueri', '23/07/2021', 'Friday', 'pn', '25', '10', '5.0'],
 ['Barueri', '24/07/2021', 'Saturday', 'ps',

In [188]:
with open('previsao_tempo.csv', 'a') as f:
    f.write(','.join(['cidade','dia', 'dia_da_semana', 'tempo', 'maxima', 'minima', 'iuv']))
    f.write('\n')
    for resposta in respostas:
        f.write(','.join(resposta))
        f.write('\n')
print('Arquivo fechou')

In [190]:
arquivo = open('previsao_tempo.csv', 'r').read()

In [192]:
print(arquivo)

cidade,dia,dia_da_semana,tempo,maxima,minima,iuv
São Paulo,22/07/2021,Thursday,ps,20,10,5.0
São Paulo,23/07/2021,Friday,pn,24,11,5.0
São Paulo,24/07/2021,Saturday,ps,25,9,6.0
São Paulo,25/07/2021,Sunday,ps,26,10,6.0
Rio de Janeiro,22/07/2021,Thursday,ps,22,17,5.0
Rio de Janeiro,23/07/2021,Friday,ps,23,18,5.0
Rio de Janeiro,24/07/2021,Saturday,pn,24,17,6.0
Rio de Janeiro,25/07/2021,Sunday,pn,25,18,6.0
Belo Horizonte,22/07/2021,Thursday,ps,23,12,6.0
Belo Horizonte,23/07/2021,Friday,ps,23,13,6.0
Belo Horizonte,24/07/2021,Saturday,n,24,11,6.0
Belo Horizonte,25/07/2021,Sunday,n,25,11,6.0
Barueri,22/07/2021,Thursday,ps,22,9,5.0
Barueri,23/07/2021,Friday,pn,25,10,5.0
Barueri,24/07/2021,Saturday,ps,26,9,6.0
Barueri,25/07/2021,Sunday,ps,26,9,6.0
Manaus,22/07/2021,Thursday,ps,33,25,10.0
Manaus,23/07/2021,Friday,ci,30,23,10.0
Manaus,24/07/2021,Saturday,ci,33,25,10.0
Manaus,25/07/2021,Sunday,n,32,25,11.0

