# <span style="color:blue">Programação Python para Ciência de Dados</span>

## <span style="color:blue">Módulo 5.2 Extraindo dados da internet</span>

### Conteúdo da aula:
- Páginas Web
- Parsing
- Requests

## Página HTML

Uma página web, de maneira simplista, apresenta estrutura como a seguir:

```html
<!DOCTYPE html>
<html>
    <body>

        <h1 class="titulo" id=>Título aqui</h1>
        
        <p class="paragrafo1">Isso é um parágrafo</p>
        <p class="paragrafo2">Isso é outro parágrafo</p>
        
        
        <!-- Aqui em baixo temos uma lista (e isso é um comentário) -->
        <ul>
            <li>Elemento 1</li>
            <li>Elemento 2</li>
            <li>Elemento 3</li>
        </ul>
            
        
        <a href="https://icmc.usp.br">Link</a>

    </body>
</html>

```

Uma vez que esse código é interpretado e renderizado pelo browser ele ganha o seguinte visual, que é mais próximo (porém nem tanto) do que estamos habituados

<img src="pagina.png" style="width: 200px;">

## Parsing

O parsing de uma página consiste em utilizar uma função que separa os componentes da página, facilitando a busca e o acesso as informações da página. Em Python um dos pacotes mais comuns para realização desse tipo de tarefa é o **BeautifulSoup**.

O objetivo desta parte do curso é introduzir conceitos básicos de web crawling.

Vamos trabalhar com o arquivo web que descrevemos anteriormente.

In [1]:
import requests
from bs4 import BeautifulSoup

In [3]:
with open('pagina.html', 'r') as file:
    html = file.read()

In [4]:
html

'<!DOCTYPE html>\n<html>\n    <body>\n\n        <h1 class="titulo" id=>Título aqui</h1>\n        \n        <p class="paragrafo1">Isso é um parágrafo</p>\n        <p class="paragrafo2">Isso é outro parágrafo</p>\n        \n        \n        <!-- Aqui em baixo temos uma lista (e isso é um comentário) -->\n        <ul>\n            <li>Elemento 1</li>\n            <li>Elemento 2</li>\n            <li>Elemento 3</li>\n        </ul>\n            \n        \n        <a href="https://icmc.usp.br">Link</a>\n\n    </body>\n</html>\n'

Passamos o nosso html "cru" para criar o objeto que fará o parsing 

In [5]:
soup = BeautifulSoup(html)
print(type(soup))

<class 'bs4.BeautifulSoup'>


Agora podemos começar a extrair as informações que desejamos, focando principalmente em recuperar tags do HTML.

Para encontrar a primeira ocorrência de uma tag específica podemos usar o seguinte comando

In [6]:
primeiro_paragrafo = soup.find('p') # No caso iremos recuperar a primeira tag do tipo p
print(primeiro_paragrafo)
print(type(primeiro_paragrafo))

<p class="paragrafo1">Isso é um parágrafo</p>
<class 'bs4.element.Tag'>


Perceba que isso não é uma string, mas sim um objeto do BeautifulSoup, através do qual conseguimos acessar o conteudo da tag

In [7]:
print(primeiro_paragrafo.text)

Isso é um parágrafo


Também podemos recuperar todas as tags de um certo tipo (recebendo como retorno um objeto do BeautifulSoup que pode ser iterado como uma lista)

In [8]:
todos_itens = soup.find_all('li')
for item in todos_itens:
    print(item)

<li>Elemento 1</li>
<li>Elemento 2</li>
<li>Elemento 3</li>


Algo ainda mais comum é procurar por um elemento que possui um atributo específico. O exemplo abaixo mostra como isso é feito para encontrar os elementos de uma classe específica.

In [8]:
paragrafos_da_classe = soup('p', {'class': 'paragrafo1'})
print(paragrafos_da_classe)

[<p class="paragrafo1">Isso é um parágrafo</p>]


Podemos acessar uma página e com o nosso browser descobrir os atributos específicos de um certo elemento para construir um programa que recupera as informações que precisamos.

## Requests

Claro que quando estaremos obtendo dados de um site específico não teremos ele salvo localmente, então é necessária uma forma de obter o código de qualquer página da web.

Para executar tal tarefa é utlizada a biblioteca **requests** do Python, mais especificamente através da sua função get.

In [13]:
# Solicitando a página do 
resposta = requests.get("https://icmc.usp.br/eventos")
print(type(resposta))

<class 'requests.models.Response'>


Como podemos ver essa função retorna um objeto interno do requests, que contém várias informações importantes relacionadas a resposta dada pelo servidor. Porém estamos interessados no código HTML da página, que pode ser acessado pelo atributo **text**

In [14]:
html_site = resposta.text
print(type(html_site))

<class 'str'>


In [15]:
print(html_site)

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pt-br" lang="pt-br" >
    <head>
        <meta charset="utf-8">
        <meta http-equiv="X-UA-Compatible" content="IE=edge">
        <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="description" content="ICMC - Instituto de Ciências Matemáticas e de Computação. Ensino, Graduação, Pós-Graduação, Pesquisa, Cultura e Extensão. Eventos">
        <meta name="author" content="Instituto de Ciências Matemáticas e de Computação">
        <meta property="og:image" content="http://www.icmc.usp.br/imprensa/_thumb1/icone-noticia.jpg" />        <link rel="icon" href="/templates/icmc2015/img/ico/favicon.ico" />

        <!-- Alterado dia 19/01/2017 para atender o chamado da intranet n.54/2017 -->
        <!--<title>ICMC - Instituto de Ciências Matemáticas e de Computação - Eventos</title>-->
                <title>Eventos</title>
          
        <script src="/templates/icmc2015/js/jquery.m

Agora podemos trabalhar com esse código normalmente no BeautifulSoup, já que ele é simplesmente uma string.

In [16]:
soup = BeautifulSoup(html_site)

Inspecionando os elementos do site conseguimos buscar conteúdos desejados

In [17]:
for evento in soup('div', {'class': 'noticia-home-titulo'}):
    titulo = evento.find('h4').text
    data = evento.find('p').text
    print(f'{titulo} ==> {data}')
    print(5*'--')

Conferência Brasileira de Dinâmica, Controle e Aplicações (DINCON 2019) ==> De 25/11/2019 à 27/11/2019
----------
Programa de Verão em Estatística 2020 ==> De 02/01/2020 à 12/02/2020
----------
Programa de Verão em Matemática 2020 ==> De 06/01/2020 à 14/02/2020
----------
ICMC Summer Meeting on Differential Equations 2020 Chapter ==> De 03/02/2020 à 05/02/2020
----------
8th Workshop on Probrabilistic and Statistcal Methods ==> De 12/02/2020 à 14/02/2020
----------
Sistema CEPH-CONEP: Ética na Pesquisa com Seres Humanos ==> 21/11/2019
----------
Partition Markov model for multiple processes ==> 22/11/2019
----------
Uma Visão do Mercado de Trabalho para Graduados em Computação ==> 27/11/2019
----------
Statistical estimation of the structural similarity index for image quality assessment ==> 03/12/2019
----------
A estratégia de gestão para o avanço contínuo da educação, com foco na aprendizagem dos estudantes e sua permanên... ==> 05/12/2019
----------
