# Scraping com Python: Coleta de dados na web<br>
__Professor:__ Rodrigo Fernando Dias<br>
__Disponível em:__ <a href="https://cursos.alura.com.br/course/web-scraping-data-science-python" target="blank">ALURA</a><br>
__Conteúdo:__<br>
- Aprenda como obter o HTML de uma página e extrair informações;
- Use o BeautifulSoup e Python para coletar dados;
- Conheça os métodos mais importantes para pesquisar e navegar no HTML;
- Acesse o conteúdo e atributos das tags HTML;
- Construa um dataframe a partir dos dados;

## 01. Nosso primeiro scraping
*Web Scraping* é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.

### Ambiente e bibliotecas

In [1]:
import bs4
import urllib.request as urllib_request
import pandas

print("BeautifulSoup ->", bs4.__version__)
print("urllib ->", urllib_request.__version__)
print("pandas ->", pandas.__version__)

BeautifulSoup -> 4.10.0
urllib -> 3.9
pandas -> 1.4.1


### Exercício: Um pouco sobre Anaconda e Python
Sobre o Anaconda e Python, assinale as alternativas corretas.


__a) A distribuição Anaconda é uma plataforma desenvolvida para facilitar a elaboração de projetos em data science, utilizando a linguagem Python.__<br>
_Alternativa correta! Podemos verificar isto no próprio site da distribuição Anaconda: https://www.anaconda.com/._<br>
__b) Uma das formas de se verificar a versão de uma biblioteca Python é com o atributo __version____<br>
_Alternativa correta! Em nosso notebook, temos um exemplo da utilização deste recurso._<br>
c) A única forma de se desenvolver projetos em data science é através da distribuição Anaconda<br>
d) Uma das formas de se verificar a versão de uma biblioteca Python é com o método version()

### Meu primeiro scraping

In [1]:
#Importando bibliotecas
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [2]:
url = 'https://alura-site-scraping.herokuapp.com/hello-world.php'

# Abrindo a url
response = urlopen(url)
# Lendo o conteúdo da url
html = response.read()
html


b'<!DOCTYPE html>\r\n<html lang="pt-br">\r\n<head>\r\n    <meta charset="utf-8">\r\n    <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\r\n\r\n    <title>Alura Motors</title>\r\n\t<link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" crossorigin="anonymous">\r\n\t<link rel="stylesheet" href="css/styles.css" media="all">\r\n\r\n\t<script src="https://code.jquery.com/jquery-1.12.4.js"></script>\r\n\t<script src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/js/bootstrap.min.js" integrity="sha384-Tc5IQib027qvyjSMfHjOMaLkfuWVxZxUPnCJA7l2mCWNIpG9mGCD8wGNIcPD7Txa" crossorigin="anonymous"></script>\r\n\t<script type="text/javascript" src="js/index.js"></script>\r\n\r\n</head>\r\n<body cz-shortcut-listen="true">\r\n    <noscript>You need to enable JavaScript to run this app.</noscript>\r\n\r\n    <div id="root">\r\n        <h

In [3]:
#Crinando um objeto BeautifulSoup
soup = BeautifulSoup(html,'html.parser')
soup

<!DOCTYPE html>

<html lang="pt-br">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
<title>Alura Motors</title>
<link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/css/bootstrap.min.css" integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" rel="stylesheet"/>
<link href="css/styles.css" media="all" rel="stylesheet"/>
<script src="https://code.jquery.com/jquery-1.12.4.js"></script>
<script crossorigin="anonymous" integrity="sha384-Tc5IQib027qvyjSMfHjOMaLkfuWVxZxUPnCJA7l2mCWNIpG9mGCD8wGNIcPD7Txa" src="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.7/js/bootstrap.min.js"></script>
<script src="js/index.js" type="text/javascript"></script>
</head>
<body cz-shortcut-listen="true">
<noscript>You need to enable JavaScript to run this app.</noscript>
<div id="root">
<header>
<nav class="navbar navbar-inverse" style="margin-bottom: 0;">
<div class="container" styl

In [4]:
# Acessando uma tag html
soup.find('h1',id='hello-world')

<h1 id="hello-world">Hello World!!!</h1>

In [5]:
# Acessando apenas o conteúdo da tag
soup.find('h1',id='hello-world').get_text()

'Hello World!!!'

In [6]:
soup.find('p')

<p class="definition"><b>Web Scraping</b> é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.</p>

In [7]:
soup.find('p').get_text()

'Web Scraping é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.'

### Exercício: Hello World
Continuando o raciocínio da último vídeo e utilizando o nosso site Alura Motors, analise o código abaixo:

In [8]:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://alura-site-scraping.herokuapp.com/hello-world.php'

response = urlopen(url)
html = response.read()

soup = BeautifulSoup(html, 'html.parser')

soup.find('h1', {'class': 'sub-header'}).get_text()

'Curso de Web Scraping'

Qual será o seu output?<br>
__Dica:__ utilize um notebook para testar o código acima e também a ferramenta do desenvolvedor (F12) do Google Chrome.<br>
__a) 'Curso de Web Scraping'__<br>
_Alternativa correta! Note que, neste código, utilizamos uma forma alternativa de passar os atributos de uma tag para o método find() ({'class': 'sub-header'}). Nos próximos vídeos, vamos entender melhor como este e outros métodos do BeautifulSoup funcionam._<br>
b) 'Web Scraping'<br>
c) 'Hello World!!!'<br>
d) 'Web Scraping é o termo utilizado para definir a prática de coletar automaticamente informações na Internet. Isto é feito, geralmente, por meio de programas que simulam a navegação humana na Web.'

## 02. Obtendo e limpando o HTML

### Entendo a web

### Recapitulando o que vimos

### Obtendo o conteúdo HTML de um site

### Acessando páginas com urlib.request

### Tratamento de strings

### Extraindo informações de strings

## 03. Introdução ao BeautifulSoup

### HTML da nossa página

### As tags de um documento HTML

### Criando um objeto BeautifulSoup

### Utilizando o BeautfulSoup

### Acessando tags

### Varrendo um documento HTML

### Acessando o conteúdo das tags

### Um pouco mais sobre o método get_text()

### Acessando os atributos de uma tag

### Formas de acessar os atributos de uma tag

## 04. Pesquisando com BeautifulSoup

### Os métodos find() e findAll()

### Navegando por arquivos HTML

### Utilizando os métodos find() e findAll()

### Outros métodos de pesquisa

### Um pouco mais sobre os métodos de pesquisa do BeautifulSoup

## 05. Capturando dados do anúncio

### Idenficando e selecionando os dados no HTML

### Procedimento de scraping

### Obtendo o valor do veículo anunciado

### Trabalhando com dicionários python

### Obtendo as informações sobre o veículo anunciado

### Técnicas de pesquisa

### Obtendo os acessórios do veículo anunciado

### Trabalhando com listas

### Criando um Dataframe

### Dataframe com pandas

### Obtendo a foto do anúncio

### Download de arquivos

## 06. Web Scraping da página inteira

### Identificando as informações no HTML

### Métodos do BeautifulSoup

### Criando uma rotina de scraping

### Iterando por tags e acessando atributos

## 07. Dados do site inteiro

### Identificando as informações no HTML

### Retirando informações das informações

### Criando um rotina de scraping

### Recordando um pouco

### Consolidando o seu conhecimnento

### Projeto do curso

### O que aprendemos