# Web Scraping

O web scraping, também conhecido como extração de dados da web, é o processo de coletar dados estruturados em páginas da web de maneira automatizada.

In [2]:
# Importando as bibliotecas
import requests
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
from lxml import etree, html
import matplotlib.pyplot as plt

##Criando Links

In [3]:
# URL com a tabela de dados
start_url = 'https://www.worldometers.info/world-population/latin-america-and-the-caribbean-population/'

### Obtendo o conteúdo da página em formato de texto


In [4]:
headers = { 
    'User-Agent'      : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36', 
    'Accept'          : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
    'Accept-Language' : 'en-US,en;q=0.5',
    'DNT'             : '1', # Do Not Track Request Header 
    'Connection'      : 'close'
}

In [5]:
data = requests.get(start_url, headers=headers, timeout=5).text
soup = BeautifulSoup(data,"html.parser")

In [6]:
# Procurando a tabela da página
table = soup.find_all('table')[2] # em html uma tabela é representada pela tag <table>

In [7]:
table

<table class="table table-striped table-bordered table-hover table-condensed table-list"><thead> <tr> <th>Year</th><th>Population</th><th>Yearly % <br/> Change</th><th>Yearly<br/> Change</th><th>Migrants (net)</th><th>Median Age</th><th>Fertility Rate</th><th>Density (P/Km²)</th><th>Urban<br/> Pop %</th><th>Urban Population</th><th>Latin America and the Caribbean's<br/>Share of<br/> World Pop</th><th>World Population</th><th>Latin America and the Caribbean<br/> Rank </th> </tr></thead><tbody> <tr> <td>2020</td> <td><strong>653,962,331</strong></td> <td>0.94 %</td> <td>6,005,633</td> <td>-521,499</td> <td>31.0</td> <td>2.04</td> <td>32</td> <td>82.5 %</td> <td>539,427,335</td> <td>8.9 %</td> <td>7,794,798,739</td> <td>4</td> </tr> <tr> <td>2019</td> <td><strong>648,120,957</strong></td> <td>0.92 %</td> <td>5,904,275</td> <td>-521,499</td> <td>29.5</td> <td>2.12</td> <td>32</td> <td>82.2 %</td> <td>532,783,467</td> <td>8.4 %</td> <td>7,713,468,100</td> <td>4</td> </tr> <tr> <td>2018</td>

In [8]:
# Definindo dataframe
df = pd.DataFrame(columns=['Year','Population'])

In [9]:
# Obtendo todas as linhas da tabela
for row in table.tbody.find_all('tr'): # em html uma linha da tabela é representada pela tag <tr>
    # Obtendo todas as colunas em cada linha
    columns = row.find_all('td')  # em html uma coluna da tabela é representada pela tag <td>
    if(columns != []):
        year = columns[0].text.strip(' ')
        population = columns[1].text.strip(' ')

        df = pd.concat([df, pd.DataFrame.from_records([{'Year': year, 'Population':population}])], ignore_index=True)
        


In [10]:
df.head(20)

Unnamed: 0,Year,Population
0,2020,653962331
1,2019,648120957
2,2018,642216682
3,2017,636233123
4,2016,630144555
5,2015,623934168
6,2010,591352388
7,2005,557501032
8,2000,521836304
9,1995,483018265


In [11]:
# Exportando dados
df.to_csv('papel.csv', index=False)

---

# Registro de Alterações (*Change Log*)

| Data (DD/MM/YYYY) | Versão  | Alterado Por | Descrição da Mudança                |
| ----------------- | ------- | ------------ | ----------------------------------- |
| 08/04/2022        | 1.0     | Luiz Gustavo      | Versão inicial                      |
| 08/12/2022        | 1.1     | Luiz Gustavo     | Versão inicial                      |