In [1]:
# importando as bibliotecas

import pandas as pd
import requests
from bs4 import BeautifulSoup

In [2]:
# URL para raspagem do IDH
url = 'https://www.undp.org/pt/brazil/idhm-munic%C3%ADpios-2010'

In [3]:
# Função para buscar o soup

def get_soup(url):
    
    # get retorno o objeto com alguns atributos, como content e status code
    html = requests.get(url)
    
    # Verificar se houve falha na requisição (Status code == 200 significa que foi bem sucedida)
    if html.status_code != 200:
        print('Falha na requisição - status code = 200')
    else:    
        # Passa o conteúdo da página
        html_content = html.content
    
    # Parsear o conteúdo buscado, deixando-o mais estruturado de acordo com as tags de HTML
    soup = BeautifulSoup(html_content, 'html.parser')
    
    return soup

In [4]:
# Buscar o soup
soup = get_soup(url)

In [5]:
# Dividindo a classe da tabela em listas estruturadas
s = soup.find('div', class_='coh-container m-content coh-wysiwyg')
content = s.find_all('tr')
 
print(content)

[<tr class="tableizer-firstrow"><th style="width: 60px;">Ranking IDHM 2010</th>
<th>Município</th>
<th style="width: 80px;">IDHM 2010</th>
<th style="width: 80px;">IDHM<br/>
Renda<br/>
2010</th>
<th style="width: 80px;">IDHM Longevidade 2010</th>
<th style="width: 80px;">IDHM Educação 2010</th>
</tr>, <tr><td>1 º</td>
<td>São Caetano do Sul (SP)</td>
<td>0,862</td>
<td>0,891</td>
<td>0,887</td>
<td>0,811</td>
</tr>, <tr><td>2 º</td>
<td>Águas de São Pedro (SP)</td>
<td>0,854</td>
<td>0,849</td>
<td>0,890</td>
<td>0,825</td>
</tr>, <tr><td>3 º</td>
<td>Florianópolis (SC)</td>
<td>0,847</td>
<td>0,870</td>
<td>0,873</td>
<td>0,800</td>
</tr>, <tr><td>4 º</td>
<td>Balneário Camboriú (SC)</td>
<td>0,845</td>
<td>0,854</td>
<td>0,894</td>
<td>0,789</td>
</tr>, <tr><td>4 º</td>
<td>Vitória (ES)</td>
<td>0,845</td>
<td>0,876</td>
<td>0,855</td>
<td>0,805</td>
</tr>, <tr><td>6 º</td>
<td>Santos (SP)</td>
<td>0,840</td>
<td>0,861</td>
<td>0,852</td>
<td>0,807</td>
</tr>, <tr><td>7 º</td>
<td>Ni

In [6]:
# Cabeçalho
content[0]

<tr class="tableizer-firstrow"><th style="width: 60px;">Ranking IDHM 2010</th>
<th>Município</th>
<th style="width: 80px;">IDHM 2010</th>
<th style="width: 80px;">IDHM<br/>
Renda<br/>
2010</th>
<th style="width: 80px;">IDHM Longevidade 2010</th>
<th style="width: 80px;">IDHM Educação 2010</th>
</tr>

In [7]:
# Valores da Tabela
content_table = content[1:]

In [8]:
x = str(content_table[0]).split('<td>')
x

['<tr>',
 '1 º</td>\n',
 'São Caetano do Sul (SP)</td>\n',
 '0,862</td>\n',
 '0,891</td>\n',
 '0,887</td>\n',
 '0,811</td>\n</tr>']

In [9]:
# Contruindo a linha do DataFrame
[x[1][:-6], x[2][:-11], x[2][-9:-7], x[3][:-6], x[4][:-6], x[5][:-6], x[6][:-11]]

['1 º', 'São Caetano do Sul', 'SP', '0,862', '0,891', '0,887', '0,811']

In [10]:
# Definindo o nome das colunas
colunas = ['Ranking IDHM 2010', 'Município', 'UF', 'IDHM 2010', 'IDHM Renda', 'IDHM Longevidade', 'IDHM Educação']

In [11]:
# Construindo o Dataframe
lista = []
for i in range (len(content_table)):
    x = str(content_table[i]).split('<td>')
    line = [x[1][:-6], x[2][:-11], x[2][-9:-7], x[3][:-6], x[4][:-6], x[5][:-6], x[6][:-11]]
    lista.append(line)
df_idh = pd.DataFrame(lista)
df_idh.columns = colunas

In [12]:
df_idh

Unnamed: 0,Ranking IDHM 2010,Município,UF,IDHM 2010,IDHM Renda,IDHM Longevidade,IDHM Educação
0,1 º,São Caetano do Sul,SP,0862,0891,0887,0811
1,2 º,Águas de São Pedro,SP,0854,0849,0890,0825
2,3 º,Florianópolis,SC,0847,0870,0873,0800
3,4 º,Balneário Camboriú,SC,0845,0854,0894,0789
4,4 º,Vitória,ES,0845,0876,0855,0805
...,...,...,...,...,...,...,...
5560,5560 º,Uiramutã,RR,0453,0439,0766,0276
5561,5562 º,Marajá do Sena,MA,0452,0400,0774,0299
5562,5563 º,Atalaia do Norte,AM,0450,0481,0733,0259
5563,5564 º,Fernando Falcão,MA,0443,0417,0728,0286


In [14]:
df_idh.to_csv('municípios_idh.csv', index=False)