<a href="https://colab.research.google.com/github/renan-cav/IDHM-Sao-Paulo/blob/main/Raspagem_IDHM_2010.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Raspagem de tabela do site do Programa das Nações Unidas para o Desenvolvimento

Site: https://www.br.undp.org/content/brazil/pt/home/idh0/rankings/idhm-municipios-2010.html

Código Fonte: https://www.br.undp.org/content/brazil/pt/home/idh0/rankings/idhm-municipios-2010.html

In [None]:
!pip install quickda # Instala a biblioteca quickda que serve para análise de dados

In [6]:
import csv # Importar as bibliotecas necessárias
import pandas as pd
import quickda

from quickda.clean_data import * # Limpar o dataframe
from quickda.explore_data import *

In [7]:
url = "https://www.br.undp.org/content/brazil/pt/home/idh0/rankings/idhm-municipios-2010.html"
html = pd.read_html(url) # Puxa a tabela direto da URL Definida
df = html[0] # Extrai a tabela do HTML

In [8]:
df.head()

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
0,1 º,São Caetano do Sul (SP),862,891,887,811
1,2 º,Águas de São Pedro (SP),854,849,890,825
2,3 º,Florianópolis (SC),847,870,873,800
3,4 º,Balneário Camboriú (SC),845,854,894,789
4,4 º,Vitória (ES),845,876,855,805


In [9]:
df["Ranking IDHM 2010"] = df["Ranking IDHM 2010"].str.replace("º", "").str.replace("td>", "") # Retirar "º" do Ranking e corrigir erro em uma das linhas
df[["municipio","estado"]] = df["Município"].str.split("(", expand=True) # Dividir a coluna munícipio e criar a coluna estado
df["estado"] = df["estado"].str.replace(")","") # Tirar o parêntese que estava sobrando
df = df.rename(columns={"Ranking IDHM 2010": "Ranking", "IDHM Renda 2010": "IDHM Renda", "IDHM Longevidade 2010": "IDHM Longev", "IDHM Educação 2010" : "IDHM Edu"}) # Renomear as colunas
df = df.drop("Município", 1) # Retirar a coluna "Município". O 1 no fim do código significa que uma coluna deve ser retirada.

In [None]:
df.head()

In [10]:
df = df[["Ranking", "municipio", "estado", "IDHM 2010","IDHM Renda", "IDHM Longev", "IDHM Edu"]] # Reordenar as colunas

In [264]:
df.head()

Unnamed: 0,Ranking,municipio,estado,IDHM 2010,IDHM Renda,IDHM Longev,IDHM Edu
0,1,São Caetano do Sul,SP,862,891,887,811
1,2,Águas de São Pedro,SP,854,849,890,825
2,3,Florianópolis,SC,847,870,873,800
3,4,Balneário Camboriú,SC,845,854,894,789
4,4,Vitória,ES,845,876,855,805


In [11]:
df = clean(df, method='standardize') # Padroniza o cabeçalho da base de dados

In [266]:
df.head()

Unnamed: 0,ranking,municipio,estado,idhm_2010,idhm_renda,idhm_longev,idhm_edu
0,1,São Caetano do Sul,SP,862,891,887,811
1,2,Águas de São Pedro,SP,854,849,890,825
2,3,Florianópolis,SC,847,870,873,800
3,4,Balneário Camboriú,SC,845,854,894,789
4,4,Vitória,ES,845,876,855,805


In [244]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5565 entries, 0 to 5564
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   ranking           5565 non-null   object
 1   municipio         5565 non-null   object
 2   estado            5565 non-null   object
 3   idhm_2010         5565 non-null   int64 
 4   idhm_renda        5565 non-null   object
 5   idhm_longevidade  5565 non-null   object
 6   idhm_educação     5565 non-null   int64 
dtypes: int64(2), object(5)
memory usage: 304.5+ KB


In [245]:
df = df.convert_dtypes(infer_objects=True)

In [246]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5565 entries, 0 to 5564
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   ranking           5565 non-null   string
 1   municipio         5565 non-null   string
 2   estado            5565 non-null   string
 3   idhm_2010         5565 non-null   Int64 
 4   idhm_renda        5565 non-null   string
 5   idhm_longevidade  5565 non-null   string
 6   idhm_educação     5565 non-null   Int64 
dtypes: Int64(2), string(5)
memory usage: 315.3 KB


In [255]:
df["ranking"] = df["ranking"].astype(int)

In [248]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5565 entries, 0 to 5564
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   ranking           5565 non-null   int64 
 1   municipio         5565 non-null   string
 2   estado            5565 non-null   string
 3   idhm_2010         5565 non-null   Int64 
 4   idhm_renda        5565 non-null   string
 5   idhm_longevidade  5565 non-null   string
 6   idhm_educação     5565 non-null   Int64 
dtypes: Int64(2), int64(1), string(4)
memory usage: 315.3 KB


In [186]:
df.query("estado == 'SP'")

Unnamed: 0,ranking,municipio,estado,idhm_2010,idhm_renda,idhm_longevidade,idhm_educação
0,1,São Caetano do Sul,SP,862,0891,0887,811
1,2,Águas de São Pedro,SP,854,0849,0890,825
5,6,Santos,SP,840,0861,0852,807
10,11,Jundiaí,SP,822,0834,0866,768
11,12,Valinhos,SP,819,0848,0850,763
...,...,...,...,...,...,...,...
2967,2964,Redenção da Serra,SP,657,0633,0799,560
3013,3008,Natividade da Serra,SP,655,0664,0814,520
3098,3090,Nova Campina,SP,651,0598,0799,577
3275,3275,Barra do Turvo,SP,641,0625,0792,532


In [None]:
df.to_csv("IDH_2010_RMSP.csv")