# Tratamento, Exploração e Visualização de Dados

## Referências
* [Artigo da Analytics Vidhya](https://www.analyticsvidhya.com/blog/2021/06/data-manipulation-using-pandas-essential-functionalities-of-pandas-you-need-to-know/#:~:text=Pandas%20is%20an%20open%2Dsource,work%20on%2C%20DataFrame%20and%20Series)
* [IBGE](https://www.ibge.gov.br/estatisticas/sociais/populacao/9103-estimativas-de-populacao.html?=&t=resultados)
* [Doc Pandas](https://pandas.pydata.org/%3E)

> Base de dados pode ser obtida [aqui](https://github.com/alura-cursos/agendamento-hospitalar/blob/main/dados/estimativa_dou_2020.xls?raw=true)

## Parte I

In [1]:
from pathlib import Path
from urllib.request import urlretrieve

PATH_DATA_RAW = './data/raw'
URL_DADOS = 'https://github.com/alura-cursos/agendamento-hospitalar/blob/main/dados/estimativa_dou_2020.xls?raw=true'
PATH_DADOS = PATH_DATA_RAW + '/estimativa_dou_2020.xls'

Path(PATH_DATA_RAW).mkdir(parents=True, exist_ok=True)

urlretrieve(URL_DADOS,
            PATH_DADOS)

('./data/raw/estimativa_dou_2020.xls',
 <http.client.HTTPMessage at 0x7318383ee850>)

In [2]:
import pandas as pd

In [3]:
df = pd.read_excel(PATH_DADOS)

df.head()

Unnamed: 0,ESTIMATIVAS DA POPULAÇÃO RESIDENTE NO BRASIL E UNIDADES DA FEDERAÇÃO COM DATA DE REFERÊNCIA EM 1º DE JULHO DE 2020,Unnamed: 1,Unnamed: 2
0,BRASIL E UNIDADES DA FEDERAÇÃO,,POPULAÇÃO ESTIMADA
1,Brasil,,211755692
2,Região Norte,,18672591
3,Rondônia,,1796460
4,Acre,,894470


In [4]:
# Fonte: https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o
# Fonte indireta

dados_populacao_wiki = """Unidade federativa	População	% da pop. total	País comparável

São Paulo	46 649 132	21,9%	Flag of Spain.svg Espanha (46 439 864)
Minas Gerais	21 411 923	10,1%	 Sri Lanka (20 675 000)
Rio de Janeiro	17 463 349	8,2%	 Países Baixos (16 922 900)
Bahia Bahia	14 985 284	7,1%	 Chade (14 037 000)
Paraná	11 597 484	5,4%	 Bolívia (11 410 651)
Rio Grande do Sul	11 466 630	5,4%	 Bélgica (11 250 659)
Pernambuco	9 674 793	4,5%	 Bielorrússia (9 485 300)
Ceará	9 240 580	4,3%	 Emirados Árabes Unidos (9 157 000)
Pará Pará	8 777 124	4,1%	 Áustria (8 602 112)
Santa Catarina	7 338 473	3,4%	 Sérvia (7 114 393)
Goiás	7 206 589	3,4%	 Paraguai (7 003 406)
Maranhão	7 153 262	3,4%	 Paraguai (7 003 406)
Amazonas	4 269 995	2,0%	 Líbano (4 168 000)
Espírito Santo	4 108 508	1,9%	 Líbano (4 168 000)
Paraíba	4 059 905	1,9%	 Líbano (4 168 000)
Mato Grosso	3 567 234	1,7%	 Uruguai (3 415 866)
Rio Grande do Norte	3 560 903	1,7%	 Uruguai (3 415 866)
Alagoas	3 365 351	1,6%	 Uruguai (3 415 866)
Piauí	3 289 290	1,6%	 Kuwait (3 268 431)
Distrito Federal	3 094 325	1,4%	 Lituânia (2 900 787)
Mato Grosso do Sul	2 839 188	1,3%	 Jamaica (2 717 991)
Sergipe	2 338 474	1,1%	 Namíbia (2 280 700)
Rondônia	1 815 278	0,8%	 Gabão (1 725 000)
Tocantins	1 607 363	0,7%	 Bahrein (1 359 800)
Acre	906 876	0,4%	 Fiji (859 178)
Amapá	877 613	0,4%	 Fiji (859 178)
Roraima	652 713	0,3%	 Luxemburgo (562 958)"""

len(dados_populacao_wiki)

1363

In [5]:
from io import StringIO

dados_populacao_wiki_io = StringIO(dados_populacao_wiki)

dados_populacao_wiki_io

<_io.StringIO at 0x73173b109240>

In [6]:
df_populacao = pd.read_csv(dados_populacao_wiki_io,
                           sep='\t')

df_populacao.head()

Unnamed: 0,Unidade federativa,População,% da pop. total,País comparável
0,São Paulo,46 649 132,"21,9%",Flag of Spain.svg Espanha (46 439 864)
1,Minas Gerais,21 411 923,"10,1%",Sri Lanka (20 675 000)
2,Rio de Janeiro,17 463 349,"8,2%",Países Baixos (16 922 900)
3,Bahia Bahia,14 985 284,"7,1%",Chade (14 037 000)
4,Paraná,11 597 484,"5,4%",Bolívia (11 410 651)


### Desafio 2: Limpar tabela do ibge

In [7]:
ibge = pd.read_excel(PATH_DADOS, 
                     skiprows=1,
                     skipfooter=7)

ibge.head()

Unnamed: 0,BRASIL E UNIDADES DA FEDERAÇÃO,Unnamed: 1,POPULAÇÃO ESTIMADA
0,Brasil,,211755692
1,Região Norte,,18672591
2,Rondônia,,1796460
3,Acre,,894470
4,Amazonas,,4207714


In [8]:
ibge = ibge.drop(['Unnamed: 1'], axis=1)

ibge.head()

Unnamed: 0,BRASIL E UNIDADES DA FEDERAÇÃO,POPULAÇÃO ESTIMADA
0,Brasil,211755692
1,Região Norte,18672591
2,Rondônia,1796460
3,Acre,894470
4,Amazonas,4207714


In [9]:
ibge.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 2 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   BRASIL E UNIDADES DA FEDERAÇÃO  33 non-null     object
 1   POPULAÇÃO ESTIMADA              33 non-null     object
dtypes: object(2)
memory usage: 660.0+ bytes


### Desafio 3: Ler tabela da Wiki diretamente pelo HTML

In [10]:
! pip install lxml



In [11]:
URL_WIKI = 'https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o'

df_wiki = pd.read_html(URL_WIKI)[1]

df_wiki.head()

Unnamed: 0,Posição,Unidade federativa,População (Censo de 2022)[2],População (Censo de 2010)[3],Mudança,% da pop. total,País comparável (habitantes)
0,1,São Paulo,44 411 238,41 262 199,+7.63%,"21,88%",Argentina (46 621 847)
1,2,Minas Gerais,20 538 718,19 597 330,+4.81%,"10,11%",Burquina Fasso (20 903 273)
2,3,Rio de Janeiro,16 054 524,15 989 929,+0.40%,"7,91%",Camboja (16 718 965)
3,4,Bahia,14 141 626,14 016 906,+0.89%,"6,96%",Zimbabwe (14 862 924)
4,5,Paraná,11 444 380,10 444 526,+9.57%,"5,64%",Tunísia (11 818 619)


## Parte II

In [12]:
df_populacao

Unnamed: 0,Unidade federativa,População,% da pop. total,País comparável
0,São Paulo,46 649 132,"21,9%",Flag of Spain.svg Espanha (46 439 864)
1,Minas Gerais,21 411 923,"10,1%",Sri Lanka (20 675 000)
2,Rio de Janeiro,17 463 349,"8,2%",Países Baixos (16 922 900)
3,Bahia Bahia,14 985 284,"7,1%",Chade (14 037 000)
4,Paraná,11 597 484,"5,4%",Bolívia (11 410 651)
5,Rio Grande do Sul,11 466 630,"5,4%",Bélgica (11 250 659)
6,Pernambuco,9 674 793,"4,5%",Bielorrússia (9 485 300)
7,Ceará,9 240 580,"4,3%",Emirados Árabes Unidos (9 157 000)
8,Pará Pará,8 777 124,"4,1%",Áustria (8 602 112)
9,Santa Catarina,7 338 473,"3,4%",Sérvia (7 114 393)


In [13]:
df_populacao.columns = ['uf', 'populacao', 
                        'porcentagem', 'pais_comparavel']

df_populacao.head()

Unnamed: 0,uf,populacao,porcentagem,pais_comparavel
0,São Paulo,46 649 132,"21,9%",Flag of Spain.svg Espanha (46 439 864)
1,Minas Gerais,21 411 923,"10,1%",Sri Lanka (20 675 000)
2,Rio de Janeiro,17 463 349,"8,2%",Países Baixos (16 922 900)
3,Bahia Bahia,14 985 284,"7,1%",Chade (14 037 000)
4,Paraná,11 597 484,"5,4%",Bolívia (11 410 651)


In [14]:
df_populacao['populacao'] = df_populacao['populacao'].str.replace(' ', '')

df_populacao

Unnamed: 0,uf,populacao,porcentagem,pais_comparavel
0,São Paulo,46649132,"21,9%",Flag of Spain.svg Espanha (46 439 864)
1,Minas Gerais,21411923,"10,1%",Sri Lanka (20 675 000)
2,Rio de Janeiro,17463349,"8,2%",Países Baixos (16 922 900)
3,Bahia Bahia,14985284,"7,1%",Chade (14 037 000)
4,Paraná,11597484,"5,4%",Bolívia (11 410 651)
5,Rio Grande do Sul,11466630,"5,4%",Bélgica (11 250 659)
6,Pernambuco,9674793,"4,5%",Bielorrússia (9 485 300)
7,Ceará,9240580,"4,3%",Emirados Árabes Unidos (9 157 000)
8,Pará Pará,8777124,"4,1%",Áustria (8 602 112)
9,Santa Catarina,7338473,"3,4%",Sérvia (7 114 393)


In [15]:
df_populacao['populacao'] = df_populacao['populacao'].astype('int')

df_populacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   uf               27 non-null     object
 1   populacao        27 non-null     int64 
 2   porcentagem      27 non-null     object
 3   pais_comparavel  27 non-null     object
dtypes: int64(1), object(3)
memory usage: 996.0+ bytes


In [16]:
df_populacao['populacao'].describe()

count    2.700000e+01
mean     7.900653e+06
std      9.380644e+06
min      6.527130e+05
25%      2.966756e+06
50%      4.108508e+06
75%      9.457686e+06
max      4.664913e+07
Name: populacao, dtype: float64

In [17]:
df_populacao = df_populacao[['uf', 'populacao']]

df_populacao

Unnamed: 0,uf,populacao
0,São Paulo,46649132
1,Minas Gerais,21411923
2,Rio de Janeiro,17463349
3,Bahia Bahia,14985284
4,Paraná,11597484
5,Rio Grande do Sul,11466630
6,Pernambuco,9674793
7,Ceará,9240580
8,Pará Pará,8777124
9,Santa Catarina,7338473


In [18]:
from urllib.request import urlretrieve
from pathlib import Path
from zipfile import ZipFile

DATA_URL = 'https://github.com/alura-tech/pos-datascience-analise-e-exploracao-de-dados/archive/refs/heads/Dados.zip'
DATA_PATH_RAW = './data/raw'
DATA_PATH_EXTRACTED = './data/interim'

Path(DATA_PATH_RAW).mkdir(parents=True, exist_ok=True)
Path(DATA_PATH_EXTRACTED).mkdir(parents=True, exist_ok=True)

urlretrieve(DATA_URL, DATA_PATH_RAW + '/data.zip')

with ZipFile(DATA_PATH_RAW + '/data.zip') as zip_ref:
    zip_ref.extractall(DATA_PATH_EXTRACTED)

In [19]:
FILE_PATH = './data/interim/pos-datascience-analise-e-exploracao-de-dados-Dados/A150850189_28_143_208.csv'

df_gastos = pd.read_csv(FILE_PATH,
                        encoding='ISO-8859-1', # Latin One
                        skiprows=3,
                        sep=';',
                        skipfooter=12,
                        thousands='.',
                        decimal=',')

df_gastos.shape

  df_gastos = pd.read_csv(FILE_PATH,


(27, 293)

In [20]:
df_gastos = df_gastos.iloc[:, [0, -3]]

df_gastos.set_index('Unidade da Federação', inplace=True)

df_gastos

Unnamed: 0_level_0,2021/Ago
Unidade da Federação,Unnamed: 1_level_1
11 Rondônia,7371335.0
12 Acre,1196755.0
13 Amazonas,13806960.0
14 Roraima,2907871.0
15 Pará,20837870.0
16 Amapá,1875242.0
17 Tocantins,2304080.0
21 Maranhão,25779670.0
22 Piauí,15220890.0
23 Ceará,35650010.0


In [21]:
df_populacao.join(df_gastos)

Unnamed: 0,uf,populacao,2021/Ago
0,São Paulo,46649132,
1,Minas Gerais,21411923,
2,Rio de Janeiro,17463349,
3,Bahia Bahia,14985284,
4,Paraná,11597484,
5,Rio Grande do Sul,11466630,
6,Pernambuco,9674793,
7,Ceará,9240580,
8,Pará Pará,8777124,
9,Santa Catarina,7338473,


In [22]:
df_gastos.index = df_gastos.index.str[3:]

df_gastos

Unnamed: 0_level_0,2021/Ago
Unidade da Federação,Unnamed: 1_level_1
Rondônia,7371335.0
Acre,1196755.0
Amazonas,13806960.0
Roraima,2907871.0
Pará,20837870.0
Amapá,1875242.0
Tocantins,2304080.0
Maranhão,25779670.0
Piauí,15220890.0
Ceará,35650010.0


In [23]:
df_populacao.set_index('uf', inplace=True)

df_populacao

Unnamed: 0_level_0,populacao
uf,Unnamed: 1_level_1
São Paulo,46649132
Minas Gerais,21411923
Rio de Janeiro,17463349
Bahia Bahia,14985284
Paraná,11597484
Rio Grande do Sul,11466630
Pernambuco,9674793
Ceará,9240580
Pará Pará,8777124
Santa Catarina,7338473


In [24]:
df_populacao.join(df_gastos)

Unnamed: 0_level_0,populacao,2021/Ago
uf,Unnamed: 1_level_1,Unnamed: 2_level_1
São Paulo,46649132,301986300.0
Minas Gerais,21411923,139157800.0
Rio de Janeiro,17463349,94137360.0
Bahia Bahia,14985284,
Paraná,11597484,91187720.0
Rio Grande do Sul,11466630,74954590.0
Pernambuco,9674793,71625840.0
Ceará,9240580,35650010.0
Pará Pará,8777124,
Santa Catarina,7338473,48885000.0


In [25]:
for estado in df_gastos.index:
    df_populacao.index = df_populacao.index.str.replace(f'{estado} {estado}', estado)

In [26]:
df_populacao.index

Index(['São Paulo', 'Minas Gerais', 'Rio de Janeiro', 'Bahia', 'Paraná',
       'Rio Grande do Sul', 'Pernambuco', 'Ceará', 'Pará', 'Santa Catarina',
       'Goiás', 'Maranhão', 'Amazonas', 'Espírito Santo', 'Paraíba',
       'Mato Grosso', 'Rio Grande do Norte', 'Alagoas', 'Piauí',
       'Distrito Federal', 'Mato Grosso do Sul', 'Sergipe', 'Rondônia',
       'Tocantins', 'Acre', 'Amapá', 'Roraima'],
      dtype='object', name='uf')

In [27]:
df_populacao.join(df_gastos)

Unnamed: 0_level_0,populacao,2021/Ago
uf,Unnamed: 1_level_1,Unnamed: 2_level_1
São Paulo,46649132,301986300.0
Minas Gerais,21411923,139157800.0
Rio de Janeiro,17463349,94137360.0
Bahia,14985284,61645690.0
Paraná,11597484,91187720.0
Rio Grande do Sul,11466630,74954590.0
Pernambuco,9674793,71625840.0
Ceará,9240580,35650010.0
Pará,8777124,20837870.0
Santa Catarina,7338473,48885000.0


In [28]:
df_populacao.to_csv('./data/interim/fase1_parte2_aula1_2-populacao.csv')

df_gastos.to_csv('./data/interim/fase1_parte2_aula1_2-gastos.csv')