# Aula 4 - Exercício de Pandas

Vamos praticando com o Pandas enquanto discutimos cada ponto de manipulação de dados com ele.

---

Vamos usar [dados do IBGE sobre a população Brasileira](https://www.ibge.gov.br/estatisticas/sociais/populacao.html), e tentar aproveitar o Pandas para extrair algumas informações.

O objetivo dessa primeira parte é aprendermos algumas funcionalidades básicas para começarmos a olhar os nossos dados. É sempre importante sabermos qual tipo de dados nós temos, qual a cara deles, se tem algum erro, quantas linhas temos, etc...

Isso nos ajuda muito a nos preparar para de fato começar a fazer análises de dados.

## Lendo o arquivo

In [1]:
# Começamos sempre importando nossas bibliotecas.
import numpy as np
import pandas as pd

In [54]:
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table

df = pd.read_table('dados/populacao_brasileira_por_municipio.txt', sep=";", thousands=".")
df.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


In [57]:
# Tem duas coisas que olhamos, antes de mais nada:
# 1. Quais tipos de dados eu tenho? 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5570 entries, 0 to 5569
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   UF                  5570 non-null   object
 1   COD. UF             5570 non-null   int64 
 2   COD. MUNIC          5570 non-null   int64 
 3   NOME DO MUNICÍPIO   5570 non-null   object
 4   POPULAÇÃO ESTIMADA  5570 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 217.7+ KB


In [58]:
# 2. Quais são as entradas para as 7 primeiras linhas?
df.head(7)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
6,RO,11,72,Corumbiara,7052


In [59]:
# Quantas linhas temos no nosso dataframe?
df.shape

(5570, 5)

In [71]:
# Extraia o nome das colunas do dataframe como um array.
df.columns

pandas.core.indexes.base.Index

In [61]:
# Renomeie as colunas do dataframe de forma que nenhuma delas possua espaço
df.columns = ['UF', 'COD_UF', 'COD_MUNICIPIO', 'NOME_MUNICIPIO','POPULACAO_ESTIMADA']
df.head()

Unnamed: 0,UF,COD_UF,COD_MUNICIPIO,NOME_MUNICIPIO,POPULACAO_ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


## Manipulando meu dataframe e infos básicas

In [62]:
# Qual é o município que aparece na centésima vigésima sétima linha?
df.iloc[127]["NOME_MUNICIPIO"]

'São Sebastião do Uatumã'

In [63]:
# Quantos municípios em tenho para cada unidade da federação?
df.UF.value_counts()

MG    853
SP    645
RS    497
BA    417
PR    399
SC    295
GO    246
PI    224
PB    223
MA    217
PE    185
CE    184
RN    167
PA    144
MT    141
TO    139
AL    102
RJ     92
MS     79
ES     78
SE     75
AM     62
RO     52
AC     22
AP     16
RR     15
DF      1
Name: UF, dtype: int64

In [64]:
# Quantos municípios têm menos de 100 mil habitantes?
len(df[df.POPULACAO_ESTIMADA < 100000])

5244

In [65]:
# Quais são os 5 municípios com maior número de habitantes no Brasil?
sorted_values = df.sort_values(by='POPULACAO_ESTIMADA', ascending=False).copy()
sorted_values.head(5)

Unnamed: 0,UF,COD_UF,COD_MUNICIPIO,NOME_MUNICIPIO,POPULACAO_ESTIMADA
3829,SP,35,50308,São Paulo,12396372
3242,RJ,33,4557,Rio de Janeiro,6775561
5569,DF,53,108,Brasília,3094325
2162,BA,29,27408,Salvador,2900319
949,CE,23,4400,Fortaleza,2703391


In [66]:
# Quais são os 5 municípios com menor número de habitantes no Brasil?
sorted_values.tail(5)

Unnamed: 0,UF,COD_UF,COD_MUNICIPIO,NOME_MUNICIPIO,POPULACAO_ESTIMADA
5077,RS,43,22350,União da Serra,1084
4749,RS,43,6924,Engenho Velho,932
5192,MT,51,1209,Araguainha,909
3348,SP,35,7209,Borá,839
3026,MG,31,66600,Serra da Saudade,771


In [69]:
# Teste fazer as duas questões acima usando nlargest e nsmallest. 
# Se você fez as acima usando nlargest e nsmallets, então tente refazer com sort_values.
df.nlargest(5, 'POPULACAO_ESTIMADA')


Unnamed: 0,UF,COD_UF,COD_MUNICIPIO,NOME_MUNICIPIO,POPULACAO_ESTIMADA
3829,SP,35,50308,São Paulo,12396372
3242,RJ,33,4557,Rio de Janeiro,6775561
5569,DF,53,108,Brasília,3094325
2162,BA,29,27408,Salvador,2900319
949,CE,23,4400,Fortaleza,2703391


In [70]:
# Menos usando o nsmallest
df.nsmallest(5, 'POPULACAO_ESTIMADA')

Unnamed: 0,UF,COD_UF,COD_MUNICIPIO,NOME_MUNICIPIO,POPULACAO_ESTIMADA
3026,MG,31,66600,Serra da Saudade,771
3348,SP,35,7209,Borá,839
5192,MT,51,1209,Araguainha,909
4749,RS,43,6924,Engenho Velho,932
5077,RS,43,22350,União da Serra,1084


In [68]:
# Quais são os códigos únicos de UF que temos?
df["UF"].unique()

array(['RO', 'AC', 'AM', 'RR', 'PA', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN',
       'PB', 'PE', 'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC',
       'RS', 'MS', 'MT', 'GO', 'DF'], dtype=object)