# Aula 4 - Exercício de Pandas

Vamos praticando com o Pandas enquanto discutimos cada ponto de manipulação de dados com ele.

---

Vamos usar [dados do IBGE sobre a população Brasileira](https://www.ibge.gov.br/estatisticas/sociais/populacao.html), e tentar aproveitar o Pandas para extrair algumas informações.

O objetivo dessa primeira parte é aprendermos algumas funcionalidades básicas para começarmos a olhar os nossos dados. É sempre importante sabermos qual tipo de dados nós temos, qual a cara deles, se tem algum erro, quantas linhas temos, etc...

Isso nos ajuda muito a nos preparar para de fato começar a fazer análises de dados.

## Lendo o arquivo

In [1]:
# Começamos sempre importando nossas bibliotecas.
import numpy as np
import pandas as pd

In [2]:
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('/Users/magnovaldo/Documents/Training/lets_code/ds_boticario/boti_pipe/data/populacao_brasileira_por_municipio.txt', sep=';', decimal=',', thousands='.')

df.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


In [3]:
# Tem duas coisas que olhamos, antes de mais nada:
# 1. Quais tipos de dados eu tenho? 
df.info()



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5570 entries, 0 to 5569
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   UF                  5570 non-null   object
 1   COD. UF             5570 non-null   int64 
 2   COD. MUNIC          5570 non-null   int64 
 3   NOME DO MUNICÍPIO   5570 non-null   object
 4   POPULAÇÃO ESTIMADA  5570 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 217.7+ KB


In [4]:
# 2. Quais são as entradas para as 7 primeiras linhas?
df.head(7)



Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
6,RO,11,72,Corumbiara,7052


In [5]:
# Quantas linhas temos no nosso dataframe?
df.shape[0]




5570

In [6]:
# Extraia o nome das colunas do dataframe como um array.
cols = df.columns
cols

Index(['UF', 'COD. UF', 'COD. MUNIC', 'NOME DO MUNICÍPIO',
       'POPULAÇÃO ESTIMADA'],
      dtype='object')

In [7]:
# Renomeie as colunas do dataframe de forma que nenhuma delas possua espaço
df.columns = df.columns.str.replace(' ', '_')
df.columns


Index(['UF', 'COD._UF', 'COD._MUNIC', 'NOME_DO_MUNICÍPIO',
       'POPULAÇÃO_ESTIMADA'],
      dtype='object')

## Manipulando meu dataframe e infos básicas

In [8]:
# Qual é o município que aparece na centésima vigésima sétima linha?
df.iloc[126, 3]



'São Paulo de Olivença'

In [9]:
UF = df['UF']
UF.value_counts()

MG    853
SP    645
RS    497
BA    417
PR    399
SC    295
GO    246
PI    224
PB    223
MA    217
PE    185
CE    184
RN    167
PA    144
MT    141
TO    139
AL    102
RJ     92
MS     79
ES     78
SE     75
AM     62
RO     52
AC     22
AP     16
RR     15
DF      1
Name: UF, dtype: int64

In [10]:
# Quantos municípios em tenho para cada unidade da federação?
df.groupby('UF')['UF'].count()


UF
AC     22
AL    102
AM     62
AP     16
BA    417
CE    184
DF      1
ES     78
GO    246
MA    217
MG    853
MS     79
MT    141
PA    144
PB    223
PE    185
PI    224
PR    399
RJ     92
RN    167
RO     52
RR     15
RS    497
SC    295
SE     75
SP    645
TO    139
Name: UF, dtype: int64

In [11]:
df.groupby('UF').agg({'UF'})

AttributeError: 'SeriesGroupBy' object has no attribute 'UF'

In [12]:
# Quantos municípios têm menos de 100 mil habitantes?
menos_100k = df.query("POPULAÇÃO_ESTIMADA < 100000").shape[0]

menos_100k

5244

In [13]:
# Quais são os 5 municípios com maior número de habitantes no Brasil?

df.sort_values(by='POPULAÇÃO_ESTIMADA', ascending=False).head(5)


Unnamed: 0,UF,COD._UF,COD._MUNIC,NOME_DO_MUNICÍPIO,POPULAÇÃO_ESTIMADA
3829,SP,35,50308,São Paulo,12396372
3242,RJ,33,4557,Rio de Janeiro,6775561
5569,DF,53,108,Brasília,3094325
2162,BA,29,27408,Salvador,2900319
949,CE,23,4400,Fortaleza,2703391


In [14]:
# Quais são os 5 municípios com menor número de habitantes no Brasil?

df.sort_values(by='POPULAÇÃO_ESTIMADA', ascending=True).head(5)


Unnamed: 0,UF,COD._UF,COD._MUNIC,NOME_DO_MUNICÍPIO,POPULAÇÃO_ESTIMADA
3026,MG,31,66600,Serra da Saudade,771
3348,SP,35,7209,Borá,839
5192,MT,51,1209,Araguainha,909
4749,RS,43,6924,Engenho Velho,932
5077,RS,43,22350,União da Serra,1084


In [15]:

df.nlargest(5, 'POPULAÇÃO_ESTIMADA')

Unnamed: 0,UF,COD._UF,COD._MUNIC,NOME_DO_MUNICÍPIO,POPULAÇÃO_ESTIMADA
3829,SP,35,50308,São Paulo,12396372
3242,RJ,33,4557,Rio de Janeiro,6775561
5569,DF,53,108,Brasília,3094325
2162,BA,29,27408,Salvador,2900319
949,CE,23,4400,Fortaleza,2703391


In [16]:
# Teste fazer as duas questões acima usando nlargest e nsmallest. 
# Se você fez as acima usando nlargest e nsmallets, então tente refazer com sort_values.

df.nsmallest(5, 'POPULAÇÃO_ESTIMADA')



Unnamed: 0,UF,COD._UF,COD._MUNIC,NOME_DO_MUNICÍPIO,POPULAÇÃO_ESTIMADA
3026,MG,31,66600,Serra da Saudade,771
3348,SP,35,7209,Borá,839
5192,MT,51,1209,Araguainha,909
4749,RS,43,6924,Engenho Velho,932
5077,RS,43,22350,União da Serra,1084


In [17]:
# Quais são os códigos únicos de UF que temos?
df.UF.unique()



array(['RO', 'AC', 'AM', 'RR', 'PA', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN',
       'PB', 'PE', 'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC',
       'RS', 'MS', 'MT', 'GO', 'DF'], dtype=object)

In [18]:
df.describe()

Unnamed: 0,COD._UF,COD._MUNIC,POPULAÇÃO_ESTIMADA
count,5570.0,5570.0,5570.0
mean,32.377738,15816.982585,38297.6
std,9.833862,15997.29978,224288.2
min,11.0,13.0,771.0
25%,25.0,4507.25,5454.0
50%,31.0,10400.5,11732.0
75%,41.0,20853.0,25764.75
max,53.0,72202.0,12396370.0
