# Aula 4 - Exercício de Pandas

Vamos praticando com o Pandas enquanto discutimos cada ponto de manipulação de dados com ele.

---

Vamos usar [dados do IBGE sobre a população Brasileira](https://www.ibge.gov.br/estatisticas/sociais/populacao.html), e tentar aproveitar o Pandas para extrair algumas informações.

O objetivo dessa primeira parte é aprendermos algumas funcionalidades básicas para começarmos a olhar os nossos dados. É sempre importante sabermos qual tipo de dados nós temos, qual a cara deles, se tem algum erro, quantas linhas temos, etc...

Isso nos ajuda muito a nos preparar para de fato começar a fazer análises de dados.

## Lendo o arquivo

In [1]:
# Começamos sempre importando nossas bibliotecas.
import numpy as np
import pandas as pd

In [21]:
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('dados/populacao_brasileira_por_municipio.txt',
                   sep=';',
                   decimal=',',
                   thousands='.')

In [6]:
# Tem duas coisas que olhamos, antes de mais nada:
# 1. Quais tipos de dados eu tenho? 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5570 entries, 0 to 5569
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   UF                  5570 non-null   object
 1   COD. UF             5570 non-null   int64 
 2   COD. MUNIC          5570 non-null   int64 
 3   NOME DO MUNICÍPIO   5570 non-null   object
 4   POPULAÇÃO ESTIMADA  5570 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 217.7+ KB


In [7]:
# 2. Quais são as entradas para as 7 primeiras linhas?
df.head(7)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088
5,RO,11,64,Colorado do Oeste,15213
6,RO,11,72,Corumbiara,7052


In [8]:
# Quantas linhas temos no nosso dataframe?
df.shape

(5570, 5)

In [13]:
print(type(df.shape))

<class 'tuple'>


In [12]:
df.shape[0]

5570

In [14]:
len(df)

5570

In [18]:
df.count()[1]

5570

In [9]:
# Extraia o nome das colunas do dataframe como um array.
cols = df.columns

In [10]:
print(cols)

Index(['UF', 'COD. UF', 'COD. MUNIC', 'NOME DO MUNICÍPIO',
       'POPULAÇÃO ESTIMADA'],
      dtype='object')


In [15]:
print(cols.to_list())

['UF', 'COD. UF', 'COD. MUNIC', 'NOME DO MUNICÍPIO', 'POPULAÇÃO ESTIMADA']


In [11]:
print(list(cols))

['UF', 'COD. UF', 'COD. MUNIC', 'NOME DO MUNICÍPIO', 'POPULAÇÃO ESTIMADA']


In [19]:
# Renomeie as colunas do dataframe de forma que nenhuma delas possua espaço
df.rename(columns={'UF':'uf',
                   'COD. UF': 'cod_uf',
                   'COD. MUNIC':'cod_munic', 
                   'NOME DO MUNICÍPIO':'nome_munic',
                   'POPULAÇÃO ESTIMADA':'pop_estimada'},
          inplace=True)

In [20]:
df.head(2)

Unnamed: 0,uf,cod_uf,cod_munic,nome_munic,pop_estimada
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148


In [22]:
df2 = df.copy()

In [23]:
df2.columns = df.columns.str.replace(' ', '_')

In [24]:
df2.columns

Index(['UF', 'COD._UF', 'COD._MUNIC', 'NOME_DO_MUNICÍPIO',
       'POPULAÇÃO_ESTIMADA'],
      dtype='object')

In [25]:
df3 = df.copy()
df3.columns = df.columns.str.replace(' ','')
print(df3.columns)

Index(['UF', 'COD.UF', 'COD.MUNIC', 'NOMEDOMUNICÍPIO', 'POPULAÇÃOESTIMADA'], dtype='object')


## Manipulando meu dataframe e infos básicas

In [31]:
# Qual é o município que aparece na centésima vigésima sétima linha?
df.iloc[127,3]

'São Sebastião do Uatumã'

In [30]:
df.iloc[126,3]

'São Paulo de Olivença'

In [32]:
df.head(3)

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067


In [33]:
# Quantos municípios eu tenho para cada unidade da federação?
uni_fed = df['UF']
uni_fed.value_counts()

MG    853
SP    645
RS    497
BA    417
PR    399
SC    295
GO    246
PI    224
PB    223
MA    217
PE    185
CE    184
RN    167
PA    144
MT    141
TO    139
AL    102
RJ     92
MS     79
ES     78
SE     75
AM     62
RO     52
AC     22
AP     16
RR     15
DF      1
Name: UF, dtype: int64

In [35]:
uni_fed

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object

In [34]:
df.UF.value_counts()

MG    853
SP    645
RS    497
BA    417
PR    399
SC    295
GO    246
PI    224
PB    223
MA    217
PE    185
CE    184
RN    167
PA    144
MT    141
TO    139
AL    102
RJ     92
MS     79
ES     78
SE     75
AM     62
RO     52
AC     22
AP     16
RR     15
DF      1
Name: UF, dtype: int64

In [46]:
df['NOME DO MUNICÍPIO'].value_counts()

São Domingos      5
Bom Jesus         5
São Francisco     4
Vera Cruz         4
Planalto          4
                 ..
Virgolândia       1
Caparaó           1
Sandovalina       1
Cruz das Almas    1
Lavínia           1
Name: NOME DO MUNICÍPIO, Length: 5297, dtype: int64

In [37]:
df.groupby('UF').sum()

Unnamed: 0_level_0,COD. UF,COD. MUNIC,POPULAÇÃO ESTIMADA
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,264,7719,906876
AL,2754,487914,3365351
AM,806,134451,4269995
AP,256,5908,877613
BA,12093,7151757,14985284
CE,4232,1295156,9240580
DF,53,108,3094325
ES,2496,226710,4108508
GO,12792,2788737,7206589
MA,4557,1404205,7153262


In [38]:
df.groupby('UF').count()

Unnamed: 0_level_0,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AC,22,22,22,22
AL,102,102,102,102
AM,62,62,62,62
AP,16,16,16,16
BA,417,417,417,417
CE,184,184,184,184
DF,1,1,1,1
ES,78,78,78,78
GO,246,246,246,246
MA,217,217,217,217


In [41]:
df.groupby('UF')['UF'].count().sort_values(ascending=False)

UF
MG    853
SP    645
RS    497
BA    417
PR    399
SC    295
GO    246
PI    224
PB    223
MA    217
PE    185
CE    184
RN    167
PA    144
MT    141
TO    139
AL    102
RJ     92
MS     79
ES     78
SE     75
AM     62
RO     52
AC     22
AP     16
RR     15
DF      1
Name: UF, dtype: int64

In [45]:
df.groupby('UF').agg({'UF':'count',
                      'POPULAÇÃO ESTIMADA':'max'})

Unnamed: 0_level_0,UF,POPULAÇÃO ESTIMADA
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
AC,22,419452
AL,102,1031597
AM,62,2255903
AP,16,522357
BA,417,2900319
CE,184,2703391
DF,1,3094325
ES,78,536765
GO,246,1555626
MA,217,1115932


In [None]:
# Quantos municípios têm menos de 100 mil habitantes?




In [None]:
# Quais são os 5 municípios com maior número de habitantes no Brasil?




In [None]:
# Quais são os 5 municípios com menor número de habitantes no Brasil?




In [None]:
# Teste fazer as duas questões acima usando nlargest e nsmallest. 
# Se você fez as acima usando nlargest e nsmallest, então tente refazer com sort_values.





In [None]:
# Quais são os códigos únicos de UF que temos?



