# Exercícios - Introdução ao PANDAS

Neste notebook utilizaremos um dataset com informações sobre os municípios brasileiros. Os dados foram obtidos de http://blog.mds.gov.br/redesuas/lista-de-municipios-brasileiros/ .

In [1]:
# Importação das bibliotecas
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

In [3]:
# Carregamento do dataframe a partir de um arquivo .csv
df = pd.read_csv('Lista_Municipios_com_IBGE_Brasil.csv', sep=';', encoding='latin-1' )

### Comandos para o primeiro contato com uma base: 

In [6]:
df.head() # mostrar as primeiras linhas do Dataframe

Unnamed: 0,IBGE,UF,Município,Região,População 2010,Porte,Capital
0,110001,RO,Alta Floresta D´oeste,Região Norte,24392.0,Pequeno II,
1,110002,RO,Ariquemes,Região Norte,90353.0,Médio,
2,110003,RO,Cabixi,Região Norte,6313.0,Pequeno I,
3,110004,RO,Cacoal,Região Norte,78574.0,Médio,
4,110005,RO,Cerejeiras,Região Norte,17029.0,Pequeno I,


In [7]:
df.shape #quantas linhas e quantas colunas

(5570, 7)

In [8]:
df.columns

Index(['IBGE', 'UF', 'Município', 'Região', 'População 2010', 'Porte',
       'Capital'],
      dtype='object')

In [6]:
df.describe()

Unnamed: 0,IBGE,População 2010
count,5570.0,5565.0
mean,325358.63,34277.77
std,98491.03,203112.62
min,110001.0,805.0
25%,251212.5,5235.0
50%,314627.5,10934.0
75%,411918.75,23424.0
max,530010.0,11253503.0


In [15]:
df[df['População 2010'].isna()]

Unnamed: 0,IBGE,UF,Município,Região,População 2010,Porte,Capital
224,150475,PA,Mojuí dos Campos,Região Norte,,Pequeno I,
4503,421265,SC,Pescaria Brava,Região Sul,,Pequeno I,
4605,422000,SC,Balneário Rincão,Região Sul,,Pequeno I,
4923,431454,RS,Pinto Bandeira,Região Sul,,Pequeno I,
5160,500627,MS,Paraíso das Águas,Região Centro-Oeste,,Pequeno I,


### Hora de botar a mão na massa!!!

Tente responder às seguintes questões:
1. Quantos estados estão presentes na base?
- Listar os municípios de Alagoas.
- Qual estado possui mais municípios?
- Qual a região possui mais municípios?
- Quais os 10 municípios com maior população?
- Quais os 10 municípios com maior população no estado da Bahia?
- Qual o município com menor população no país?
- Qual o valor médio de população por estado?
- Quais são os valores possíveis na coluna "Porte"?
- Qual a média de população por cada tipo de porte de município?
- O que quer informar a coluna "Capital"?
- Listar as Capitais.
- Qual a distribuição de porte de municípios na região Sul? E na região Norte?


In [19]:
# 1. Quantos estados estão presentes na base?
df['UF'].nunique()

27

In [29]:
# 2. Listar os municípios de Alagoas.
df[df['UF'] == 'AL']['Município'].values

array(['Água Branca', 'Anadia', 'Arapiraca', 'Atalaia',
       'Barra de Santo Antônio', 'Barra de São Miguel', 'Batalha',
       'Belém', 'Belo Monte', 'Boca da Mata', 'Branquinha', 'Cacimbinhas',
       'Cajueiro', 'Campestre', 'Campo Alegre', 'Campo Grande', 'Canapi',
       'Capela', 'Carneiros', 'Chã Preta', 'Coité do Nóia',
       'Colônia Leopoldina', 'Coqueiro Seco', 'Coruripe', 'Craíbas',
       'Delmiro Gouveia', 'Dois Riachos', 'Estrela de Alagoas',
       'Feira Grande', 'Feliz Deserto', 'Flexeiras', 'Girau do Ponciano',
       'Ibateguara', 'Igaci', 'Igreja Nova', 'Inhapi',
       'Jacaré Dos Homens', 'Jacuípe', 'Japaratinga', 'Jaramataia',
       'Jequiá da Praia', 'Joaquim Gomes', 'Jundiá', 'Junqueiro',
       'Lagoa da Canoa', 'Limoeiro de Anadia', 'Maceió', 'Major Isidoro',
       'Maragogi', 'Maravilha', 'Marechal Deodoro', 'Maribondo',
       'Mar Vermelho', 'Mata Grande', 'Matriz de Camaragibe', 'Messias',
       'Minador do Negrão', 'Monteirópolis', 'Murici', 'Novo

In [33]:
# 3- Estado que possui mais municípios
df['UF'].value_counts().index[0]

'MG'

In [35]:
#4 - Qual a região possui mais municípios?
df['Região'].value_counts().index[0]

'Região Nordeste'

In [39]:
#5 - Quais os 10 municípios com maior população?
df.sort_values(by = 'População 2010', ascending = False).head(10)

Unnamed: 0,IBGE,UF,Município,Região,População 2010,Porte,Capital
3829,355030,SP,São Paulo,Região Sudeste,11253503.0,Metrópole,Capital
3242,330455,RJ,Rio de Janeiro,Região Sudeste,6320446.0,Metrópole,Capital
2162,292740,BA,Salvador,Região Nordeste,2675656.0,Metrópole,Capital
5569,530010,DF,Brasília,Região Centro-Oeste,2570160.0,Metrópole,Capital
949,230440,CE,Fortaleza,Região Nordeste,2452185.0,Metrópole,Capital
2309,310620,MG,Belo Horizonte,Região Sudeste,2375151.0,Metrópole,Capital
111,130260,AM,Manaus,Região Norte,1802014.0,Metrópole,Capital
4005,410690,PR,Curitiba,Região Sul,1751907.0,Metrópole,Capital
1596,261160,PE,Recife,Região Nordeste,1537704.0,Metrópole,Capital
4931,431490,RS,Porto Alegre,Região Sul,1409351.0,Metrópole,Capital


In [42]:
#6 - Quais os 10 municípios com maior população?
df[df['UF']=='BA'].sort_values(by = 'População 2010', ascending = False).head(10)

Unnamed: 0,IBGE,UF,Município,Região,População 2010,Porte,Capital
2162,292740,BA,Salvador,Região Nordeste,2675656.0,Metrópole,Capital
949,230440,CE,Fortaleza,Região Nordeste,2452185.0,Metrópole,Capital
1596,261160,PE,Recife,Região Nordeste,1537704.0,Metrópole,Capital
635,211130,MA,São Luís,Região Nordeste,1014837.0,Metrópole,Capital
1696,270430,AL,Maceió,Região Nordeste,932748.0,Metrópole,Capital
882,221100,PI,Teresina,Região Nordeste,814230.0,Grande,Capital
1163,240810,RN,Natal,Região Nordeste,803739.0,Grande,Capital
1337,250750,PB,João Pessoa,Região Nordeste,723515.0,Grande,Capital
1552,260790,PE,Jaboatão Dos Guararapes,Região Nordeste,644620.0,Grande,
1754,280030,SE,Aracaju,Região Nordeste,571149.0,Grande,Capital


In [54]:
#7 - Qual o município com menor população no país?
df.sort_values(by= 'População 2010')['Município'].values[0]

'Borá'

In [55]:
# 8 - Qual o valor médio de população por estado?
df.groupby(by = 'UF')['População 2010'].mean()

UF
AC     33343.59
AL     30593.08
AM     56193.31
AP     41845.38
BA     33613.68
CE     45936.85
DF   2570160.00
ES     45063.49
GO     24405.64
MA     30298.57
MG     22974.60
MS     31397.74
MT     21525.69
PA     53014.34
PB     16890.26
PE     47548.37
PI     13921.25
PR     26176.76
RJ    173803.58
RN     18970.22
RO     30046.33
RR     30031.93
RS     21560.34
SC     21325.72
SE     27573.56
SP     63972.40
TO      9952.84
Name: População 2010, dtype: float64

In [56]:
#9 - Quais são os valores possíveis na coluna "Porte"?
df['Porte'].unique()

array(['Pequeno II', 'Médio', 'Pequeno I', 'Grande', 'Metrópole'],
      dtype=object)

In [57]:
# 10. Qual a média de população por cada tipo de porte de município?
df.groupby(by = 'Porte')["População 2010"].mean()

Porte
Grande        234375.17
Metrópole    2476051.88
Médio          68659.09
Pequeno I       8344.47
Pequeno II     30052.42
Name: População 2010, dtype: float64

In [58]:
df["Porte"].value_counts()

Pequeno I     3919
Pequeno II    1043
Médio          325
Grande         266
Metrópole       17
Name: Porte, dtype: int64

In [60]:
#11- O que quer informar a coluna "Capital"?
df['Capital'].value_counts()
#identifica os municípios que são capitais.

Capital    27
Name: Capital, dtype: int64

In [63]:
#12 - Listar as Capitais.
df[df['Capital'] == 'Capital']['Município'].values

array(['Porto Velho', 'Rio Branco', 'Manaus', 'Boa Vista', 'Belém',
       'Macapá', 'Palmas', 'São Luís', 'Teresina', 'Fortaleza', 'Natal',
       'João Pessoa', 'Recife', 'Maceió', 'Aracaju', 'Salvador',
       'Belo Horizonte', 'Vitória', 'Rio de Janeiro', 'São Paulo',
       'Curitiba', 'Florianópolis', 'Porto Alegre', 'Campo Grande',
       'Cuiabá', 'Goiânia', 'Brasília'], dtype=object)

In [64]:
# 13 - Qual a distribuição de porte de municípios na região Sul? E na região Norte?
#Regiâo Sul
df[df['Região'] == 'Região Sul']['Porte'].value_counts()

Pequeno I     943
Pequeno II    147
Médio          53
Grande         46
Metrópole       2
Name: Porte, dtype: int64

In [65]:
#Regiâo Sul
df[df['Região'] == 'Região Norte']['Porte'].value_counts()

Pequeno I     276
Pequeno II    111
Médio          43
Grande         18
Metrópole       2
Name: Porte, dtype: int64