# 1. Importando bibliotecas

In [1]:
# Imports
import numpy as np
import pandas as pd

# 2. Carregando o dataframe SINASC

In [2]:
# Amostra de Dados
sinasc_raw = pd.read_csv('mod05_sinasc_ro_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
# Colunas
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [5]:
# Selecionando somente algumas colunas
sinasc_1 = sinasc_raw[['ESCMAE', 'IDADEMAE']]
sinasc_1.head()

Unnamed: 0,ESCMAE,IDADEMAE
0,8 a 11 anos,19
1,8 a 11 anos,29
2,8 a 11 anos,37
3,12 anos ou mais,30
4,8 a 11 anos,30


In [6]:
sinasc_2 = sinasc_raw[['ESCMAE', 'IDADEMAE', 'IDADEPAI']]
sinasc_2.head()

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI
0,8 a 11 anos,19,26.0
1,8 a 11 anos,29,24.0
2,8 a 11 anos,37,32.0
3,12 anos ou mais,30,24.0
4,8 a 11 anos,30,27.0


# 3. Método ``aggregate()`` ou ``agg()``

In [7]:
# Agrupando pela ESCMAE e trazendo o max da idade tanto da mãe como do pai para as faixas
sinasc_2.groupby('ESCMAE').max()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,45,60.0
12 anos ou mais,51,65.0
4 a 7 anos,47,86.0
8 a 11 anos,53,70.0
Nenhuma,52,52.0


In [8]:
# Utilizando essa forma(.aggregate) podemos passar mais de uma função dentro dele
sinasc_2.groupby('ESCMAE').aggregate(max) #passando a função como argumento

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,45,60.0
12 anos ou mais,51,65.0
4 a 7 anos,47,86.0
8 a 11 anos,53,70.0
Nenhuma,52,52.0


In [9]:
sinasc_2.groupby('ESCMAE').agg(max) # alias agg

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,45,60.0
12 anos ou mais,51,65.0
4 a 7 anos,47,86.0
8 a 11 anos,53,70.0
Nenhuma,52,52.0


## Agregações  

O pandas tem alguns métodos otimizados dentro do groupby: 

| Método       | Descrição                               |
|--------------|-----------------------------------------|
| **count()**  | contagem de não *missing*               |
| **sum()**    | soma                                    |
| **mean()**   | média                                   |
| **median()** | mediana                                 |
| **std()**    | desvio padrão amostral                  |
| **var()**    | variancia amostral                      | 
| **min()**    | mínimo                                  |
| **max()**    | máximo                                  |
| **prod()**   | produto                                 |
| **first()**  | primeiro elemento                       |
| **last()**   | último elemento                         |

Além destes, diversos outros métodos do objeto agrupado também funcionam, por exemplo a função ```quantile()```.

In [10]:
sinasc_2[['IDADEMAE', 'ESCMAE']].groupby('ESCMAE').quantile(.9)

Unnamed: 0_level_0,IDADEMAE
ESCMAE,Unnamed: 1_level_1
1 a 3 anos,38.0
12 anos ou mais,37.0
4 a 7 anos,34.0
8 a 11 anos,34.0
Nenhuma,41.1


In [11]:
# Podemos passar uma lista dentro do aggregate, e obtemos o resultado para cada uma das funções
sinasc_2.groupby('ESCMAE').aggregate(['min', np.median, max])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,median,max,min,median,max
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1 a 3 anos,12,28.0,45,17.0,34.0,60.0
12 anos ou mais,16,29.0,51,17.0,32.0,65.0
4 a 7 anos,11,24.0,47,16.0,30.0,86.0
8 a 11 anos,12,24.0,53,15.0,29.0,70.0
Nenhuma,14,33.0,52,29.0,38.5,52.0


In [12]:
# Passando um dicionário
sinasc_2.groupby('ESCMAE').aggregate({'IDADEMAE': 'min', 'IDADEPAI': 'max'})

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,12,60.0
12 anos ou mais,16,65.0
4 a 7 anos,11,86.0
8 a 11 anos,12,70.0
Nenhuma,14,52.0


#### Usando funções próprias
Também é possível utilizar funções próprias através do método ```aggregate()``` ou ```agg()``` como nome curto.

In [13]:
# Função para basicamente calcular a diferença entre o valor máximo e o mínimo
def amplitude(array):
    return array.max() - array.min()
amplitude(sinasc_2['IDADEMAE'])

42

In [14]:
sinasc_2.groupby(['ESCMAE']).agg(amplitude)

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,33,43.0
12 anos ou mais,35,48.0
4 a 7 anos,36,70.0
8 a 11 anos,41,55.0
Nenhuma,38,23.0


### Alguns métodos como o ```describe()``` funcionam

In [15]:
sinasc_2[['IDADEMAE', 'ESCMAE']].groupby('ESCMAE').describe()

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1 a 3 anos,516.0,28.430233,7.376226,12.0,22.0,28.0,34.0,45.0
12 anos ou mais,5767.0,29.548119,5.365522,16.0,26.0,29.0,33.0,51.0
4 a 7 anos,4760.0,24.604412,6.812225,11.0,19.0,24.0,29.0,47.0
8 a 11 anos,15633.0,25.150387,6.049985,12.0,20.0,24.0,29.0,53.0
Nenhuma,40.0,31.575,8.619856,14.0,25.5,33.0,37.75,52.0


#### Usando várias funções
Como no método ```describe()```, podemos querer aplicar várias funções ao nosso agrupamento. Podemos fazer isso com o método ```aggregate()``` ou simplesmente ```agg()```.

In [17]:
# Passando um conjunto de funções
agrupamento = sinasc_2.groupby(['ESCMAE'])
agrupamento.agg(['mean', 'std', amplitude])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mean,std,amplitude,mean,std,amplitude
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1 a 3 anos,28.430233,7.376226,33,33.805556,9.23502,43.0
12 anos ou mais,29.548119,5.365522,35,32.956214,6.919853,48.0
4 a 7 anos,24.604412,6.812225,36,31.142111,8.717118,70.0
8 a 11 anos,25.150387,6.049985,41,30.02802,7.741795,55.0
Nenhuma,31.575,8.619856,38,38.5,8.549854,23.0


In [18]:
# Alterando os nomes das colunas com tuplas
agrupamento = sinasc_2.groupby(['ESCMAE'])
agrupamento.agg([('média','mean'), ('desvio padrão','std'), ('amplitude', amplitude)])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,desvio padrão,amplitude,média,desvio padrão,amplitude
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1 a 3 anos,28.430233,7.376226,33,33.805556,9.23502,43.0
12 anos ou mais,29.548119,5.365522,35,32.956214,6.919853,48.0
4 a 7 anos,24.604412,6.812225,36,31.142111,8.717118,70.0
8 a 11 anos,25.150387,6.049985,41,30.02802,7.741795,55.0
Nenhuma,31.575,8.619856,38,38.5,8.549854,23.0


#### Ou, em uma forma bem genérica, podemos utilizar um dicionário para especificar conjuntos de funções diferentes para cada variável

In [19]:
# Passando um dicionário onde contém uma lista de funções que queremos aplicar especificamente para cada coluna
agrupamento.agg({'IDADEMAE':['min','max'], 'IDADEPAI':'sum'})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEPAI
Unnamed: 0_level_1,min,max,sum
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1 a 3 anos,12,45,2434.0
12 anos ou mais,16,51,74514.0
4 a 7 anos,11,47,29803.0
8 a 11 anos,12,53,127529.0
Nenhuma,14,52,231.0


#### Usando dentro das chaves listas com *tuplas*, podemos especificar os nomes das funções

In [20]:
# Aplicando funções específicas para cada coluna e renomeando
agrupamento.agg({'IDADEMAE':[('mínimo','min'),('máximo','max')], 'IDADEPAI':[('soma','sum')]})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEPAI
Unnamed: 0_level_1,mínimo,máximo,soma
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1 a 3 anos,12,45,2434.0
12 anos ou mais,16,51,74514.0
4 a 7 anos,11,47,29803.0
8 a 11 anos,12,53,127529.0
Nenhuma,14,52,231.0


In [23]:
sinasc_2 = sinasc_raw[['ESCMAE', 'IDADEMAE', 'IDADEPAI','QTDFILVIVO', 'QTDFILMORT']]
sinasc_2.head()

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
0,8 a 11 anos,19,26.0,0.0,0.0
1,8 a 11 anos,29,24.0,1.0,0.0
2,8 a 11 anos,37,32.0,2.0,0.0
3,12 anos ou mais,30,24.0,0.0,0.0
4,8 a 11 anos,30,27.0,1.0,0.0


# 4. Método ``apply`` 

No exemplo abaixo, vamos usar o "dividir aplicar combinar" para obter as 5 linhas com mais alto valor de uma variável no *dataframe*.

In [24]:
# Função que seleciona os top 5 maiores valores da coluna QTDFILVIVO
def top(df, n = 5, column = 'QTDFILVIVO'):
    return df.fillna(0).sort_values(by = column, ascending = False)[:n]

In [25]:
sinasc_2.head()

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
0,8 a 11 anos,19,26.0,0.0,0.0
1,8 a 11 anos,29,24.0,1.0,0.0
2,8 a 11 anos,37,32.0,2.0,0.0
3,12 anos ou mais,30,24.0,0.0,0.0
4,8 a 11 anos,30,27.0,1.0,0.0


In [26]:
# Ordena e seleciona os top 5
top(sinasc_2)

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
11365,4 a 7 anos,24,25.0,30.0,0.0
16018,8 a 11 anos,39,43.0,14.0,0.0
6831,Nenhuma,42,0.0,12.0,0.0
1854,Nenhuma,40,43.0,12.0,0.0
22442,1 a 3 anos,44,0.0,12.0,1.0


In [27]:
# Ordernar por quantidade de filhos mortos
top(sinasc_2, column = 'QTDFILMORT')

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
25709,12 anos ou mais,26,0.0,1.0,28.0
20299,Nenhuma,40,0.0,8.0,9.0
4762,8 a 11 anos,36,39.0,0.0,9.0
7904,4 a 7 anos,27,0.0,4.0,8.0
2888,8 a 11 anos,24,0.0,1.0,7.0


In [28]:
#  Faixa de escolariadade
sinasc_2.groupby('ESCMAE').apply(top)

Unnamed: 0_level_0,Unnamed: 1_level_0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1 a 3 anos,22442,1 a 3 anos,44,0.0,12.0,1.0
1 a 3 anos,18476,1 a 3 anos,37,0.0,10.0,0.0
1 a 3 anos,13220,1 a 3 anos,38,0.0,8.0,0.0
1 a 3 anos,25867,1 a 3 anos,43,0.0,8.0,1.0
1 a 3 anos,21736,1 a 3 anos,29,0.0,8.0,0.0
12 anos ou mais,1704,12 anos ou mais,34,40.0,7.0,0.0
12 anos ou mais,22420,12 anos ou mais,42,0.0,7.0,0.0
12 anos ou mais,21814,12 anos ou mais,33,0.0,5.0,1.0
12 anos ou mais,9328,12 anos ou mais,38,60.0,5.0,1.0
12 anos ou mais,15109,12 anos ou mais,37,39.0,5.0,0.0


Observe que o resultado tem índice hierárquico, com o nível mais interno sendo o índice original do dataframe agrupado.

Se quisermos passar argumentos adicionais ao apply, podemos fazer isso após a chamada da função.

In [29]:
#Consiguimos também passar os argumentos dentro do apply
#Aplicar afunção ytop, o n=6 e a coluna
sinasc_2.groupby('ESCMAE').apply(top, n = 6, column = 'QTDFILMORT')

Unnamed: 0_level_0,Unnamed: 1_level_0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1 a 3 anos,15000,1 a 3 anos,28,0.0,4.0,4.0
1 a 3 anos,247,1 a 3 anos,30,0.0,3.0,4.0
1 a 3 anos,24052,1 a 3 anos,35,0.0,5.0,3.0
1 a 3 anos,24913,1 a 3 anos,34,0.0,4.0,3.0
1 a 3 anos,13311,1 a 3 anos,21,0.0,2.0,3.0
1 a 3 anos,610,1 a 3 anos,18,0.0,2.0,3.0
12 anos ou mais,25709,12 anos ou mais,26,0.0,1.0,28.0
12 anos ou mais,21579,12 anos ou mais,35,0.0,0.0,6.0
12 anos ou mais,1231,12 anos ou mais,37,0.0,2.0,6.0
12 anos ou mais,22619,12 anos ou mais,40,0.0,3.0,6.0


In [30]:
sinasc_2

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
0,8 a 11 anos,19,26.0,0.0,0.0
1,8 a 11 anos,29,24.0,1.0,0.0
2,8 a 11 anos,37,32.0,2.0,0.0
3,12 anos ou mais,30,24.0,0.0,0.0
4,8 a 11 anos,30,27.0,1.0,0.0
...,...,...,...,...,...
27023,12 anos ou mais,32,35.0,1.0,0.0
27024,8 a 11 anos,19,,0.0,0.0
27025,8 a 11 anos,24,30.0,0.0,1.0
27026,8 a 11 anos,21,24.0,1.0,0.0


## Opção ```as_index = False```

In [31]:
# Retornar a média a partir dos valros de 'ESCMAE'
sinasc_2.groupby(['ESCMAE'], as_index = False).mean()

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
0,1 a 3 anos,28.430233,33.805556,2.39798,0.442589
1,12 anos ou mais,29.548119,32.956214,0.723574,0.256173
2,4 a 7 anos,24.604412,31.142111,1.554003,0.317932
3,8 a 11 anos,25.150387,30.02802,0.964274,0.248065
4,Nenhuma,31.575,38.5,3.675,0.583333


In [32]:
sinasc_2.groupby(['ESCMAE']).mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1 a 3 anos,28.430233,33.805556,2.39798,0.442589
12 anos ou mais,29.548119,32.956214,0.723574,0.256173
4 a 7 anos,24.604412,31.142111,1.554003,0.317932
8 a 11 anos,25.150387,30.02802,0.964274,0.248065
Nenhuma,31.575,38.5,3.675,0.583333


In [33]:
# Novo DataFrame
sinasc_2 = sinasc_raw[['ESCMAE', 'IDADEMAE', 'IDADEPAI','munResNome']]
sinasc_2.head()

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,munResNome
0,8 a 11 anos,19,26.0,Alta Floresta D'Oeste
1,8 a 11 anos,29,24.0,Alta Floresta D'Oeste
2,8 a 11 anos,37,32.0,Alta Floresta D'Oeste
3,12 anos ou mais,30,24.0,Alto Alegre dos Parecis
4,8 a 11 anos,30,27.0,Alta Floresta D'Oeste


# 5. Mapping

In [34]:
# Fazendo mapeamento com dicionário
sinasc_3 = sinasc_2.set_index('ESCMAE')
mapping = {
    'Nenhuma': 'A - Nenhuma',
    '8 a 11 anos': 'D - 8 a 11 anos',
    '1 a 3 anos': 'B - 1 a 3 anos',
    '12 anos ou mais': 'E - 12 anos ou mais',
    '4 a 7 anos': 'C - 4 a 7 anos'
}
sinasc_3.groupby(mapping).sum()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
A - Nenhuma,1263,231.0
B - 1 a 3 anos,14670,2434.0
C - 4 a 7 anos,117117,29803.0
D - 8 a 11 anos,393176,127529.0
E - 12 anos ou mais,170404,74514.0


In [35]:
sinasc_raw.munResNome.value_counts()

Porto Velho                  8437
Ji-Paraná                    2182
Ariquemes                    1729
Vilhena                      1590
Cacoal                       1374
Rolim de Moura                927
Jaru                          881
Guajará-Mirim                 781
Ouro Preto do Oeste           631
Pimenta Bueno                 616
Buritis                       583
Machadinho D'Oeste            500
Espigão D'Oeste               450
Nova Mamoré                   432
Alta Floresta D'Oeste         367
São Miguel do Guaporé         353
Candeias do Jamari            337
Presidente Médici             304
São Francisco do Guaporé      303
Nova Brasilândia D'Oeste      261
Cerejeiras                    237
Costa Marques                 233
Alto Paraíso                  226
Colorado do Oeste             214
Alvorada D'Oeste              205
Cujubim                       205
Monte Negro                   199
Urupá                         170
Seringueiras                  168
Campo Novo de 

https://pt.wikipedia.org/wiki/Lista_de_regi%C3%B5es_geogr%C3%A1ficas_intermedi%C3%A1rias_e_imediatas_de_Rond%C3%B4nia

In [36]:
intermediarias = {
    "Candeias do Jamari": "Porto Velho",
    "Guajará-Mirim": "Porto Velho",
    "Itapuã do Oeste": "Porto Velho",
    "Nova Mamoré": "Porto Velho",
    "Porto Velho": "Porto Velho",
    "Ariquemes": "Porto Velho",
    "Alto Paraíso": "Porto Velho",
    "Ariquemes": "Porto Velho",
    "Buritis": "Porto Velho",
    "Cacaulândia": "Porto Velho",
    "Campo Novo de Rondônia": "Porto Velho",
    "Cujubim": "Porto Velho",
    "Monte Negro": "Porto Velho",
    "Rio Crespo": "Porto Velho",
    "Jaru": "Porto Velho",
    "Governador Jorge Teixeira": "Porto Velho",
    "Machadinho D'Oeste": "Porto Velho",
    "Theobroma": "Porto Velho",
    "Vale do Anari": "Porto Velho",
    "Alvorada D'Oeste": "Ji-Paraná",
    "Costa Marques": "Ji-Paraná",
    "Ji-Paraná": "Ji-Paraná",
    "Mirante da Serra": "Ji-Paraná",
    "Nova União": "Ji-Paraná",
    "Ouro Preto do Oeste": "Ji-Paraná",
    "Presidente Médici": "Ji-Paraná",
    "São Francisco do Guaporé": "Ji-Paraná",
    "São Miguel do Guaporé": "Ji-Paraná",
    "Seringueiras": "Ji-Paraná",
    "Teixeirópolis": "Ji-Paraná",
    "Urupá": "Ji-Paraná",
    "Vale do Paraíso": "Ji-Paraná",
    "Cacoal": "Ji-Paraná",
    "Alta Floresta D'Oeste": "Ji-Paraná",
    "Alto Alegre dos Parecis": "Ji-Paraná",
    "Castanheiras": "Ji-Paraná",
    "Espigão D'Oeste": "Ji-Paraná",
    "Ministro Andreazza": "Ji-Paraná",
    "Nova Brasilândia D'Oeste": "Ji-Paraná",
    "Novo Horizonte do Oeste": "Ji-Paraná",
    "Parecis": "Ji-Paraná",
    "Pimenta Bueno": "Ji-Paraná",
    "Primavera de Rondônia": "Ji-Paraná",
    "Rolim de Moura": "Ji-Paraná",
    "Santa Luzia D'Oeste": "Ji-Paraná",
    "São Felipe D'Oeste": "Ji-Paraná",
    "Vilhena": "Ji-Paraná",
    "Cabixi": "Ji-Paraná",
    "Cerejeiras": "Ji-Paraná",
    "Chupinguaia": "Ji-Paraná",
    "Colorado do Oeste": "Ji-Paraná",
    "Corumbiara": "Ji-Paraná",
    "Pimenteiras do Oeste": "Ji-Paraná"
}

In [37]:
# Setando 'munResNome' como index
sinasc_2 = sinasc_2.set_index('munResNome')

In [38]:
# Contando a partir da variável intermediarias
sinasc_2.groupby(intermediarias).count()

Unnamed: 0_level_0,ESCMAE,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ji-Paraná,11925,12015,6409
Porto Velho,14790,15012,1197


In [39]:
# Incluindo os missing na contagem
sinasc_2.groupby(intermediarias, dropna=False).count()

Unnamed: 0_level_0,ESCMAE,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ji-Paraná,11925,12015,6409
Porto Velho,14790,15012,1197
,1,1,1


# 6.  Pivot table

In [40]:
# Novo DataFrame
sinasc_3 = sinasc_raw[['ESCMAE','PESO','IDADEMAE','IDADEPAI']].copy()

In [41]:
sinasc_3.head()

Unnamed: 0,ESCMAE,PESO,IDADEMAE,IDADEPAI
0,8 a 11 anos,3685,19,26.0
1,8 a 11 anos,3055,29,24.0
2,8 a 11 anos,3460,37,32.0
3,12 anos ou mais,2982,30,24.0
4,8 a 11 anos,3310,30,27.0


In [42]:
# Somatório IDADEMAE por escolaridade
sinasc_3.pivot_table(values='IDADEMAE',
                     index=sinasc_3.ESCMAE,
                     aggfunc='sum',
                     margins=True,
                     margins_name='Total')

Unnamed: 0_level_0,IDADEMAE
ESCMAE,Unnamed: 1_level_1
1 a 3 anos,14670
12 anos ou mais,170404
4 a 7 anos,117117
8 a 11 anos,393176
Nenhuma,1263
Total,705261


``` python 
sinasc_3.pivot_table(values=None, index=None, columns=None, aggfunc='mean',
                    fill_value=None, margins=False, dropna=True, margins_name='All',
                    observed=False,
) -> 'DataFrame'

```

In [43]:
pd.pivot_table(data=sinasc_3,
               values='IDADEMAE',
               index='ESCMAE',
               aggfunc='sum',
               margins=True,
               margins_name='Total')

Unnamed: 0_level_0,IDADEMAE
ESCMAE,Unnamed: 1_level_1
1 a 3 anos,14670
12 anos ou mais,170404
4 a 7 anos,117117
8 a 11 anos,393176
Nenhuma,1263
Total,696630


``` python 
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean',
               fill_value=None, margins=False, dropna=True, margins_name='All',
               observed=False,
) -> 'DataFrame'

```

In [44]:
idade_mae = pd.cut(sinasc_3['IDADEMAE'], [0, 18, 80])
sinasc_3.pivot_table('IDADEPAI', ['ESCMAE', idade_mae])

Unnamed: 0_level_0,Unnamed: 1_level_0,IDADEPAI
ESCMAE,IDADEMAE,Unnamed: 2_level_1
1 a 3 anos,"(0, 18]",20.5
1 a 3 anos,"(18, 80]",35.015152
12 anos ou mais,"(0, 18]",23.066667
12 anos ou mais,"(18, 80]",33.022262
4 a 7 anos,"(0, 18]",23.407821
4 a 7 anos,"(18, 80]",32.921594
8 a 11 anos,"(0, 18]",22.921397
8 a 11 anos,"(18, 80]",30.887041
Nenhuma,"(18, 80]",38.5


In [45]:
# Segmentando valores na variável idade_pai e passando na agregação usando pivot_table
idade_pai = pd.qcut(sinasc_3['IDADEPAI'], 2)
sinasc_3.pivot_table(values='PESO',
                     index=['ESCMAE', idade_mae],
                     columns=[idade_pai],
                     aggfunc='median')

Unnamed: 0_level_0,IDADEPAI,"(14.999, 30.0]","(30.0, 86.0]"
ESCMAE,IDADEMAE,Unnamed: 2_level_1,Unnamed: 3_level_1
1 a 3 anos,"(0, 18]",3015.0,
1 a 3 anos,"(18, 80]",3120.0,3137.5
12 anos ou mais,"(0, 18]",3407.5,3700.0
12 anos ou mais,"(18, 80]",3265.0,3280.0
4 a 7 anos,"(0, 18]",3152.5,3295.0
4 a 7 anos,"(18, 80]",3275.0,3285.0
8 a 11 anos,"(0, 18]",3170.0,3015.0
8 a 11 anos,"(18, 80]",3285.0,3285.0
Nenhuma,"(18, 80]",2962.5,3137.5


In [46]:
# Agregação usando pivot_table entre as colunas "PESO" "ESCMAE", "idade_mae" e "idade_pai".
# Resumindo os dados usando a mediana
# Removendo todas as linhas que contenham valores nulos ou ausentes
sinasc_3.pivot_table(values='PESO',
                     index=['ESCMAE', idade_mae],
                     columns=[idade_pai],
                     aggfunc='median',
                     dropna=True)

Unnamed: 0_level_0,IDADEPAI,"(14.999, 30.0]","(30.0, 86.0]"
ESCMAE,IDADEMAE,Unnamed: 2_level_1,Unnamed: 3_level_1
1 a 3 anos,"(0, 18]",3015.0,
1 a 3 anos,"(18, 80]",3120.0,3137.5
12 anos ou mais,"(0, 18]",3407.5,3700.0
12 anos ou mais,"(18, 80]",3265.0,3280.0
4 a 7 anos,"(0, 18]",3152.5,3295.0
4 a 7 anos,"(18, 80]",3275.0,3285.0
8 a 11 anos,"(0, 18]",3170.0,3015.0
8 a 11 anos,"(18, 80]",3285.0,3285.0
Nenhuma,"(18, 80]",2962.5,3137.5


In [47]:
#  Resumindo os dados usando a mediana e média
sinasc_3.pivot_table(values='PESO',
                     index=['ESCMAE', idade_mae],
                     columns=[idade_pai],
                     aggfunc=['mean','median'],
                     dropna=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,median,median
Unnamed: 0_level_1,IDADEPAI,"(14.999, 30.0]","(30.0, 86.0]","(14.999, 30.0]","(30.0, 86.0]"
ESCMAE,IDADEMAE,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1 a 3 anos,"(0, 18]",2909.666667,,3015.0,
1 a 3 anos,"(18, 80]",3160.416667,3020.857143,3120.0,3137.5
12 anos ou mais,"(0, 18]",3286.071429,3700.0,3407.5,3700.0
12 anos ou mais,"(18, 80]",3281.271091,3265.498158,3265.0,3280.0
4 a 7 anos,"(0, 18]",3151.04321,3282.235294,3152.5,3295.0
4 a 7 anos,"(18, 80]",3263.456193,3276.313199,3275.0,3285.0
8 a 11 anos,"(0, 18]",3142.921615,3066.216216,3170.0,3015.0
8 a 11 anos,"(18, 80]",3272.440191,3290.969394,3285.0,3285.0
Nenhuma,"(18, 80]",2962.5,3246.25,2962.5,3137.5


In [48]:
# Resumindo os dados usando a mediana, média, máximo e mínimo
sinasc_3.pivot_table(values=['PESO', 'IDADEPAI'],
                     index=['ESCMAE', idade_mae],
                     columns=[idade_pai],
                     aggfunc={'PESO':['mean','median'], 'IDADEPAI': [np.max,np.min]},
                     dropna=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,PESO,PESO,PESO,PESO
Unnamed: 0_level_1,Unnamed: 1_level_1,amax,amax,amin,amin,mean,mean,median,median
Unnamed: 0_level_2,IDADEPAI,"(14.999, 30.0]","(30.0, 86.0]","(14.999, 30.0]","(30.0, 86.0]","(14.999, 30.0]","(30.0, 86.0]","(14.999, 30.0]","(30.0, 86.0]"
ESCMAE,IDADEMAE,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
1 a 3 anos,"(0, 18]",27.0,,17.0,,2909.666667,,3015.0,
1 a 3 anos,"(18, 80]",30.0,60.0,21.0,32.0,3160.416667,3020.857143,3120.0,3137.5
12 anos ou mais,"(0, 18]",28.0,33.0,20.0,33.0,3286.071429,3700.0,3407.5,3700.0
12 anos ou mais,"(18, 80]",30.0,65.0,17.0,31.0,3281.271091,3265.498158,3265.0,3280.0
4 a 7 anos,"(0, 18]",30.0,43.0,16.0,31.0,3151.04321,3282.235294,3152.5,3295.0
4 a 7 anos,"(18, 80]",30.0,86.0,17.0,31.0,3263.456193,3276.313199,3275.0,3285.0
8 a 11 anos,"(0, 18]",30.0,50.0,15.0,31.0,3142.921615,3066.216216,3170.0,3015.0
8 a 11 anos,"(18, 80]",30.0,70.0,16.0,31.0,3272.440191,3290.969394,3285.0,3285.0
Nenhuma,"(18, 80]",30.0,52.0,29.0,38.0,2962.5,3246.25,2962.5,3137.5


In [49]:
sinasc_3.pivot_table(values=['PESO', 'IDADEPAI'],
                     index=['ESCMAE', idade_mae],
                     columns=[idade_pai],
                     aggfunc={'PESO':['mean','median'], 'IDADEPAI': [('maximo',np.max),('minimo',  np.min)]},
                     dropna=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,PESO,PESO,PESO,PESO
Unnamed: 0_level_1,Unnamed: 1_level_1,maximo,maximo,minimo,minimo,mean,mean,median,median
Unnamed: 0_level_2,IDADEPAI,"(14.999, 30.0]","(30.0, 86.0]","(14.999, 30.0]","(30.0, 86.0]","(14.999, 30.0]","(30.0, 86.0]","(14.999, 30.0]","(30.0, 86.0]"
ESCMAE,IDADEMAE,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
1 a 3 anos,"(0, 18]",27.0,,17.0,,2909.666667,,3015.0,
1 a 3 anos,"(18, 80]",30.0,60.0,21.0,32.0,3160.416667,3020.857143,3120.0,3137.5
12 anos ou mais,"(0, 18]",28.0,33.0,20.0,33.0,3286.071429,3700.0,3407.5,3700.0
12 anos ou mais,"(18, 80]",30.0,65.0,17.0,31.0,3281.271091,3265.498158,3265.0,3280.0
4 a 7 anos,"(0, 18]",30.0,43.0,16.0,31.0,3151.04321,3282.235294,3152.5,3295.0
4 a 7 anos,"(18, 80]",30.0,86.0,17.0,31.0,3263.456193,3276.313199,3275.0,3285.0
8 a 11 anos,"(0, 18]",30.0,50.0,15.0,31.0,3142.921615,3066.216216,3170.0,3015.0
8 a 11 anos,"(18, 80]",30.0,70.0,16.0,31.0,3272.440191,3290.969394,3285.0,3285.0
Nenhuma,"(18, 80]",30.0,52.0,29.0,38.0,2962.5,3246.25,2962.5,3137.5
