# 0. Índice <a name="Contents"></a>
1. [Importando bibliotecas](#import)
2. [Carregando o dataframe](#read)
5. [Método ``apply``](#apply)


# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_1 = sinasc_raw[['ESCMAE', 'IDADEMAE']]
sinasc_1.head()

Unnamed: 0,ESCMAE,IDADEMAE
0,8 a 11 anos,19
1,8 a 11 anos,29
2,8 a 11 anos,37
3,12 anos ou mais,30
4,8 a 11 anos,30


In [4]:
sinasc_2 = sinasc_raw[['ESCMAE', 'IDADEMAE', 'IDADEPAI','QTDFILVIVO', 'QTDFILMORT']]
sinasc_2.head()

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
0,8 a 11 anos,19,26.0,0.0,0.0
1,8 a 11 anos,29,24.0,1.0,0.0
2,8 a 11 anos,37,32.0,2.0,0.0
3,12 anos ou mais,30,24.0,0.0,0.0
4,8 a 11 anos,30,27.0,1.0,0.0


# 3. Método ``apply``  <a name="apply"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

No exemplo abaixo, vamos usar o "dividir aplicar combinar" para obter as 5 linhas com mais alto valor de uma variável no *dataframe*.

In [16]:
# definindo a função que retorna as *n* linhas com valor mais alto da variável *coluna*
def top(df, n = 5, column = 'QTDFILVIVO'):
    return df.fillna(0).sort_values(by = column, ascending = False)[:n]
top(sinasc_2)

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
11365,4 a 7 anos,24,25.0,30.0,0.0
16018,8 a 11 anos,39,43.0,14.0,0.0
6831,Nenhuma,42,0.0,12.0,0.0
1854,Nenhuma,40,43.0,12.0,0.0
22442,1 a 3 anos,44,0.0,12.0,1.0


In [12]:
# Esse script retorna as 5 linhas com maiores valores de "tip_pct" para fumantes e não fumantes.
sinasc_2.groupby('ESCMAE').apply(top)

Unnamed: 0_level_0,Unnamed: 1_level_0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1 a 3 anos,22442,1 a 3 anos,44,0.0,12.0,1.0
1 a 3 anos,18476,1 a 3 anos,37,0.0,10.0,0.0
1 a 3 anos,13220,1 a 3 anos,38,0.0,8.0,0.0
1 a 3 anos,25867,1 a 3 anos,43,0.0,8.0,1.0
1 a 3 anos,21736,1 a 3 anos,29,0.0,8.0,0.0
12 anos ou mais,1704,12 anos ou mais,34,40.0,7.0,0.0
12 anos ou mais,22420,12 anos ou mais,42,0.0,7.0,0.0
12 anos ou mais,21814,12 anos ou mais,33,0.0,5.0,1.0
12 anos ou mais,9328,12 anos ou mais,38,60.0,5.0,1.0
12 anos ou mais,15109,12 anos ou mais,37,39.0,5.0,0.0


Observe que o resultado tem índice hierárquico, com o nível mais interno sendo o índice original do dataframe agrupado.

Se quisermos passar argumentos adicionais ao apply, podemos fazer isso após a chamada da função.

In [17]:
sinasc_2.groupby('ESCMAE').apply(top, n = 6, column = 'QTDFILMORT')

Unnamed: 0_level_0,Unnamed: 1_level_0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1 a 3 anos,15000,1 a 3 anos,28,0.0,4.0,4.0
1 a 3 anos,247,1 a 3 anos,30,0.0,3.0,4.0
1 a 3 anos,24052,1 a 3 anos,35,0.0,5.0,3.0
1 a 3 anos,24913,1 a 3 anos,34,0.0,4.0,3.0
1 a 3 anos,13311,1 a 3 anos,21,0.0,2.0,3.0
1 a 3 anos,610,1 a 3 anos,18,0.0,2.0,3.0
12 anos ou mais,25709,12 anos ou mais,26,0.0,1.0,28.0
12 anos ou mais,21579,12 anos ou mais,35,0.0,0.0,6.0
12 anos ou mais,1231,12 anos ou mais,37,0.0,2.0,6.0
12 anos ou mais,22619,12 anos ou mais,40,0.0,3.0,6.0


In [8]:
sinasc_2

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
0,8 a 11 anos,19,26.0,0.0,0.0
1,8 a 11 anos,29,24.0,1.0,0.0
2,8 a 11 anos,37,32.0,2.0,0.0
3,12 anos ou mais,30,24.0,0.0,0.0
4,8 a 11 anos,30,27.0,1.0,0.0
...,...,...,...,...,...
27023,12 anos ou mais,32,35.0,1.0,0.0
27024,8 a 11 anos,19,,0.0,0.0
27025,8 a 11 anos,24,30.0,0.0,1.0
27026,8 a 11 anos,21,24.0,1.0,0.0


## Opção ```as_index = False```

In [9]:
sinasc_2.groupby(['ESCMAE'], as_index = False).mean()

Unnamed: 0,ESCMAE,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
0,1 a 3 anos,28.430233,33.805556,2.39798,0.442589
1,12 anos ou mais,29.548119,32.956214,0.723574,0.256173
2,4 a 7 anos,24.604412,31.142111,1.554003,0.317932
3,8 a 11 anos,25.150387,30.02802,0.964274,0.248065
4,Nenhuma,31.575,38.5,3.675,0.583333


In [10]:
sinasc_2.groupby(['ESCMAE']).mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1 a 3 anos,28.430233,33.805556,2.39798,0.442589
12 anos ou mais,29.548119,32.956214,0.723574,0.256173
4 a 7 anos,24.604412,31.142111,1.554003,0.317932
8 a 11 anos,25.150387,30.02802,0.964274,0.248065
Nenhuma,31.575,38.5,3.675,0.583333
