# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

In [6]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [17]:
df.shape

(27028, 3)

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [24]:
# crio um dataframe só com as colunas que serão utilizadas

df = sinasc_raw[ ['munResNome', 'IDADEMAE', 'IDADEPAI'] ]
df.head()

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,19,26.0
1,Alta Floresta D'Oeste,29,24.0
2,Alta Floresta D'Oeste,37,32.0
3,Alto Alegre dos Parecis,30,24.0
4,Alta Floresta D'Oeste,30,27.0


In [26]:
df.isnull().sum()

munResNome        0
IDADEMAE          0
IDADEPAI      19421
dtype: int64

In [22]:
# tratar os NaN

df.loc[ df['IDADEPAI'].isnull() , 'IDADEPAI' ] = df['IDADEPAI'].median()

In [23]:
df.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.621253
Alto Alegre dos Parecis,24.844156,29.285714
Alto Paraíso,24.960177,29.969027
Alvorada D'Oeste,25.770732,30.380488
Ariquemes,25.607866,30.0214
Buritis,25.559177,30.089194
Cabixi,26.0375,30.325
Cacaulândia,25.546667,30.506667
Cacoal,26.890102,30.855895
Campo Novo de Rondônia,24.825301,30.090361


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [40]:
sinasc_raw.columns

df = sinasc_raw[ ['PESO', 'SEXO', 'ESCMAE', 'DTNASC'] ]

df.head()

Unnamed: 0,PESO,SEXO,ESCMAE,DTNASC
0,3685,Masculino,8 a 11 anos,2019-02-19
1,3055,Feminino,8 a 11 anos,2019-02-21
2,3460,Feminino,8 a 11 anos,2019-02-25
3,2982,Feminino,12 anos ou mais,2019-03-20
4,3310,Feminino,8 a 11 anos,2019-03-23


In [41]:
df.isnull().sum()

PESO        0
SEXO        4
ESCMAE    312
DTNASC      0
dtype: int64

In [42]:
# neste caso como tempos poucos NaN, serão dropados
df = df.copy()

df.dropna(inplace=True)

In [48]:
df[ df['DTNASC'] == '2019-05-07' ].groupby(by = ['ESCMAE', 'SEXO']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Feminino,2945.0
12 anos ou mais,Feminino,3122.7
12 anos ou mais,Masculino,3330.384615
4 a 7 anos,Feminino,3350.0
4 a 7 anos,Masculino,3184.285714
8 a 11 anos,Feminino,2934.0625
8 a 11 anos,Masculino,3455.454545


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [55]:
df = sinasc_raw[ ['munResNome', 'IDADEPAI', 'IDADEMAE'] ].copy()

df.head()

Unnamed: 0,munResNome,IDADEPAI,IDADEMAE
0,Alta Floresta D'Oeste,26.0,19
1,Alta Floresta D'Oeste,24.0,29
2,Alta Floresta D'Oeste,32.0,37
3,Alto Alegre dos Parecis,24.0,30
4,Alta Floresta D'Oeste,27.0,30


In [56]:
df.isnull().sum()

munResNome        0
IDADEPAI      19421
IDADEMAE          0
dtype: int64

In [57]:
# Troca os NaN pela mediana
df['IDADEPAI'].fillna(value = df['IDADEPAI'].median(), inplace=True)

In [61]:
# Qual o municipio que nasceu menos bebe em 2019?

df['munResNome'].value_counts(ascending=True).head()

# Castanheiras

Município ignorado - RO     1
Castanheiras               32
Pimenteiras do Oeste       40
Primavera de Rondônia      43
Parecis                    44
Name: munResNome, dtype: int64

In [64]:
# Idade média, maxima e mínima dos pais e mães desse municipio

df[ df['munResNome'] == 'Castanheiras' ].aggregate( 
    {
        'IDADEPAI': ['mean', 'max', 'min'], 
        'IDADEMAE': ['mean', 'max', 'min'], 
    } )

Unnamed: 0,IDADEPAI,IDADEMAE
mean,30.34375,27.28125
max,43.0,39.0
min,17.0,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [83]:
df = sinasc_raw[ ['munResNome', 'IDADEPAI', 'IDADEMAE', 'DTNASC', 'QTDFILVIVO'] ].copy()
df.head()

Unnamed: 0,munResNome,IDADEPAI,IDADEMAE,DTNASC,QTDFILVIVO
0,Alta Floresta D'Oeste,26.0,19,2019-02-19,0.0
1,Alta Floresta D'Oeste,24.0,29,2019-02-21,1.0
2,Alta Floresta D'Oeste,32.0,37,2019-02-25,2.0
3,Alto Alegre dos Parecis,24.0,30,2019-03-20,0.0
4,Alta Floresta D'Oeste,27.0,30,2019-03-23,1.0


In [84]:
df.isnull().sum()

munResNome        0
IDADEPAI      19421
IDADEMAE          0
DTNASC            0
QTDFILVIVO     1573
dtype: int64

In [85]:
# Muitos pais sem a idade registrada, não pode dropar então substitui pela mediada
df['IDADEPAI'].fillna(value = df['IDADEPAI'].median(), inplace=True)

# Poucos casos de qtde filhos vivos não registrados, então dropa essas linhas
df.dropna(inplace=True)

df.isnull().sum()

munResNome    0
IDADEPAI      0
IDADEMAE      0
DTNASC        0
QTDFILVIVO    0
dtype: int64

In [86]:
# converter a coluna pra tipo data
df['DTNASC'] = pd.to_datetime(df['DTNASC'])

In [87]:
# Qual o municipio que nasceu mais bebe no mês de março? = Porto Velho

df.loc[ df['DTNASC'].dt.month == 3, 'munResNome' ].value_counts().head()

Porto Velho    627
Ji-Paraná      187
Vilhena        147
Ariquemes      139
Cacoal         132
Name: munResNome, dtype: int64

In [90]:
# qual a quantidade de filhos vivos media, maxima, minima nesse municipio?

df[ df['munResNome'] == 'Porto Velho' ].aggregate( {'QTDFILVIVO': ['mean', 'max', 'min']} )

Unnamed: 0,QTDFILVIVO
mean,1.167236
max,12.0
min,0.0


In [91]:
# qual a idade media, maxima, minima dos pais nesse municipio?

df[ df['munResNome'] == 'Porto Velho' ].aggregate({
    'IDADEPAI': ['mean', 'max', 'min'],
    'IDADEMAE': ['mean', 'max', 'min']
})

Unnamed: 0,IDADEPAI,IDADEMAE
mean,30.208089,26.738625
max,65.0,45.0
min,16.0,12.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

Aparantemente, sempre a idade min, max e média do pai é maior do que a da mãe. Em todos os municípios levantados pode-se nota este fenomeno.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')