# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [53]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [54]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

In [55]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [56]:
#Criando um dataframe com as variáveis que serão utilizdas.
sinasc_1 = sinasc_raw[['IDADEMAE', 'IDADEPAI','munResNome']]
sinasc_1.head()

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome
0,19,26.0,Alta Floresta D'Oeste
1,29,24.0,Alta Floresta D'Oeste
2,37,32.0,Alta Floresta D'Oeste
3,30,24.0,Alto Alegre dos Parecis
4,30,27.0,Alta Floresta D'Oeste


In [57]:
#Usando o dataframe acima para calcular a idade média das mães e dos pais por município
idade_media = sinasc_1.groupby('munResNome').aggregate({'IDADEMAE': 'mean', 'IDADEPAI': 'mean'})
idade_media

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [58]:
#Transformando a coluna DTNASC em uma datetime:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])
#Criando um dataframe filtrando apenas o dia 22/12/2019
df_filtrado = sinasc_raw[sinasc_raw['DTNASC'] == '2019-12-22']
df_filtrado.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
15077,1,2494299.0,110002,1,25,5.0,4 a 7 anos,999992.0,3.0,2.0,...,2,1481614,ATIVO,MUNIC,Cujubim,Rondônia,-9.37819,-62.58717,111.0,3863.943
15932,1,2516381.0,110004,1,31,2.0,12 anos ou mais,223405.0,3.0,0.0,...,5,1482482,ATIVO,MUNIC,Pimenta Bueno,Rondônia,-11.67754,-61.18367,186.0,6240.932
15961,1,2496046.0,110004,1,26,2.0,8 a 11 anos,999992.0,0.0,0.0,...,5,1482511,ATIVO,MUNIC,Cacoal,Rondônia,-11.43387,-61.44294,177.0,3792.998
16236,1,2808587.0,110009,1,17,5.0,8 a 11 anos,999991.0,1.0,0.0,...,5,1482786,ATIVO,MUNIC,Espigão D'Oeste,Rondônia,-11.52855,-61.02017,263.0,4518.035
16253,1,3049434.0,110009,1,20,5.0,12 anos ou mais,999992.0,1.0,0.0,...,2,1482803,ATIVO,MUNIC,Espigão D'Oeste,Rondônia,-11.52855,-61.02017,263.0,4518.035


In [59]:
# Agrupando por sexo e escolaridade da mãe, calculando o peso médio
sinasc_2 = df_filtrado.groupby(['SEXO', 'ESCMAE'])['PESO'].mean().reset_index()
sinasc_2.rename(columns={'PESO': 'Peso Médio'}, inplace=True)
sinasc_2

Unnamed: 0,SEXO,ESCMAE,Peso Médio
0,Feminino,12 anos ou mais,3100.0
1,Feminino,4 a 7 anos,3603.333333
2,Feminino,8 a 11 anos,3319.642857
3,Masculino,12 anos ou mais,3040.888889
4,Masculino,4 a 7 anos,3690.0
5,Masculino,8 a 11 anos,3447.285714


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [60]:
#Qual o municipio que nasceu menos bebe em 2019
sinasc_3 = sinasc_raw.groupby('munResNome')['IDADEMAE'].count().sort_values(ascending=True).to_frame()
sinasc_3.head()

Unnamed: 0_level_0,IDADEMAE
munResNome,Unnamed: 1_level_1
Município ignorado - RO,1
Castanheiras,32
Pimenteiras do Oeste,40
Primavera de Rondônia,43
Parecis,44


In [61]:
#Criando o dataframe filtrando apenas o município de Castanheiras
df_castanheiras = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras']
df_castanheiras.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
2067,1,2496046.0,110004,1,18,1.0,8 a 11 anos,999992.0,0.0,0.0,...,3,2087,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
2300,1,7648693.0,110004,1,31,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2323,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
4512,1,2495279.0,110012,1,22,1.0,8 a 11 anos,521135.0,0.0,0.0,...,2,4538,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
5881,1,2516047.0,110018,1,26,2.0,8 a 11 anos,,0.0,0.0,...,5,5913,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
5952,1,2516047.0,110018,1,32,1.0,12 anos ou mais,,2.0,0.0,...,5,5984,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842


In [62]:
#Calculando a média, idade máxima e idade mínima para o município de Castanheiras
sinasc_4 = df_castanheiras.groupby(['munResNome']).aggregate({'IDADEMAE': [('média','mean'),('máximo','max'), ('mínimo','min')]})
sinasc_4

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Castanheiras,27.28125,39,17


In [63]:
#Calculando a média, idade máxima e idade mínima para o município de Castanheiras
sinasc_5 = df_castanheiras.groupby(['munResNome']).aggregate({'IDADEPAI': [('média','mean'),('máximo','max'), ('mínimo','min')]})
sinasc_5

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Castanheiras,30.392857,43.0,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [64]:
#Criando uma nova coluna no dataframe original para contabilziar o mês de nascimento
sinasc_raw['MÊS'] = pd.DatetimeIndex(sinasc_raw['DTNASC']).month

#Criando um dataframe filtrado para o mês de março
df_marco = sinasc_raw[sinasc_raw['MÊS'] == 3]
df_marco.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,MÊS
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273,3
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,3
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,3
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,3
10,1,2679477.0,110001,1,31,5.0,8 a 11 anos,512105.0,1.0,0.0,...,11,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025,3


In [82]:
#Dataframe com municipio que nasceu mais bebe no mês de março
sinasc_6 = df_marco.groupby(['munResNome'])['ESCMAE'].count().sort_values(ascending=False).to_frame()
sinasc_6.head()

Unnamed: 0_level_0,ESCMAE
munResNome,Unnamed: 1_level_1
Porto Velho,733
Ji-Paraná,188
Vilhena,148
Ariquemes,141
Cacoal,133


In [83]:
#Criando um dataframe filtrando apenas a bêbes que nasceram no mês de março no munícipio de Porto Velho
df_porto_velho = df_marco[df_marco['munResNome'] == 'Porto Velho']
df_porto_velho.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,MÊS
612,1,2494299.0,110002,1,19,5.0,4 a 7 anos,999992.0,0.0,0.0,...,618,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,3
700,1,2494299.0,110002,1,19,5.0,4 a 7 anos,622020.0,1.0,0.0,...,706,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,3
3232,1,2808609.0,110011,1,34,5.0,Nenhuma,622020.0,0.0,1.0,...,3257,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,3
3238,1,2808609.0,110011,1,24,5.0,8 a 11 anos,622020.0,1.0,0.0,...,3263,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,3
6818,1,2515369.0,110020,1,38,2.0,12 anos ou mais,999991.0,2.0,1.0,...,6864,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,3


In [84]:
#Dataframe com a quantidade de filhos vivos media, maxima, minima para bêbes nascidos no mês de março no município de Porto Velho
sinasc_7 = df_porto_velho.groupby(['munResNome']).aggregate({'QTDFILVIVO': [('média','mean'),('máximo','max'), ('mínimo','min')]})
sinasc_7

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Porto Velho,1.295056,9.0,0.0


In [85]:
#Dataframe com a idade média, máxima, mínima dos pais em Porto Velho para bêbes nascidos no mês de março
sinasc_7 = df_porto_velho.groupby(['munResNome']).aggregate({'IDADEPAI': [('média','mean'),('máximo','max'), ('mínimo','min')]})
sinasc_7

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Porto Velho,34.629032,62.0,19.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [86]:
#Mês que mais nasceu bêbes no ano de 2019:

sinasc_qtd_filhos_mes = sinasc_raw.groupby(['MÊS'])['ESCMAE'].count().sort_values(ascending=False).to_frame()
sinasc_qtd_filhos_mes

#Pode-ser perceber abaixo que não há uma diferença expressiva na quantidade de filhos nascidos no mês de Março (mês com maior número de nascimentos)
#para o mês de Fevereiro(mês com o menor número de nascimentos)

Unnamed: 0_level_0,ESCMAE
MÊS,Unnamed: 1_level_1
3,2440
4,2349
9,2336
5,2330
10,2242
1,2227
8,2176
6,2152
7,2124
11,2119


In [87]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
MÊS             int32
Length: 70, dtype: object

In [88]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf,MÊS
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,2
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,2
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,2
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,3
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia,12
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia,10
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia,8
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia,12


In [89]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea', 'MÊS'],
      dtype='ob