# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('dados_nascimento.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [4]:
sinasc_1 = sinasc_raw[['IDADEMAE','IDADEPAI','munResNome']]

In [5]:
sinasc_1.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [6]:
sinasc_2 = sinasc_raw[['PESO','DTNASC','ESCMAE','SEXO']]

In [7]:
pd.to_datetime(sinasc_2["DTNASC"])

0       2019-02-19
1       2019-02-21
2       2019-02-25
3       2019-03-20
4       2019-03-23
           ...    
27023   2019-12-13
27024   2019-10-04
27025   2019-08-02
27026   2019-12-23
27027   2019-12-27
Name: DTNASC, Length: 27028, dtype: datetime64[ns]

In [8]:
sinasc_aniversario = sinasc_2[sinasc_2['DTNASC']=='2019-03-23']

In [9]:
sinasc_aniversario.groupby(['ESCMAE','SEXO']).mean('PESO').unstack()

Unnamed: 0_level_0,PESO,PESO
SEXO,Feminino,Masculino
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2
1 a 3 anos,2960.0,3456.666667
12 anos ou mais,3078.333333,3331.666667
4 a 7 anos,3598.75,3135.0
8 a 11 anos,3241.428571,3382.352941


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [23]:
sinasc_3 = sinasc_raw[['IDADEMAE','IDADEPAI','munResNome',"QTDFILVIVO","QTDFILMORT"]]

In [28]:
sinasc_3.loc["QTDFILTOTAL"] = sinasc_3["QTDFILVIVO"] + sinasc_3["QTDFILMORT"]
sinasc_3

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome,QTDFILVIVO,QTDFILMORT,QTDFILTOTAL
0,19.0,26.0,Alta Floresta D'Oeste,0.0,0.0,0.0
1,29.0,24.0,Alta Floresta D'Oeste,1.0,0.0,1.0
2,37.0,32.0,Alta Floresta D'Oeste,2.0,0.0,2.0
3,30.0,24.0,Alto Alegre dos Parecis,0.0,0.0,0.0
4,30.0,27.0,Alta Floresta D'Oeste,1.0,0.0,1.0
...,...,...,...,...,...,...
27024,19.0,,Chupinguaia,0.0,0.0,0.0
27025,24.0,30.0,Vilhena,0.0,1.0,1.0
27026,21.0,24.0,Vilhena,1.0,0.0,1.0
27027,18.0,,Novo Horizonte do Oeste,1.0,0.0,1.0


In [30]:
sinasc_3.groupby('munResNome').sum().sort_values(['QTDFILTOTAL'],axis=0).head(3)

Unnamed: 0_level_0,IDADEMAE,IDADEPAI,QTDFILTOTAL
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Município ignorado - RO,24.0,22.0,2.0
Castanheiras,873.0,851.0,37.0
São Felipe D'Oeste,1430.0,1507.0,46.0


In [31]:
sinasc_castanheiras = sinasc_3[sinasc_3['munResNome']=="Castanheiras"]
sinasc_castanheiras

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome,QTDFILTOTAL
2067,18.0,17.0,Castanheiras,0.0
2300,31.0,36.0,Castanheiras,0.0
4512,22.0,,Castanheiras,0.0
5881,26.0,24.0,Castanheiras,0.0
5952,32.0,29.0,Castanheiras,2.0
10762,21.0,19.0,Castanheiras,0.0
10768,31.0,31.0,Castanheiras,1.0
10882,23.0,25.0,Castanheiras,0.0
10962,29.0,32.0,Castanheiras,3.0
10988,31.0,42.0,Castanheiras,2.0


In [32]:
sinasc_castanheiras.groupby('munResNome')[["IDADEMAE","IDADEPAI"]].agg([('média','mean'),('máximo','max'),('mínimo','min')])


Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máximo,mínimo,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,27.28125,39.0,17.0,30.392857,43.0,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [82]:
sinasc_marco = sinasc_raw[["DTNASC","IDADEMAE","IDADEPAI","QTDFILVIVO","QTDFILMORT","munResNome"]]

In [83]:
sinasc_marco = sinasc_marco[pd.to_datetime(sinasc_marco["DTNASC"]).dt.month==3]
sinasc_marco

Unnamed: 0,DTNASC,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT,munResNome
3,2019-03-20,30,24.0,0.0,0.0,Alto Alegre dos Parecis
4,2019-03-23,30,27.0,1.0,0.0,Alta Floresta D'Oeste
5,2019-03-27,33,40.0,2.0,1.0,Alta Floresta D'Oeste
9,2019-03-11,30,41.0,1.0,1.0,Alta Floresta D'Oeste
10,2019-03-11,31,28.0,1.0,0.0,Alta Floresta D'Oeste
...,...,...,...,...,...,...
13670,2019-03-21,24,,0.0,0.0,Porto Velho
13671,2019-03-22,24,,2.0,0.0,Porto Velho
13736,2019-03-07,35,42.0,1.0,0.0,Porto Velho
13748,2019-03-30,36,,2.0,1.0,Vilhena


In [84]:
sinasc_marco["QTDFILTOTAL"] = sinasc_marco["QTDFILVIVO"] + sinasc_marco["QTDFILMORT"]
sinasc_marco

Unnamed: 0,DTNASC,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT,munResNome,QTDFILTOTAL
3,2019-03-20,30,24.0,0.0,0.0,Alto Alegre dos Parecis,0.0
4,2019-03-23,30,27.0,1.0,0.0,Alta Floresta D'Oeste,1.0
5,2019-03-27,33,40.0,2.0,1.0,Alta Floresta D'Oeste,3.0
9,2019-03-11,30,41.0,1.0,1.0,Alta Floresta D'Oeste,2.0
10,2019-03-11,31,28.0,1.0,0.0,Alta Floresta D'Oeste,1.0
...,...,...,...,...,...,...,...
13670,2019-03-21,24,,0.0,0.0,Porto Velho,0.0
13671,2019-03-22,24,,2.0,0.0,Porto Velho,2.0
13736,2019-03-07,35,42.0,1.0,0.0,Porto Velho,1.0
13748,2019-03-30,36,,2.0,1.0,Vilhena,3.0


In [85]:
sinasc_marco.groupby('munResNome').sum().sort_values(['QTDFILTOTAL'],axis=0,ascending=False).head(3)

  sinasc_marco.groupby('munResNome').sum().sort_values(['QTDFILTOTAL'],axis=0,ascending=False).head(3)


Unnamed: 0_level_0,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT,QTDFILTOTAL
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Porto Velho,19788,2147.0,812.0,200.0,893.0
Ji-Paraná,4771,2929.0,155.0,46.0,200.0
Vilhena,3909,537.0,144.0,40.0,183.0


In [86]:
sinasc_portoVelho = sinasc_marco[sinasc_marco['munResNome']=="Porto Velho"]
sinasc_portoVelho

Unnamed: 0,DTNASC,IDADEMAE,IDADEPAI,QTDFILVIVO,QTDFILMORT,munResNome,QTDFILTOTAL
612,2019-03-09,19,,0.0,0.0,Porto Velho,0.0
700,2019-03-28,19,,1.0,0.0,Porto Velho,1.0
3232,2019-03-11,34,,0.0,1.0,Porto Velho,1.0
3238,2019-03-13,24,,1.0,0.0,Porto Velho,1.0
6818,2019-03-01,38,41.0,2.0,1.0,Porto Velho,3.0
...,...,...,...,...,...,...,...
13668,2019-03-20,19,,1.0,0.0,Porto Velho,1.0
13669,2019-03-25,21,,0.0,0.0,Porto Velho,0.0
13670,2019-03-21,24,,0.0,0.0,Porto Velho,0.0
13671,2019-03-22,24,,2.0,0.0,Porto Velho,2.0


In [88]:
sinasc_portoVelho.groupby('munResNome')[["QTDFILVIVO","IDADEPAI"]].agg([('média','mean'),('máximo','max'),('mínimo','min')])

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máximo,mínimo,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,1.295056,9.0,0.0,34.629032,62.0,19.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

A idade média de pais em Porto Velho e Castanheiras é bem próximo

A média de idades de pais é sempre maior que a das mães

UM nascimento em 2019 teve seu município ignorado

In [49]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [50]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [51]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')