# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [35]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [36]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [18]:
sinasc_raw.groupby('munResNome')[['IDADEMAE', 'IDADEPAI']].mean().round()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,26.0,30.0
Alto Alegre dos Parecis,25.0,29.0
Alto Paraíso,25.0,29.0
Alvorada D'Oeste,26.0,31.0
Ariquemes,26.0,32.0
Buritis,26.0,31.0
Cabixi,26.0,34.0
Cacaulândia,26.0,36.0
Cacoal,27.0,31.0
Campo Novo de Rondônia,25.0,30.0


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [50]:
dezesseis_dezembro = sinasc_raw[sinasc_raw['DTNASC'] == '2019-12-16']
dezesseis_dezembro

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
13813,1,2516500.0,110001,1,21,2.0,12 anos ou mais,999994.0,1.0,0.0,...,2,1480346,ATIVO,MUNIC,Rolim de Moura,Rondônia,-11.72226,-61.78578,227.0,1457.888
14921,1,2515520.0,110002,1,24,2.0,12 anos ou mais,999992.0,0.0,1.0,...,5,1481457,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571
14950,1,2515504.0,110002,1,28,1.0,8 a 11 anos,999992.0,1.0,0.0,...,4,1481486,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571
14951,1,2515504.0,110002,1,22,2.0,4 a 7 anos,622020.0,1.0,0.0,...,5,1481487,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
15006,1,2494299.0,110002,1,26,5.0,4 a 7 anos,999992.0,2.0,1.0,...,5,1481542,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25969,1,2515989.0,110030,1,27,2.0,8 a 11 anos,999992.0,2.0,0.0,...,5,1492622,ATIVO,MUNIC,Cerejeiras,Rondônia,-13.19503,-60.81843,263.0,2783.300
26503,1,5915104.0,110045,1,22,1.0,8 a 11 anos,612005.0,1.0,,...,3,1493157,ATIVO,MUNIC,Campo Novo de Rondônia,Rondônia,-10.56842,-63.62499,206.0,3442.005
26537,1,5915104.0,110045,1,33,2.0,8 a 11 anos,612005.0,1.0,,...,5,1493192,ATIVO,MUNIC,Buritis,Rondônia,-10.20981,-63.82968,153.0,3265.809
26595,1,3156516.0,110130,1,26,2.0,8 a 11 anos,622020.0,0.0,0.0,...,5,1493250,ATIVO,MUNIC,Nova União,Rondônia,-10.91553,-62.55509,241.0,807.126


In [59]:
dezesseis_dezembro.groupby(['ESCMAE', 'SEXO'])[['PESO']].mean().round()

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Feminino,3552.0
12 anos ou mais,Feminino,3201.0
12 anos ou mais,Masculino,3487.0
4 a 7 anos,Feminino,3058.0
4 a 7 anos,Masculino,3595.0
8 a 11 anos,Feminino,3187.0
8 a 11 anos,Masculino,3069.0


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [66]:
sinasc_raw['munResNome'].value_counts(ascending=True)

Município ignorado - RO         1
Castanheiras                   32
Pimenteiras do Oeste           40
Primavera de Rondônia          43
Parecis                        44
Rio Crespo                     50
São Felipe D'Oeste             54
Teixeirópolis                  64
Cacaulândia                    75
Cabixi                         80
Vale do Paraíso                81
Ministro Andreazza             84
Vale do Anari                  93
Theobroma                      97
Novo Horizonte do Oeste        98
Santa Luzia D'Oeste            99
Nova União                    104
Itapuã do Oeste               109
Governador Jorge Teixeira     112
Corumbiara                    127
Alto Alegre dos Parecis       154
Chupinguaia                   162
Mirante da Serra              164
Campo Novo de Rondônia        166
Seringueiras                  168
Urupá                         170
Monte Negro                   199
Alvorada D'Oeste              205
Cujubim                       205
Colorado do Oe

In [34]:
sinasc_1 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]
sinasc_mun_ignorado = sinasc_1[sinasc_1['munResNome'] == 'Município ignorado - RO']

In [39]:
sinasc_mun_ignorado.groupby('munResNome').aggregate([('média','mean'),('máxima','max'),('mínima','min')])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máxima,mínima,média,máxima,mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Município ignorado - RO,24,24,24,22.0,22.0,22.0


##### Desconsiderando o Município Ignorado - RO que possuí apenas um resgistro, e utilizando o segundo município com a menor quantidade de bebês nascidos, Castanheiras, temos os seguintes resultados.

In [40]:
sinasc_castanheiras = sinasc_1[sinasc_1['munResNome'] == 'Castanheiras']
sinasc_castanheiras.groupby('munResNome').aggregate([('média','mean'),('máxima','max'),('mínima','min')]).round()

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máxima,mínima,média,máxima,mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,27.0,39,17,30.0,43.0,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [63]:
sinasc_2 = sinasc_raw[['munResNome', 'DTNASC','IDADEMAE', 'IDADEPAI', 'QTDFILVIVO']]
sinasc_march = sinasc_2[sinasc_2['DTNASC'].str.contains('2019-03')]
sinasc_march.reset_index(inplace=True, drop=True)
sinasc_march

Unnamed: 0,munResNome,DTNASC,IDADEMAE,IDADEPAI,QTDFILVIVO
0,Alto Alegre dos Parecis,2019-03-20,30,24.0,0.0
1,Alta Floresta D'Oeste,2019-03-23,30,27.0,1.0
2,Alta Floresta D'Oeste,2019-03-27,33,40.0,2.0
3,Alta Floresta D'Oeste,2019-03-11,30,41.0,1.0
4,Alta Floresta D'Oeste,2019-03-11,31,28.0,1.0
...,...,...,...,...,...
2451,Porto Velho,2019-03-21,24,,0.0
2452,Porto Velho,2019-03-22,24,,2.0
2453,Porto Velho,2019-03-07,35,42.0,1.0
2454,Vilhena,2019-03-30,36,,2.0


In [64]:
sinasc_march['munResNome'].value_counts(ascending= False)

Porto Velho                  744
Ji-Paraná                    188
Vilhena                      148
Ariquemes                    141
Cacoal                       133
Jaru                          80
Guajará-Mirim                 75
Rolim de Moura                69
Ouro Preto do Oeste           67
Pimenta Bueno                 62
Buritis                       59
Nova Mamoré                   53
Espigão D'Oeste               44
Machadinho D'Oeste            44
São Miguel do Guaporé         41
Candeias do Jamari            33
Alta Floresta D'Oeste         31
São Francisco do Guaporé      31
Presidente Médici             29
Costa Marques                 24
Alto Paraíso                  22
Alvorada D'Oeste              22
Monte Negro                   20
Nova Brasilândia D'Oeste      20
Colorado do Oeste             19
Seringueiras                  19
Chupinguaia                   18
Cujubim                       17
Cerejeiras                    16
Urupá                         14
Vale do Pa

In [77]:
sinasc_march_porto = sinasc_march[sinasc_march['munResNome'] == 'Porto Velho']
sinasc_march_porto.groupby('munResNome').agg([('média','mean'),('máxima','max'),('mínima','min')]).round(2)

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,média,máxima,mínima,média,máxima,mínima,média,máxima,mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Porto Velho,26.6,44,14,34.63,62.0,19.0,1.3,9.0,0.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [84]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [85]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [86]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

#### Mães com escolaridades maiores possuem uma média de filhos nascidos de acordo com a APGAR1 e APGAR5 mais saudáveis.

In [19]:
sinasc_raw[['ESCMAE', 'APGAR1', 'APGAR5']].groupby('ESCMAE').aggregate(['mean', 'max', 'min']).round(2)

Unnamed: 0_level_0,APGAR1,APGAR1,APGAR1,APGAR1,APGAR5,APGAR5,APGAR5,APGAR5
Unnamed: 0_level_1,median,mean,max,min,median,mean,max,min
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1 a 3 anos,8.0,7.93,10.0,0.0,9.0,8.98,10.0,1.0
12 anos ou mais,8.0,8.26,10.0,0.0,9.0,9.26,10.0,0.0
4 a 7 anos,8.0,8.06,10.0,0.0,9.0,9.12,10.0,0.0
8 a 11 anos,8.0,8.12,10.0,0.0,9.0,9.17,10.0,0.0
Nenhuma,8.0,8.05,9.0,0.0,9.0,8.98,10.0,0.0


In [25]:
sinasc_raw[['IDADEMAE', 'APGAR1', 'APGAR5']].groupby('IDADEMAE').agg(['mean', 'max', 'min']).round(2)

Unnamed: 0_level_0,APGAR1,APGAR1,APGAR1,APGAR5,APGAR5,APGAR5
Unnamed: 0_level_1,mean,max,min,mean,max,min
IDADEMAE,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
11,8.0,8.0,8.0,9.0,9.0,9.0
12,6.71,9.0,2.0,8.29,10.0,6.0
13,7.77,9.0,0.0,8.92,10.0,0.0
14,7.98,9.0,3.0,9.07,10.0,5.0
15,7.97,9.0,1.0,9.09,10.0,2.0
16,8.04,10.0,2.0,9.12,10.0,0.0
17,8.04,10.0,1.0,9.12,10.0,0.0
18,8.06,10.0,0.0,9.11,10.0,0.0
19,8.08,10.0,0.0,9.14,10.0,0.0
20,8.12,10.0,0.0,9.19,10.0,1.0


#### Mulheres mais novas apresentaram em média tempo de gestação mais curto


In [33]:
sinasc_raw[['GESTACAO', 'IDADEMAE']].groupby('GESTACAO').agg(['mean', 'max', 'min']).round(2)

Unnamed: 0_level_0,IDADEMAE
Unnamed: 0_level_1,mean
GESTACAO,Unnamed: 1_level_2
22 a 27 semanas,24.77
28 a 31 semanas,26.2
32 a 36 semanas,26.31
37 a 41 semanas,26.03
42 semanas e mais,24.86
Menos de 22 semanas,22.86


In [49]:
sinasc_raw[['SEXO', 'PARTO', 'ORIGEM']].groupby(['SEXO', 'PARTO']).aggregate('count')

Unnamed: 0_level_0,Unnamed: 1_level_0,ORIGEM
SEXO,PARTO,Unnamed: 2_level_1
Feminino,Cesáreo,8737
Feminino,Vaginal,4372
Masculino,Cesáreo,9296
Masculino,Vaginal,4570


In [53]:
sinasc_raw[['munResNome', 'SEXO', 'ORIGEM']].groupby(['munResNome', 'SEXO']).agg('count').sort_values(by = 'ORIGEM')

Unnamed: 0_level_0,Unnamed: 1_level_0,ORIGEM
munResNome,SEXO,Unnamed: 2_level_1
Município ignorado - RO,Feminino,1
Castanheiras,Masculino,14
Parecis,Masculino,17
Castanheiras,Feminino,18
Primavera de Rondônia,Feminino,18
...,...,...
Ariquemes,Masculino,952
Ji-Paraná,Feminino,1085
Ji-Paraná,Masculino,1096
Porto Velho,Feminino,4163
