# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('https://raw.githubusercontent.com/muriloavila/datascience/muriloavila-exercicio-modulo-5-1/SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.shape

(27028, 69)

In [28]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [13]:
sinasc_raw[['IDADEMAE','IDADEPAI','munResNome']].groupby('munResNome').agg('mean').sort_values('IDADEMAE',ascending=False)

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Ministro Andreazza,27.904762,33.849315
Colorado do Oeste,27.602804,34.354839
Castanheiras,27.28125,30.392857
Cerejeiras,27.240506,31.652778
Primavera de Rondônia,27.023256,31.888889
Novo Horizonte do Oeste,26.938776,31.588235
Nova União,26.894231,31.371429
Cacoal,26.890102,30.931854
Urupá,26.688235,31.008929
Rio Crespo,26.66,28.0


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [30]:
sinasc_aniversario = sinasc_raw[sinasc_raw['DTNASC']=='2019-07-20'].copy()
sinasc_aniversario


Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
13879,1,2515504.0,110002,1,24,2.0,12 anos ou mais,999992.0,1.0,0.0,...,5,1480412,ATIVO,MUNIC,Vale do Anari,Rondônia,-9.85139,-62.17682,158.0,3135.106
13996,1,2494299.0,110002,1,19,1.0,4 a 7 anos,999992.0,0.0,1.0,...,5,1480529,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571
15186,1,2516381.0,110004,1,29,2.0,12 anos ou mais,142205.0,1.0,0.0,...,5,1481724,ATIVO,MUNIC,Cacoal,Rondônia,-11.43387,-61.44294,177.0,3792.998
15193,1,2496046.0,110004,1,20,2.0,12 anos ou mais,999991.0,0.0,0.0,...,5,1481731,ATIVO,MUNIC,Cacoal,Rondônia,-11.43387,-61.44294,177.0,3792.998
15194,1,2496046.0,110004,1,25,2.0,8 a 11 anos,514120.0,0.0,0.0,...,5,1481732,ATIVO,MUNIC,Cacoal,Rondônia,-11.43387,-61.44294,177.0,3792.998
15283,1,2496046.0,110004,1,24,,8 a 11 anos,521110.0,0.0,0.0,...,5,1481825,ATIVO,MUNIC,Cacoal,Rondônia,-11.43387,-61.44294,177.0,3792.998
16003,1,2808560.0,110008,1,27,5.0,4 a 7 anos,,3.0,0.0,...,4,1482553,ATIVO,MUNIC,Costa Marques,Rondônia,-12.43601,-64.23165,145.0,4987.177
16277,1,2515768.0,110010,1,17,1.0,8 a 11 anos,999992.0,0.0,0.0,...,9,1482827,ATIVO,MUNIC,Guajará-Mirim,Rondônia,-10.77388,-65.32395,133.0,24855.724
16284,1,2515768.0,110010,1,21,1.0,8 a 11 anos,999992.0,2.0,0.0,...,9,1482834,ATIVO,MUNIC,Guajará-Mirim,Rondônia,-10.77388,-65.32395,133.0,24855.724
16788,1,2808609.0,110011,1,21,1.0,12 anos ou mais,848515.0,0.0,0.0,...,5,1483338,ATIVO,MUNIC,Jaru,Rondônia,-10.43595,-62.47623,163.0,2944.128


In [34]:
sinasc_aniversario[['DTNASC','ESCMAE','SEXO','PESO']].groupby(['ESCMAE','SEXO']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
12 anos ou mais,Feminino,3391.666667
12 anos ou mais,Masculino,3197.5
4 a 7 anos,Feminino,3010.3
4 a 7 anos,Masculino,3135.0
8 a 11 anos,Feminino,3044.642857
8 a 11 anos,Masculino,3286.4


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [43]:
sinasc_mun = sinasc_raw[['munResNome','IDADEMAE','IDADEPAI']].copy()
sinasc_mun

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,19,26.0
1,Alta Floresta D'Oeste,29,24.0
2,Alta Floresta D'Oeste,37,32.0
3,Alto Alegre dos Parecis,30,24.0
4,Alta Floresta D'Oeste,30,27.0
...,...,...,...
27023,Vilhena,32,35.0
27024,Chupinguaia,19,
27025,Vilhena,24,30.0
27026,Vilhena,21,24.0


In [58]:
sinasc_mun.munResNome.value_counts().sort_values()

Município ignorado - RO         1
Castanheiras                   32
Pimenteiras do Oeste           40
Primavera de Rondônia          43
Parecis                        44
Rio Crespo                     50
São Felipe D'Oeste             54
Teixeirópolis                  64
Cacaulândia                    75
Cabixi                         80
Vale do Paraíso                81
Ministro Andreazza             84
Vale do Anari                  93
Theobroma                      97
Novo Horizonte do Oeste        98
Santa Luzia D'Oeste            99
Nova União                    104
Itapuã do Oeste               109
Governador Jorge Teixeira     112
Corumbiara                    127
Alto Alegre dos Parecis       154
Chupinguaia                   162
Mirante da Serra              164
Campo Novo de Rondônia        166
Seringueiras                  168
Urupá                         170
Monte Negro                   199
Alvorada D'Oeste              205
Cujubim                       205
Colorado do Oe

In [61]:
sinasc_raw[sinasc_raw['munResNome']=='Município ignorado - RO']

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
1863,1,2496046.0,110004,1,24,5.0,8 a 11 anos,752105.0,1.0,1.0,...,1,1881,IGNOR,IGNOR,Município ignorado - RO,Rondônia,,,,


Castanheiras é o município que menos nasceu bebê em 2019

In [67]:
sinasc_mun[sinasc_mun['munResNome']=='Castanheiras'].groupby('munResNome').agg(['mean','min','max'])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mean,min,max,mean,min,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,27.28125,17,39,30.392857,17.0,43.0


In [68]:
sinasc_mun[sinasc_mun['munResNome']=='Castanheiras'].groupby('munResNome').agg({
    'IDADEMAE':[('média','mean'),('mínimo','min'),('máximo','max')],
    'IDADEPAI':[('média','mean'),('mínimo','min'),('máximo','max')]
})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,mínimo,máximo,média,mínimo,máximo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,27.28125,17,39,30.392857,17.0,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [105]:
sinasc = sinasc_raw.copy()

In [106]:
sinasc.DTNASC

0        2019-02-19
1        2019-02-21
2        2019-02-25
3        2019-03-20
4        2019-03-23
            ...    
27023    2019-12-13
27024    2019-10-04
27025    2019-08-02
27026    2019-12-23
27027    2019-12-27
Name: DTNASC, Length: 27028, dtype: object

In [111]:
meses = []
for i in sinasc.index:
    mes = sinasc.DTNASC[i].split('-')[1]
    meses.append(mes)
sinasc['MES'] = meses

In [124]:
sinasc[sinasc['MES']=='02'].munResNome.value_counts().sort_values(ascending=False)

Porto Velho                  669
Ji-Paraná                    157
Vilhena                      147
Ariquemes                    126
Cacoal                        97
Pimenta Bueno                 70
Guajará-Mirim                 68
Rolim de Moura                63
Jaru                          54
Ouro Preto do Oeste           49
São Miguel do Guaporé         39
Machadinho D'Oeste            36
Buritis                       36
Espigão D'Oeste               30
Candeias do Jamari            29
Presidente Médici             28
Nova Brasilândia D'Oeste      27
Nova Mamoré                   27
Alta Floresta D'Oeste         25
São Francisco do Guaporé      24
Alto Alegre dos Parecis       21
Cerejeiras                    20
Alto Paraíso                  20
Chupinguaia                   19
Cujubim                       19
Monte Negro                   17
Urupá                         16
Costa Marques                 15
Colorado do Oeste             15
Alvorada D'Oeste              14
Vale do An

Porto velho foi o município que mais nasceu bebê no mês de março

In [126]:
sinasc_mes02 = sinasc[sinasc['MES']=='02']

In [128]:
sinasc_mes02 = sinasc_mes02[sinasc_mes02['munResNome']=='Porto Velho']

In [130]:
sinasc_mes02.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,MES
355,1,2515504.0,110002,1,33,2.0,8 a 11 anos,999992.0,0.0,0.0,...,359,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,2
381,1,2515504.0,110002,1,25,2.0,8 a 11 anos,622020.0,1.0,0.0,...,385,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,2
4047,1,3152928.0,110012,1,39,2.0,12 anos ou mais,223305.0,1.0,0.0,...,4073,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,2
6385,1,2515369.0,110020,1,26,2.0,12 anos ou mais,262105.0,1.0,0.0,...,6428,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,2
6386,1,2515369.0,110020,1,32,5.0,12 anos ou mais,241005.0,0.0,0.0,...,6429,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,2


In [132]:
sinasc_mes02[['QTDFILVIVO','IDADEPAI','munResNome']].groupby('munResNome').agg({
    'QTDFILVIVO':[('média','mean'),('máxima','max'),('mínima','min')],
    'IDADEPAI':[('média','mean'),('máxima','max'),('mínima','min')]
})

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máxima,mínima,média,máxima,mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,1.331301,12.0,0.0,33.915254,60.0,17.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

A idade média das mães por município sempre é menor do que a idade média dos pais

Castanheiras é o município que menos nasceu bebê em 2019, e está entre as maiores idades médias de mães, e menores diferenças de idade entre mãe e pai