# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [4]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [15]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [12]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [8]:
sinasc_raw.groupby('munResNome').aggregate({'IDADEMAE': 'mean', 'IDADEPAI': 'mean'})

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [30]:
sinasc_raw['DTNASC'].head()

0    2019-02-19
1    2019-02-21
2    2019-02-25
3    2019-03-20
4    2019-03-23
Name: DTNASC, dtype: object

In [33]:
sinasc_raw[sinasc_raw['DTNASC'] == '2019-09-25']

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,feliz_niversario
13791,1,2516500.0,110001,1,31,5.0,12 anos ou mais,,1.0,1.0,...,1480324,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273,
14233,1,2515601.0,110002,1,27,1.0,12 anos ou mais,413220.0,0.0,0.0,...,1480767,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571,
14281,1,2515520.0,110002,1,19,1.0,8 a 11 anos,622020.0,0.0,0.0,...,1480815,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571,
14331,1,2515504.0,110002,1,19,2.0,8 a 11 anos,999992.0,0.0,0.0,...,1480865,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571,
14407,1,2494299.0,110002,1,23,1.0,12 anos ou mais,411010.0,0.0,0.0,...,1480941,ATIVO,MUNIC,Ariquemes,Rondônia,-9.90846,-63.03327,139.0,4426.571,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26070,1,2808668.0,110032,1,24,5.0,8 a 11 anos,999992.0,,,...,1492724,ATIVO,MUNIC,São Miguel do Guaporé,Rondônia,-11.69949,-62.72006,191.0,7460.219,
26355,1,2807076.0,110045,1,17,2.0,4 a 7 anos,612005.0,,,...,1493009,ATIVO,MUNIC,Buritis,Rondônia,-10.20981,-63.82968,153.0,3265.809,
26412,1,5915104.0,110045,1,18,1.0,8 a 11 anos,612005.0,1.0,,...,1493066,ATIVO,MUNIC,Monte Negro,Rondônia,-10.26310,-63.29556,155.0,1931.378,
26413,1,5915104.0,110045,1,33,2.0,12 anos ou mais,,1.0,1.0,...,1493067,ATIVO,MUNIC,Buritis,Rondônia,-10.20981,-63.82968,153.0,3265.809,


In [49]:
esc_peso = sinasc_raw[sinasc_raw['DTNASC'] == '2019-09-25'].groupby(['ESCMAE', 'SEXO'])['PESO'].mean().unstack()
esc_peso

SEXO,Feminino,Masculino
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,,2895.0
12 anos ou mais,3207.833333,3269.857143
4 a 7 anos,3378.75,3256.153846
8 a 11 anos,3150.185185,3388.25


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [32]:
sinasc_raw['munResNome'].value_counts()

Porto Velho                  8437
Ji-Paraná                    2182
Ariquemes                    1729
Vilhena                      1590
Cacoal                       1374
Rolim de Moura                927
Jaru                          881
Guajará-Mirim                 781
Ouro Preto do Oeste           631
Pimenta Bueno                 616
Buritis                       583
Machadinho D'Oeste            500
Espigão D'Oeste               450
Nova Mamoré                   432
Alta Floresta D'Oeste         367
São Miguel do Guaporé         353
Candeias do Jamari            337
Presidente Médici             304
São Francisco do Guaporé      303
Nova Brasilândia D'Oeste      261
Cerejeiras                    237
Costa Marques                 233
Alto Paraíso                  226
Colorado do Oeste             214
Alvorada D'Oeste              205
Cujubim                       205
Monte Negro                   199
Urupá                         170
Seringueiras                  168
Campo Novo de 

In [40]:
sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras']

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,feliz_niversario
2067,1,2496046.0,110004,1,18,1.0,8 a 11 anos,999992.0,0.0,0.0,...,2087,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
2300,1,7648693.0,110004,1,31,5.0,8 a 11 anos,999992.0,0.0,0.0,...,2323,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
4512,1,2495279.0,110012,1,22,1.0,8 a 11 anos,521135.0,0.0,0.0,...,4538,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
5881,1,2516047.0,110018,1,26,2.0,8 a 11 anos,,0.0,0.0,...,5913,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
5952,1,2516047.0,110018,1,32,1.0,12 anos ou mais,,2.0,0.0,...,5984,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
10762,1,2495228.0,110028,1,21,1.0,8 a 11 anos,621005.0,0.0,0.0,...,10842,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
10768,1,2495228.0,110028,1,31,5.0,8 a 11 anos,621005.0,1.0,0.0,...,10848,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
10882,1,2495228.0,110028,1,23,2.0,8 a 11 anos,999992.0,0.0,0.0,...,10963,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
10962,1,2495228.0,110028,1,29,1.0,8 a 11 anos,621005.0,3.0,0.0,...,11043,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,
10988,1,2495228.0,110028,1,31,2.0,8 a 11 anos,999992.0,1.0,1.0,...,11069,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842,


In [41]:
mae = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras'].groupby('munResNome')['IDADEMAE'].mean()
mae

munResNome
Castanheiras    27.28125
Name: IDADEMAE, dtype: float64

In [42]:
pai = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras'].groupby('munResNome')['IDADEPAI'].mean()
pai

munResNome
Castanheiras    30.392857
Name: IDADEPAI, dtype: float64

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [50]:
sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho']

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea,feliz_niversario
123,1,2515520.0,110002,1,22,1.0,8 a 11 anos,999992.0,0.0,0.0,...,125,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
201,1,2494299.0,110002,1,22,2.0,8 a 11 anos,999992.0,0.0,0.0,...,204,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
246,1,2494299.0,110002,1,29,1.0,8 a 11 anos,999992.0,2.0,0.0,...,249,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
272,1,2494299.0,110002,1,27,2.0,4 a 7 anos,999992.0,2.0,1.0,...,275,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
355,1,2515504.0,110002,1,33,2.0,8 a 11 anos,999992.0,0.0,0.0,...,359,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26986,1,3039269.0,250750,1,35,5.0,12 anos ou mais,111410.0,0.0,0.0,...,1816042,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
26991,1,2081288.0,355030,1,29,1.0,8 a 11 anos,422310.0,0.0,0.0,...,2466012,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
26995,1,2688611.0,355030,1,34,2.0,12 anos ou mais,223115.0,1.0,2.0,...,2508188,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,
26999,1,2237253.0,431490,1,35,2.0,12 anos ou mais,223115.0,0.0,0.0,...,2671514,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394,


In [53]:
sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho'].groupby('munResNome')['QTDFILVIVO'].aggregate(['min', 'mean', 'max'])

Unnamed: 0_level_0,min,mean,max
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,0.0,1.167236,12.0


In [54]:
sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho'].groupby('munResNome')['IDADEPAI'].aggregate(['min', 'mean', 'max'])

Unnamed: 0_level_0,min,mean,max
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,16.0,32.352679,65.0


In [55]:
sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho'].groupby('munResNome')['IDADEMAE'].aggregate(['min', 'mean', 'max'])

Unnamed: 0_level_0,min,mean,max
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,12,26.31267,47


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

Pela tarefa 1, deu para perceber que ainda é bem comum mulheres mais novas terem filhos com homens mais velhos.

Na tarefa 2, conseguimos verificar que os bebês do sexo masculino nascem mais pesados que os do sexo feminino. E também podemos notar, que quanto mais estudo a mãe tem, maior a chance do bebê nascer com mais peso.
Precisamos analisar mais a fundo os dados da parte 2 da tarefa 2.
Porque, no meu entender, existem 2 motivos para o peso das crianças das mães com menos estudo serem mais leves.
Um deles é porque a mãe pode ser uma criança, vítima de algum estupro ou algo do gênero, por isso, ela ainda tem menos estudo, menos corpo e com isso, o filho dela terá menos peso.
O outro motivo, é que a mãe pode ser mais pobre, com isso, ter menos estudo, menos recursos para manter uma alimentação saudável, portanto, o filho dela não ganha muito peso.

Na tarefa 3 não tem muito o que analisar.
Apenas verificamos em qual cidade nasceu menos bebês, e depois verificamos a idade média do pai e da mãe desses bebês.
Novamente verificamos que os pais são mais velhos que as mães, algo muito comum.

Finalmente, na tarefa 4, filtramos em qual cidade nasceu mais bebês, que obviamente era a capital Porto Velho.
Depois verificamos a média de filhos vivos. 
Que foi de 1.16, nada fora do normal.
E na última parte do exercício, verificamos qual a idade mínima, média e máxima dos pais.
Aonde também não encontramos nada fora do normal.