# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

___

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [22]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

____

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [23]:
sinasc = pd.read_csv('SINASC_RO_2019.csv')
sinasc.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


____

# Tarefa 1

### 1. Idade média das mães e dos pais por município (coluna munResNome)


In [100]:
sinasc[['munResNome', 'IDADEMAE', 'IDADEPAI']].groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebês por sexo que nasceram no dia do seu aniversário por faixas de escolaridade da mãe
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [29]:
sinasc.loc[:,'DTNASC'] = pd.to_datetime(sinasc['DTNASC'])

In [52]:
sinasc.set_index('DTNASC', inplace=True)

In [48]:
sinasc.loc[(sinasc.index.day == 1) & (sinasc.index.month == 7)].pivot_table(values = 'PESO',index = ['ESCMAE', 'SEXO'])

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Masculino,2600.0
12 anos ou mais,Feminino,3470.0
12 anos ou mais,Masculino,3333.75
4 a 7 anos,Feminino,3091.25
4 a 7 anos,Masculino,3188.75
8 a 11 anos,Feminino,3201.769231
8 a 11 anos,Masculino,3401.0
Nenhuma,Feminino,3020.0


### 3. Qual o município que nasceram menos bebês em 2019?
    - qual a idade média, máxima, mínima das mães e dos pais nesse município?

In [79]:
sinasc.loc[sinasc.index.year == 2019].groupby('munResNome')['IDADEMAE'].count().sort_values().head()

munResNome
Município ignorado - RO     1
Castanheiras               32
Pimenteiras do Oeste       40
Primavera de Rondônia      43
Parecis                    44
Name: IDADEMAE, dtype: int64

In [83]:
sinasc_agr = sinasc.loc[sinasc.munResNome == 'Castanheiras'].groupby('munResNome')[['IDADEMAE', 'IDADEPAI']]
sinasc_agr.agg([('média', 'mean'), ('mínimo', min), ('máximo', max)])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,mínimo,máximo,média,mínimo,máximo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,27.28125,17,39,30.392857,17.0,43.0


### 4. Qual o município que nasceram mais bebês no mês de março?
    - qual a quantidade de filhos vivos média, máxima e mínima nesse município?
    - qual a idade média, máxima e mínima dos pais nesse município?



In [80]:
sinasc.loc[sinasc.index.month == 3].groupby('munResNome')['IDADEMAE'].count().sort_values(ascending=False).head()

munResNome
Porto Velho    744
Ji-Paraná      188
Vilhena        148
Ariquemes      141
Cacoal         133
Name: IDADEMAE, dtype: int64

In [84]:
sinasc_agr = sinasc.loc[sinasc.munResNome == 'Porto Velho'].groupby('munResNome')['QTDFILVIVO']
sinasc_agr.agg([('média', 'mean'), ('máximo', max), ('mínimo', min)])

Unnamed: 0_level_0,média,máximo,mínimo
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,1.167236,12.0,0.0


In [85]:
sinasc_agr = sinasc.loc[sinasc.munResNome == 'Porto Velho'].groupby('munResNome')[['IDADEMAE', 'IDADEPAI']]
sinasc_agr.agg([('média', 'mean'), ('máximo', max), ('mínimo', min)])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máximo,mínimo,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,26.31267,47,12,32.352679,65.0,16.0


In [112]:
sinasc['QTDFILVIVO'].value_counts()

1.0     9390
0.0     9326
2.0     4474
3.0     1370
4.0      484
5.0      214
6.0      112
7.0       42
8.0       23
9.0        8
10.0       6
12.0       3
11.0       1
30.0       1
14.0       1
Name: QTDFILVIVO, dtype: int64

In [106]:
sinasc_agr = sinasc.groupby('munResNome')['QTDFILVIVO']
sinasc_agr.agg([('média', 'mean'), ('máximo', max), ('mínimo', min)])

Unnamed: 0_level_0,média,máximo,mínimo
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alta Floresta D'Oeste,0.856354,7.0,0.0
Alto Alegre dos Parecis,0.907895,5.0,0.0
Alto Paraíso,1.162896,6.0,0.0
Alvorada D'Oeste,0.975248,9.0,0.0
Ariquemes,0.962253,8.0,0.0
Buritis,1.353846,10.0,0.0
Cabixi,0.7625,4.0,0.0
Cacaulândia,1.013333,7.0,0.0
Cacoal,0.899123,7.0,0.0
Campo Novo de Rondônia,1.160305,5.0,0.0


In [107]:
sinasc_agr = sinasc.groupby('munResNome')[['IDADEMAE', 'IDADEPAI']]
sinasc_agr.agg([('média', 'mean'), ('máximo', max), ('mínimo', min)])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,média,máximo,mínimo,média,máximo,mínimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Alta Floresta D'Oeste,25.991826,53,14,29.548701,58.0,17.0
Alto Alegre dos Parecis,24.844156,41,14,29.179104,50.0,16.0
Alto Paraíso,24.960177,42,11,28.833333,49.0,21.0
Alvorada D'Oeste,25.770732,44,15,30.757282,52.0,17.0
Ariquemes,25.607866,44,13,32.466667,51.0,20.0
Buritis,25.559177,44,14,30.8125,49.0,18.0
Cabixi,26.0375,39,13,34.333333,47.0,19.0
Cacaulândia,25.546667,42,16,36.333333,50.0,28.0
Cacoal,26.890102,47,14,30.931854,66.0,17.0
Campo Novo de Rondônia,24.825301,40,13,30.5,40.0,21.0


In [114]:
sinasc['fecundidade_alta'] = 0
sinasc.loc[(sinasc['QTDFILVIVO']+sinasc['QTDFILMORT']) > 1.76, 'fecundidade_alta'] = 1
sinasc['fecundidade_alta'].value_counts()

0    18374
1     8654
Name: fecundidade_alta, dtype: int64