# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [5]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

In [7]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [9]:
media_mae_pai = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]
media_mae_pai

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,19,26.0
1,Alta Floresta D'Oeste,29,24.0
2,Alta Floresta D'Oeste,37,32.0
3,Alto Alegre dos Parecis,30,24.0
4,Alta Floresta D'Oeste,30,27.0
...,...,...,...
27023,Vilhena,32,35.0
27024,Chupinguaia,19,
27025,Vilhena,24,30.0
27026,Vilhena,21,24.0


In [10]:
media_mae_pai.dropna().groupby('munResNome').mean() #calculando a média removendo os dados faltantes

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.892857,29.548701
Alto Alegre dos Parecis,24.679104,29.179104
Alto Paraíso,22.833333,28.833333
Alvorada D'Oeste,26.825243,30.757282
Ariquemes,28.133333,32.466667
Buritis,24.75,30.8125
Cabixi,32.166667,34.333333
Cacaulândia,31.0,36.333333
Cacoal,26.978605,30.931854
Campo Novo de Rondônia,24.9,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [12]:
media_peso_bebes = sinasc_raw[['PESO', 'SEXO', 'ESCMAE', 'DTNASC']]
media_peso_bebes

Unnamed: 0,PESO,SEXO,ESCMAE,DTNASC
0,3685,Masculino,8 a 11 anos,2019-02-19
1,3055,Feminino,8 a 11 anos,2019-02-21
2,3460,Feminino,8 a 11 anos,2019-02-25
3,2982,Feminino,12 anos ou mais,2019-03-20
4,3310,Feminino,8 a 11 anos,2019-03-23
...,...,...,...,...
27023,2110,Masculino,12 anos ou mais,2019-12-13
27024,3310,Masculino,8 a 11 anos,2019-10-04
27025,3065,Masculino,8 a 11 anos,2019-08-02
27026,2352,Masculino,8 a 11 anos,2019-12-23


In [13]:
media_peso_bebes.dropna()

Unnamed: 0,PESO,SEXO,ESCMAE,DTNASC
0,3685,Masculino,8 a 11 anos,2019-02-19
1,3055,Feminino,8 a 11 anos,2019-02-21
2,3460,Feminino,8 a 11 anos,2019-02-25
3,2982,Feminino,12 anos ou mais,2019-03-20
4,3310,Feminino,8 a 11 anos,2019-03-23
...,...,...,...,...
27023,2110,Masculino,12 anos ou mais,2019-12-13
27024,3310,Masculino,8 a 11 anos,2019-10-04
27025,3065,Masculino,8 a 11 anos,2019-08-02
27026,2352,Masculino,8 a 11 anos,2019-12-23


In [14]:
media_peso_bebes[media_peso_bebes['DTNASC'] == '2019-08-23'].groupby(['ESCMAE','SEXO'])['PESO'].mean().unstack()

SEXO,Feminino,Masculino
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,,2835.0
12 anos ou mais,3170.0,3366.5
4 a 7 anos,3195.714286,3288.75
8 a 11 anos,3159.913043,3308.56


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [16]:
sinasc_raw.groupby('munResNome')['DTNASC'].count().sort_values().head(5)

munResNome
Município ignorado - RO     1
Castanheiras               32
Pimenteiras do Oeste       40
Primavera de Rondônia      43
Parecis                    44
Name: DTNASC, dtype: int64

Desconsiderando o município ignorado - RO.

In [18]:
sinasc_castanheiras_maes = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras'].groupby('munResNome')['IDADEMAE']
sinasc_castanheiras_maes

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000026E86D03210>

In [19]:
sinasc_castanheiras_maes.agg([('idade minima', 'min'), ('idade média', 'mean'), ('idade máxima', 'max')])

Unnamed: 0_level_0,idade minima,idade média,idade máxima
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Castanheiras,17,27.28125,39


In [20]:
sinasc_castanheiras_pais = sinasc_raw[sinasc_raw['munResNome'] == 'Castanheiras'].groupby('munResNome')['IDADEPAI']
sinasc_castanheiras_pais

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000026E86D17AD0>

In [21]:
sinasc_castanheiras_pais.agg([('idade minima', 'min'), ('idade média', 'mean'), ('idade máxima', 'max')])

Unnamed: 0_level_0,idade minima,idade média,idade máxima
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Castanheiras,17.0,30.392857,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [23]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

In [24]:
nascimentos_marco = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]
nascimentos_marco

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,5,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,5,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
10,1,2679477.0,110001,1,31,5.0,8 a 11 anos,512105.0,1.0,0.0,...,5,11,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13670,1,2000733.0,120040,1,24,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,18687,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13671,1,2000733.0,120040,1,24,5.0,4 a 7 anos,999992.0,2.0,0.0,...,9,18702,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13736,1,2688611.0,355030,1,35,2.0,12 anos ou mais,10210.0,1.0,0.0,...,5,1066018,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13748,1,2311682.0,510340,1,36,4.0,12 anos ou mais,354605.0,2.0,1.0,...,5,1386627,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


In [25]:
nascimentos_marco['munResNome'].value_counts().idxmax()

'Porto Velho'

In [26]:
porto_velho_qtdfilvivo = sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho'].groupby('munResNome')['QTDFILVIVO']
porto_velho_qtdfilvivo

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000026E86CE4110>

In [27]:
porto_velho_qtdfilvivo.agg([('minima', 'min'), ('média', 'mean'), ('máxima', 'max')])

Unnamed: 0_level_0,minima,média,máxima
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,0.0,1.167236,12.0


In [28]:
porto_velho_pai = sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho'].groupby('munResNome')['IDADEPAI']
porto_velho_pai

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000026E86CD7A50>

In [29]:
porto_velho_pai.agg([('minima', 'min'), ('média', 'mean'), ('máxima', 'max')])

Unnamed: 0_level_0,minima,média,máxima
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,16.0,32.352679,65.0


In [30]:
porto_velho_mae = sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho'].groupby('munResNome')['IDADEMAE']
porto_velho_mae

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000026E86CD4890>

In [31]:
porto_velho_mae.agg([('minima', 'min'), ('média', 'mean'), ('máxima', 'max')])

Unnamed: 0_level_0,minima,média,máxima
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,12,26.31267,47


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

### Análise 

- A idade média dos pais é maior do que a das mães.
- O município onde a média de idade dos pais é maior é Itapuã do Oeste
- O município onde a média de idade das mães é maior é Pimenteiras do Oeste
- O município onde a média de idade dos pais é menor é Rio Crespo
- O município onde a média de idade das mães é menor é Alto Paraíso
- No dia do meu aniversário, não houve nascimento de bebê do sexo feminino onde a escolaridade da mãe era de 1 a 3 anos.
- A idade máxima dos pais em Porto Velho é maior que a de Castanheiras