# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
sinasc_1 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]
sinasc_1.groupby('munResNome').aggregate([('média', 'min')])

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
Unnamed: 0_level_1,média,média
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2
Alta Floresta D'Oeste,14,17.0
Alto Alegre dos Parecis,14,16.0
Alto Paraíso,11,21.0
Alvorada D'Oeste,15,17.0
Ariquemes,13,20.0
Buritis,14,18.0
Cabixi,13,19.0
Cacaulândia,16,28.0
Cacoal,14,17.0
Campo Novo de Rondônia,13,21.0


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [4]:
sinasc_2 = sinasc_raw[['SEXO', 'ESCMAE', 'DTNASC', 'PESO']]
sinasc_weigth = sinasc_2.loc[sinasc_2['DTNASC'] == '2019-08-23'].copy()
sinasc_weigth.drop(columns='DTNASC', inplace=True)
sinasc_weigth.groupby(['ESCMAE', 'SEXO']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Masculino,2835.0
12 anos ou mais,Feminino,3170.0
12 anos ou mais,Masculino,3366.5
4 a 7 anos,Feminino,3195.714286
4 a 7 anos,Masculino,3288.75
8 a 11 anos,Feminino,3159.913043
8 a 11 anos,Masculino,3308.56


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [5]:
sinasc_3 = sinasc_raw[['munResNome', 'QTDPARTCES','QTDPARTNOR', 'IDADEMAE', 'IDADEPAI']]

#Agregrando os tipos de parto
sinasc_3['PARTOS'] = sinasc_3['QTDPARTCES'] + sinasc_3['QTDPARTNOR']
sinasc_3.drop(columns=['QTDPARTCES', 'QTDPARTNOR'], inplace=True)


In [6]:
# Encontra a cidade com menos nascimentos
menos_nasc = sinasc_3.loc[sinasc_3['PARTOS'] == sinasc_3['PARTOS'].agg('min'), 'munResNome'].values[0]
sinasc_3.loc[sinasc_3['munResNome'] == menos_nasc].groupby('munResNome').agg({'IDADEMAE': ['min', 'max', 'mean'], 'IDADEPAI': ['min', 'max', 'mean']})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,max,mean,min,max,mean
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Alta Floresta D'Oeste,14,53,25.991826,17.0,58.0,29.548701


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [19]:
sinasc_4 = sinasc_raw[['QTDFILVIVO' , 'IDADEPAI', 'QTDPARTCES', 'QTDPARTNOR', 'munResNome', 'DTNASC']]
sinasc_4['DTNASC'] = pd.to_datetime(sinasc_4['DTNASC'])
sinasc_4 = sinasc_4.loc[(sinasc_4['DTNASC'] >= '2019-03-01') & (sinasc_4['DTNASC'] <= '2019-03-31')].copy()
sinasc_4.drop(columns='DTNASC', inplace=True)

#Agregrando os tipos de parto
sinasc_4['PARTOS'] = sinasc_4['QTDPARTCES'] + sinasc_4['QTDPARTNOR']
sinasc_4.drop(columns=['QTDPARTCES', 'QTDPARTNOR'], inplace=True)

# Encontra a cidade com mais nascimentos
mais_partos = sinasc_4.loc[sinasc_4['PARTOS'] == sinasc_4['PARTOS'].agg('max'), 'munResNome'].values[0]
sinasc_4 = sinasc_4.loc[sinasc_4['munResNome'] == mais_partos].copy()
sinasc_4.loc[sinasc_4['munResNome'] == menos_nasc].groupby('munResNome').agg({'IDADEPAI': ['min', 'max', 'mean'], 'QTDFILVIVO': ['min', 'max', 'mean']})

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,min,max,mean,min,max,mean
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,19.0,62.0,34.629032,0.0,9.0,1.295056


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [None]:
sinasc_raw.dtypes

In [None]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

In [None]:
sinasc_raw.columns