# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [35]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [36]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [37]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [38]:
sinasc_2 = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]


In [39]:
sinasc_2.groupby('munResNome').aggregate(np.median)

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.0,28.5
Alto Alegre dos Parecis,25.0,28.0
Alto Paraíso,24.0,25.5
Alvorada D'Oeste,25.0,31.0
Ariquemes,25.0,29.0
Buritis,25.0,28.5
Cabixi,26.0,35.5
Cacaulândia,25.0,33.5
Cacoal,26.0,30.0
Campo Novo de Rondônia,25.0,29.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [40]:
sinasc_3 = sinasc_raw[['DTNASC', 'PESO', 'ESCMAE','SEXO']]
sinasc_3 = sinasc_3.loc[sinasc_3['DTNASC'] == '2019-02-26']
sinasc_3 = sinasc_3.groupby(['SEXO', 'ESCMAE'])['PESO'].median()
sinasc_3 = pd.DataFrame(sinasc_3)
sinasc_3

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
SEXO,ESCMAE,Unnamed: 2_level_1
Feminino,1 a 3 anos,2820.0
Feminino,12 anos ou mais,3480.0
Feminino,4 a 7 anos,3272.5
Feminino,8 a 11 anos,3435.0
Masculino,12 anos ou mais,3490.0
Masculino,4 a 7 anos,3560.0
Masculino,8 a 11 anos,3405.0


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [41]:
sinasc_4 = sinasc_raw[['DTNASC', 'IDADEMAE', 'IDADEPAI','munResNome']]
sinasc_4.groupby('munResNome')['DTNASC'].count().to_frame().sort_values(by='DTNASC', ascending=False)


Unnamed: 0_level_0,DTNASC
munResNome,Unnamed: 1_level_1
Porto Velho,8437
Ji-Paraná,2182
Ariquemes,1729
Vilhena,1590
Cacoal,1374
Rolim de Moura,927
Jaru,881
Guajará-Mirim,781
Ouro Preto do Oeste,631
Pimenta Bueno,616


In [42]:

sinasc_cidade = sinasc_4.loc[sinasc_4['munResNome'] == 'Castanheiras']
sinasc_cidade.groupby('munResNome').aggregate(['min', np.median, max])


  sinasc_cidade.groupby('munResNome').aggregate(['min', np.median, max])


Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,median,max,min,median,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,17,27.0,39,17.0,31.5,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [44]:
sinasc_5 = sinasc_raw[['DTNASC', 'IDADEPAI','QTDFILVIVO','munResNome']]
sinasc_5['DTNASC'] = pd.to_datetime(sinasc_5['DTNASC'])
dados_marco = sinasc_5[sinasc_5['DTNASC'].dt.month == 3]
sinasc_5 = dados_marco.loc[dados_marco['munResNome'] == 'Porto Velho']
sinasc_5 = sinasc_5[['munResNome','IDADEPAI','QTDFILVIVO']]
sinasc_5.groupby('munResNome').aggregate(['min', np.median, max])


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc_5['DTNASC'] = pd.to_datetime(sinasc_5['DTNASC'])


Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,min,median,max,min,median,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,19.0,34.0,62.0,0.0,1.0,9.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.


- Ah, descobri que a idade minima, mediana e maxima dos pais que moram nas cidades que teve mais nascimentos é maior do que os dos pais que tiveram filhos no municipio com menor número de nascimentos .