# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('sinasc_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
sinasc_1 = sinasc_raw[['munResNome' , 'IDADEMAE', 'IDADEPAI']]
sinasc_1.head()

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,19,26.0
1,Alta Floresta D'Oeste,29,24.0
2,Alta Floresta D'Oeste,37,32.0
3,Alto Alegre dos Parecis,30,24.0
4,Alta Floresta D'Oeste,30,27.0


In [4]:
sinasc_1.IDADEPAI.isna().sum()

np.int64(19421)

In [5]:
sinasc_1.dropna().shape

(7607, 3)

In [6]:
resposta_1 = sinasc_1.dropna().groupby('munResNome').mean()
round(resposta_1, 2)

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.89,29.55
Alto Alegre dos Parecis,24.68,29.18
Alto Paraíso,22.83,28.83
Alvorada D'Oeste,26.83,30.76
Ariquemes,28.13,32.47
Buritis,24.75,30.81
Cabixi,32.17,34.33
Cacaulândia,31.0,36.33
Cacoal,26.98,30.93
Campo Novo de Rondônia,24.9,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [7]:
sinasc_2 = sinasc_raw[sinasc_raw['DTNASC'] == '2019-06-26']
sinasc_2 = sinasc_2[['ESCMAE', 'SEXO','PESO']]
sinasc_2.head()

Unnamed: 0,ESCMAE,SEXO,PESO
1202,8 a 11 anos,Feminino,3715
1258,12 anos ou mais,Feminino,2590
1344,8 a 11 anos,Masculino,3465
1345,8 a 11 anos,Feminino,3105
1360,12 anos ou mais,Feminino,4220


In [8]:
resposta_2 = sinasc_2.dropna().groupby(['ESCMAE','SEXO']).mean()
round(resposta_2, 2)

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Feminino,2340.0
1 a 3 anos,Masculino,2690.0
12 anos ou mais,Feminino,3111.67
12 anos ou mais,Masculino,3285.77
4 a 7 anos,Feminino,3270.0
4 a 7 anos,Masculino,3097.78
8 a 11 anos,Feminino,3202.94
8 a 11 anos,Masculino,3256.81


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [9]:
mun_ranking = sinasc_raw.groupby('munResNome').size().sort_values()
mun_menor_nasc_idx = mun_ranking.drop('Município ignorado - RO').idxmin()
mun_menor_nasc_idx

'Castanheiras'

In [10]:
sinasc_3 = sinasc_raw[sinasc_raw['munResNome'] == mun_menor_nasc_idx]
sinasc_3

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
2067,1,2496046.0,110004,1,18,1.0,8 a 11 anos,999992.0,0.0,0.0,...,3,2087,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
2300,1,7648693.0,110004,1,31,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2323,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
4512,1,2495279.0,110012,1,22,1.0,8 a 11 anos,521135.0,0.0,0.0,...,2,4538,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
5881,1,2516047.0,110018,1,26,2.0,8 a 11 anos,,0.0,0.0,...,5,5913,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
5952,1,2516047.0,110018,1,32,1.0,12 anos ou mais,,2.0,0.0,...,5,5984,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
10762,1,2495228.0,110028,1,21,1.0,8 a 11 anos,621005.0,0.0,0.0,...,5,10842,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
10768,1,2495228.0,110028,1,31,5.0,8 a 11 anos,621005.0,1.0,0.0,...,5,10848,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
10882,1,2495228.0,110028,1,23,2.0,8 a 11 anos,999992.0,0.0,0.0,...,5,10963,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
10962,1,2495228.0,110028,1,29,1.0,8 a 11 anos,621005.0,3.0,0.0,...,5,11043,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
10988,1,2495228.0,110028,1,31,2.0,8 a 11 anos,999992.0,1.0,1.0,...,5,11069,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842


In [11]:
sinasc_3_limpo = sinasc_3[sinasc_3['IDADEMAE'].notna()]
sinasc_3_limpo = sinasc_3_limpo[sinasc_3_limpo['IDADEPAI'].notna()]
resposta_3 = sinasc_3_limpo.agg({
    'IDADEMAE': ['mean', 'min', 'max'],
    'IDADEPAI': ['mean', 'min', 'max']
})
round(resposta_3, 2)

Unnamed: 0,IDADEMAE,IDADEPAI
mean,28.07,30.39
min,18.0,17.0
max,39.0,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [12]:
sinasc_4 = sinasc_raw
sinasc_4['DTNASC'] = pd.to_datetime(sinasc_4['DTNASC'])
sinasc_4_marco = sinasc_4[sinasc_4['DTNASC'].dt.month == 3]
sinasc_4_marco.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,5,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,5,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
10,1,2679477.0,110001,1,31,5.0,8 a 11 anos,512105.0,1.0,0.0,...,5,11,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [13]:
mun_ranking_2 = sinasc_4_marco.groupby('munResNome').size().sort_values(ascending = False)
mun_maior_nasc_idx = mun_ranking_2.idxmax()
mun_maior_nasc_idx

'Porto Velho'

In [14]:
sinasc_4_res = sinasc_4_marco[sinasc_4_marco['munResNome'] == mun_maior_nasc_idx]
sinasc_4_res

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
612,1,2494299.0,110002,1,19,5.0,4 a 7 anos,999992.0,0.0,0.0,...,3,618,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
700,1,2494299.0,110002,1,19,5.0,4 a 7 anos,622020.0,1.0,0.0,...,4,706,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
3232,1,2808609.0,110011,1,34,5.0,Nenhuma,622020.0,0.0,1.0,...,4,3257,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
3238,1,2808609.0,110011,1,24,5.0,8 a 11 anos,622020.0,1.0,0.0,...,5,3263,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
6818,1,2515369.0,110020,1,38,2.0,12 anos ou mais,999991.0,2.0,1.0,...,5,6864,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13668,1,2000733.0,120040,1,19,5.0,4 a 7 anos,999992.0,1.0,0.0,...,3,18630,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13669,1,2000733.0,120040,1,21,5.0,4 a 7 anos,999992.0,0.0,0.0,...,9,18667,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13670,1,2000733.0,120040,1,24,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,18687,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13671,1,2000733.0,120040,1,24,5.0,4 a 7 anos,999992.0,2.0,0.0,...,9,18702,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394


In [15]:
sinasc_4_res_limpo = sinasc_4_res[sinasc_4_res['QTDFILVIVO'].notna()]
sinasc_4_res_limpo = sinasc_4_res_limpo[sinasc_4_res_limpo['IDADEPAI'].notna()]
resposta_4 = sinasc_4_res_limpo.agg({
    'QTDFILVIVO': ['mean', 'max', 'min'],
    'IDADEPAI': ['mean', 'max', 'min']
})
round(resposta_4, 2)

Unnamed: 0,QTDFILVIVO,IDADEPAI
mean,1.48,35.75
max,6.0,62.0
min,0.0,19.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [43]:
sinasc_teste = sinasc_raw[['GRAVIDEZ' , 'APGAR5']]
sinasc_teste.head()

Unnamed: 0,GRAVIDEZ,APGAR5
0,Única,10.0
1,Única,9.0
2,Única,10.0
3,Única,10.0
4,Única,10.0


In [46]:
sinasc_teste_limpo = sinasc_teste[sinasc_teste['GRAVIDEZ'].notna()]
sinasc_teste_limpo = sinasc_teste_limpo[sinasc_teste_limpo['APGAR5'].notna()]
resposta_teste_2 = sinasc_teste_limpo.dropna().groupby('GRAVIDEZ').mean()
resposta_teste_2

Unnamed: 0_level_0,APGAR5
GRAVIDEZ,Unnamed: 1_level_1
Dupla,8.739754
Tríplice e mais,8.8
Única,9.187434


Podemos notar que quando a Gravidez é única há uma chance menor de asfixia para o bebê, porém quando são gemêos o risco é um pouco maior, mas não significante para gerar um risco a saúde da criança.

In [16]:
sinasc_raw.dtypes

Unnamed: 0,0
ORIGEM,int64
CODESTAB,float64
CODMUNNASC,int64
LOCNASC,int64
IDADEMAE,int64
...,...
munResUf,object
munResLat,float64
munResLon,float64
munResAlt,float64


In [17]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [18]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [38]:
sinasc_teste = sinasc_raw[['GRAVIDEZ' , 'APGAR5']]
sinasc_teste.head()

Unnamed: 0,GRAVIDEZ,APGAR5
0,Única,10.0
1,Única,9.0
2,Única,10.0
3,Única,10.0
4,Única,10.0


In [42]:
resposta_teste_2 = sinasc_teste_limpo.dropna().groupby('GRAVIDEZ').mean()
resposta_teste_2

Unnamed: 0_level_0,APGAR5
GRAVIDEZ,Unnamed: 1_level_1
Dupla,8.739754
Tríplice e mais,8.8
Única,9.187434
