# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [109]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [110]:
sinasc_raw = pd.read_csv('../SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [111]:
sinasc = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI', 'SEXO', 'ESCMAE', 'DTNASC', 'PESO', 'QTDFILVIVO']]

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [112]:
sinasc.groupby(['munResNome'])['IDADEMAE', 'IDADEPAI'].median()

  sinasc.groupby(['munResNome'])['IDADEMAE', 'IDADEPAI'].median()


Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.0,28.5
Alto Alegre dos Parecis,25.0,28.0
Alto Paraíso,24.0,25.5
Alvorada D'Oeste,25.0,31.0
Ariquemes,25.0,29.0
Buritis,25.0,28.5
Cabixi,26.0,35.5
Cacaulândia,25.0,33.5
Cacoal,26.0,30.0
Campo Novo de Rondônia,25.0,29.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [113]:
custom_dtnasc = sinasc[sinasc['DTNASC'] == '2019-03-10']

In [114]:
# feminino
fem = custom_dtnasc[custom_dtnasc['SEXO'] == 'Feminino'].groupby('ESCMAE')['PESO'].mean()
fem

ESCMAE
12 anos ou mais    3427.5
4 a 7 anos         2897.5
8 a 11 anos        3100.0
Name: PESO, dtype: float64

In [115]:
# masculino
masc = custom_dtnasc[custom_dtnasc['SEXO'] == 'Masculino'].groupby('ESCMAE')['PESO'].mean()
masc

ESCMAE
12 anos ou mais    3221.666667
4 a 7 anos         3070.000000
8 a 11 anos        3411.923077
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [116]:
menos_bebes = sinasc.groupby('munResNome').describe()
municipio_menos_bebes = menos_bebes['IDADEMAE']['count'].sort_values(ascending=True)
municipio_menos_bebes.head(n=2)

munResNome
Município ignorado - RO     1.0
Castanheiras               32.0
Name: count, dtype: float64

In [117]:
municipio_menos_bebes_describe = sinasc[sinasc['munResNome'] == 'Castanheiras'].describe()
municipio_menos_bebes_describe

Unnamed: 0,IDADEMAE,IDADEPAI,PESO,QTDFILVIVO
count,32.0,28.0,32.0,32.0
mean,27.28125,30.392857,3206.3125,1.0625
std,5.335423,6.843972,467.412192,1.268413
min,17.0,17.0,2280.0,0.0
25%,23.75,26.5,2903.75,0.0
50%,27.0,31.5,3175.0,1.0
75%,31.0,35.0,3421.25,2.0
max,39.0,43.0,4255.0,6.0


In [118]:
print(f"""Dados das mães \n
mean: {municipio_menos_bebes_describe['IDADEMAE']['mean']} \n
max: {municipio_menos_bebes_describe['IDADEMAE']['max']} \n
min: {municipio_menos_bebes_describe['IDADEMAE']['min']}""")

Dados das mães 

mean: 27.28125 

max: 39.0 

min: 17.0


In [119]:
print(f"""Dados dos pais \n
mean: {municipio_menos_bebes_describe['IDADEPAI']['mean']} \n
max: {municipio_menos_bebes_describe['IDADEPAI']['max']} \n
min: {municipio_menos_bebes_describe['IDADEPAI']['min']}""")

Dados dos pais 

mean: 30.392857142857142 

max: 43.0 

min: 17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [120]:
mais_bebes = sinasc.groupby('munResNome').describe()
municipio_mais_bebes = mais_bebes['IDADEMAE']['count'].sort_values(ascending=False)
municipio_mais_bebes.head(n=2)

munResNome
Porto Velho    8437.0
Ji-Paraná      2182.0
Name: count, dtype: float64

In [124]:
municipio_mais_bebes_describe = sinasc[sinasc['munResNome'] == 'Porto Velho'].describe()
municipio_mais_bebes_describe

Unnamed: 0,IDADEMAE,IDADEPAI,PESO,QTDFILVIVO
count,8437.0,672.0,8437.0,7319.0
mean,26.31267,32.352679,3242.820078,1.167236
std,6.549074,7.86562,579.325149,1.22264
min,12.0,16.0,295.0,0.0
25%,21.0,27.0,2955.0,0.0
50%,26.0,32.0,3280.0,1.0
75%,31.0,37.0,3600.0,2.0
max,47.0,65.0,5060.0,12.0


In [126]:
print(f"""Dados dos filhos vivos \n
mean: {municipio_mais_bebes_describe['QTDFILVIVO']['mean']} \n
max: {municipio_mais_bebes_describe['QTDFILVIVO']['max']} \n
min: {municipio_mais_bebes_describe['QTDFILVIVO']['min']}""")

Dados dos filhos vivos 

mean: 1.1672359611968848 

max: 12.0 

min: 0.0


In [127]:
print(f"""Dados das maes \n
mean: {municipio_mais_bebes_describe['IDADEMAE']['mean']} \n
max: {municipio_mais_bebes_describe['IDADEMAE']['max']} \n
min: {municipio_mais_bebes_describe['IDADEMAE']['min']}""")

Dados das maes 

mean: 26.31267038046699 

max: 47.0 

min: 12.0


In [128]:
print(f"""Dados dos pais \n
mean: {municipio_mais_bebes_describe['IDADEPAI']['mean']} \n
max: {municipio_mais_bebes_describe['IDADEPAI']['max']} \n
min: {municipio_mais_bebes_describe['IDADEPAI']['min']}""")

Dados dos pais 

mean: 32.35267857142857 

max: 65.0 

min: 16.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [121]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [122]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [123]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')