# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [34]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [35]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [36]:
sinasc_mun = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]
sinasc_res = sinasc_mun.dropna().groupby('munResNome').mean()
sinasc_res

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.892857,29.548701
Alto Alegre dos Parecis,24.679104,29.179104
Alto Paraíso,22.833333,28.833333
Alvorada D'Oeste,26.825243,30.757282
Ariquemes,28.133333,32.466667
Buritis,24.75,30.8125
Cabixi,32.166667,34.333333
Cacaulândia,31.0,36.333333
Cacoal,26.978605,30.931854
Campo Novo de Rondônia,24.9,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [38]:
sinasc_data = sinasc_raw[['ESCMAE', 'DTNASC', 'SEXO', 'PESO']].copy()

In [39]:
sinasc_0507 = sinasc_data[sinasc_data['DTNASC']=='2019-07-05'].groupby(['ESCMAE', 'SEXO'])['PESO'].mean().to_frame()
sinasc_0507


Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Masculino,3050.0
12 anos ou mais,Feminino,3099.166667
12 anos ou mais,Masculino,2875.5
4 a 7 anos,Feminino,3269.5
4 a 7 anos,Masculino,2990.0
8 a 11 anos,Feminino,3376.875
8 a 11 anos,Masculino,3325.0


In [40]:
sinasc_datanasc = sinasc_data['DTNASC'][sinasc_data['DTNASC']=='2019-07-05']

In [44]:
sinasc_data.pivot_table(values = ['PESO'],
                     index = ['ESCMAE', 'SEXO'],
                     columns = sinasc_datanasc,
                     aggfunc ={'PESO':[('media','mean')]})

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
Unnamed: 0_level_1,Unnamed: 1_level_1,media
Unnamed: 0_level_2,DTNASC,2019-07-05
ESCMAE,SEXO,Unnamed: 2_level_3
1 a 3 anos,Masculino,3050.0
12 anos ou mais,Feminino,3099.166667
12 anos ou mais,Masculino,2875.5
4 a 7 anos,Feminino,3269.5
4 a 7 anos,Masculino,2990.0
8 a 11 anos,Feminino,3376.875
8 a 11 anos,Masculino,3325.0


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [45]:
sinasc_mun.munResNome.value_counts()

Porto Velho                  8437
Ji-Paraná                    2182
Ariquemes                    1729
Vilhena                      1590
Cacoal                       1374
Rolim de Moura                927
Jaru                          881
Guajará-Mirim                 781
Ouro Preto do Oeste           631
Pimenta Bueno                 616
Buritis                       583
Machadinho D'Oeste            500
Espigão D'Oeste               450
Nova Mamoré                   432
Alta Floresta D'Oeste         367
São Miguel do Guaporé         353
Candeias do Jamari            337
Presidente Médici             304
São Francisco do Guaporé      303
Nova Brasilândia D'Oeste      261
Cerejeiras                    237
Costa Marques                 233
Alto Paraíso                  226
Colorado do Oeste             214
Cujubim                       205
Alvorada D'Oeste              205
Monte Negro                   199
Urupá                         170
Seringueiras                  168
Campo Novo de 

In [47]:
mun_menos_nasc = sinasc_mun['munResNome'][sinasc_mun['munResNome'] == 'Castanheiras']

sinasc_mun.pivot_table(values = ['IDADEMAE', 'IDADEPAI'],
                       index = mun_menos_nasc,
                       aggfunc ={'IDADEMAE':[('minimo','min'),('maximo','max'),('media','mean')],
                                 'IDADEPAI':[('minimo','min'),('maximo','max'),('media','mean')]})

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,maximo,media,minimo,maximo,media,minimo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,39.0,27.28125,17.0,43.0,30.392857,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [48]:
sinasc_mun2 = sinasc_raw[['DTNASC', 'QTDFILVIVO', 'IDADEPAI']].copy()

In [49]:
sinasc_mun2['DTNASC'] = pd.to_datetime(sinasc_mun2['DTNASC'])

In [50]:
sinasc_mun2['MES']= sinasc_mun2['DTNASC'].dt.month

In [51]:
sinasc_mun2= sinasc_mun2[sinasc_mun2['MES']==3]

In [52]:
sinasc_mun2.pivot_table(values = ['QTDFILVIVO', 'IDADEPAI'],
                        index = sinasc_mun2['MES'],
                        aggfunc = {'QTDFILVIVO':[('minimo','min'),('maximo','max'),('media','mean')],
                                   'IDADEPAI':[('minimo','min'),('maximo','max'),('media','mean')]})

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,maximo,media,minimo,maximo,media,minimo
MES,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
3,62.0,31.172414,16.0,9.0,1.095009,0.0


In [53]:
sinasc_mun2 = sinasc_raw[['munResNome', 'QTDFILVIVO', 'IDADEPAI']]
sinasc_mun2.dropna().groupby('munResNome').agg([('minimo','min'),('maximo','max'),('media','mean')])

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,minimo,maximo,media,minimo,maximo,media
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Alta Floresta D'Oeste,0.0,7.0,0.843137,17.0,58.0,29.535948
Alto Alegre dos Parecis,0.0,5.0,0.880597,16.0,50.0,29.179104
Alto Paraíso,0.0,2.0,0.666667,21.0,49.0,28.833333
Alvorada D'Oeste,0.0,9.0,1.019417,17.0,52.0,30.757282
Ariquemes,0.0,4.0,1.538462,20.0,51.0,33.153846
Buritis,0.0,3.0,1.0,19.0,49.0,32.469388
Cabixi,0.0,2.0,0.5,19.0,47.0,34.333333
Cacaulândia,0.0,2.0,0.666667,28.0,50.0,36.333333
Cacoal,0.0,7.0,0.889065,17.0,66.0,30.931854
Campo Novo de Rondônia,0.0,2.0,1.26087,21.0,40.0,31.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

#### Alguns dados parecem inconsistentes, um exemplo é na cidade de Santa Luzia D'Oeste, o numero maximo de filhos vivos é de 30, possivelmente houve um erro na coletas dos dados, Outro dado, a média de filhos vivos na cidade de Theobroma é 0,41, onde em comparação ao município de Cujubim essa média é de 2,5.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [18]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [19]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [20]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')