# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [151]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [152]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [153]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [154]:
sinasc_1= sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]

In [155]:
sinasc_2= sinasc_raw[['ESCMAE', 'SEXO', 'PESO', 'DTNASC']]

In [156]:
sinasc_3= sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome', 'DTNASC', 'QTDFILVIVO']]

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [157]:
sinasc_1.groupby('munResNome').agg([('média','mean')]) #separa pelo índice município e aplica a média nas demais variáveis numéricas

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
Unnamed: 0_level_1,média,média
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


A idade média das mães é maior no município de Ministro Andreazza, enquanto que a dos pais é maior no município de Itapuã do Oeste. Vale ressaltar que a idade média dos pais de Itapuã do Oeste é bem superior a idade média dos pais dos demais municípios registrados. Também a discrepância entre a idade média dos pais é muito superior à idade média das mães. 

### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [158]:
#sinasc_2= sinasc_raw[['ESCMAE', 'SEXO', 'PESO', 'DTNASC']]

In [159]:
#primeiro o loc para filtrar e depois, com o filtro aplicado, usa o groupby para as variáveis categóricas de interesse e aplica a média no peso.
(sinasc_2.loc[(sinasc_2['DTNASC']=='2019-10-22')]).groupby(['DTNASC','ESCMAE', 'SEXO']).agg([('média', 'mean')])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PESO
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,média
DTNASC,ESCMAE,SEXO,Unnamed: 3_level_2
2019-10-22,12 anos ou mais,Feminino,3347.777778
2019-10-22,12 anos ou mais,Masculino,3244.0
2019-10-22,4 a 7 anos,Feminino,3360.75
2019-10-22,4 a 7 anos,Masculino,3506.0
2019-10-22,8 a 11 anos,Feminino,3250.947368
2019-10-22,8 a 11 anos,Masculino,3155.0


No df acima, a única faixa de estudo das mães em que o peso do sexo feminino não é superior ao do masculino é a faixa de estudo entre 4 a 7 anos. 

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [160]:
#sinasc_1= sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]

In [161]:
#descobrindo qual é o município com menos nascimentos, para isso um value counts em ordem crescente
sinasc_1.munResNome.value_counts().sort_values(ascending=True)[:2]

Município ignorado - RO     1
Castanheiras               32
Name: munResNome, dtype: int64

Como acima o município com menos nascimentos é um município ignorado, vamos utilizar Castanheiras.

In [162]:
#procurando Castanheiras entre os municípios e aplicando o groupby e o aggregate
(sinasc_1.loc[(sinasc_1['munResNome']=='Castanheiras')]).groupby(['munResNome']).aggregate([('minimo', 'min'), ('média', 'mean'), ('máximo',max)])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,minimo,média,máximo,minimo,média,máximo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,17,27.28125,39,17.0,30.392857,43.0


O municipio de Castanheiras tem a mesma idade mínima para pai e mãe, enquanto que a idade máxima difere de 4 anos. 

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [163]:
sinasc_3.dtypes

IDADEMAE        int64
IDADEPAI      float64
munResNome     object
DTNASC         object
QTDFILVIVO    float64
dtype: object

In [169]:
#transformando a dtnasc para datetime, com o objetivo de posteriormente utilizar o atributo month
sinasc_3.loc[:,'DTNASC'] = pd.to_datetime(sinasc_3['DTNASC'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc_3.loc[:,'DTNASC'] = pd.to_datetime(sinasc_3['DTNASC'])


In [170]:
#visualizando qual a frequência que cada município aparece no mês três (março)
(sinasc_3[sinasc_3['DTNASC'].dt.month == 3]).munResNome.value_counts()

Porto Velho                  744
Ji-Paraná                    188
Vilhena                      148
Ariquemes                    141
Cacoal                       133
Jaru                          80
Guajará-Mirim                 75
Rolim de Moura                69
Ouro Preto do Oeste           67
Pimenta Bueno                 62
Buritis                       59
Nova Mamoré                   53
Machadinho D'Oeste            44
Espigão D'Oeste               44
São Miguel do Guaporé         41
Candeias do Jamari            33
São Francisco do Guaporé      31
Alta Floresta D'Oeste         31
Presidente Médici             29
Costa Marques                 24
Alto Paraíso                  22
Alvorada D'Oeste              22
Monte Negro                   20
Nova Brasilândia D'Oeste      20
Seringueiras                  19
Colorado do Oeste             19
Chupinguaia                   18
Cujubim                       17
Cerejeiras                    16
Urupá                         14
Vale do Pa

Acima podemos ver que o município com o maior número de registros no mês de março é Porto Velho.

In [171]:
#criando uma nova variável chamada mês março para por apenas o filtro do mês 3
mes_marco= sinasc_3[sinasc_3['DTNASC'].dt.month == 3]

In [172]:
#observando se salvou as demais colunas que haviam no sinasc_3, contendo o filtro do mes de março
mes_marco

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome,DTNASC,QTDFILVIVO
3,30,24.0,Alto Alegre dos Parecis,2019-03-20,0.0
4,30,27.0,Alta Floresta D'Oeste,2019-03-23,1.0
5,33,40.0,Alta Floresta D'Oeste,2019-03-27,2.0
9,30,41.0,Alta Floresta D'Oeste,2019-03-11,1.0
10,31,28.0,Alta Floresta D'Oeste,2019-03-11,1.0
...,...,...,...,...,...
13670,24,,Porto Velho,2019-03-21,0.0
13671,24,,Porto Velho,2019-03-22,2.0
13736,35,42.0,Porto Velho,2019-03-07,1.0
13748,36,,Vilhena,2019-03-30,2.0


In [173]:
#no mês março, filtrando apenas o muniípio com maior registros, que como visto acima é Porto Velho e aplcando max, min e média as demais categorias numéricas. 
(mes_marco[mes_marco['munResNome'] == 'Porto Velho']).groupby(['DTNASC', 'munResNome']).aggregate([('minimo', 'min'), ('média', 'mean'), ('máximo',max)])

Unnamed: 0_level_0,Unnamed: 1_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,Unnamed: 1_level_1,minimo,média,máximo,minimo,média,máximo,minimo,média,máximo
DTNASC,munResNome,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2019-03-01,Porto Velho,15,28.34375,44,33.0,40.2,51.0,0.0,1.322581,3.0
2019-03-02,Porto Velho,14,26.285714,38,25.0,32.0,38.0,0.0,1.434783,4.0
2019-03-03,Porto Velho,17,28.285714,42,34.0,34.0,34.0,0.0,1.4,3.0
2019-03-04,Porto Velho,16,27.65,43,30.0,33.8,38.0,0.0,1.6,4.0
2019-03-05,Porto Velho,15,26.0,38,39.0,39.0,39.0,0.0,1.652174,5.0
2019-03-06,Porto Velho,16,26.095238,37,35.0,35.0,35.0,0.0,1.285714,4.0
2019-03-07,Porto Velho,16,27.35,42,31.0,41.666667,52.0,0.0,1.416667,7.0
2019-03-08,Porto Velho,17,28.095238,42,31.0,31.0,31.0,0.0,1.588235,4.0
2019-03-09,Porto Velho,17,24.777778,38,26.0,31.0,37.0,0.0,1.0,2.0
2019-03-10,Porto Velho,16,25.0,39,,,,0.0,1.214286,3.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [174]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [175]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [176]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')