# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [56]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [57]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [163]:
sinasc_raw.shape

(27028, 69)

In [58]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [59]:
# filtrando as colunas de interesse e atribuindo a um novo dataframe sinasc_1
sinasc_1 = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']] 
sinasc_1.head()

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome
0,19,26.0,Alta Floresta D'Oeste
1,29,24.0,Alta Floresta D'Oeste
2,37,32.0,Alta Floresta D'Oeste
3,30,24.0,Alto Alegre dos Parecis
4,30,27.0,Alta Floresta D'Oeste


In [60]:
# agrupando pela coluna munResNome que se referece ao municipio, o dataframe criado anteriormente 
municipio = sinasc_1.groupby('munResNome')
municipio

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002789A433810>

In [152]:
# aplicando a função de média no agrupamento por municipio para as variáveis idademae e idadepai
municipio.mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [62]:
# conferindo o tipo de dado na coluna das datas de nascimento com o método dtype
sinasc_raw['DTNASC'].dtype

dtype('O')

In [63]:
# alterando o tipo do dado para datetime com o método do pandas pd.to_datetime
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw.loc[:, 'DTNASC'])
sinasc_raw['DTNASC']

0       2019-02-19
1       2019-02-21
2       2019-02-25
3       2019-03-20
4       2019-03-23
           ...    
27023   2019-12-13
27024   2019-10-04
27025   2019-08-02
27026   2019-12-23
27027   2019-12-27
Name: DTNASC, Length: 27028, dtype: datetime64[ns]

In [64]:
# filtrando o dataframe na coluna de DTNASC a condição de mês igual 10 e dia igual a 28
df_nasc = sinasc_raw[(sinasc_raw.loc[:, 'DTNASC'].dt.month == 10) & (sinasc_raw.loc[:, 'DTNASC'].dt.day == 28)]
df_nasc['DTNASC']

13797   2019-10-28
13798   2019-10-28
14536   2019-10-28
14543   2019-10-28
14578   2019-10-28
           ...    
26720   2019-10-28
26721   2019-10-28
26722   2019-10-28
26918   2019-10-28
26919   2019-10-28
Name: DTNASC, Length: 73, dtype: datetime64[ns]

In [65]:
# filtrando o dataframe gerado na célula anterior, a coluna 'SEXO' com a condição do valor igual a 'feminino'
# aplicando o método mean() para calcular a média do peso dos bebês do sexo feminino 
fem = df_nasc[df_nasc['SEXO'] == 'Feminino'].groupby('ESCMAE')['PESO'].mean()
fem

ESCMAE
12 anos ou mais    3378.166667
4 a 7 anos         2915.000000
8 a 11 anos        3066.920000
Name: PESO, dtype: float64

In [66]:
# Repetindo o processo anterior alterando apenas condição para 'masculino'
masc = df_nasc[df_nasc['SEXO'] == 'Masculino'].groupby('ESCMAE')['PESO'].mean()
masc

ESCMAE
12 anos ou mais    3400.000000
4 a 7 anos         3468.000000
8 a 11 anos        3017.105263
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [67]:
# gerando novo dataframe a partir das duas colunas de interesse 'SEXO' e 'munResNome'
sinasc_2 = sinasc_raw.loc[:, ('SEXO', 'munResNome')]
sinasc_2

Unnamed: 0,SEXO,munResNome
0,Masculino,Alta Floresta D'Oeste
1,Feminino,Alta Floresta D'Oeste
2,Feminino,Alta Floresta D'Oeste
3,Feminino,Alto Alegre dos Parecis
4,Feminino,Alta Floresta D'Oeste
...,...,...
27023,Masculino,Vilhena
27024,Masculino,Chupinguaia
27025,Masculino,Vilhena
27026,Masculino,Vilhena


In [122]:
# Agrupando o dataframe anterior a partir da coluna 'munResNome'
# Com o método count e sort_values, fazendo a contagem e ordenando de como crescente os valores na coluna 'SEXO', 
menos_nasc = sinasc_2.groupby('munResNome').count().sort_values('SEXO')
menos_nasc

Unnamed: 0_level_0,SEXO
munResNome,Unnamed: 1_level_1
Município ignorado - RO,1
Castanheiras,32
Pimenteiras do Oeste,40
Primavera de Rondônia,43
Parecis,44
Rio Crespo,50
São Felipe D'Oeste,54
Teixeirópolis,64
Cacaulândia,75
Cabixi,80


In [124]:
# filtrando o dataframe a partir da coluna 'munResNome' os valores que sejam iguais a 'Castanheiras' 
municipio_menos_nasc = sinasc_raw[(sinasc_raw.loc[:, 'munResNome']=='Castanheiras')]
municipio_menos_nasc.head(2)

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
2067,1,2496046.0,110004,1,18,1.0,8 a 11 anos,999992.0,0.0,0.0,...,3,2087,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842
2300,1,7648693.0,110004,1,31,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,2323,ATIVO,MUNIC,Castanheiras,Rondônia,-11.42684,-61.94916,215.0,892.842


In [153]:
# filtrando a coluna 'IDADEMAE' no dataframe criado na célula anterior correspondente ao município que menos nasceu bebês 
idade_mae = municipio_menos_nasc['IDADEMAE']
idade_mae

2067     18
2300     31
4512     22
5881     26
5952     32
10762    21
10768    31
10882    23
10962    29
10988    31
10997    35
11017    27
11175    24
11196    27
11293    25
11354    34
11371    21
17441    39
24282    28
24288    27
24299    30
24316    17
24486    35
24507    27
24517    27
24528    25
24605    32
24639    18
24674    27
24715    32
24781    22
24863    30
Name: IDADEMAE, dtype: int64

In [126]:
# Aplicando a média, a máxima e a mínima sobre a idade das mães do município de 'Castanheiras' com o método agg()
idade_mae.agg(['mean', 'max', 'min'])

mean    27.28125
max     39.00000
min     17.00000
Name: IDADEMAE, dtype: float64

In [129]:
# repetindo o mesmo processo para 'IDADEPAI'
idade_pai = municipio_menos_nasc['IDADEPAI']

In [128]:
idade_pai.agg(['mean', 'max', 'min'])

mean    30.392857
max     43.000000
min     17.000000
Name: IDADEPAI, dtype: float64

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [130]:
# criando um novo dataframe a partir da condição do mês igual 3 que é correspondente a março
df_marco = sinasc_raw[(sinasc_raw.loc[:, 'DTNASC'].dt.month == 3)]
df_marco

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,5,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,5,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
10,1,2679477.0,110001,1,31,5.0,8 a 11 anos,512105.0,1.0,0.0,...,5,11,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13670,1,2000733.0,120040,1,24,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,18687,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13671,1,2000733.0,120040,1,24,5.0,4 a 7 anos,999992.0,2.0,0.0,...,9,18702,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13736,1,2688611.0,355030,1,35,2.0,12 anos ou mais,10210.0,1.0,0.0,...,5,1066018,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13748,1,2311682.0,510340,1,36,4.0,12 anos ou mais,354605.0,2.0,1.0,...,5,1386627,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


In [134]:
# separando na variável sinasc_4 o dataframe com os registros de março filtrado a partir das colunas ['munResNome', 'SEXO']
sinasc_4 = df_marco[['munResNome', 'SEXO']]

In [155]:
# agrupando a partir da coluna 'munResNome' a contagem dos nascimentos dos bebês contidos na coluna 'SEXO'
# ordenando a contagem de forma decrescente de modo que o primeiro é o valor máximo contado
mais_nasc = sinasc_4.groupby('munResNome').count().sort_values('SEXO', ascending=False)
mais_nasc

Unnamed: 0_level_0,SEXO
munResNome,Unnamed: 1_level_1
Porto Velho,744
Ji-Paraná,188
Vilhena,148
Ariquemes,141
Cacoal,133
Jaru,80
Guajará-Mirim,75
Rolim de Moura,69
Ouro Preto do Oeste,67
Pimenta Bueno,62


In [157]:
# filtrando o dataframe a partir do município que obteve a maior contagem de nascimentos no resultado na tabela da celula anterior
municipio_mais_nasc = sinasc_raw[(sinasc_raw.loc[:, 'munResNome']=='Porto Velho')]

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
123,1,2515520.0,110002,1,22,1.0,8 a 11 anos,999992.0,0.0,0.0,...,5,125,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
201,1,2494299.0,110002,1,22,2.0,8 a 11 anos,999992.0,0.0,0.0,...,5,204,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
246,1,2494299.0,110002,1,29,1.0,8 a 11 anos,999992.0,2.0,0.0,...,3,249,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
272,1,2494299.0,110002,1,27,2.0,4 a 7 anos,999992.0,2.0,1.0,...,5,275,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
355,1,2515504.0,110002,1,33,2.0,8 a 11 anos,999992.0,0.0,0.0,...,5,359,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26986,1,3039269.0,250750,1,35,5.0,12 anos ou mais,111410.0,0.0,0.0,...,5,1816042,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
26991,1,2081288.0,355030,1,29,1.0,8 a 11 anos,422310.0,0.0,0.0,...,5,2466012,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
26995,1,2688611.0,355030,1,34,2.0,12 anos ou mais,223115.0,1.0,2.0,...,5,2508188,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
26999,1,2237253.0,431490,1,35,2.0,12 anos ou mais,223115.0,0.0,0.0,...,5,2671514,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394


In [160]:
agrupamento = municipio_mais_nasc.groupby('munResNome')

In [161]:
agrupamento.agg({'QTDFILVIVO':['mean','min','max'], 'IDADEPAI':['mean','min','max']})

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mean,min,max,mean,min,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,1.167236,0.0,12.0,32.352679,16.0,65.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

- Insight

Porto Velho tem a maior contagem de nascimentos quase 4 vezes maior que o segundo município com maiores registros de nascimento, esse me parece ser um dado discrepante. 

In [142]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [143]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [144]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')