# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [6]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [7]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [8]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

In [9]:
sinasc_raw[['munResNome','IDADEPAI','IDADEMAE']].groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEPAI,IDADEMAE
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,29.548701,25.991826
Alto Alegre dos Parecis,29.179104,24.844156
Alto Paraíso,28.833333,24.960177
Alvorada D'Oeste,30.757282,25.770732
Ariquemes,32.466667,25.607866
Buritis,30.8125,25.559177
Cabixi,34.333333,26.0375
Cacaulândia,36.333333,25.546667
Cacoal,30.931854,26.890102
Campo Novo de Rondônia,30.5,24.825301


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [10]:
# Calcular a idade média das mães por município
sinasc_raw[['munResNome','IDADEPAI','IDADEMAE']].groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEPAI,IDADEMAE
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,29.548701,25.991826
Alto Alegre dos Parecis,29.179104,24.844156
Alto Paraíso,28.833333,24.960177
Alvorada D'Oeste,30.757282,25.770732
Ariquemes,32.466667,25.607866
Buritis,30.8125,25.559177
Cabixi,34.333333,26.0375
Cacaulândia,36.333333,25.546667
Cacoal,30.931854,26.890102
Campo Novo de Rondônia,30.5,24.825301


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [11]:
#Alterando o tipo da variável da data
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'], format='%Y-%m-%d')

sinasc_raw_01_agosto = sinasc_raw[(sinasc_raw['DTNASC'].dt.month == 8) & (sinasc_raw['DTNASC'].dt.day == 1)]

sinasc_raw_01_agosto.info()

<class 'pandas.core.frame.DataFrame'>
Index: 70 entries, 14030 to 26843
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   ORIGEM        70 non-null     int64         
 1   CODESTAB      70 non-null     float64       
 2   CODMUNNASC    70 non-null     int64         
 3   LOCNASC       70 non-null     int64         
 4   IDADEMAE      70 non-null     int64         
 5   ESTCIVMAE     68 non-null     float64       
 6   ESCMAE        70 non-null     object        
 7   CODOCUPMAE    61 non-null     float64       
 8   QTDFILVIVO    66 non-null     float64       
 9   QTDFILMORT    66 non-null     float64       
 10  CODMUNRES     70 non-null     int64         
 11  GESTACAO      66 non-null     object        
 12  GRAVIDEZ      70 non-null     object        
 13  PARTO         70 non-null     object        
 14  CONSULTAS     70 non-null     int64         
 15  DTNASC        70 non-null     datetime64

In [12]:
#Peso médio por sexo e faixa de escolaridade
sinasc_raw_01_agosto[['SEXO', 'PESO', 'ESCMAE']].groupby(['ESCMAE', 'SEXO']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
12 anos ou mais,Feminino,3359.375
12 anos ou mais,Masculino,3342.5
4 a 7 anos,Feminino,2636.666667
4 a 7 anos,Masculino,3127.25
8 a 11 anos,Feminino,3189.615385
8 a 11 anos,Masculino,3423.235294


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [13]:
sinasc_raw_2019 = sinasc_raw[(sinasc_raw['DTNASC'].dt.year == 2019)]

sinasc_raw.DTNASC.value_counts()

#sinasc_raw_2019.munResNome.value_counts()

#sinasc_raw_2019.groupby(['munResNome']).count('PESO')

#sinasc_raw.groupby('munResNome').mean()

DTNASC
2019-04-10    116
2019-03-21    109
2019-09-25    108
2019-09-02    105
2019-12-04    104
             ... 
2019-12-25     44
2019-02-09     44
2019-07-28     44
2019-08-04     43
2019-11-03     40
Name: count, Length: 365, dtype: int64

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [14]:
#Separando a base com o mes desejado
base_marco = sinasc_raw[(sinasc_raw['DTNASC'].dt.month == 3)]

In [15]:
#Municipio com mais nascimentos em Março
base_marco.munResNome.value_counts().head(1)
#Cidade de Porto Velho

munResNome
Porto Velho    744
Name: count, dtype: int64

In [16]:
#guardando em variável
municipio_marc = base_marco.munResNome.value_counts().head(1)

In [17]:
base_marco = base_marco[['munResNome', 'QTDFILVIVO','IDADEMAE','IDADEPAI','APGAR5','PESO']]
base_filtrada = base_marco[base_marco['munResNome'] == municipio_marc.index[0]]

In [18]:
#4.1 - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
base_filtrada.groupby('munResNome').agg({'QTDFILVIVO': ['max', 'min','mean','sum']})

#Quantidade: 812
#Media: 1,29
#Maximo: 9
#Minimo: 0

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,max,min,mean,sum
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Porto Velho,9.0,0.0,1.295056,812.0


In [19]:
#4.2 - qual a idade media, maxima, minima dos pais nesse municipio?
base_filtrada.groupby('munResNome').agg({'IDADEPAI': ['max', 'min','mean','median'],'IDADEMAE': ['max', 'min','mean','median']})

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,max,min,mean,median,max,min,mean,median
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Porto Velho,62.0,19.0,34.629032,34.0,44,14,26.596774,26.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [20]:
#Analisando o indicador APGAR com a idade dos pais
base_filtrada.groupby('APGAR5').agg({'IDADEPAI': ['max', 'min','mean','median','count'],'IDADEMAE': ['max', 'min','mean','median','count']})

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,max,min,mean,median,count,max,min,mean,median,count
APGAR5,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1.0,,,,,0,40,40,40.0,40.0,1
4.0,,,,,0,30,20,25.0,25.0,2
6.0,,,,,0,19,15,17.0,17.0,2
7.0,,,,,0,34,18,24.2,23.0,5
8.0,39.0,30.0,34.5,34.5,2,40,14,26.115385,26.0,52
9.0,55.0,20.0,35.1,33.5,30,44,14,26.895556,26.0,450
10.0,62.0,19.0,34.166667,34.0,30,44,14,26.215859,26.0,227


In [21]:
#Analisando se há correlação entre o peso e o APGAR
base_filtrada.groupby('APGAR5').agg({'PESO': ['max', 'min','mean','median','count'],'IDADEMAE': ['max', 'min','mean','median','count']})

Unnamed: 0_level_0,PESO,PESO,PESO,PESO,PESO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,max,min,mean,median,count,max,min,mean,median,count
APGAR5,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1.0,3935,3935,3935.0,3935.0,1,40,40,40.0,40.0,1
4.0,2055,740,1397.5,1397.5,2,30,20,25.0,25.0,2
6.0,3310,1680,2495.0,2495.0,2,19,15,17.0,17.0,2
7.0,3435,1370,2634.0,2580.0,5,34,18,24.2,23.0,5
8.0,4920,540,2932.307692,3087.5,52,40,14,26.115385,26.0,52
9.0,4810,905,3294.697778,3350.0,450,44,14,26.895556,26.0,450
10.0,4720,2165,3274.700441,3240.0,227,44,14,26.215859,26.0,227


In [22]:
#Analisando o indicador APGAR com a idade dos pais
sinasc_raw.groupby('APGAR5').agg({'IDADEPAI': ['max', 'min','mean','median','count'],'IDADEMAE': ['max', 'min','mean','median','count']})

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,max,min,mean,median,count,max,min,mean,median,count
APGAR5,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
0.0,35.0,17.0,25.8,26.0,5,42,13,22.470588,21.0,17
1.0,39.0,20.0,27.571429,26.0,7,40,17,26.208333,25.0,24
2.0,38.0,27.0,32.5,32.5,2,37,15,27.333333,26.5,18
3.0,43.0,19.0,31.0,31.0,4,29,15,22.533333,24.0,15
4.0,48.0,29.0,36.666667,33.0,3,44,18,29.217391,30.0,23
5.0,46.0,23.0,32.909091,32.0,11,42,14,26.622222,25.0,45
6.0,40.0,17.0,27.75,26.5,16,42,12,25.341772,24.0,79
7.0,47.0,18.0,30.62963,31.5,54,42,14,26.128631,26.0,241
8.0,86.0,17.0,31.099831,30.0,591,46,12,26.230692,26.0,1994
9.0,69.0,16.0,30.680771,30.0,4254,53,11,25.905014,25.0,16076


In [23]:
#Analisando se há correlação entre o peso e o APGAR
base_filtrada.groupby('APGAR5').agg({'PESO': ['max', 'min','mean','median','count'],'IDADEMAE': ['max', 'min','mean','median','count']})

Unnamed: 0_level_0,PESO,PESO,PESO,PESO,PESO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE
Unnamed: 0_level_1,max,min,mean,median,count,max,min,mean,median,count
APGAR5,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1.0,3935,3935,3935.0,3935.0,1,40,40,40.0,40.0,1
4.0,2055,740,1397.5,1397.5,2,30,20,25.0,25.0,2
6.0,3310,1680,2495.0,2495.0,2,19,15,17.0,17.0,2
7.0,3435,1370,2634.0,2580.0,5,34,18,24.2,23.0,5
8.0,4920,540,2932.307692,3087.5,52,40,14,26.115385,26.0,52
9.0,4810,905,3294.697778,3350.0,450,44,14,26.895556,26.0,450
10.0,4720,2165,3274.700441,3240.0,227,44,14,26.215859,26.0,227


# É possível constatar que a mediana das idades dos pais de porto velho, nos valores de APGAR5 entre 8 e 10, são maiores que as mediana da população inteira.