# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [3]:
# separando em um df menor

df1 = sinasc_raw[['IDADEPAI', 'IDADEMAE','munResNome']]
df1.head()

Unnamed: 0,IDADEPAI,IDADEMAE,munResNome
0,26.0,19,Alta Floresta D'Oeste
1,24.0,29,Alta Floresta D'Oeste
2,32.0,37,Alta Floresta D'Oeste
3,24.0,30,Alto Alegre dos Parecis
4,27.0,30,Alta Floresta D'Oeste


In [4]:
# média da idade dos pais e mães, por município

df1.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEPAI,IDADEMAE
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,29.548701,25.991826
Alto Alegre dos Parecis,29.179104,24.844156
Alto Paraíso,28.833333,24.960177
Alvorada D'Oeste,30.757282,25.770732
Ariquemes,32.466667,25.607866
Buritis,30.8125,25.559177
Cabixi,34.333333,26.0375
Cacaulândia,36.333333,25.546667
Cacoal,30.931854,26.890102
Campo Novo de Rondônia,30.5,24.825301


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [6]:
# Criando um df menor

df2 = sinasc_raw[['DTNASC', 'SEXO', 'ESCMAE', 'PESO']]
df2.head(9)


Unnamed: 0,DTNASC,SEXO,ESCMAE,PESO
0,2019-02-19,Masculino,8 a 11 anos,3685
1,2019-02-21,Feminino,8 a 11 anos,3055
2,2019-02-25,Feminino,8 a 11 anos,3460
3,2019-03-20,Feminino,12 anos ou mais,2982
4,2019-03-23,Feminino,8 a 11 anos,3310
5,2019-03-27,Masculino,1 a 3 anos,2740
6,2019-04-01,Feminino,8 a 11 anos,3158
7,2019-04-01,Feminino,12 anos ou mais,3192
8,2019-02-28,Masculino,8 a 11 anos,3570


In [9]:
# Data de aniversário: 09/10

filtro = df2[df2['DTNASC'] == '2019-10-09'].groupby(['ESCMAE','SEXO'])['PESO'].mean().unstack()
filtro

SEXO,Feminino,Masculino
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,,3850.0
12 anos ou mais,2755.0,3496.666667
4 a 7 anos,3171.25,3289.363636
8 a 11 anos,3359.045455,3228.148148


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [10]:
# Município onde nasceram menos bebês em 2019

sinasc_raw['munResNome'].value_counts()

# O município é Castanheiras

Porto Velho                  8437
Ji-Paraná                    2182
Ariquemes                    1729
Vilhena                      1590
Cacoal                       1374
Rolim de Moura                927
Jaru                          881
Guajará-Mirim                 781
Ouro Preto do Oeste           631
Pimenta Bueno                 616
Buritis                       583
Machadinho D'Oeste            500
Espigão D'Oeste               450
Nova Mamoré                   432
Alta Floresta D'Oeste         367
São Miguel do Guaporé         353
Candeias do Jamari            337
Presidente Médici             304
São Francisco do Guaporé      303
Nova Brasilândia D'Oeste      261
Cerejeiras                    237
Costa Marques                 233
Alto Paraíso                  226
Colorado do Oeste             214
Cujubim                       205
Alvorada D'Oeste              205
Monte Negro                   199
Urupá                         170
Seringueiras                  168
Campo Novo de 

In [11]:
df3 = sinasc_raw[['munResNome','IDADEMAE','IDADEPAI']]

# média da idade das mães e dos mais
df3[df3['munResNome'] == 'Castanheiras'].groupby(['munResNome']).mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Castanheiras,27.28125,30.392857


In [12]:
# idade mínima das mães e pais

df3[df3['munResNome'] == 'Castanheiras'].groupby(['munResNome']).min()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Castanheiras,17,17.0


In [13]:
#idade máxima das mães e pais

df3[df3['munResNome'] == 'Castanheiras'].groupby(['munResNome']).max()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Castanheiras,39,43.0


In [14]:
# OU, usando o aggregate:

df3[df3['munResNome'] == 'Castanheiras'].groupby(['munResNome']).aggregate([('mínimo',min), ('médio',np.median), ('máximo','max')]) 

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mínimo,médio,máximo,mínimo,médio,máximo
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,17,27,39,17.0,31.5,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [15]:
df4 = sinasc_raw[['munResNome','DTNASC','QTDFILVIVO','IDADEPAI']]
df4.head(9)

Unnamed: 0,munResNome,DTNASC,QTDFILVIVO,IDADEPAI
0,Alta Floresta D'Oeste,2019-02-19,0.0,26.0
1,Alta Floresta D'Oeste,2019-02-21,1.0,24.0
2,Alta Floresta D'Oeste,2019-02-25,2.0,32.0
3,Alto Alegre dos Parecis,2019-03-20,0.0,24.0
4,Alta Floresta D'Oeste,2019-03-23,1.0,27.0
5,Alta Floresta D'Oeste,2019-03-27,2.0,40.0
6,Novo Horizonte do Oeste,2019-04-01,1.0,42.0
7,Alta Floresta D'Oeste,2019-04-01,0.0,27.0
8,Alta Floresta D'Oeste,2019-02-28,0.0,25.0


In [16]:
df5 = df4.copy()
df5.loc[:,'DTNASC'] = pd.to_datetime(df5['DTNASC'])
df5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   munResNome  27028 non-null  object        
 1   DTNASC      27028 non-null  datetime64[ns]
 2   QTDFILVIVO  25455 non-null  float64       
 3   IDADEPAI    7607 non-null   float64       
dtypes: datetime64[ns](1), float64(2), object(1)
memory usage: 844.8+ KB


In [17]:
df5['mes'] = pd.DatetimeIndex(df5['DTNASC']).month
df5

Unnamed: 0,munResNome,DTNASC,QTDFILVIVO,IDADEPAI,mes
0,Alta Floresta D'Oeste,2019-02-19,0.0,26.0,2
1,Alta Floresta D'Oeste,2019-02-21,1.0,24.0,2
2,Alta Floresta D'Oeste,2019-02-25,2.0,32.0,2
3,Alto Alegre dos Parecis,2019-03-20,0.0,24.0,3
4,Alta Floresta D'Oeste,2019-03-23,1.0,27.0,3
...,...,...,...,...,...
27023,Vilhena,2019-12-13,1.0,35.0,12
27024,Chupinguaia,2019-10-04,0.0,,10
27025,Vilhena,2019-08-02,0.0,30.0,8
27026,Vilhena,2019-12-23,1.0,24.0,12


In [18]:
df5[df5['mes'] == 3].groupby(['munResNome'])['mes'].count()

# Em Porto Velho

munResNome
Alta Floresta D'Oeste         31
Alto Alegre dos Parecis       10
Alto Paraíso                  22
Alvorada D'Oeste              22
Ariquemes                    141
Buritis                       59
Cabixi                         6
Cacaulândia                   10
Cacoal                       133
Campo Novo de Rondônia        13
Candeias do Jamari            33
Castanheiras                   4
Cerejeiras                    16
Chupinguaia                   18
Colorado do Oeste             19
Corumbiara                    12
Costa Marques                 24
Cujubim                       17
Espigão D'Oeste               44
Governador Jorge Teixeira     10
Guajará-Mirim                 75
Itapuã do Oeste                8
Jaru                          80
Ji-Paraná                    188
Machadinho D'Oeste            44
Ministro Andreazza             6
Mirante da Serra               9
Monte Negro                   20
Nova Brasilândia D'Oeste      20
Nova Mamoré                   53

In [19]:
# Quantidade mínima, média e máxima de filhos vivos em Porto Velho

df5[df5['munResNome'] == 'Porto Velho'].groupby(['munResNome'])['QTDFILVIVO'].aggregate([('mínimo',min), ('médio',np.median), ('máximo','max')]) 

Unnamed: 0_level_0,mínimo,médio,máximo
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,0.0,1.0,12.0


In [20]:
# Idade dos pais mínima, média e máxima de filhos vivos em Porto Velho


df5[df5['munResNome'] == 'Porto Velho'].groupby(['munResNome'])['IDADEPAI'].aggregate([('mínimo',min), ('médio',np.median), ('máximo','max')]) 

Unnamed: 0_level_0,mínimo,médio,máximo
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,16.0,32.0,65.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [23]:
# A idade média dos pais é maior do que a idade média das mães

# Bebês do sexo masculino, em média, nascem com peso maior os bebês do sexo feminino

# No município de Castanheiras,em 2019, a mãe mais nova tinha 17 anos e a mais velha, 39; 
    # para pais, a menor idade também foi 17 anos e a maior foi de 43 

In [33]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [72]:
df6 = sinasc_raw[['IDADEMAE','ESCMAE','IDADEPAI','munResNome']]
df6

Unnamed: 0,IDADEMAE,ESCMAE,IDADEPAI,munResNome
0,19,8 a 11 anos,26.0,Alta Floresta D'Oeste
1,29,8 a 11 anos,24.0,Alta Floresta D'Oeste
2,37,8 a 11 anos,32.0,Alta Floresta D'Oeste
3,30,12 anos ou mais,24.0,Alto Alegre dos Parecis
4,30,8 a 11 anos,27.0,Alta Floresta D'Oeste
...,...,...,...,...
27023,32,12 anos ou mais,35.0,Vilhena
27024,19,8 a 11 anos,,Chupinguaia
27025,24,8 a 11 anos,30.0,Vilhena
27026,21,8 a 11 anos,24.0,Vilhena


In [73]:
df6.groupby(['munResNome'])['IDADEMAE'].mean()

munResNome
Alta Floresta D'Oeste        25.991826
Alto Alegre dos Parecis      24.844156
Alto Paraíso                 24.960177
Alvorada D'Oeste             25.770732
Ariquemes                    25.607866
Buritis                      25.559177
Cabixi                       26.037500
Cacaulândia                  25.546667
Cacoal                       26.890102
Campo Novo de Rondônia       24.825301
Candeias do Jamari           25.243323
Castanheiras                 27.281250
Cerejeiras                   27.240506
Chupinguaia                  25.333333
Colorado do Oeste            27.602804
Corumbiara                   24.716535
Costa Marques                24.412017
Cujubim                      24.482927
Espigão D'Oeste              26.093333
Governador Jorge Teixeira    24.401786
Guajará-Mirim                25.462228
Itapuã do Oeste              26.064220
Jaru                         25.982974
Ji-Paraná                    26.361137
Machadinho D'Oeste           25.480000
Ministro Andre

In [35]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')