# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [20]:
# sinasc_raw: DataFrame principal
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')

In [8]:
sinasc_raw.shape

(27028, 69)

In [10]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [12]:
print("Lista de municipios: ", sinasc_raw['munResNome'].unique())

Lista de municipios:  ["Alta Floresta D'Oeste" 'Alto Alegre dos Parecis'
 'Novo Horizonte do Oeste' 'Rolim de Moura' "São Felipe D'Oeste"
 'Ariquemes' 'Cujubim' 'Alto Paraíso' 'Monte Negro' 'Jaru' 'Rio Crespo'
 'Porto Velho' 'Cacaulândia' 'Itapuã do Oeste' 'Ji-Paraná' 'Buritis'
 'Vilhena' 'Vale do Anari' 'Candeias do Jamari' 'Costa Marques'
 'Campo Novo de Rondônia' "Machadinho D'Oeste" 'Colorado do Oeste'
 'Nova Mamoré' 'Urupá' 'Ouro Preto do Oeste' 'Corumbiara'
 'São Miguel do Guaporé' 'Governador Jorge Teixeira' "Santa Luzia D'Oeste"
 'Pimenta Bueno' 'Mirante da Serra' 'Cerejeiras' 'Presidente Médici'
 'Cacoal' 'Parecis' "Espigão D'Oeste" 'São Francisco do Guaporé'
 'Ministro Andreazza' "Nova Brasilândia D'Oeste" "Alvorada D'Oeste"
 'Primavera de Rondônia' 'Seringueiras' 'Município ignorado - RO'
 'Castanheiras' 'Chupinguaia' 'Guajará-Mirim' 'Theobroma' 'Nova União'
 'Teixeirópolis' 'Vale do Paraíso' 'Pimenteiras do Oeste' 'Cabixi']


In [14]:
# coluna IDADEMAE: idade da mãe em anos
# coluna IDADEPAI: idade do pai em anos

# dividindo o df original (split) num df menor, com apenas as colunas de interesse
sinasc_raw_idade_municipio = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]

# método groupby para cálculo da idade media da mae e do pai por municipio
sinasc_raw_idade_media_municipio = sinasc_raw_idade_municipio.groupby("munResNome").mean()
sinasc_raw_idade_media_municipio

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [24]:
# PESO: peso ao nascer, em gramas
# SEXO: sexo, conforme a tabela:
    # 0: ignorado
    # 1: masculino
    # 2: feminino
# ESCMAE: escolaridade, anos de estudo concluidos:
    # 1: Nenhuma
    # 2: 1 a 3 anos
    # 3: 4 a 7 anos
    # 4: 8 a 11 anos
    # 5: 12 e mais
    # 9: Ignorado
# DTNASC: Data do nascimento no formato ddmmaaaa

# uso do método .copy() para criar um df independente
sinasc_raw_data = sinasc_raw.copy() # sinasc_raw_data = DataFrame com os dados de dia, mês e ano de nascimento

# split da var 'DTNASC' para obtermos os valores do dia, mês e ano de nascimento
sinasc_raw_data.loc[:, 'ANONASC'] = sinasc_raw_data['DTNASC'].str.split('-', expand = True).get(0)
sinasc_raw_data.loc[:, 'MESNASC'] = sinasc_raw_data['DTNASC'].str.split('-', expand = True).get(1)
sinasc_raw_data.loc[:, 'DIANASC'] = sinasc_raw_data['DTNASC'].str.split('-', expand = True).get(2)

#------------------------------------------------------------------------------------------------------

# seleção das colunas de interesse
sinasc_raw_peso = sinasc_raw_data[['PESO', 'SEXO', 'ESCMAE', 'MESNASC', 'DIANASC']]

# filtro pelo mês e dia de nascimento - 17 de novembro
sinasc_raw_peso = sinasc_raw_peso.query('MESNASC == "11" & DIANASC == "17"')

# removendo colunas com os dados de data de nascimento
sinasc_raw_peso = sinasc_raw_peso.drop(columns = ['MESNASC', 'DIANASC'])

# método groupby para calculo do peso medio por sexo do bebe e escolaridade da mae
sinasc_raw_peso = sinasc_raw_peso.groupby(by = ['SEXO', 'ESCMAE']).mean()
sinasc_raw_peso

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
SEXO,ESCMAE,Unnamed: 2_level_1
Feminino,1 a 3 anos,3520.0
Feminino,12 anos ou mais,3329.714286
Feminino,4 a 7 anos,3059.583333
Feminino,8 a 11 anos,3187.588235
Masculino,12 anos ou mais,3450.0
Masculino,4 a 7 anos,3261.666667
Masculino,8 a 11 anos,3096.055556


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [26]:
# temos apenas o ano de 2019 na base?
print("Valores únicos do ano para a base:", sinasc_raw_data['ANONASC'].unique())

Valores únicos do ano para a base: ['2019']


In [44]:
# 3. Qual o municipio que nasceu menos bebe em 2019?
sinasc_raw_nasc_municipio = sinasc_raw[['munResNome', 'DTNASC']]

# contagem da # de nascimentos por município agrupando os dados da variável 'DTNASC'
sinasc_raw_nasc_municipio.groupby('munResNome')['DTNASC'].count().sort_values(ascending = True)

munResNome
Município ignorado - RO         1
Castanheiras                   32
Pimenteiras do Oeste           40
Primavera de Rondônia          43
Parecis                        44
Rio Crespo                     50
São Felipe D'Oeste             54
Teixeirópolis                  64
Cacaulândia                    75
Cabixi                         80
Vale do Paraíso                81
Ministro Andreazza             84
Vale do Anari                  93
Theobroma                      97
Novo Horizonte do Oeste        98
Santa Luzia D'Oeste            99
Nova União                    104
Itapuã do Oeste               109
Governador Jorge Teixeira     112
Corumbiara                    127
Alto Alegre dos Parecis       154
Chupinguaia                   162
Mirante da Serra              164
Campo Novo de Rondônia        166
Seringueiras                  168
Urupá                         170
Monte Negro                   199
Cujubim                       205
Alvorada D'Oeste              205
Col

In [113]:
# Qual a idade media, maxima, minima das maes e dos pais nesse municipio?
sinasc_raw_idade_nasc_municipio = sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]

# filtro do município com menos nascimentos em 2019
sinasc_raw_idade_nasc_municipio = sinasc_raw_idade_nasc_municipio.query('munResNome == "Castanheiras"')
sinasc_raw_idade_nasc_municipio = sinasc_raw_idade_nasc_municipio[['IDADEMAE', 'IDADEPAI']]

sinasc_raw_idade_nasc_municipio.aggregate(['min', 'median', 'max'])

Unnamed: 0,IDADEMAE,IDADEPAI
min,17.0,17.0
median,27.0,31.5
max,39.0,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [87]:
# 4. Qual o municipio que nasceu mais bebe no mês de março?
sinasc_raw_nasc_municipio_mes = sinasc_raw_data[['munResNome', 'DTNASC', 'MESNASC']]

# filtro dos nascimentos para o mês de março
sinasc_raw_nasc_municipio_mes = sinasc_raw_nasc_municipio_mes.query('MESNASC == "03"')
sinasc_raw_nasc_municipio_mes = sinasc_raw_nasc_municipio_mes[['munResNome', 'DTNASC']]

# contagem da # de nascimentos por município no mês de março agrupando os dados da variável 'DTNASC'
sinasc_raw_nasc_municipio_mes.groupby('munResNome')['DTNASC'].count().sort_values(ascending = False)

munResNome
Porto Velho                  744
Ji-Paraná                    188
Vilhena                      148
Ariquemes                    141
Cacoal                       133
Jaru                          80
Guajará-Mirim                 75
Rolim de Moura                69
Ouro Preto do Oeste           67
Pimenta Bueno                 62
Buritis                       59
Nova Mamoré                   53
Espigão D'Oeste               44
Machadinho D'Oeste            44
São Miguel do Guaporé         41
Candeias do Jamari            33
São Francisco do Guaporé      31
Alta Floresta D'Oeste         31
Presidente Médici             29
Costa Marques                 24
Alvorada D'Oeste              22
Alto Paraíso                  22
Monte Negro                   20
Nova Brasilândia D'Oeste      20
Colorado do Oeste             19
Seringueiras                  19
Chupinguaia                   18
Cujubim                       17
Cerejeiras                    16
Urupá                         14

In [125]:
# Qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
sinasc_raw_filhos_vivo_municipio = sinasc_raw[['munResNome', 'QTDFILVIVO']]

# filtro do município com mais nascimentos no mês de março
sinasc_raw_filhos_vivo_municipio = sinasc_raw_filhos_vivo_municipio.query('munResNome == "Porto Velho"')
sinasc_raw_filhos_vivo_municipio = sinasc_raw_filhos_vivo_municipio[['QTDFILVIVO']]

sinasc_raw_filhos_vivo_municipio.aggregate(['min', 'median', 'max'])

Unnamed: 0,QTDFILVIVO
min,0.0
median,1.0
max,12.0


In [127]:
# Qual a idade media, maxima, minima dos pais nesse municipio?
sinasc_raw_idade_pai_municipio = sinasc_raw[['munResNome', 'IDADEPAI']]

# filtro do município com mais nascimentos no mês de março
sinasc_raw_idade_pai_municipio = sinasc_raw_idade_pai_municipio.query('munResNome == "Porto Velho"')
sinasc_raw_idade_pai_municipio = sinasc_raw_idade_pai_municipio[['IDADEPAI']]

sinasc_raw_idade_pai_municipio.aggregate(['min', 'median', 'max'])

Unnamed: 0,IDADEPAI
min,16.0
median,32.0
max,65.0
