# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('data/SINASC/SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [4]:
# Fazer um dataframe contendo média de idade por sexo

medias_idade_municipio = sinasc_raw.groupby('munResNome')[['IDADEMAE', 'IDADEPAI']].mean()

medias_idade_municipio = pd.DataFrame(medias_idade_municipio)

medias_idade_municipio.head(10)

# Opaa será que vc poderia me ajudar? Essa medias_idade_municipio só está com 1 coluna, não era pra ser 2? Veja o resultado, como fazer q tenha 2 colunas?

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [5]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

aniversario = '10-01' # Era pra fazer assim? Não tenho certeza, mas se você alterar essa data consegue ver pra qualquer uma para filtrar

filtrados_por_data = sinasc_raw[sinasc_raw['DTNASC'].dt.strftime('%d-%m') == aniversario]

peso_medio_por_dia_por_escmae = filtrados_por_data.groupby(['SEXO','ESCMAE'])[['PESO']].mean().reset_index()

peso_medio_por_dia_por_escmae.columns = ['Sexo', 'Escolaridade da Mãe', 'Peso Médio (g)']
peso_medio_por_dia_por_escmae['Peso Médio (g)'] = peso_medio_por_dia_por_escmae['Peso Médio (g)'].round(2)

peso_medio_por_dia_por_escmae.head(20)

Unnamed: 0,Sexo,Escolaridade da Mãe,Peso Médio (g)
0,Feminino,1 a 3 anos,3651.0
1,Feminino,12 anos ou mais,3351.11
2,Feminino,4 a 7 anos,3152.38
3,Feminino,8 a 11 anos,3120.91
4,Masculino,1 a 3 anos,3078.33
5,Masculino,12 anos ou mais,3015.43
6,Masculino,4 a 7 anos,3105.0
7,Masculino,8 a 11 anos,3497.55


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [6]:
bebes_por_mun = sinasc_raw.groupby('munResNome')['munResNome'].count()
bebes_por_mun = bebes_por_mun[bebes_por_mun != 1]
#bebes_por_mun.sort_values(ascending=True)

minimo_bebes = bebes_por_mun.min()
bebes_por_mun[bebes_por_mun == minimo_bebes]


munResNome
Castanheiras    32
Name: munResNome, dtype: int64

In [7]:
castanheiras_idades_maes = sinasc_raw['IDADEMAE']
print(castanheiras_idades_maes.describe())

castanheiras_idades_pais = sinasc_raw['IDADEPAI']
print('\n\n', castanheiras_idades_pais.describe())

count    27028.000000
mean        26.093718
std          6.387094
min         11.000000
25%         21.000000
50%         26.000000
75%         31.000000
max         53.000000
Name: IDADEMAE, dtype: float64


 count    7607.000000
mean       31.092415
std         7.771165
min        15.000000
25%        25.000000
50%        30.000000
75%        36.000000
max        86.000000
Name: IDADEPAI, dtype: float64


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [8]:
sinasc_marco = sinasc_raw[(sinasc_raw['DTNASC'] >= '2019-03-01') & (sinasc_raw['DTNASC'] <= '2019-03-31')].fillna(0)
sinasc_marco.groupby('munResNome')[['IDADEMAE']].count().sort_values('IDADEMAE', ascending=False)[:5]

sinasc_marco.groupby('munResNome').aggregate({
    'IDADEMAE': [('Contagem', 'count')],
    'QTDFILVIVO': [('Média','mean'), ('Máxima','max'), ('Mínima', 'min')]
}).sort_values(by=('IDADEMAE','Contagem'), ascending=False)[0:1]



Unnamed: 0_level_0,IDADEMAE,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,Contagem,Média,Máxima,Mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Porto Velho,744,1.091398,9.0,0.0


In [9]:
# desconsiderar valores nulos de idade
sinasc_marco = sinasc_marco[sinasc_marco['IDADEPAI'] != 0]

sinasc_marco = sinasc_marco[sinasc_marco['IDADEMAE'] != 0]

sinasc_marco.groupby('munResNome').agg({
    'IDADEMAE': [('Contagem', 'count'), ('Média','mean'), ('Máxima','max'), ('Mínima', 'min')],
    'IDADEPAI': [('Média',lambda x: x.dropna().mean()),
                ('Máxima', lambda x: x.dropna().max()),
                ('Mínima', lambda x: x.dropna().min())]
}).sort_values(by=('IDADEMAE','Contagem'), ascending=False)[0:1]

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,Contagem,Média,Máxima,Mínima,Média,Máxima,Mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Cacoal,122,26.442623,40,15,30.008197,47.0,17.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Olá! Nessa atividade pude ter contato com a segmentação de dados a partir de groupby e agg. Um dos impasses que vi foi o preenchimento incompleto dos dados do pai, o que é resultado de sua ausência. Isso comprometeu os dados no último exercício, assim foi necessário desconsiderar os registros de IDADEPAI = 0

Quanto aos insights, é bastante interessante ver a grande variação no número de filhos de uma só mãe, que oscila entre 0 e 9, incrivelmente.

Também é possível ver que a idade máxima dos pais é 62, e o das mães 44, o que é reflexo das características biológicas do ser humano, assim como da disparidade de idade entre os casais.

Por fim, com essa base de dados é possível extrair as mais diversas correlações, segmentando por cidade, estado, região, escolaridade e entre outros fatores. Certamente equipes inteiras dedicadas no tratamento e interpretação dos dados pode ser capaz de identificar diversas tendências.