# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

In [6]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [7]:
idadem_p_municipio = sinasc_raw.pivot_table(values=['IDADEMAE', 'IDADEPAI'], index='munResNome', aggfunc='mean')
idadem_p_municipio

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [25]:
# Verificando o tipo da coluna e seus valores
sinasc_raw['DTNASC']

0        2019-02-19
1        2019-02-21
2        2019-02-25
3        2019-03-20
4        2019-03-23
            ...    
27023    2019-12-13
27024    2019-10-04
27025    2019-08-02
27026    2019-12-23
27027    2019-12-27
Name: DTNASC, Length: 27028, dtype: object

In [26]:
# Filtrando os bebes que nasceram no mesmo dia que eu
filtro_nasc = sinasc_raw[sinasc_raw['DTNASC']=='2019-08-17']
filtro_nasc['DTNASC']

13784    2019-08-17
14115    2019-08-17
14177    2019-08-17
14178    2019-08-17
14179    2019-08-17
            ...    
26060    2019-08-17
26238    2019-08-17
26775    2019-08-17
26860    2019-08-17
27011    2019-08-17
Name: DTNASC, Length: 77, dtype: object

In [14]:
# Média do peso fem e masc por escmae e que nasceram no mesmo dia que eu
peso_p_sexo_escmae = filtro_nasc.pivot_table(index='ESCMAE', values='PESO', columns='SEXO', aggfunc='mean')
peso_p_sexo_escmae

SEXO,Feminino,Masculino
ESCMAE,Unnamed: 1_level_1,Unnamed: 2_level_1
1 a 3 anos,2730.0,2737.333333
12 anos ou mais,3119.0,3289.375
4 a 7 anos,3077.5,3335.909091
8 a 11 anos,2980.857143,3244.95


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [18]:
# Verificando a quantidade por municipio
q_nasc = sinasc_raw['munResNome'].value_counts()
q_nasc

munResNome
Porto Velho                  8437
Ji-Paraná                    2182
Ariquemes                    1729
Vilhena                      1590
Cacoal                       1374
Rolim de Moura                927
Jaru                          881
Guajará-Mirim                 781
Ouro Preto do Oeste           631
Pimenta Bueno                 616
Buritis                       583
Machadinho D'Oeste            500
Espigão D'Oeste               450
Nova Mamoré                   432
Alta Floresta D'Oeste         367
São Miguel do Guaporé         353
Candeias do Jamari            337
Presidente Médici             304
São Francisco do Guaporé      303
Nova Brasilândia D'Oeste      261
Cerejeiras                    237
Costa Marques                 233
Alto Paraíso                  226
Colorado do Oeste             214
Alvorada D'Oeste              205
Cujubim                       205
Monte Negro                   199
Urupá                         170
Seringueiras                  168
Cam

In [30]:
# Filtro para pegar apenas o municipio que teve a menor quantidade de nascimento
filtro_nasc_min = sinasc_raw['munResNome'].value_counts().idxmin()
filtro_nasc_min

'Município ignorado - RO'

In [31]:
# Filtrando os dados do municipio de maior quantidade de nascimentos
mun_min = sinasc_raw[sinasc_raw['munResNome']==filtro_nasc_min]
mun_min['munResNome']

1863    Município ignorado - RO
Name: munResNome, dtype: object

In [32]:
# Municipio com menor numero de nascimento e seus resultados de media, maximo e minimo de idade da mae e pai

nasc_p_mun = mun_min.pivot_table(index='munResNome', values=['IDADEMAE', 'IDADEPAI'], 
                                   aggfunc=['mean', 'max', 'min'])

nasc_p_mun

Unnamed: 0_level_0,mean,mean,max,max,min,min
Unnamed: 0_level_1,IDADEMAE,IDADEPAI,IDADEMAE,IDADEPAI,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Município ignorado - RO,24,22.0,24,22.0,24,22.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [44]:
# Fazendo copia para não alterar o DF original
sinasc_raw_march = sinasc_raw.copy()

# Alterando os dados da coluna DTNASC para o formato de data, para poder filtrar março
sinasc_raw_march['DTNASC'] = pd.to_datetime(sinasc_raw_copia['DTNASC'])
sinasc_raw_march['DTNASC']


0       2019-02-19
1       2019-02-21
2       2019-02-25
3       2019-03-20
4       2019-03-23
           ...    
27023   2019-12-13
27024   2019-10-04
27025   2019-08-02
27026   2019-12-23
27027   2019-12-27
Name: DTNASC, Length: 27028, dtype: datetime64[ns]

In [48]:
# Filtro para o mês de março
filtro_march = sinasc_raw_march[sinasc_raw_copia['DTNASC'].dt.month==3]
filtro_march['DTNASC']


3       2019-03-20
4       2019-03-23
5       2019-03-27
9       2019-03-11
10      2019-03-11
           ...    
13670   2019-03-21
13671   2019-03-22
13736   2019-03-07
13748   2019-03-30
13750   2019-03-09
Name: DTNASC, Length: 2456, dtype: datetime64[ns]

In [49]:
# Filtro para o municipio que tem a maior frequencia de nascidos em março
filtro_march_max = sinasc_raw_march['munResNome'].value_counts().idxmax()
filtro_march_max

'Porto Velho'

In [50]:
# Aplicando os filtros de maior frequencia de nascidos no DF que só tem valores do mês de março
mun_max_march = sinasc_raw_march[sinasc_raw_march['munResNome']==filtro_march_max]
mun_max_march['munResNome']

123      Porto Velho
201      Porto Velho
246      Porto Velho
272      Porto Velho
355      Porto Velho
            ...     
26986    Porto Velho
26991    Porto Velho
26995    Porto Velho
26999    Porto Velho
27000    Porto Velho
Name: munResNome, Length: 8437, dtype: object

In [51]:
# Utilizando o DF filtrado para tirar média, máximo e minimo dos filhos vivos, idade de mãe e pai
nasc_p_mun_march = mun_max_march.pivot_table(index='munResNome'
                                          , values=['QTDFILVIVO', 'IDADEMAE', 'IDADEPAI'], 
                                         aggfunc=['mean', 'max', 'min'])
nasc_p_mun_march

Unnamed: 0_level_0,mean,mean,mean,max,max,max,min,min,min
Unnamed: 0_level_1,IDADEMAE,IDADEPAI,QTDFILVIVO,IDADEMAE,IDADEPAI,QTDFILVIVO,IDADEMAE,IDADEPAI,QTDFILVIVO
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Porto Velho,26.31267,32.352679,1.167236,47,65.0,12.0,12,16.0,0.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

Insights:

Existe um municipio categorizado como ignorado, que pode ser uma inclusão de teste no banco de dados que esqueceram de deletar ou algo nesse sentido.

Mães que tem menos escolaridade normalmente tem filhos de menor peso e consequentemente um APGAR inferior.

Itapuã do Oeste tem uma diferença de idade de mãe e pai de 16 anos nas médias, mesmo com 109 amostras.