# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [3]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [4]:
med_age = sinasc_raw[['IDADEMAE', 'IDADEPAI', 'munResNome']]

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [5]:
med_age1 = med_age.groupby('munResNome')
med_age1.mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [6]:
birthday = sinasc_raw[['PESO','ESCMAE','DTNASC','SEXO']]
aniv = birthday['DTNASC'] == '2019-12-31'
aniv.value_counts()

False    26977
True        51
Name: DTNASC, dtype: int64

In [7]:
birthday1 = birthday[aniv]
birthday1

Unnamed: 0,PESO,ESCMAE,DTNASC,SEXO
14989,3002,4 a 7 anos,2019-12-31,Masculino
15104,3587,1 a 3 anos,2019-12-31,Feminino
15105,4510,8 a 11 anos,2019-12-31,Masculino
15106,3560,8 a 11 anos,2019-12-31,Feminino
15946,3740,4 a 7 anos,2019-12-31,Masculino
15947,3000,8 a 11 anos,2019-12-31,Feminino
15959,3170,8 a 11 anos,2019-12-31,Feminino
15965,2850,8 a 11 anos,2019-12-31,Masculino
16742,2955,4 a 7 anos,2019-12-31,Masculino
16743,4175,12 anos ou mais,2019-12-31,Masculino


In [8]:
birthday2 = birthday1.pivot_table(values='PESO', index=['ESCMAE', 'SEXO'])
birthday2

Unnamed: 0_level_0,Unnamed: 1_level_0,PESO
ESCMAE,SEXO,Unnamed: 2_level_1
1 a 3 anos,Feminino,3587.0
1 a 3 anos,Masculino,2895.0
12 anos ou mais,Feminino,2530.0
12 anos ou mais,Masculino,3348.333333
4 a 7 anos,Feminino,3457.5
4 a 7 anos,Masculino,3511.888889
8 a 11 anos,Feminino,3418.5
8 a 11 anos,Masculino,3354.166667


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [9]:
munimen = sinasc_raw[['munResNome','IDADEMAE','IDADEPAI','CONTADOR']]

In [10]:
munimen = sinasc_raw[['munResNome','IDADEMAE','IDADEPAI',]].groupby('munResNome')
munimen.agg({'munResNome':['count'],
             'IDADEMAE':['min','mean','max'],
             'IDADEPAI':['min','mean','max'],})
#Gostaria de saber se há uma forma de organizar os valores da contagem de forma ascendente. Tentei o sort_values e métodos
#parecidos, mas só obtive erros

Unnamed: 0_level_0,munResNome,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,count,min,mean,max,min,mean,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Alta Floresta D'Oeste,367,14,25.991826,53,17.0,29.548701,58.0
Alto Alegre dos Parecis,154,14,24.844156,41,16.0,29.179104,50.0
Alto Paraíso,226,11,24.960177,42,21.0,28.833333,49.0
Alvorada D'Oeste,205,15,25.770732,44,17.0,30.757282,52.0
Ariquemes,1729,13,25.607866,44,20.0,32.466667,51.0
Buritis,583,14,25.559177,44,18.0,30.8125,49.0
Cabixi,80,13,26.0375,39,19.0,34.333333,47.0
Cacaulândia,75,16,25.546667,42,28.0,36.333333,50.0
Cacoal,1374,14,26.890102,47,17.0,30.931854,66.0
Campo Novo de Rondônia,166,13,24.825301,40,21.0,30.5,40.0


## O município ignorado RO é onde menos nasceram bebês, seguido de Castanheiras

### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [11]:
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])
march = sinasc_raw[sinasc_raw['DTNASC'].dt.month == 3]
march

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,5,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,5,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
10,1,2679477.0,110001,1,31,5.0,8 a 11 anos,512105.0,1.0,0.0,...,5,11,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13670,1,2000733.0,120040,1,24,5.0,8 a 11 anos,999992.0,0.0,0.0,...,5,18687,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13671,1,2000733.0,120040,1,24,5.0,4 a 7 anos,999992.0,2.0,0.0,...,9,18702,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13736,1,2688611.0,355030,1,35,2.0,12 anos ou mais,10210.0,1.0,0.0,...,5,1066018,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
13748,1,2311682.0,510340,1,36,4.0,12 anos ou mais,354605.0,2.0,1.0,...,5,1386627,ATIVO,MUNIC,Vilhena,Rondônia,-12.74137,-60.13858,595.0,11518.915


In [17]:
munimai = march[['munResNome','IDADEMAE','IDADEPAI','QTDFILVIVO']].groupby('munResNome')
munimai1 = munimai.agg({'munResNome':['count'],
             'QTDFILVIVO' : ['min','mean','max'],
             'IDADEMAE':['min','mean','max'],
             'IDADEPAI':['min','mean','max'],})
munimai1

Unnamed: 0_level_0,munResNome,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,count,min,mean,max,min,mean,max,min,mean,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
Alta Floresta D'Oeste,31,0.0,0.903226,4.0,18,26.193548,35,20.0,30.125,45.0
Alto Alegre dos Parecis,10,0.0,0.888889,2.0,17,25.1,36,21.0,29.222222,38.0
Alto Paraíso,22,0.0,1.285714,3.0,11,24.818182,41,23.0,26.0,29.0
Alvorada D'Oeste,22,0.0,1.0,3.0,15,25.772727,36,26.0,33.4,42.0
Ariquemes,141,0.0,1.064748,4.0,14,25.304965,42,28.0,28.666667,29.0
Buritis,59,0.0,1.421053,4.0,15,25.40678,42,18.0,32.115385,48.0
Cabixi,6,0.0,0.833333,3.0,17,28.0,36,,,
Cacaulândia,10,0.0,1.2,4.0,18,26.2,32,,,
Cacoal,133,0.0,0.969697,7.0,15,26.466165,40,17.0,30.008197,47.0
Campo Novo de Rondônia,13,0.0,1.285714,2.0,17,22.153846,35,21.0,29.375,40.0


## O município onde mais nasceram bebês em março foi Porto Velho.

In [19]:
munimai1.mean()

munResNome  count    47.230769
QTDFILVIVO  min       0.057692
            mean      1.014276
            max       3.557692
IDADEMAE    min      16.711538
            mean     25.824433
            max      37.480769
IDADEPAI    min      24.085106
            mean     31.395597
            max      41.404255
dtype: float64

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

- Cidades com menos de 10 instâncias de nascimentos tem mais chances de não terem registro dos pais dos bebês.
- Há uma tendência do pai ser, em média, sempre mais velho que a mãe.
- Não há instância onde a menor idade do pai seja menor que a menor idade da mãe.
- Em média, os pais são sempre de 5 a 6 anos mais velhos que as mães.


In [13]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [14]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


## https://github.com/IlsF33/EBAC