# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [17]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [18]:
sinasc_1= sinasc_raw[['munResNome', 'IDADEMAE', 'IDADEPAI']]

In [19]:
sinasc_1.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


Logo acima, é possivel concluir que mães são mais jovens que os pais, independente de qual municipio, nenhum tem o cenário inverso.
Abaixo, podemos verificar um quadro mais complexo, e ai concluimos que homens tem a idade média próximo aos 30 anos, enquanto mulheres, ficam na casa de 24 anos em diante.

In [7]:
agrupamento = sinasc_1.groupby(['munResNome'])
agrupamento.agg(['mean', 'std', amplitude],ascending=True)

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mean,std,amplitude,mean,std,amplitude
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Alta Floresta D'Oeste,25.991826,6.369535,39,29.548701,7.070209,41.0
Alto Alegre dos Parecis,24.844156,5.957507,27,29.179104,7.325772,34.0
Alto Paraíso,24.960177,6.211331,31,28.833333,10.284292,28.0
Alvorada D'Oeste,25.770732,6.442135,29,30.757282,7.910611,35.0
Ariquemes,25.607866,6.193641,31,32.466667,8.609519,31.0
Buritis,25.559177,6.142594,30,30.8125,8.988308,31.0
Cabixi,26.0375,6.212368,26,34.333333,9.201449,28.0
Cacaulândia,25.546667,6.226129,26,36.333333,7.966597,22.0
Cacoal,26.890102,6.295376,33,30.931854,7.789058,49.0
Campo Novo de Rondônia,24.825301,5.357483,27,30.5,5.963972,19.0


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [8]:
sinasc_raw.DTNASC = pd.to_datetime(sinasc_raw.DTNASC)
sinasc_raw.DTNASC

0       2019-02-19
1       2019-02-21
2       2019-02-25
3       2019-03-20
4       2019-03-23
           ...    
27023   2019-12-13
27024   2019-10-04
27025   2019-08-02
27026   2019-12-23
27027   2019-12-27
Name: DTNASC, Length: 27028, dtype: datetime64[ns]

In [9]:
sinasc_aniversario = sinasc_raw[(sinasc_raw.DTNASC.dt.day == 5) & 
                                (sinasc_raw.DTNASC.dt.month == 7)]

sinasc_aniversario = sinasc_aniversario.groupby(by=['DTNASC',
                                                    'SEXO',
                                                    'ESCMAE'])['PESO'].mean()

sinasc_aniversario = sinasc_aniversario.to_frame().reindex(labels=['1 a 3 anos', 
                                                                   '4 a 7 anos', 
                                                                   '8 a 11 anos', 
                                                                   '12 anos ou mais'], 
                                                           level='ESCMAE')

sinasc_aniversario

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,PESO
DTNASC,SEXO,ESCMAE,Unnamed: 3_level_1
2019-07-05,Feminino,4 a 7 anos,3269.5
2019-07-05,Feminino,8 a 11 anos,3376.875
2019-07-05,Feminino,12 anos ou mais,3099.166667
2019-07-05,Masculino,1 a 3 anos,3050.0
2019-07-05,Masculino,4 a 7 anos,2990.0
2019-07-05,Masculino,8 a 11 anos,3325.0
2019-07-05,Masculino,12 anos ou mais,2875.5


A minha data de nascimento é 05 de julho, portanto, podemos verificar que nesse dia as meninas, nasceram um pouco mais pesadas, outro fato interessante é que, neste exato dia, mulheres com estudo de 1 a 3 anos, tiveram apenas bebês do sexo masculino.

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

O municipio que teve a menor taxa de nascimento é Castanheiras, com a idade média da mãe de 27 anos e do pai, 30 anos.
A faixa de idade minima e maxima da mãe são respectivamente os valores de, 39 e 17 anos. Já o pai, minima e máxima são, 17 e 43 anos.

In [26]:
sinasc_raw['COUNT'] = 1
sinasc_3 = sinasc_raw.groupby(by='munResNome')[['COUNT', 
                                                'IDADEMAE',
                                                'IDADEPAI']].agg(
    {'COUNT':[('Quantidade de bebês nascidos','count')], 
     'IDADEMAE':[('idade média','mean'), 
                 ('idade máxima',max), 
                 ('idade mínima',min)], 
     'IDADEPAI':[('idade média','mean'), 
                 ('idade máxima',max), 
                 ('idade mínima',min)]})

sinasc_3.sort_values(('COUNT', 'Quantidade de bebês nascidos'))

Unnamed: 0_level_0,COUNT,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,Quantidade de bebês nascidos,idade média,idade máxima,idade mínima,idade média,idade máxima,idade mínima
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Município ignorado - RO,1,24.0,24,24,22.0,22.0,22.0
Castanheiras,32,27.28125,39,17,30.392857,43.0,17.0
Pimenteiras do Oeste,40,25.075,40,14,35.6,45.0,25.0
Primavera de Rondônia,43,27.023256,39,16,31.888889,44.0,21.0
Parecis,44,26.454545,41,16,32.473684,61.0,18.0
Rio Crespo,50,26.66,39,16,28.0,28.0,28.0
São Felipe D'Oeste,54,26.481481,41,17,31.395833,57.0,18.0
Teixeirópolis,64,26.03125,39,16,31.5,67.0,20.0
Cacaulândia,75,25.546667,42,16,36.333333,50.0,28.0
Cabixi,80,26.0375,39,13,34.333333,47.0,19.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [11]:
sinasc_mar = sinasc_raw[sinasc_raw.DTNASC.dt.month == 3].copy()

In [20]:
sinasc_mar['MES'] = sinasc_mar['DTNASC'].dt.month_name()
sinasc_mar['COUNT'] = 1
sinasc_4 = sinasc_mar.groupby(by=['MES',
                                  'munResNome']
                             )[['COUNT', 
                                'QTDFILVIVO',
                                'IDADEMAE',
                                'IDADEPAI']
                              ].agg({'COUNT':[('Qtd de bebês nascidos','count')], 
                                     'QTDFILVIVO':[('Média','mean'), 
                                                   ('Máx',max), 
                                                   ('Mín',min)], 
                                     'IDADEMAE':[('Média','mean'), 
                                                 ('Máx',max), 
                                                 ('Mín',min), 
                                                 ('Amplitude',lambda x: x.max()-x.min())], 
                                     'IDADEPAI':[('Média','mean'), 
                                                 ('Máx',max), 
                                                 ('Mín',min), 
                                                 ('Amplitude',lambda x: x.max()-x.min())]
                                    })

sinasc_4['Diferença da média IDADEPAI-IDADEMAE'] = sinasc_4[('IDADEPAI','Média')]-sinasc_4[('IDADEMAE','Média')]
sinasc_4.sort_values(('COUNT', 'Qtd de bebês nascidos'), 
                     ascending=False
                    )

Unnamed: 0_level_0,Unnamed: 1_level_0,COUNT,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,IDADEMAE,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI,IDADEPAI,Diferença da média IDADEPAI-IDADEMAE
Unnamed: 0_level_1,Unnamed: 1_level_1,Qtd de bebês nascidos,Média,Máx,Mín,Média,Máx,Mín,Amplitude,Média,Máx,Mín,Amplitude,Unnamed: 14_level_1
MES,munResNome,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
March,Porto Velho,744,1.295056,9.0,0.0,26.596774,44,14,30,34.629032,62.0,19.0,43.0,8.032258
March,Ji-Paraná,188,0.828877,4.0,0.0,25.37766,44,13,31,30.831579,56.0,16.0,40.0,5.453919
March,Vilhena,148,0.979592,5.0,0.0,26.412162,39,16,23,33.5625,47.0,27.0,20.0,7.150338
March,Ariquemes,141,1.064748,4.0,0.0,25.304965,42,14,28,28.666667,29.0,28.0,1.0,3.361702
March,Cacoal,133,0.969697,7.0,0.0,26.466165,40,15,25,30.008197,47.0,17.0,30.0,3.542031
March,Jaru,80,1.025641,5.0,0.0,26.55,40,14,26,33.5,41.0,21.0,20.0,6.95
March,Guajará-Mirim,75,1.534247,8.0,0.0,26.333333,43,14,29,34.5,43.0,26.0,17.0,8.166667
March,Rolim de Moura,69,0.724638,5.0,0.0,27.594203,41,18,23,31.257576,50.0,19.0,31.0,3.663373
March,Ouro Preto do Oeste,67,1.014925,5.0,0.0,25.522388,44,14,30,30.175,57.0,19.0,38.0,4.652612
March,Pimenta Bueno,62,0.836066,4.0,0.0,25.177419,39,14,25,29.611111,49.0,17.0,32.0,4.433692


No quadro acima, podemos verificar que o municipio com a maior taxa de nascimento para o mês de março é Porto Velho , com 744 bebês. A idade média da mãe é de 26,6 anos e do pai, 34 anos, ainda falando sobre o pai, a idade minima que encontramos é de 19 e a máxima é de 62 anos. A quantidade de filhos vivos média é de 1 e a máxima é de 9 crianças.


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [13]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [14]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [15]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')