# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [5]:
#selecionando as colunas
sinasc_1 = sinasc_raw[['IDADEMAE','IDADEPAI','munResNome']]

In [6]:
# Idade media por municipio:
sinasc_1.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [7]:
#selecionando as colunas
sinasc_2 = sinasc_raw[['PESO','SEXO','ESCMAE','DTNASC']]
sinasc_2.head()

Unnamed: 0,PESO,SEXO,ESCMAE,DTNASC
0,3685,Masculino,8 a 11 anos,2019-02-19
1,3055,Feminino,8 a 11 anos,2019-02-21
2,3460,Feminino,8 a 11 anos,2019-02-25
3,2982,Feminino,12 anos ou mais,2019-03-20
4,3310,Feminino,8 a 11 anos,2019-03-23


In [8]:
# Converta a coluna 'DTNASC' para o tipo datetime e mantendo no DataFrame original
sinasc_2.loc[:, 'DTNASC'] = pd.to_datetime(sinasc_2['DTNASC'])

In [9]:
# Filtrando na data do meu aniverssario
data_especifica = pd.to_datetime('2019-04-06')

In [10]:
# Filtrando o DataFrame
sinasc_2_filtrado = sinasc_2[sinasc_2['DTNASC'] == data_especifica]
sinasc_2_filtrado.head()

Unnamed: 0,PESO,SEXO,ESCMAE,DTNASC
826,3300,Masculino,8 a 11 anos,2019-04-06 00:00:00
827,3480,Feminino,4 a 7 anos,2019-04-06 00:00:00
1873,2740,Masculino,8 a 11 anos,2019-04-06 00:00:00
1874,3490,Masculino,8 a 11 anos,2019-04-06 00:00:00
1875,3100,Feminino,12 anos ou mais,2019-04-06 00:00:00


In [11]:
# Remover a coluna 'DTNASC' do DataFrame sinasc_2
sinasc_2_filtrado = sinasc_2_filtrado.drop(columns=['DTNASC'])
sinasc_2_filtrado.head()

Unnamed: 0,PESO,SEXO,ESCMAE
826,3300,Masculino,8 a 11 anos
827,3480,Feminino,4 a 7 anos
1873,2740,Masculino,8 a 11 anos
1874,3490,Masculino,8 a 11 anos
1875,3100,Feminino,12 anos ou mais


In [12]:
# Idade media por Peso no dia do meu aniverssario:
sinasc_2_filtrado.groupby(['ESCMAE','SEXO']).mean().unstack()

Unnamed: 0_level_0,PESO,PESO
SEXO,Feminino,Masculino
ESCMAE,Unnamed: 1_level_2,Unnamed: 2_level_2
1 a 3 anos,3040.0,
12 anos ou mais,2905.0,3348.571429
4 a 7 anos,2820.0,3073.75
8 a 11 anos,3435.714286,3079.6


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [13]:
# Calculando quantos bebes foram registrados na base por municipio:
sinasc_raw.munResNome.value_counts()

munResNome
Porto Velho                  8437
Ji-Paraná                    2182
Ariquemes                    1729
Vilhena                      1590
Cacoal                       1374
Rolim de Moura                927
Jaru                          881
Guajará-Mirim                 781
Ouro Preto do Oeste           631
Pimenta Bueno                 616
Buritis                       583
Machadinho D'Oeste            500
Espigão D'Oeste               450
Nova Mamoré                   432
Alta Floresta D'Oeste         367
São Miguel do Guaporé         353
Candeias do Jamari            337
Presidente Médici             304
São Francisco do Guaporé      303
Nova Brasilândia D'Oeste      261
Cerejeiras                    237
Costa Marques                 233
Alto Paraíso                  226
Colorado do Oeste             214
Alvorada D'Oeste              205
Cujubim                       205
Monte Negro                   199
Urupá                         170
Seringueiras                  168
Cam

Temos acima um Municipio ignorado em Roraima com um registro de bebe e depois dele Castanheiras com o menor numero de bebes nascidos


In [19]:
# - idade media, maxima, minima das maes no municipio de Castanheiras:
# Filtrando o DataFrame no municipio de Castanheiras
sinasc_1_filtrado = sinasc_1[sinasc_1['munResNome'] == 'Castanheiras']
sinasc_1_filtrado.head()

Unnamed: 0,IDADEMAE,IDADEPAI,munResNome
2067,18,17.0,Castanheiras
2300,31,36.0,Castanheiras
4512,22,,Castanheiras
5881,26,24.0,Castanheiras
5952,32,29.0,Castanheiras


In [20]:
# Calculando a idade media 
sinasc_1_filtrado.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Castanheiras,27.28125,30.392857


In [21]:
# Calculando a idade maxima
sinasc_1_filtrado.groupby('munResNome').max()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Castanheiras,39,43.0


In [22]:
# Calculando a idade minima 
sinasc_1_filtrado.groupby('munResNome').min()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Castanheiras,17,17.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [23]:
# Converta a coluna 'DTNASC' para o tipo datetime e mantendo no DataFrame original
sinasc_raw.loc[:, 'DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])

In [26]:
# Filtrando os dados para o mês de março de 2019
inicio = pd.Timestamp('2019-03-01')
fim = pd.Timestamp('2019-04-01')
# Filtrando os dados para o mês de março de 2019
sinasc_marco_2019 = sinasc_raw[(sinasc_raw['DTNASC'] >= inicio) & (sinasc_raw['DTNASC'] < fim)]
sinasc_marco_2019.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
5,1,2516500.0,110001,1,33,5.0,1 a 3 anos,621005.0,2.0,1.0,...,5,6,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
9,1,2679477.0,110001,1,30,2.0,1 a 3 anos,999992.0,1.0,1.0,...,5,10,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
10,1,2679477.0,110001,1,31,5.0,8 a 11 anos,512105.0,1.0,0.0,...,5,11,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [27]:
# Calculando quantos bebes foram registrados na base por municipio:
sinasc_marco_2019.munResNome.value_counts()

munResNome
Porto Velho                  744
Ji-Paraná                    188
Vilhena                      148
Ariquemes                    141
Cacoal                       133
Jaru                          80
Guajará-Mirim                 75
Rolim de Moura                69
Ouro Preto do Oeste           67
Pimenta Bueno                 62
Buritis                       59
Nova Mamoré                   53
Machadinho D'Oeste            44
Espigão D'Oeste               44
São Miguel do Guaporé         41
Candeias do Jamari            33
São Francisco do Guaporé      31
Alta Floresta D'Oeste         31
Presidente Médici             29
Costa Marques                 24
Alto Paraíso                  22
Alvorada D'Oeste              22
Monte Negro                   20
Nova Brasilândia D'Oeste      20
Seringueiras                  19
Colorado do Oeste             19
Chupinguaia                   18
Cujubim                       17
Cerejeiras                    16
Urupá                         14

Vemos que o municipio que mais nasceu bebes em março de 2019 foi o de Porto Velho.

In [29]:
# quantidade de filhos vivos media, maxima, minima nesse municipio
# Filtrando o DataFrame no municipio de Porto Velho
sinasc_raw_filtrado = sinasc_raw[sinasc_raw['munResNome'] == 'Porto Velho']
sinasc_raw_filtrado.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
123,1,2515520.0,110002,1,22,1.0,8 a 11 anos,999992.0,0.0,0.0,...,5,125,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
201,1,2494299.0,110002,1,22,2.0,8 a 11 anos,999992.0,0.0,0.0,...,5,204,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
246,1,2494299.0,110002,1,29,1.0,8 a 11 anos,999992.0,2.0,0.0,...,3,249,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
272,1,2494299.0,110002,1,27,2.0,4 a 7 anos,999992.0,2.0,1.0,...,5,275,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394
355,1,2515504.0,110002,1,33,2.0,8 a 11 anos,999992.0,0.0,0.0,...,5,359,ATIVO,MUNIC,Porto Velho,Rondônia,-8.76889,-63.83145,87.0,34096.394


In [32]:
#selecionando as colunas
sinasc_3 = sinasc_raw_filtrado[['IDADEMAE','IDADEPAI','QTDFILVIVO','munResNome']]

In [33]:
# Calculando a media de filhos vivos e da idade dos pais:
sinasc_3.groupby('munResNome').mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI,QTDFILVIVO
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,26.31267,32.352679,1.167236


In [34]:
# Calculando a maxima de filhos vivos e da idade dos pais:
sinasc_3.groupby('munResNome').max()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI,QTDFILVIVO
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,47,65.0,12.0


In [35]:
# Calculando a minima de filhos vivos e da idade dos pais:
sinasc_3.groupby('munResNome').min()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI,QTDFILVIVO
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Porto Velho,12,16.0,0.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Insits:
-  Descobri que a idade mediana das mulheres que deram a luz no ano de 2019 e em torno de 24 a 26 anos.
-  Tambem que o Peso medio dos bebes masculinos em que as mães tiveram Escolaridade superior a 12 anos são maiores.
-  Que as mulheres acima dos 39 anos não tiveram partos no municipio de Castanhares no ano de 2019 ja no Porto Velho a idade maxima chegou a 47 anos.
-  No municipio de Porto Velho tambem vemos que a idade do pai pode ser bem superior a idade da mãe.
- E tambem a idade minima da mulher e de 12 anos no municipio do Porto Velho mais alarmante que a dos homens.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')