# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [160]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [161]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [162]:
sinasc_raw.groupby("munResNome")[["IDADEMAE","IDADEPAI"]].mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.991826,29.548701
Alto Alegre dos Parecis,24.844156,29.179104
Alto Paraíso,24.960177,28.833333
Alvorada D'Oeste,25.770732,30.757282
Ariquemes,25.607866,32.466667
Buritis,25.559177,30.8125
Cabixi,26.0375,34.333333
Cacaulândia,25.546667,36.333333
Cacoal,26.890102,30.931854
Campo Novo de Rondônia,24.825301,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [163]:
sinasc_raw[sinasc_raw["DTNASC"] == "2019-12-14"].groupby("ESCMAE")[["PESO"]].mean()

Unnamed: 0_level_0,PESO
ESCMAE,Unnamed: 1_level_1
1 a 3 anos,3092.5
12 anos ou mais,3130.833333
4 a 7 anos,3262.222222
8 a 11 anos,3335.15625


### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [164]:
sinasc_raw.groupby("munResNome")["IDADEMAE"].count().sort_values(ascending=True)

munResNome
Município ignorado - RO         1
Castanheiras                   32
Pimenteiras do Oeste           40
Primavera de Rondônia          43
Parecis                        44
Rio Crespo                     50
São Felipe D'Oeste             54
Teixeirópolis                  64
Cacaulândia                    75
Cabixi                         80
Vale do Paraíso                81
Ministro Andreazza             84
Vale do Anari                  93
Theobroma                      97
Novo Horizonte do Oeste        98
Santa Luzia D'Oeste            99
Nova União                    104
Itapuã do Oeste               109
Governador Jorge Teixeira     112
Corumbiara                    127
Alto Alegre dos Parecis       154
Chupinguaia                   162
Mirante da Serra              164
Campo Novo de Rondônia        166
Seringueiras                  168
Urupá                         170
Monte Negro                   199
Cujubim                       205
Alvorada D'Oeste              205
Col

In [165]:
sinasc_2 = sinasc_raw[sinasc_raw["munResNome"] == "Castanheiras"][["munResNome", "IDADEMAE", "IDADEPAI"]]
sinasc_2.groupby("munResNome").agg([('mín', 'min'), 'max', ('média','median')])


Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mín,max,média,mín,max,média
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,17,39,27.0,17.0,43.0,31.5


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [166]:
sinasc_raw.loc[:,'DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])
sinasc_raw.set_index('DTNASC', inplace=True)
sinasc_raw['MÊS'] = sinasc_raw.index.month

  sinasc_raw.loc[:,'DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])


In [167]:
resultado = sinasc_raw[sinasc_raw["MÊS"] == 3].groupby("munResNome")["IDADEMAE"].count().reset_index()

In [174]:
resultado.rename({"IDADEMAE":"QTDBEBE"}, inplace = True, axis = 1)

In [184]:
resultado.sort_values(by = "QTDBEBE", ascending = True)

Unnamed: 0,munResNome,QTDBEBE
46,Teixeirópolis,3
11,Castanheiras,4
31,Novo Horizonte do Oeste,5
38,Primavera de Rondônia,5
43,São Felipe D'Oeste,5
25,Ministro Andreazza,6
33,Parecis,6
35,Pimenteiras do Oeste,6
6,Cabixi,6
30,Nova União,7


In [188]:
sinasc_3 = sinasc_raw[sinasc_raw["munResNome"] == "Teixeirópolis"][["munResNome", "IDADEMAE", "IDADEPAI","QTDFILVIVO"]]
sinasc_3.groupby("munResNome").agg([('mín', 'min'), 'max', ('média','median')])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,mín,max,média,mín,max,média,mín,max,média
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Teixeirópolis,16,39,26.0,20.0,67.0,29.5,0.0,6.0,1.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

Insight:
- O município com a menor taxa de natalidade apresenta uma notável proximidade entre as idades máximas e mínimas dos pais, com uma relativa homogeneidade na faixa etária. Em contraste, o município com a maior taxa de natalidade, Porto Velho, exibe uma disparidade significativa. Enquanto a idade máxima do pai atinge 60 anos, a qual contrasta acentuadamente com os 43 anos observados no município de menor incidência de nascimentos. 

In [189]:
sinasc_2 = sinasc_raw[sinasc_raw["munResNome"] == "Porto Velho"][["munResNome", "IDADEMAE", "IDADEPAI"]]
sinasc_2.groupby("munResNome").agg([('mín', 'min'), 'max', ('média','median')])


Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mín,max,média,mín,max,média
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Porto Velho,12,47,26.0,16.0,65.0,32.0


In [190]:
sinasc_2 = sinasc_raw[sinasc_raw["munResNome"] == "Castanheiras"][["munResNome", "IDADEMAE", "IDADEPAI"]]
sinasc_2.groupby("munResNome").agg([('mín', 'min'), 'max', ('média','median')])

Unnamed: 0_level_0,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,mín,max,média,mín,max,média
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Castanheiras,17,39,27.0,17.0,43.0,31.5


In [169]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
MÊS             int64
Length: 69, dtype: object

In [170]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0_level_0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
DTNASC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2019-02-19,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2019-02-21,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2019-02-25,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2019-03-20,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
2019-03-23,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-12-13,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
2019-10-04,8 a 11 anos,37 a 41 semanas,Única,Vaginal,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
2019-08-02,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
2019-12-23,8 a 11 anos,32 a 36 semanas,Única,Vaginal,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [171]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'HORANASC', 'SEXO',
       'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea', 'MÊS'],
      dtype='object')