# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime as dt
%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [9]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [3]:
sinasc_raw['GRAVIDEZ'].value_counts()

Única              26452
Dupla                492
Tríplice e mais        5
Name: GRAVIDEZ, dtype: int64

# Tarefa 1

### 1. Idade media das mães e dos pais por município (coluna munResNome)


In [4]:
sinasc_1 = sinasc_raw[['munResNome','IDADEMAE', 'IDADEPAI']]
sinasc_1 = sinasc_1.dropna()
sinasc_1

Unnamed: 0,munResNome,IDADEMAE,IDADEPAI
0,Alta Floresta D'Oeste,19,26.0
1,Alta Floresta D'Oeste,29,24.0
2,Alta Floresta D'Oeste,37,32.0
3,Alto Alegre dos Parecis,30,24.0
4,Alta Floresta D'Oeste,30,27.0
...,...,...,...
27021,Colorado do Oeste,25,38.0
27022,Vilhena,34,33.0
27023,Vilhena,32,35.0
27025,Vilhena,24,30.0


In [5]:
gr_sinasc_1 = sinasc_1.groupby('munResNome')
gr_sinasc_1.mean()

Unnamed: 0_level_0,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alta Floresta D'Oeste,25.892857,29.548701
Alto Alegre dos Parecis,24.679104,29.179104
Alto Paraíso,22.833333,28.833333
Alvorada D'Oeste,26.825243,30.757282
Ariquemes,28.133333,32.466667
Buritis,24.75,30.8125
Cabixi,32.166667,34.333333
Cacaulândia,31.0,36.333333
Cacoal,26.978605,30.931854
Campo Novo de Rondônia,24.9,30.5


### 2. Peso médio dos bebes por sexo que nasceram no dia do seu aniversário por faixas de escolaridade mae
Ex: Você, aluna(o), nasceu no dia 10/01, então você precisa filtrar o conjunto de dados nessa data e calcular o peso médio dos bebês de cada sexo por faixa de escolaridade da mãe.

In [6]:
sinasc_2 = sinasc_raw[['PESO','SEXO', 'DTNASC', 'ESCMAE' ]]
sinasc_2 = sinasc_2[sinasc_2['DTNASC'] == '2019-11-20']
sinasc_2

Unnamed: 0,PESO,SEXO,DTNASC,ESCMAE
14720,3425,Feminino,2019-11-20,4 a 7 anos
14721,3485,Feminino,2019-11-20,4 a 7 anos
14722,3590,Feminino,2019-11-20,12 anos ou mais
14738,2850,Feminino,2019-11-20,12 anos ou mais
14768,3195,Masculino,2019-11-20,4 a 7 anos
...,...,...,...,...
26475,3020,Feminino,2019-11-20,8 a 11 anos
26481,3770,Masculino,2019-11-20,4 a 7 anos
26741,3245,Masculino,2019-11-20,12 anos ou mais
26934,2950,Feminino,2019-11-20,4 a 7 anos


In [7]:
gr_sinasc_2 = sinasc_2.groupby(['ESCMAE', 'SEXO'])['PESO'].median()
gr_sinasc_2

ESCMAE           SEXO     
1 a 3 anos       Feminino     2850.0
                 Masculino    3280.0
12 anos ou mais  Feminino     3037.5
                 Masculino    3480.0
4 a 7 anos       Feminino     2995.0
                 Masculino    3274.0
8 a 11 anos      Feminino     3230.0
                 Masculino    3277.5
Name: PESO, dtype: float64

### 3. Qual o municipio que nasceu menos bebe em 2019?
    - qual a idade media, maxima, minima das maes nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?

In [8]:
sinasc_3 = sinasc_raw[['munResNome', 'GRAVIDEZ', 'IDADEMAE', 'IDADEPAI']]
troca = {'Única': 1, 'Dupla': 2, 'Tríplice e mais': 3 }
sinasc_3['GRAVIDEZ'] = sinasc_3['GRAVIDEZ'].map(troca)
sinasc_3['GRAVIDEZ'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc_3['GRAVIDEZ'] = sinasc_3['GRAVIDEZ'].map(troca)


1.0    26452
2.0      492
3.0        5
Name: GRAVIDEZ, dtype: int64

In [9]:
gr_sinasc_3 = sinasc_3.groupby('munResNome')
gr_sinasc_3['GRAVIDEZ'].sum().sort_values(ascending = True)

munResNome
Município ignorado - RO         1.0
Castanheiras                   32.0
Pimenteiras do Oeste           40.0
Primavera de Rondônia          46.0
Parecis                        46.0
Rio Crespo                     52.0
São Felipe D'Oeste             56.0
Teixeirópolis                  62.0
Cacaulândia                    75.0
Cabixi                         80.0
Vale do Paraíso                81.0
Ministro Andreazza             91.0
Vale do Anari                  94.0
Theobroma                      98.0
Novo Horizonte do Oeste        98.0
Santa Luzia D'Oeste            99.0
Nova União                    104.0
Itapuã do Oeste               108.0
Governador Jorge Teixeira     111.0
Corumbiara                    127.0
Alto Alegre dos Parecis       156.0
Chupinguaia                   162.0
Seringueiras                  170.0
Mirante da Serra              170.0
Campo Novo de Rondônia        172.0
Urupá                         172.0
Monte Negro                   202.0
Cujubim          

In [10]:
sinasc_3[sinasc_3['munResNome'] == 'Castanheiras'].groupby('munResNome').agg(['min', np.median, 'max'])

Unnamed: 0_level_0,GRAVIDEZ,GRAVIDEZ,GRAVIDEZ,IDADEMAE,IDADEMAE,IDADEMAE,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,min,median,max,min,median,max,min,median,max
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Castanheiras,1.0,1.0,1.0,17,27.0,39,17.0,31.5,43.0


### 4. Qual o municipio que nasceu mais bebe no mês de março?
    - qual a quantidade de filhos vivos media, maxima, minima nesse municipio?
    - qual a idade media, maxima, minima dos pais nesse municipio?



In [14]:
sinasc_raw['GRAVIDEZ'] = sinasc_3['GRAVIDEZ']
sinasc_raw['DTNASC'] =pd.to_datetime(sinasc_raw['DTNASC'])
mask = (sinasc_raw['DTNASC'] > '2019/03/01') & (sinasc_raw['DTNASC'] <= '2019/03/31')
marco = sinasc_raw.loc[mask]

In [21]:
sinasc_4 = sinasc_raw[['QTDFILVIVO','IDADEPAI','GRAVIDEZ', 'munResNome']]
sinasc_4['DTNASC'] = marco['DTNASC']
sinasc_4_marco = sinasc_4.dropna()

gr_sinasc_4_marco = sinasc_4_marco.groupby('munResNome')
gr_sinasc_4_marco['GRAVIDEZ'].sum().sort_values(ascending = False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sinasc_4['DTNASC'] = marco['DTNASC']


munResNome
Cacoal                      120.0
Ji-Paraná                    93.0
Rolim de Moura               61.0
Pimenta Bueno                51.0
Porto Velho                  41.0
Ouro Preto do Oeste          39.0
Espigão D'Oeste              28.0
Alta Floresta D'Oeste        21.0
Vilhena                      17.0
Buritis                      15.0
Urupá                        13.0
Presidente Médici            13.0
Machadinho D'Oeste           13.0
Alvorada D'Oeste             10.0
Nova Mamoré                   9.0
Jaru                          9.0
Cerejeiras                    9.0
Alto Alegre dos Parecis       9.0
Santa Luzia D'Oeste           7.0
Monte Negro                   6.0
São Felipe D'Oeste            6.0
Ministro Andreazza            6.0
Vale do Paraíso               5.0
Parecis                       5.0
Novo Horizonte do Oeste       5.0
Chupinguaia                   5.0
Castanheiras                  4.0
Primavera de Rondônia         4.0
Nova União                    3.0
Val

In [35]:
sinasc_4_qtfi = sinasc_4[['QTDFILVIVO','munResNome']]
sinasc_4_qtfi[sinasc_4_qtfi['munResNome']=='Cacoal'].groupby('munResNome').agg([('idade media', np.median), 'max', 'min'])

Unnamed: 0_level_0,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,idade media,max,min
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Cacoal,1.0,7.0,0.0


In [36]:
sinasc_4_idapai = sinasc_4[['IDADEPAI', 'munResNome']]
sinasc_4_idapai[sinasc_4_idapai['munResNome']=='Cacoal'].groupby('munResNome').agg([('idade media', np.median), 'max', 'min'])

Unnamed: 0_level_0,IDADEPAI,IDADEPAI,IDADEPAI
Unnamed: 0_level_1,idade media,max,min
munResNome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Cacoal,30.0,66.0,17.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados. Algo que você julgue relevante e novo pra você.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios x é maior que y.

In [6]:
sinasc_raw.dtypes

ORIGEM          int64
CODESTAB      float64
CODMUNNASC      int64
LOCNASC         int64
IDADEMAE        int64
               ...   
munResUf       object
munResLat     float64
munResLon     float64
munResAlt     float64
munResArea    float64
Length: 69, dtype: object

In [7]:
sinasc_raw.select_dtypes(exclude=['int64','float64'])

Unnamed: 0,ESCMAE,GESTACAO,GRAVIDEZ,PARTO,DTNASC,SEXO,RACACOR,DTCADASTRO,CODANOMAL,VERSAOSIST,DTRECEBIM,munResStatus,munResTipo,munResNome,munResUf
0,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-19,Masculino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
1,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-21,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
2,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-02-25,Feminino,Branca,2019-03-08,,3.2.01,2019-03-08,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
3,12 anos ou mais,37 a 41 semanas,Única,Cesáreo,2019-03-20,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia
4,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-03-23,Feminino,Parda,2019-04-03,,3.2.01,2019-04-09,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27023,12 anos ou mais,32 a 36 semanas,Única,Cesáreo,2019-12-13,Masculino,Branca,2020-09-28,,3.2.01,2020-10-13,ATIVO,MUNIC,Vilhena,Rondônia
27024,8 a 11 anos,37 a 41 semanas,Única,Vaginal,2019-10-04,Masculino,Branca,2019-10-16,,3.2.01,2019-10-21,ATIVO,MUNIC,Chupinguaia,Rondônia
27025,8 a 11 anos,37 a 41 semanas,Única,Cesáreo,2019-08-02,Masculino,Parda,2019-08-07,,3.2.00,2019-08-07,ATIVO,MUNIC,Vilhena,Rondônia
27026,8 a 11 anos,32 a 36 semanas,Única,Vaginal,2019-12-23,Masculino,Parda,2020-01-07,,3.2.00,2020-01-07,ATIVO,MUNIC,Vilhena,Rondônia


In [4]:
sinasc_raw.columns

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')

In [38]:
sinasc_raw['CODANOMAL'].value_counts()

Q699        17
Q909         9
Q793         8
Q668         8
Q709         7
            ..
Q759         1
Q524         1
Q741         1
Q743         1
Q225Q250     1
Name: CODANOMAL, Length: 114, dtype: int64