# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [3]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [4]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

In [5]:
sinasc_raw['ESTCIVMAE'] = sinasc_raw['ESTCIVMAE'].map({1.0: 'Solteira',
                                                       2.0: 'Casada',
                                                       3.0: 'Viúva',
                                                       4.0:'Separada judicialmente/divorciada',
                                                       5.0: 'União estável',
                                                       9.0: 'Ignorada'})

In [6]:
sinasc_raw['IDANOMAL'] = sinasc_raw['IDANOMAL'].map({1.0: 'Sim',
                                                     2.0: 'Não',
                                                     9.0: 'Ignorado'})

In [7]:
sinasc_raw['ESTCIVMAE']

0        União estável
1               Casada
2             Ignorada
3        União estável
4               Casada
             ...      
27023           Casada
27024         Solteira
27025           Casada
27026           Casada
27027    União estável
Name: ESTCIVMAE, Length: 27028, dtype: object

# Tarefa 2

### 1. Crie 2 faixas de Latitude do município (munResLat) sendo uma acima e outra abaixo de -10.5 e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas

In [30]:
sinasc_raw['munResLat'].max()

-8.76889

In [31]:
sinasc_raw['munResLat'].min()

-13.49976

In [11]:
lat_mun = pd.cut(sinasc_raw['munResLat'], [-13.5, -10.5, -8.7])
sinasc_raw.pivot_table(values='QTDGESTANT',
                       index=['IDANOMAL', lat_mun],
                       aggfunc=['sum', 'mean', 'min', 'max',
                                'median', 'std', 'var'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean,min,max,median,std,var
Unnamed: 0_level_1,Unnamed: 1_level_1,QTDGESTANT,QTDGESTANT,QTDGESTANT,QTDGESTANT,QTDGESTANT,QTDGESTANT,QTDGESTANT
IDANOMAL,munResLat,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Ignorado,"(-13.5, -10.5]",40.0,1.025641,0.0,3.0,1.0,1.012739,1.025641
Ignorado,"(-10.5, -8.7]",110.0,1.047619,0.0,4.0,1.0,1.155097,1.334249
Não,"(-13.5, -10.5]",15133.0,1.185879,0.0,15.0,1.0,1.307115,1.70855
Não,"(-10.5, -8.7]",16728.0,1.36622,0.0,52.0,1.0,1.504543,2.26365
Sim,"(-13.5, -10.5]",81.0,1.065789,0.0,3.0,1.0,0.956877,0.915614
Sim,"(-10.5, -8.7]",142.0,1.245614,0.0,7.0,1.0,1.366874,1.868343


### 2. Crie 2 faixas da área dos municípios (munResArea) sendo uma acima e outra abaixo de 3000 e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas


In [12]:
sinasc_raw['munResArea'].max()

34096.394

In [13]:
sinasc_raw['munResArea'].min()

459.978

In [14]:
area_mun = pd.cut(sinasc_raw['munResArea'], [459, 3000, 34096])
sinasc_raw.pivot_table('PESO',
                      ['PARTO', area_mun],
                       aggfunc=['sum', 'mean', 'min', 'max',
                                'median', 'std', 'var'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean,min,max,median,std,var
Unnamed: 0_level_1,Unnamed: 1_level_1,PESO,PESO,PESO,PESO,PESO,PESO,PESO
PARTO,munResArea,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Cesáreo,"(459, 3000]",13284403,3246.432796,258,5720,3260,510.897776,261016.537893
Cesáreo,"(3000, 34096]",30256957,3273.85382,292,5985,3295,519.907445,270303.751273
Vaginal,"(459, 3000]",3479668,3117.982079,285,4790,3190,591.487652,349857.642728
Vaginal,"(3000, 34096]",13199221,3206.807823,350,5050,3247,539.237769,290777.371808


### 3. Determine faixas na variável munResAlt e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas

In [15]:
alt_mun = pd.qcut(sinasc_raw['munResAlt'], 4)

sinasc_raw.pivot_table(values='QTDFILVIVO',
                       index=['ESTCIVMAE', alt_mun],
                       aggfunc=['sum', 'mean', 'min', 'max',
                                'median', 'std', 'var'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean,min,max,median,std,var
Unnamed: 0_level_1,Unnamed: 1_level_1,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
ESTCIVMAE,munResAlt,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Casada,"(84.999, 87.0]",2725.0,1.164032,0.0,12.0,1.0,1.17942,1.391031
Casada,"(87.0, 153.0]",1604.0,1.157287,0.0,10.0,1.0,1.119474,1.253221
Casada,"(153.0, 191.0]",2726.0,0.914458,0.0,9.0,1.0,0.972989,0.946707
Casada,"(191.0, 595.0]",2500.0,0.914746,0.0,8.0,1.0,0.909752,0.827649
Ignorada,"(84.999, 87.0]",56.0,1.098039,0.0,7.0,1.0,1.204241,1.450196
Ignorada,"(87.0, 153.0]",12.0,1.333333,0.0,3.0,1.0,1.224745,1.5
Ignorada,"(153.0, 191.0]",34.0,0.723404,0.0,3.0,0.0,0.877301,0.769658
Ignorada,"(191.0, 595.0]",30.0,1.111111,0.0,3.0,1.0,1.120897,1.25641
Separada judicialmente/divorciada,"(84.999, 87.0]",140.0,1.458333,0.0,6.0,1.0,1.186917,1.408772
Separada judicialmente/divorciada,"(87.0, 153.0]",63.0,1.235294,0.0,3.0,1.0,0.929263,0.863529


### 4. Plote no mesmo grafico ao longo do tempo a idade media das mulheres de cada regiao imediatas de rondonia
https://pt.wikipedia.org/wiki/Lista_de_regi%C3%B5es_geogr%C3%A1ficas_intermedi%C3%A1rias_e_imediatas_de_Rond%C3%B4nia

### 5. Utilize a tabela do link abaixo e crie faixas utilizando o mapping e gere agrupamentos utilizando essas faixas como chave


### 5.1 IDH
A - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IDH-M


In [16]:
idhmapping = {
    "Candeias do Jamari": "IDH-M médio",
    "Guajará-Mirim": "IDH-M médio",
    "Itapuã do Oeste": "IDH-M médio",
    "Nova Mamoré": "IDH-M baixo",
    "Porto Velho": "IDH-M alto",
    "Ariquemes": "IDH-M médio",
    "Alto Paraíso": "IDH-M médio",
    "Ariquemes": "IDH-M alto",
    "Buritis": "IDH-M médio",
    "Cacaulândia": "IDH-M médio",
    "Campo Novo de Rondônia": "IDH-M baixo",
    "Cujubim": "IDH-M médio",
    "Monte Negro": "IDH-M médio",
    "Rio Crespo": "IDH-M médio",
    "Jaru": "IDH-M médio",
    "Governador Jorge Teixeira": "IDH-M baixo",
    "Machadinho D'Oeste": "IDH-M baixo",
    "Theobroma": "IDH-M baixo",
    "Vale do Anari": "IDH-M baixo",
    "Alvorada D'Oeste": "IDH-M médio",
    "Costa Marques": "IDH-M médio",
    "Ji-Paraná": "IDH-M alto",
    "Mirante da Serra": "IDH-M médio",
    "Nova União": "IDH-M baixo",
    "Ouro Preto do Oeste": "IDH-M médio",
    "Presidente Médici": "IDH-M médio",
    "São Francisco do Guaporé": "IDH-M médio",
    "São Miguel do Guaporé": "IDH-M médio",
    "Seringueiras": "IDH-M baixo",
    "Teixeirópolis": "IDH-M médio",
    "Urupá": "IDH-M médio",
    "Vale do Paraíso": "IDH-M médio",
    "Cacoal": "IDH-M alto",
    "Alta Floresta D'Oeste": "IDH-M médio",
    "Alto Alegre dos Parecis": "IDH-M baixo",
    "Castanheiras": "IDH-M médio",
    "Espigão D'Oeste": "IDH-M médio",
    "Ministro Andreazza": "IDH-M médio",
    "Nova Brasilândia D'Oeste": "IDH-M médio",
    "Novo Horizonte do Oeste": "IDH-M médio",
    "Parecis": "IDH-M médio",
    "Pimenta Bueno": "IDH-M alto",
    "Primavera de Rondônia": "IDH-M médio",
    "Rolim de Moura": "IDH-M alto",
    "Santa Luzia D'Oeste": "IDH-M médio",
    "São Felipe D'Oeste": "IDH-M médio",
    "Vilhena": "IDH-M alto",
    "Cabixi": "IDH-M médio",
    "Cerejeiras": "IDH-M médio",
    "Chupinguaia": "IDH-M médio",
    "Colorado do Oeste": "IDH-M médio",
    "Corumbiara": "IDH-M médio",
    "Pimenteiras do Oeste": "IDH-M médio"}

In [17]:
sinasc_idh = sinasc_raw[['QTDFILVIVO', 'IDADEMAE', 'IDADEPAI', 'munResNome']]

In [18]:
sinasc_idh = sinasc_idh.set_index('munResNome')

In [28]:
sinasc_idh.groupby(idhmapping).mean()


Unnamed: 0_level_0,QTDFILVIVO,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
IDH-M alto,1.03396,26.280332,31.074091
IDH-M baixo,1.072664,25.326944,30.61745
IDH-M médio,1.088847,25.884855,31.207092


### 5.2 IFDM
B - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IFDM


In [20]:
dados_ro = pd.read_csv('dados_extras_ro.csv', sep=';', encoding='latin_1')
#ifdm_mapping = dict(zip(dados_ro['municipio'], dados_ro['ifdm']))
dados_ro.loc[dados_ro['ifdm'] > 0.6, 'ifdm_cat'] = "Desenvovimento Moderado"
dados_ro.loc[dados_ro['ifdm'] < 0.6, 'ifdm_cat'] = "Desenvolvimento regular"


In [21]:
ifdm_map = dict(zip(dados_ro['municipio'], dados_ro['ifdm_cat']))
ifdm_map

{"Alta Floresta D'Oeste": 'Desenvovimento Moderado',
 'Alto Alegre dos Parecis': 'Desenvolvimento regular',
 'Alto Paraíso': 'Desenvolvimento regular',
 "Alvorada D'Oeste": 'Desenvolvimento regular',
 'Ariquemes': 'Desenvovimento Moderado',
 'Buritis': 'Desenvovimento Moderado',
 'Cabixi': 'Desenvolvimento regular',
 'Cacaulândia': 'Desenvolvimento regular',
 'Cacoal': 'Desenvovimento Moderado',
 'Campo Novo de Rondônia': 'Desenvolvimento regular',
 'Candeias do Jamari': 'Desenvovimento Moderado',
 'Castanheiras': 'Desenvolvimento regular',
 'Cerejeiras': 'Desenvovimento Moderado',
 'Chupinguaia': 'Desenvovimento Moderado',
 'Colorado do Oeste': 'Desenvovimento Moderado',
 'Corumbiara': 'Desenvolvimento regular',
 'Costa Marques': 'Desenvolvimento regular',
 'Cujubim': 'Desenvolvimento regular',
 "Espigão D'Oeste": 'Desenvolvimento regular',
 'Governador Jorge Teixeira': 'Desenvolvimento regular',
 'Guajará-Mirim': 'Desenvolvimento regular',
 'Itapuã do Oeste': 'Desenvolvimento regular

In [27]:
sinasc_idh.groupby(ifdm_map).mean()

Unnamed: 0_level_0,QTDFILVIVO,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Desenvolvimento regular,1.164372,25.535131,31.237509
Desenvovimento Moderado,1.027298,26.223139,31.061687


### 5.3 PIB
C - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_PIB


In [23]:
dados_ro.loc[dados_ro['pib'] < 100000, 'pib_cat'] = "Até 100 Milhões"
dados_ro.loc[dados_ro['pib'] > 100000, 'pib_cat'] = "Acima de 100 Milhões"
dados_ro.loc[dados_ro['pib'] > 200000, 'pib_cat'] = "Acima de 200 Milhões"
dados_ro.loc[dados_ro['pib'] > 300000, 'pib_cat'] = "Acima de 300 Milhões"
dados_ro.loc[dados_ro['pib'] > 500000, 'pib_cat'] = "Acima de 500 Milhões"
dados_ro.loc[dados_ro['pib'] > 1000000, 'pib_cat'] = "Acima de 1 Bilhão"

In [24]:
pib_map = dict(zip(dados_ro['municipio'], dados_ro['pib_cat']))
pib_map

{"Alta Floresta D'Oeste": 'Acima de 300 Milhões',
 'Alto Alegre dos Parecis': 'Acima de 200 Milhões',
 'Alto Paraíso': 'Acima de 300 Milhões',
 "Alvorada D'Oeste": 'Acima de 200 Milhões',
 'Ariquemes': 'Acima de 1 Bilhão',
 'Buritis': 'Acima de 500 Milhões',
 'Cabixi': 'Acima de 100 Milhões',
 'Cacaulândia': 'Acima de 100 Milhões',
 'Cacoal': 'Acima de 1 Bilhão',
 'Campo Novo de Rondônia': 'Acima de 200 Milhões',
 'Candeias do Jamari': 'Acima de 500 Milhões',
 'Castanheiras': 'Até 100 Milhões',
 'Cerejeiras': 'Acima de 500 Milhões',
 'Chupinguaia': 'Acima de 100 Milhões',
 'Colorado do Oeste': 'Acima de 300 Milhões',
 'Corumbiara': 'Acima de 100 Milhões',
 'Costa Marques': 'Acima de 100 Milhões',
 'Cujubim': 'Acima de 300 Milhões',
 "Espigão D'Oeste": 'Acima de 500 Milhões',
 'Governador Jorge Teixeira': 'Acima de 100 Milhões',
 'Guajará-Mirim': 'Acima de 500 Milhões',
 'Itapuã do Oeste': 'Acima de 100 Milhões',
 'Jaru': 'Acima de 1 Bilhão',
 'Ji-Paraná': 'Acima de 1 Bilhão',
 "Machadi

In [33]:
sinasc_idh.groupby(pib_map).median()

Unnamed: 0_level_0,QTDFILVIVO,IDADEMAE,IDADEPAI
munResNome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Acima de 1 Bilhão,1.0,26.0,30.0
Acima de 100 Milhões,1.0,25.0,30.0
Acima de 200 Milhões,1.0,25.0,30.0
Acima de 300 Milhões,1.0,25.0,29.0
Acima de 500 Milhões,1.0,25.0,31.0
Até 100 Milhões,1.0,26.0,30.0


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados.

idade mediana dos pais de 2019 dos municipios com o PIB entre 500 milhões e 1 bilão é a maior dentre todas.

idade média das mulheres que deram a luz no ano de 2019 e dos pais nos municipios com o IDH mais alto é maior.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios com o PIB mais alto é a maior dentre todas.