# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [136]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings

%matplotlib inline

In [138]:
warnings.filterwarnings("ignore")

In [26]:
dados_ro = pd.read_csv('dados_extras_ro.csv', sep=';', encoding='latin_1')
regioes_map = dict(zip(dados_ro['municipio'], dados_ro['regiao']))
dados_ro.sort_values(by='municipio')

Unnamed: 0,municipio,regiao,idh,ifdm,pib
0,Alta Floresta D'Oeste,Cacoal,0.641,0.6337,496000
1,Alto Alegre dos Parecis,Cacoal,0.592,0.5046,213410
2,Alto Paraíso,Ariquemes,0.625,0.5735,358000
3,Alvorada D'Oeste,Ji-Paraná,0.643,0.5919,204098
4,Ariquemes,Ariquemes,0.702,0.7746,2579830
5,Buritis,Ariquemes,0.616,0.6199,726000
6,Cabixi,Vilhena,0.65,0.5887,113031
7,Cacaulândia,Ariquemes,0.646,0.5721,116635
8,Cacoal,Cacoal,0.718,0.7111,2261644
9,Campo Novo de Rondônia,Ariquemes,0.593,0.5272,208821


# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [54]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
sinasc_raw.head()

Unnamed: 0,ORIGEM,CODESTAB,CODMUNNASC,LOCNASC,IDADEMAE,ESTCIVMAE,ESCMAE,CODOCUPMAE,QTDFILVIVO,QTDFILMORT,...,KOTELCHUCK,CONTADOR,munResStatus,munResTipo,munResNome,munResUf,munResLat,munResLon,munResAlt,munResArea
0,1,2679477.0,110001,1,19,5.0,8 a 11 anos,,0.0,0.0,...,5,1,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
1,1,2679477.0,110001,1,29,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,2,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
2,1,2679477.0,110001,1,37,9.0,8 a 11 anos,513205.0,2.0,0.0,...,5,3,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025
3,1,2516500.0,110001,1,30,5.0,12 anos ou mais,231205.0,0.0,0.0,...,4,4,ATIVO,MUNIC,Alto Alegre dos Parecis,Rondônia,-12.13178,-61.85308,397.0,3958.273
4,1,2516500.0,110001,1,30,2.0,8 a 11 anos,999992.0,1.0,0.0,...,5,5,ATIVO,MUNIC,Alta Floresta D'Oeste,Rondônia,-11.93554,-61.99982,338.0,7067.025


In [42]:
sinasc_raw.munResNome.sort_values().unique()

array(["Alta Floresta D'Oeste", 'Alto Alegre dos Parecis', 'Alto Paraíso',
       "Alvorada D'Oeste", 'Ariquemes', 'Buritis', 'Cabixi',
       'Cacaulândia', 'Cacoal', 'Campo Novo de Rondônia',
       'Candeias do Jamari', 'Castanheiras', 'Cerejeiras', 'Chupinguaia',
       'Colorado do Oeste', 'Corumbiara', 'Costa Marques', 'Cujubim',
       "Espigão D'Oeste", 'Governador Jorge Teixeira', 'Guajará-Mirim',
       'Itapuã do Oeste', 'Jaru', 'Ji-Paraná', "Machadinho D'Oeste",
       'Ministro Andreazza', 'Mirante da Serra', 'Monte Negro',
       'Município ignorado - RO', "Nova Brasilândia D'Oeste",
       'Nova Mamoré', 'Nova União', 'Novo Horizonte do Oeste',
       'Ouro Preto do Oeste', 'Parecis', 'Pimenta Bueno',
       'Pimenteiras do Oeste', 'Porto Velho', 'Presidente Médici',
       'Primavera de Rondônia', 'Rio Crespo', 'Rolim de Moura',
       "Santa Luzia D'Oeste", 'Seringueiras', "São Felipe D'Oeste",
       'São Francisco do Guaporé', 'São Miguel do Guaporé',
       'Teixeir

In [112]:
sinasc_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27028 entries, 0 to 27027
Data columns (total 69 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ORIGEM        27028 non-null  int64  
 1   CODESTAB      26913 non-null  float64
 2   CODMUNNASC    27028 non-null  int64  
 3   LOCNASC       27028 non-null  int64  
 4   IDADEMAE      27028 non-null  int64  
 5   ESTCIVMAE     26711 non-null  float64
 6   ESCMAE        26716 non-null  object 
 7   CODOCUPMAE    24121 non-null  float64
 8   QTDFILVIVO    25455 non-null  float64
 9   QTDFILMORT    24930 non-null  float64
 10  CODMUNRES     27028 non-null  int64  
 11  GESTACAO      25796 non-null  object 
 12  GRAVIDEZ      26949 non-null  object 
 13  PARTO         26979 non-null  object 
 14  CONSULTAS     27028 non-null  int64  
 15  DTNASC        27028 non-null  object 
 16  HORANASC      27007 non-null  float64
 17  SEXO          27024 non-null  object 
 18  APGAR1        26932 non-nu

# Tarefa 2

### 1. Crie 2 faixas de Latitude do município (munResLat) sendo uma acima e outra abaixo de -10.5 e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas

In [80]:
sinasc_raw['munResLat'].min()

-13.49976

In [88]:
sinasc_raw['munResLat'].max()

-8.76889

In [90]:
latitude = pd.cut(sinasc_raw['munResLat'], [-13.5, -10.5, -8.5]) 
latitude.value_counts()

munResLat
(-10.5, -8.5]     14034
(-13.5, -10.5]    12993
Name: count, dtype: int64

In [156]:
sinasc_raw.groupby(latitude, observed=True)[['QTDFILMORT','QTDFILVIVO']].agg(
    [('Soma','sum'),
     ('Média','mean'),
     ('Mínimo',np.min),
     ('Máximo',np.max),
     ('Mediana','median'),
     ('Desvio Padrão',np.std),
     ('Variancia',np.var)])

Unnamed: 0_level_0,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,Soma,Média,Mínimo,Máximo,Mediana,Desvio Padrão,Variancia,Soma,Média,Mínimo,Máximo,Mediana,Desvio Padrão,Variancia
munResLat,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
"(-13.5, -10.5]",3105.0,0.242521,0.0,28.0,0.0,0.59943,0.359317,12600.0,0.980011,0.0,30.0,1.0,1.1383,1.295727
"(-10.5, -8.5]",3538.0,0.29177,0.0,9.0,0.0,0.627856,0.394204,14226.0,1.129317,0.0,12.0,1.0,1.198613,1.436674


### 2. Crie 2 faixas da área dos municípios (munResArea) sendo uma acima e outra abaixo de 3000 e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas


In [163]:
sinasc_raw['munResArea'].min()

459.978

In [165]:
sinasc_raw['munResArea'].max()

34096.394

In [167]:
area = pd.cut(sinasc_raw['munResArea'], [400, 3000, 35000]) 
area.value_counts()

munResArea
(3000, 35000]    21808
(400, 3000]       5219
Name: count, dtype: int64

In [169]:
sinasc_raw.groupby(area, observed=True)[['QTDFILMORT','QTDFILVIVO']].agg(
    [('Soma','sum'),
     ('Média','mean'),
     ('Mínimo',np.min),
     ('Máximo',np.max),
     ('Mediana','median'),
     ('Desvio Padrão',np.std),
     ('Variancia',np.var)])

Unnamed: 0_level_0,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,Soma,Média,Mínimo,Máximo,Mediana,Desvio Padrão,Variancia,Soma,Média,Mínimo,Máximo,Mediana,Desvio Padrão,Variancia
munResArea,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
"(400, 3000]",1260.0,0.244803,0.0,4.0,0.0,0.551215,0.303838,4773.0,0.924284,0.0,30.0,1.0,1.075442,1.156575
"(3000, 35000]",5383.0,0.272116,0.0,28.0,0.0,0.629081,0.395743,22053.0,1.08689,0.0,14.0,1.0,1.19175,1.420268


### 3. Determine faixas na variável munResAlt e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas

In [183]:
sinasc_raw['munResAlt'].sort_values().unique()

array([ 85.,  87.,  99., 111., 124., 128., 133., 139., 144., 145., 151.,
       153., 154., 155., 157., 158., 161., 163., 166., 170., 177., 178.,
       182., 186., 191., 192., 197., 202., 206., 212., 215., 227., 230.,
       236., 241., 245., 252., 259., 263., 265., 266., 269., 270., 296.,
       338., 340., 397., 419., 595.,  nan])

In [193]:
altitude = pd.qcut(sinasc_raw['munResAlt'], 3)
altitude.value_counts()

munResAlt
(111.0, 177.0]     9762
(84.999, 111.0]    9088
(177.0, 595.0]     8177
Name: count, dtype: int64

In [195]:
sinasc_raw.groupby(altitude, observed=True)[['QTDFILMORT','QTDFILVIVO']].agg(
    [('Soma','sum'),
     ('Média','mean'),
     ('Mínimo',np.min),
     ('Máximo',np.max),
     ('Mediana','median'),
     ('Desvio Padrão',np.std),
     ('Variancia',np.var)])

Unnamed: 0_level_0,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILMORT,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO,QTDFILVIVO
Unnamed: 0_level_1,Soma,Média,Mínimo,Máximo,Mediana,Desvio Padrão,Variancia,Soma,Média,Mínimo,Máximo,Mediana,Desvio Padrão,Variancia
munResAlt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
"(84.999, 111.0]",2357.0,0.307261,0.0,9.0,0.0,0.638486,0.407664,9372.0,1.182736,0.0,12.0,1.0,1.24178,1.542017
"(111.0, 177.0]",2381.0,0.258103,0.0,9.0,0.0,0.592529,0.35109,9871.0,1.043777,0.0,14.0,1.0,1.185246,1.404809
"(177.0, 595.0]",1905.0,0.237147,0.0,28.0,0.0,0.612091,0.374656,7583.0,0.939304,0.0,30.0,1.0,1.065046,1.134323


### 4. Plote no mesmo grafico ao longo do tempo a idade media das mulheres de cada regiao imediatas de rondonia


In [None]:
imediatas = {
    "Candeias do Jamari": "Porto Velho",
    "Guajará-Mirim": "Porto Velho",
    "Itapuã do Oeste": "Porto Velho",
    "Nova Mamoré": "Porto Velho",
    "Porto Velho": "Porto Velho",
    "Ariquemes": "Ariquemes",
    "Alto Paraíso": "Ariquemes",
    "Buritis": "Ariquemes",
    "Cacaulândia": "Ariquemes",
    "Campo Novo de Rondônia": "Ariquemes",
    "Cujubim": "Ariquemes",
    "Monte Negro": "Ariquemes",
    "Rio Crespo": "Ariquemes",
    "Jaru": "Jaru",
    "Governador Jorge Teixeira": "Jaru",
    "Machadinho D'Oeste": "Jaru",
    "Theobroma": "Jaru",
    "Vale do Anari": "Jaru",
    "Alvorada D'Oeste": "Ji-Paraná",
    "Costa Marques": "Ji-Paraná",
    "Ji-Paraná": "Ji-Paraná",
    "Mirante da Serra": "Ji-Paraná",
    "Nova União": "Ji-Paraná",
    "Ouro Preto do Oeste": "Ji-Paraná",
    "Presidente Médici": "Ji-Paraná",
    "São Francisco do Guaporé": "Ji-Paraná",
    "São Miguel do Guaporé": "Ji-Paraná",
    "Seringueiras": "Ji-Paraná",
    "Teixeirópolis": "Ji-Paraná",
    "Urupá": "Ji-Paraná",
    "Vale do Paraíso": "Ji-Paraná",
    "Cacoal": "Cacoal",
    "Alta Floresta D'Oeste": "Cacoal",
    "Alto Alegre dos Parecis": "Cacoal",
    "Castanheiras": "Cacoal",
    "Espigão D'Oeste": "Cacoal",
    "Ministro Andreazza": "Cacoal",
    "Nova Brasilândia D'Oeste": "Cacoal",
    "Novo Horizonte do Oeste": "Cacoal",
    "Parecis": "Cacoal",
    "Pimenta Bueno": "Cacoal",
    "Primavera de Rondônia": "Cacoal",
    "Rolim de Moura": "Cacoal",
    "Santa Luzia D'Oeste": "Cacoal",
    "São Felipe D'Oeste": "Cacoal",
    "Vilhena": "Vilhena",
    "Cabixi": "Vilhena",
    "Cerejeiras": "Vilhena",
    "Chupinguaia": "Vilhena",
    "Colorado do Oeste": "Vilhena",
    "Corumbiara": "Vilhena",
    "Pimenteiras do Oeste": "Vilhena"
}

### 5. Utilize a tabela do link abaixo e crie faixas utilizando o mapping e gere agrupamentos utilizando essas faixas como chave


### 5.1 IDH
A - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IDH-M


### 5.2 IFDM
B - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IFDM


### 5.3 PIB
C - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_PIB


### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios com o PIB mais alto é a maior dentre todas.