# Livro para consulta:
- https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.09-pivot-tables.html
    

# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [87]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline


def top(df, column = 'QTDFILVIVO', n = 5):
    return df.fillna(0).sort_values(by=column, ascending = False)[:n]
    

# 2. Carregando o dataframe SINASC <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [91]:
sinasc_raw = pd.read_csv('SINASC_RO_2019.csv')
print(sinasc_raw.columns)

Index(['ORIGEM', 'CODESTAB', 'CODMUNNASC', 'LOCNASC', 'IDADEMAE', 'ESTCIVMAE',
       'ESCMAE', 'CODOCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'CODMUNRES',
       'GESTACAO', 'GRAVIDEZ', 'PARTO', 'CONSULTAS', 'DTNASC', 'HORANASC',
       'SEXO', 'APGAR1', 'APGAR5', 'RACACOR', 'PESO', 'IDANOMAL', 'DTCADASTRO',
       'CODANOMAL', 'NUMEROLOTE', 'VERSAOSIST', 'DTRECEBIM', 'DIFDATA',
       'DTRECORIGA', 'NATURALMAE', 'CODMUNNATU', 'CODUFNATU', 'ESCMAE2010',
       'SERIESCMAE', 'DTNASCMAE', 'RACACORMAE', 'QTDGESTANT', 'QTDPARTNOR',
       'QTDPARTCES', 'IDADEPAI', 'DTULTMENST', 'SEMAGESTAC', 'TPMETESTIM',
       'CONSPRENAT', 'MESPRENAT', 'TPAPRESENT', 'STTRABPART', 'STCESPARTO',
       'TPNASCASSI', 'TPFUNCRESP', 'TPDOCRESP', 'DTDECLARAC', 'ESCMAEAGR1',
       'STDNEPIDEM', 'STDNNOVA', 'CODPAISRES', 'TPROBSON', 'PARIDADE',
       'KOTELCHUCK', 'CONTADOR', 'munResStatus', 'munResTipo', 'munResNome',
       'munResUf', 'munResLat', 'munResLon', 'munResAlt', 'munResArea'],
      dtype='object')


# Tarefa 2

### 1. Crie 2 faixas de Latitude do município (munResLat) sendo uma acima e outra abaixo de -10.5 e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas

In [96]:
print(max(sinasc_raw['munResLat']))

sinasc_raw['latitude_munRes'] = np.where(sinasc_raw['munResLat'] < -10.5, 'abaixo_de_-10.5', 'acima_de_-10.5')
print(sinasc_raw['latitude_munRes'].value_counts())


agg_funcs = {'QTDFILVIVO': ['sum', 'mean', 'std', 'min', 'max', 'var', 'median'],
           'IDADEMAE': ['sum', 'mean', 'std', 'min', 'max', 'var', 'median']}

agrupado_porLat = sinasc_raw.groupby('latitude_munRes').agg(agg_funcs)
print(agrupado_porLat)

-8.76889
latitude_munRes
acima_de_-10.5     14035
abaixo_de_-10.5    12993
Name: count, dtype: int64
                QTDFILVIVO                                                  \
                       sum      mean       std  min   max       var median   
latitude_munRes                                                              
abaixo_de_-10.5    12600.0  0.980011  1.138300  0.0  30.0  1.295727    1.0   
acima_de_-10.5     14227.0  1.129306  1.198566  0.0  12.0  1.436561    1.0   

                IDADEMAE                                                 
                     sum       mean       std min max        var median  
latitude_munRes                                                          
abaixo_de_-10.5   340143  26.178943  6.320385  12  53  39.947272   26.0  
acima_de_-10.5    365118  26.014820  6.447455  11  52  41.569682   25.0  


### 2. Crie 2 faixas da área dos municípios (munResArea) sendo uma acima e outra abaixo de 3000 e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas


In [99]:
sinasc_raw['area_MunRes'] = np.where(sinasc_raw['munResArea'] > 3000, 'cidade_grande', 'cidade_pequena')
aggfunc_area = {'IDADEPAI': ['sum', 'mean', 'std', 'min', 'max', 'var', 'median'],
                'APGAR5': ['sum', 'mean', 'std', 'min', 'max', 'var', 'median']}

agrupamento_tamanhoMun = sinasc_raw.groupby('area_MunRes').agg(aggfunc_area)
print(agrupamento_tamanhoMun)

                IDADEPAI                                                     \
                     sum       mean       std   min   max        var median   
area_MunRes                                                                   
cidade_grande   158424.0  31.094014  7.818364  15.0  86.0  61.126809   30.0   
cidade_pequena   78096.0  31.089172  7.676090  16.0  69.0  58.922352   30.0   

                  APGAR5                                                  
                     sum      mean       std  min   max       var median  
area_MunRes                                                               
cidade_grande   199579.0  9.190836  0.787591  0.0  10.0  0.620299    9.0  
cidade_pequena   47570.0  9.130518  0.801138  0.0  10.0  0.641821    9.0  


### 3. Determine faixas na variável munResAlt e aplique o groupby usando essas faixas como chave e realize operações de soma, media, minimo, maximo, mediana, desvio padrao, variancia pra pelo menos 2 variáveis numéricas ainda não utilizadas

In [102]:
print(sinasc_raw['munResAlt'].value_counts())
#Usamos os value_counts para definir uma divisão por altitude que seja pertinente.
sinasc_raw['altitude_munRes'] = np.where(sinasc_raw['munResAlt'] > 300, 'região_montanhosa', 'região_de_planicie')
#Definimos as colunas e as funções que serão aplicadas nelas:
aggfunc_altitude = {'PESO': ['sum', 'mean', 'std', 'min', 'max', 'var', 'median'],
                   'APGAR1': ['sum', 'mean', 'std', 'min', 'max', 'var', 'median']}

agrupamento_porAlt = sinasc_raw.groupby('altitude_munRes').agg(aggfunc_altitude)
print(agrupamento_porAlt)


# Algo interessante é que os bebês nascidos na nossa região de planície parecem der bem maiores que os
# bebês nascidos na região montanhosa, pois tanto o maior peso máximo quanto o peso mínimo se encontram
# nesta divisão.

munResAlt
87.0     8437
157.0    2182
139.0    1729
595.0    1590
177.0    1374
227.0     927
163.0     881
186.0     784
133.0     781
263.0     687
252.0     631
153.0     583
144.0     500
151.0     432
191.0     417
338.0     367
85.0      337
178.0     304
166.0     303
259.0     261
145.0     233
128.0     226
419.0     214
111.0     205
182.0     205
155.0     199
197.0     170
206.0     166
212.0     164
340.0     162
397.0     154
269.0     127
202.0     112
99.0      109
241.0     104
265.0      99
230.0      98
192.0      97
158.0      93
266.0      84
154.0      81
236.0      80
161.0      75
270.0      54
124.0      50
296.0      44
245.0      43
170.0      40
215.0      32
Name: count, dtype: int64
                        PESO                                      \
                         sum         mean         std  min   max   
altitude_munRes                                                    
região_de_planicie  79600169  3243.558494  544.179495  285  5985   
região

### 4. Plote no mesmo grafico ao longo do tempo a idade media das mulheres de cada regiao imediatas de rondonia


In [None]:
imediatas = {
    "Candeias do Jamari": "Porto Velho",
    "Guajará-Mirim": "Porto Velho",
    "Itapuã do Oeste": "Porto Velho",
    "Nova Mamoré": "Porto Velho",
    "Porto Velho": "Porto Velho",
    "Ariquemes": "Ariquemes",
    "Alto Paraíso": "Ariquemes",
    "Buritis": "Ariquemes",
    "Cacaulândia": "Ariquemes",
    "Campo Novo de Rondônia": "Ariquemes",
    "Cujubim": "Ariquemes",
    "Monte Negro": "Ariquemes",
    "Rio Crespo": "Ariquemes",
    "Jaru": "Jaru",
    "Governador Jorge Teixeira": "Jaru",
    "Machadinho D'Oeste": "Jaru",
    "Theobroma": "Jaru",
    "Vale do Anari": "Jaru",
    "Alvorada D'Oeste": "Ji-Paraná",
    "Costa Marques": "Ji-Paraná",
    "Ji-Paraná": "Ji-Paraná",
    "Mirante da Serra": "Ji-Paraná",
    "Nova União": "Ji-Paraná",
    "Ouro Preto do Oeste": "Ji-Paraná",
    "Presidente Médici": "Ji-Paraná",
    "São Francisco do Guaporé": "Ji-Paraná",
    "São Miguel do Guaporé": "Ji-Paraná",
    "Seringueiras": "Ji-Paraná",
    "Teixeirópolis": "Ji-Paraná",
    "Urupá": "Ji-Paraná",
    "Vale do Paraíso": "Ji-Paraná",
    "Cacoal": "Cacoal",
    "Alta Floresta D'Oeste": "Cacoal",
    "Alto Alegre dos Parecis": "Cacoal",
    "Castanheiras": "Cacoal",
    "Espigão D'Oeste": "Cacoal",
    "Ministro Andreazza": "Cacoal",
    "Nova Brasilândia D'Oeste": "Cacoal",
    "Novo Horizonte do Oeste": "Cacoal",
    "Parecis": "Cacoal",
    "Pimenta Bueno": "Cacoal",
    "Primavera de Rondônia": "Cacoal",
    "Rolim de Moura": "Cacoal",
    "Santa Luzia D'Oeste": "Cacoal",
    "São Felipe D'Oeste": "Cacoal",
    "Vilhena": "Vilhena",
    "Cabixi": "Vilhena",
    "Cerejeiras": "Vilhena",
    "Chupinguaia": "Vilhena",
    "Colorado do Oeste": "Vilhena",
    "Corumbiara": "Vilhena",
    "Pimenteiras do Oeste": "Vilhena"
}


sinasc_raw['regiao_imediata'] = sinasc_raw['munResNome'].map(imediatas)
sinasc_raw['DTNASC'] = pd.to_datetime(sinasc_raw['DTNASC'])
sinasc_raw['DTNASC'] = sinasc_raw['DTNASC'].dt.to_period('M')
aggfunc_regioes = {'IDADEMAE':'mean'}
agrupamento_regiaoImediata = sinasc_raw.groupby(['DTNASC', 'regiao_imediata']).agg(aggfunc_regioes).reset_index()
agrupamento_regiaoImediata['DTNASC'] = agrupamento_regiaoImediata['DTNASC'].dt.to_timestamp()
pivoted = agrupamento_regiaoImediata.pivot(index='DTNASC', columns='regiao_imediata', values='IDADEMAE')
pivoted.plot(kind='line', figsize=(10,6), marker='o')
plt.title('Idade média das mães ao longo do ano, por regiao imediata')
plt.xlabel('Ano')
plt.ylabel('IDADE MEDIA')
plt.show()

### 5. Utilize a tabela do link abaixo e crie faixas utilizando o mapping e gere agrupamentos utilizando essas faixas como chave


### 5.1 IDH
A - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IDH-M


In [168]:
dados_ro = pd.read_csv('dados_extras_ro.csv', sep=';', encoding='latin_1')
regioes_map = dict(zip(dados_ro['municipio'], dados_ro['regiao']))

bins = [0, .550, .7, .8]
labels = ['baixo', 'medio', 'alto']
#não precisamos incluir muito alto, nem o intervalo .8 até 1, pois na lista não existe IDH maior que .8

dados_ro['nivel_idh'] = pd.cut(dados_ro['idh'], bins = bins, labels = labels)
agrupamento_idh = dados_ro.groupby('nivel_idh')
print(dados_ro)
dicionario_idh = dados_ro.set_index('municipio')['nivel_idh'].to_dict()
sinasc_raw['nivel_idh'] = sinasc_raw['munResNome'].map(dicionario_idh)

aggfunc_idh = {'APGAR1': 'mean'}
agrupamento_idh = sinasc_raw.groupby('nivel_idh').agg(aggfunc_idh)
print(agrupamento_idh)

# Um insight interessante que conseguimos extrair daqui é que os bebês que moral em regiões com IDH alto possuem um apgar1 ligeiramente menor do que 
# aqueles que nascem nas zonas de IDH medio...

                    municipio       regiao    idh    ifdm       pib nivel_idh
0       Alta Floresta D'Oeste       Cacoal  0.641  0.6337    496000     medio
1     Alto Alegre dos Parecis       Cacoal  0.592  0.5046    213410     medio
2                Alto Paraíso    Ariquemes  0.625  0.5735    358000     medio
3            Alvorada D'Oeste    Ji-Paraná  0.643  0.5919    204098     medio
4                   Ariquemes    Ariquemes  0.702  0.7746   2579830      alto
5                     Buritis    Ariquemes  0.616  0.6199    726000     medio
6                      Cabixi      Vilhena  0.650  0.5887    113031     medio
7                 Cacaulândia    Ariquemes  0.646  0.5721    116635     medio
8                      Cacoal       Cacoal  0.718  0.7111   2261644      alto
9      Campo Novo de Rondônia    Ariquemes  0.593  0.5272    208821     medio
10         Candeias do Jamari  Porto Velho  0.649  0.6199    548000     medio
11               Castanheiras       Cacoal  0.658  0.5430     59

  agrupamento_idh = dados_ro.groupby('nivel_idh')


### 5.2 IFDM
B - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_IFDM


In [184]:
bins = [0, .4, .6, .8, 1]
labels = ['baixo', 'regular', 'moderado', 'alto']
dados_ro['indice_ifdm'] = pd.cut(dados_ro['ifdm'], bins = bins, labels = labels)

dicionario_ifdm = dados_ro.set_index('municipio')['indice_ifdm'].to_dict()

sinasc_raw['indice_ifdm'] = sinasc_raw['munResNome'].map(dicionario_ifdm)

agrupamento_ifdm = sinasc_raw.groupby('indice_ifdm').agg({'APGAR5': 'mean'})
print(agrupamento_ifdm)

# Novamente, agora com relação ao APGAR5 e o índice ifdm, vemos que existe um aumento da média do APGAR5 quando o indice IFDM melhora...

               APGAR5
indice_ifdm          
moderado     9.185394
regular      9.152066


### 5.3 PIB
C - https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_de_Rond%C3%B4nia_por_PIB


In [210]:
bins = [0, 100000, 200000, 300000, 500000, 1000000, float('inf')]
#aqui, como sabemos, o PIB não mede o desenvolvimento de uma cidade, mas sim, em última instância, o quão "grande" ela é, pois uma cidade, mesmo pobre
#se tiver suficientes habitantes, terá um PIB alto, visto que estamos falando de PIB e não de PIB per Capita... então, nossos labels serão:
labels = ['muito pequena', 'pequena', 'media', 'grande', 'muito grande', 'megapolis']
dados_ro['tamanho_municipio'] = pd.cut(dados_ro['pib'], bins = bins, labels = labels)
dicionario_tamanhoMun = dados_ro.set_index('municipio')['tamanho_municipio'].to_dict()

sinasc_raw['tamanho_municipio'] = sinasc_raw['munResNome'].map(dicionario_tamanhoMun)
aggfunc_tamanhoMun = {'APGAR5': 'mean', 'APGAR1': 'mean'}
agrupamento_tamanho = sinasc_raw.groupby('tamanho_municipio').agg(aggfunc_tamanhoMun)
print(agrupamento_tamanho)

                     APGAR5    APGAR1
tamanho_municipio                    
grande             9.078275  7.955295
media              9.265193  8.110497
megapolis          9.166223  8.167346
muito grande       9.272004  8.156886
muito pequena      9.132251  7.969838
pequena            9.168210  8.045782


O que podemos ver é que aparentemente, com relação ao tamanho das cidades, não existe um padrão claro de o tamanho favorecer ou desfavorecer a media do apgar5 ou do apgar1. O apgar se mostra baixo em cidades grandes, assim como em cidades muito pequenas, aparentando não ter nenhum padrão. No entanto, são especificamente estas duas categorias que demonstram tanto o APGAR1 quanto o APGAR5 mais baixos...

### Analise as respostas encontradas, tire algum insight delas, conte pra gente algo encontrado nos dados.

Exemplo:
- Ah, descobri que a idade mediana das mulheres que deram a luz no ano de 2019 dos municipios com o PIB mais alto é a maior dentre todas.

O que pudemos ver é que o nível de IDH mais alto, favorece um APGAR1 maior, e que o índice IFDM mais alto, favorece o APGAR5 mais alto. Agora, já a quantidade do PIB, parece ser uma métrica no mínimo "confusa" para se verificar os índices de saúde dos bebês...