# ===============================


# Importando as bibliotecas básicas


# ===============================

In [52]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# ==============================


# Lendo as bases de dados


# ==============================

### Primeiro a base de casos de dengue

In [45]:
#Casos de Dengue

df = pd.DataFrame()
for i in [2013,2014,2015,2016,2017,2018,2019]:
    print(i)
    db = pd.read_csv(r'E:\Users\quadr\Documents\MBA\Trabalhos\TCC\Dengue Rio\Casos Dengue RJ DBC\denguerj'+str(i)+'.csv',engine='python')
    print(db.count()[0])
    frames =[df,db]
    df = pd.concat(frames,sort=False)
    print(df.count()[0])


2013
254909
254909
2014
15901
270810
2015
93522
364332
2016
115112
479444
2017
16962
496406
2018
25090
521496
2019
50754
572250


### Filtrando apenas a cidade do Rio de Janeiro - Cód IBGE 330455

In [65]:
df2 = df[df.ID_MUNICIP==330455]

In [51]:
#Dados de Estabelecimentos (para pegarmos os bairros)

estab = pd.read_csv(r'E:\Users\quadr\Documents\MBA\Trabalhos\TCC\Dengue Rio\Estabelecimentos\estabelecimentos.csv',engine='python')

In [165]:
df_completa = df2.merge(estab[['CNES','COD_CEP']], how='left', left_on ='ID_UNIDADE', right_on='CNES')

### Para inferir a região e o bairro da cidade, precisaremos identificar através do CEP do estabelecimento da notificação.

In [158]:
# importando a base de endereços

endereco = pd.read_csv(r'E:\Users\quadr\Documents\MBA\Trabalhos\TCC\Dengue Rio\Estabelecimentos\ceps.csv')

  interactivity=interactivity, compiler=compiler, result=result)


In [161]:
endrj = endereco[endereco.CIDADE == 'Rio de Janeiro/RJ']

In [172]:
df_completa2 = df_completa.merge(endrj[['CEP','CIDADE','BAIRRO','RUA']], how='left', left_on = 'COD_CEP', right_on='CEP')

In [173]:
df_completa2.count()

Unnamed: 0    163157
NU_NOTIFIC    163157
TP_NOT        163157
ID_AGRAVO     163157
DT_NOTIFIC    163157
               ...  
COD_CEP       116890
CEP           116890
CIDADE        116890
BAIRRO        116887
RUA           116890
Length: 127, dtype: int64

### Filtrando somente os resultados onde temos endereço correspondente

In [174]:
df_final = df_completa2[df_completa2.CIDADE == 'Rio de Janeiro/RJ']

#### Terminamos com uma base de dados de aprox 116 mil registros

#### Temos agora os registros da cidade do RJ, com classificação de bairro, e podemos comparar com a base de clima nos mesmos bairros

In [182]:
df_final.to_csv(r'E:\Users\quadr\Documents\MBA\Trabalhos\TCC\Dengue Rio\Bases TCC\casosdenguerj.csv')

In [200]:
# Pegando os casos de dengue somente dos bairros onde temos medição de clima

df_final_filtrada = df_final[df_final['BAIRRO'].isin(['Copacabana','Centro','São Cristóvão','Tijuca','Irajá','Bangu','Campo Grande','Pedra da Guaratiba'])]

In [245]:
# Fazendo a contagem de notificações por data e bairro

casosdengue = df_final_filtrada.groupby(['DT_NOTIFIC','BAIRRO']).NU_NOTIFIC.count()

In [252]:
casosdengue = pd.DataFrame(casosdengue)
casosdengue = casosdengue.reset_index()

In [256]:
casosdengue['DATE'] = casosdengue.DT_NOTIFIC.apply(lambda x: datetime.strptime(x, '%Y-%m-%d').date())

### Importando agora os dados climáticos

In [298]:
climarj = pd.read_csv(r'E:\Users\quadr\Documents\MBA\Trabalhos\TCC\Dengue Rio\Bases TCC\BaseMonitorAr.csv')

In [299]:
# Criando coordenadas usando latitude e longitude para uso posterior

climarj['geo'] = list(zip(climarj.Lat, climarj.Lon))

### Aplicando as segmentações de bairro

#### Centro (CA)
#### Copacabana (AV)
#### São Cristóvão (SC)
#### Tijuca (SP)
#### Irajá (IR)
#### Bangu (BG)
#### Campo Grande (CG)
#### Pedra de Guaratiba (PG)


In [300]:
# Ajustando as datas da base de clima que estão em formato string
from datetime import datetime

climarj['DATE'] = climarj.Data.apply(lambda x: datetime.strptime(x[0:10], '%Y/%m/%d').date())

In [301]:
lista = [['AV','Copacabana'],['CA','Centro'],['SC','São Cristóvão'],['SP','Tijuca'],['IR','Irajá'],['BG','Bangu'],['CG','Campo Grande'],['PG','Pedra da Guaratiba']]
bairros = pd.DataFrame(lista, columns=['Estação', 'BAIRRO'])

In [302]:
climarjfinal = climarj.merge(bairros, how='left', on='Estação')

In [303]:
abt = pd.merge(climarjfinal,casosdengue,how='inner',left_on = ['DATE','BAIRRO'],right_on=['DATE','BAIRRO'])

### A ABT terminou com aprox 90mil registros

### Critério Final

### Casos Dengue apenas nas regiões onde temos medição de dados de clima, apenas nos anos onde temos casos registrados (2013 a 2019)

# ==============================================


# Analise Exploratória


# ==============================================

In [304]:
abt.describe()

Unnamed: 0,OBJECTID,CodNum,Chuva,Pres,RS,Temp,UR,Dir_Vento,Vel_Vento,SO2,...,NO,NOx,O3,PM10,PM2_5,Lat,Lon,X_UTM_Sirgas2000,Y_UTM_Sirgas2000,NU_NOTIFIC
count,83769.0,83769.0,83180.0,82846.0,76026.0,77099.0,77768.0,72682.0,72708.0,76252.0,...,48883.0,48815.0,81252.0,78941.0,11414.0,83769.0,83769.0,83769.0,83769.0,83769.0
mean,187348.849956,3.867433,0.146902,1013.993441,150.384151,26.327593,69.157204,164.085227,1.121205,3.599229,...,19.448947,48.662964,27.173476,40.410485,18.675738,-22.900811,-43.330262,671257.163624,7466482.0,9.065537
std,136939.82809,2.389954,1.28506,4.80831,240.444884,4.811505,17.264353,71.210045,0.873196,5.823442,...,29.670254,40.611921,29.731434,24.625877,14.727837,0.039771,0.140532,14389.741144,4492.806,18.645511
min,8746.0,1.0,0.0,997.95,0.0,11.32,0.0,0.0,0.0,0.0,...,0.0,0.02,0.0,0.0,0.0,-22.965004,-43.556522,648064.4921,7459198.0,1.0
25%,61666.0,2.0,0.0,1010.62,0.0,22.9,57.72,103.83,0.53,0.49,...,2.4,22.11,4.89,23.0,9.0,-22.924915,-43.471074,656828.8045,7463703.0,1.0
50%,185083.0,4.0,0.0,1013.82,4.17,25.65,71.3,166.17,0.85,1.89,...,7.66,37.63,17.99,36.0,15.0,-22.88791,-43.326845,671696.6238,7468075.0,3.0
75%,261507.0,5.0,0.0,1017.13,225.33,29.07,82.27,219.33,1.45,4.25,...,24.53,61.93,39.01,52.0,25.0,-22.886255,-43.180482,686537.0128,7468346.0,7.0
max,438639.0,8.0,88.0,1033.75,1248.33,49.08,100.0,350.5,8.02,199.23,...,429.48,534.06,259.35,454.0,140.0,-22.831621,-43.178152,686853.7075,7474147.0,356.0


In [305]:
aux = []
for i in abt.columns:
    if abt[i].isna().sum() >0:
        aux.append(i)
    else:
        pass

### Temos uma quantidade grande de dados nulos em algumas variáveis. Como se tratam de medidas climáticas, vamos assumir a principio como baseline a média como substituição

In [306]:
abt_preenchida = abt
for i in aux:
    abt_preenchida[i] = abt_preenchida[i].fillna(abt_preenchida[i].mean())

In [307]:
abt_preenchida.columns

Index(['OBJECTID', 'Data', 'CodNum', 'Estação', 'Chuva', 'Pres', 'RS', 'Temp',
       'UR', 'Dir_Vento', 'Vel_Vento', 'SO2', 'NO2', 'HCNM', 'HCT', 'CH4',
       'CO', 'NO', 'NOx', 'O3', 'PM10', 'PM2_5', 'Lat', 'Lon',
       'X_UTM_Sirgas2000', 'Y_UTM_Sirgas2000', 'geo', 'DATE', 'BAIRRO',
       'DT_NOTIFIC', 'NU_NOTIFIC'],
      dtype='object')

In [314]:
abt_preenchida.ANO = abt_preenchida.DATE.apply(lambda x: x.year)
abt_preenchida.MES = abt_preenchida.DATE.apply(lambda x: x.month)

  """Entry point for launching an IPython kernel.
  


In [316]:
abt_preenchida.ANO.unique()

array([2013, 2014, 2015, 2016, 2012], dtype=int64)

In [318]:
casosdengue.DATE

0       2012-12-31
1       2013-01-01
2       2013-01-02
3       2013-01-02
4       2013-01-02
           ...    
3604    2016-12-29
3605    2016-12-29
3606    2016-12-30
3607    2016-12-30
3608    2016-12-30
Name: DATE, Length: 3609, dtype: object

In [327]:
df_completa2[['DT_NOTIFIC','COD_CEP']]

Unnamed: 0,DT_NOTIFIC,COD_CEP
0,2013-03-27,21061600.0
1,2013-04-11,21870170.0
2,2013-06-01,23570000.0
3,2013-03-14,21061600.0
4,2013-03-31,21040361.0
...,...,...
163152,2019-04-18,
163153,2019-09-17,
163154,2019-08-27,
163155,2019-08-29,
