# 0.0 Imports

In [None]:
import inflection
import math
import pandas as pd
import seaborn as sns
import numpy as np
import datetime
import xgboost as xgb
import pickle
import warnings
import statsmodels.api as sm
import psycopg2
from sqlalchemy import create_engine
import dtale


In [None]:
warnings.filterwarnings("ignore", category=FutureWarning)


## 0.1. Helper Functions

## 0.2. Loading data

In [None]:
engine = create_engine('postgresql://competidor:competidor@34.135.161.3:5432/base_previsao_casos_dengue')
conn = engine.connect()

In [None]:
query = """
    select *
    from tb_agua_parada tap
    left join tb_condicoes_climaticas tcc
    on tap."Date" = tcc."Date"
    left join tb_falta_higiene tfh
    on tfh."Date" = tcc."Date"
    left join tb_fato tf
    on tf."Date" = tcc."Date"
    left join tb_casos_dengue tcd
    on tcd."Date" = tcc."Date"
    left join tb_conscientizacao tc
    on tc.id = tf."conscientização da população"
"""
df_raw = pd.read_sql_query(query, conn)

In [None]:
df_data = df_raw.iloc[:, 0]

df_filtered = df_raw.drop(df_raw.columns[[5, 9, 14, 22]], axis=1)

df_raw = pd.concat([df_data, df_filtered], axis = 1)

df_raw = df_raw.drop_duplicates().reset_index(drop = True)

# 1.0 Descrição dos Dados


In [None]:

df1 = df_raw.copy()

## 1.1. Rename Columns

In [None]:
cols_old = df1.columns

snakecase = lambda x: inflection.underscore(x)

cols_new = list(map(snakecase, cols_old))

# rename
df1.columns = cols_new

## 1.2. Data Dimensions e Datatypes

In [None]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13514 entries, 0 to 13513
Data columns (total 22 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   date                                        13514 non-null  object 
 1   presença de criadouros                      13514 non-null  object 
 2   água parada em terrenos baldios             13514 non-null  object 
 3   presença de piscinas sem manutenção         13514 non-null  object 
 4   presença de recipientes sem tampas          13514 non-null  object 
 5   precipitação                                13514 non-null  object 
 6   umidade                                     13514 non-null  object 
 7   temperatura                                 13514 non-null  object 
 8   falta de coleta de lixo                     13514 non-null  object 
 9   áreas com acúmulo de entulhos               13514 non-null  object 
 10  falta de c

## 1.3. Check NA

In [None]:
df1.isna().sum()

date                                             0
presença de criadouros                           0
água parada em terrenos baldios                  0
presença de piscinas sem manutenção              0
presença de recipientes sem tampas               0
precipitação                                     0
umidade                                          0
temperatura                                      0
falta de coleta de lixo                          0
áreas com acúmulo de entulhos                    0
falta de controle de pragas                      0
taxa de tratamento de esgoto                     0
conscientização da população                     0
condições de moradia precárias                   0
falta de acesso a serviços de saúde              0
migração de pessoas de áreas endêmicas           0
transporte de mercadorias em áreas urbanas       0
outros                                           0
presença do mosquito                             0
casos de dengue                

## 1.4. Fillout NA

In [None]:
cat_attributes = df1.select_dtypes( exclude=['int64', 'float64','datetime64[ns]'] )


In [None]:
df1.columns

Index(['date', 'presença de criadouros', 'água parada em terrenos baldios',
       'presença de piscinas sem manutenção',
       'presença de recipientes sem tampas', 'precipitação', 'umidade',
       'temperatura', 'falta de coleta de lixo',
       'áreas com acúmulo de entulhos', 'falta de controle de pragas',
       'taxa de tratamento de esgoto', 'conscientização da população',
       'condições de moradia precárias', 'falta de acesso a serviços de saúde',
       'migração de pessoas de áreas endêmicas',
       'transporte de mercadorias em áreas urbanas', 'outros',
       'presença do mosquito', 'casos de dengue', 'id', 'status'],
      dtype='object')

In [None]:
lista_int = ['presença de piscinas sem manutenção', 'presença de recipientes sem tampas', 'presença do mosquito']

lista_float = ['presença de criadouros',
 'água parada em terrenos baldios',
 'precipitação',
 'umidade',
 'temperatura',
 'falta de coleta de lixo',
 'áreas com acúmulo de entulhos',
 'falta de controle de pragas',
 'taxa de tratamento de esgoto',
 'condições de moradia precárias',
 'falta de acesso a serviços de saúde',
 'migração de pessoas de áreas endêmicas',
 'transporte de mercadorias em áreas urbanas',
 'outros']

In [None]:
for coluna in cat_attributes.columns:
    # Substituir 'indisponivel' e vazio por 0 na coluna atual
    df1[coluna] = df1[coluna].replace(['indisponivel', ''], 0)

for coluna in cat_attributes.columns:
    # Converter a coluna para strings, se não for uma string
    df1[coluna] = df1[coluna].astype(str)
    # Substituir vírgulas por pontos na coluna atual
    df1[coluna] = df1[coluna].str.replace(',', '.')

## 1.5. Change Data Types

In [None]:
for coluna in lista_int:
    # Substituir 'indisponivel' e vazio por 0 na coluna atual
    df1[coluna] = df1[coluna].astype(int)

for coluna in lista_float:
    # Substituir 'indisponivel' e vazio por 0 na coluna atual
    df1[coluna] = df1[coluna].astype(float)

df1['date'] = pd.to_datetime(df1['date'])

# 2.0 Passo 02 - Feature Engineering

In [None]:
df2 = df1.copy()

## 2.2 Criação de Hipóteses

- 1º Hipótese: Quando mais elevada a temperatura, maior serão os casos de dengue
- 2º Hipótese: Quando mais umidade, maior serão os casos de dengue
- 3º Hipótese: Quando aumentam as chuvas (precipitações), maior serão os casos de dengue
- 4º Hipótese: Quando aumentam áreas com água parada em terrenos baldios, maior serão os casos de dengue
- 5º Hipótese: Quando aumentam áreas com acúmulo de entulhos, maior serão os casos de dengue
- 6º Hipótese: Quando falta de coleta de lixo, maior serão os casos de dengue
- 7º Hipótese: Quando áreas com acúmulo de entulhos, maior serão os casos de dengue
- 8º Hipótese: Quando falta controle de pragas, maior serão os casos de dengue
- 9º Hipótese: Quando há piscinas sem manutenção, maior serão os casos de dengue
- 10º Hipótese: Quando há presença de criadouros, maior serão os casos de dengue
- 11º Hipótese: Quando há recipientes sem tampa, maior serão os casos de dengue
- 12º Hipótese: Quando falta conscientização da população, maior serão os casos de dengue
- 13º Hipótese: Quando há migração de pessoas de áreas endêmicas, maior serão os casos de dengue

# 4.0 Passo 04 - Analise Exploratoria dos Dados

In [None]:
df3 = df2.copy()

In [None]:
# Daqui pra cima
# Assigning a reference to a running D-Tale process
d = dtale.show(df3)

# Accessing data associated with D-Tale process
tmp = d.data.copy()
tmp['d'] = 4
d.data = tmp

# Shutting down D-Tale process
#d.kill()
d.open_browser()

# There is also some helpful metadata about the process
d._data_id  # the process's data identifier
d._url  # the url to access the process
d2 = dtale.get_instance(d._data_id)  # returns a new reference to the instance running at that data_id
dtale.instances()  # prints a list of all ids & urls of running D-Tale sessions

To gain access to an instance object simply pass the value from 'ID' to dtale.get_instance(ID)

ID Name                                    URL
 1      http://0ebd311007b1:40000/dtale/main/1
        http://0ebd311007b1:40000/dtale/main/1
 2      http://0ebd311007b1:40000/dtale/main/2
        http://0ebd311007b1:40000/dtale/main/2


In [None]:
df = df3.copy()

In [None]:
# Hipotese 1: Verdadeira. Maior temperatura, maior nº de casos

import pandas as pd

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
	df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
	df['temperatura'],
	df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['temperatura'])
chart_data = chart_data.rename(columns={'temperatura': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
	x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure1 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by temperatura'},
    'xaxis': {'title': {'text': 'temperatura'}},
    'yaxis': {'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))
figure1

# If you're having trouble viewing your chart in your notebook try passing your 'chart' into this snippet:
#
# from plotly.offline import iplot, init_notebook_mode
#
# init_notebook_mode(connected=True)
# for chart in charts:
#     chart.pop('id', None) # for some reason iplot does not like 'id'
# iplot(figure)

In [None]:
# H2 Umidade - Verdadeiro

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
	df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
	df['umidade'],
	df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['umidade'])
chart_data = chart_data.rename(columns={'umidade': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
	x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure2 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by umidade'},
    'xaxis': {'title': {'text': 'umidade'}},
    'yaxis': {'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))
figure2


In [None]:
# H3 - Precipitação - VERDADEIRA

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
	df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
	df['precipitação'],
	df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['precipitação'])
chart_data = chart_data.rename(columns={'precipitação': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
	x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure3 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by precipitação'},
    'xaxis': {'title': {'text': 'precipitação'}},
    'yaxis': {'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))

figure3



In [None]:
# H4 - água parada - FALSO


if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
	df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
	df['água parada em terrenos baldios'],
	df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['água parada em terrenos baldios'])
chart_data = chart_data.rename(columns={'água parada em terrenos baldios': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
	x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure4 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by água parada em terrenos baldios'},
    'xaxis': {'title': {'text': 'água parada em terrenos baldios'}},
    'yaxis': {'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))

figure4


In [None]:
# H4.1 focos com água parada aumentam o nº de mosquitos - Falsa

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
    df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
    df['água parada em terrenos baldios'],
    df['presença do mosquito'],
], axis=1)
chart_data = chart_data.sort_values(['água parada em terrenos baldios'])
chart_data = chart_data.rename(columns={'água parada em terrenos baldios': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
charts.append(go.Bar(
    x=chart_data['x'],
    y=chart_data['presença do mosquito']
))
figure5 = go.Figure(data=charts, layout=go.Layout({
    'barmode': 'group',
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'presença do mosquito by água parada em terrenos baldios'},
    'xaxis': {'title': {'text': 'água parada em terrenos baldios'}},
    'yaxis': {'range': [20000, 1000000], 'tickformat': '0:g', 'title': {'text': 'presença do mosquito'}, 'type': 'linear'}
}))
figure5




In [None]:
# H5: Aumento do acúmulo de entulhos aumenta o número de casos de dengue - Falsa

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
    df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
    df['áreas com acúmulo de entulhos'],
    df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['áreas com acúmulo de entulhos'])
chart_data = chart_data.rename(columns={'áreas com acúmulo de entulhos': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
    x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure8 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by áreas com acúmulo de entulhos'},
    'xaxis': {'title': {'text': 'áreas com acúmulo de entulhos'}},
    'yaxis': {'range': [0, 900000], 'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))
figure8



In [None]:
# H6: Maior falta de coleta de lixo aumenta o número de casos de dengue - Falsa

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
    df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
    df['falta de coleta de lixo'],
    df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['falta de coleta de lixo'])
chart_data = chart_data.rename(columns={'falta de coleta de lixo': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
    x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure9 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by falta de coleta de lixo'},
    'xaxis': {'title': {'text': 'falta de coleta de lixo'}},
    'yaxis': {'range': [0, 900000], 'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))
figure9

In [None]:
# H7: Maior falta de controle de pragas aumentam os casos de dengue - Falsa

# DISCLAIMER: 'df' refers to the data you passed in when calling 'dtale.show'

import pandas as pd

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
    df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
    df['falta de controle de pragas'],
    df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['falta de controle de pragas'])
chart_data = chart_data.rename(columns={'falta de controle de pragas': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
    x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure7 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by falta de controle de pragas'},
    'xaxis': {'title': {'text': 'falta de controle de pragas'}},
    'yaxis': {'range': [0, 800000], 'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))

figure7

In [None]:
# H8: Maior quantidade de piscinas sem manutenção, aumenta o número de casos de dengue - Falsa

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
    df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
    df['presença de piscinas sem manutenção'],
    df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['presença de piscinas sem manutenção'])
chart_data = chart_data.rename(columns={'presença de piscinas sem manutenção': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
    x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure7 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by presença de piscinas sem manutenção'},
    'xaxis': {'tickformat': '0:g', 'title': {'text': 'presença de piscinas sem manutenção'}},
    'yaxis': {'range': [0, 900000], 'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))

figure7


In [None]:
# H9: Maior quantidade de criadouros aumenta o número de casos de dengue - Falsa

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
    df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
    df['presença de criadouros'],
    df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['presença de criadouros'])
chart_data = chart_data.rename(columns={'presença de criadouros': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
    x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure10 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by presença de criadouros'},
    'xaxis': {'title': {'text': 'presença de criadouros'}},
    'yaxis': {'range': [0, 800000], 'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))

figure10

In [None]:
# H10: Maior quantidade de recipientes sem tampa aumenta os números de casos de dengue -  Falsa

if isinstance(df, (pd.DatetimeIndex, pd.MultiIndex)):
    df = df.to_frame(index=False)

# remove any pre-existing indices for ease of use in the D-Tale code, but this is not required
df = df.reset_index().drop('index', axis=1, errors='ignore')
df.columns = [str(c) for c in df.columns]  # update columns to strings in case they are numbers

chart_data = pd.concat([
    df['presença de recipientes sem tampas'],
    df['casos de dengue'],
], axis=1)
chart_data = chart_data.sort_values(['presença de recipientes sem tampas'])
chart_data = chart_data.rename(columns={'presença de recipientes sem tampas': 'x'})
chart_data = chart_data.dropna()

import plotly.graph_objs as go

charts = []
line_cfg = {'line': {'shape': 'spline', 'smoothing': 0.3}, 'mode': 'lines'}
charts.append(go.Scatter(
    x=chart_data['x'], y=chart_data['casos de dengue'], name='casos de dengue', **line_cfg
))
figure11 = go.Figure(data=charts, layout=go.Layout({
    'legend': {'orientation': 'h', 'y': -0.3},
    'title': {'text': 'casos de dengue by presença de recipientes sem tampas'},
    'xaxis': {'tickformat': '0:g', 'title': {'text': 'presença de recipientes sem tampas'}},
    'yaxis': {'range': [0, 800000], 'title': {'text': 'casos de dengue'}, 'type': 'linear'}
}))

figure11