# Análise Exploratória de Dados

* Como os valores de alugueis estão distribuidos?
* Existe relação entre o número de quartos e o valor do aluguel?
* O que podemos observar sobre a possibilidade de aceitar animais?
* Qual a relação entre cidades e os números de quartos?
* Imóvel mobiliado impacta no preço do aluguel?
* Como estão distribuidos os imóveis por número de banheiros?
* Existe alguma relação entre o número de vagas de garagem e o valor do aluguel?
* E o seguro incêndio?
* Existe qualquer impacto do valor do iptu em relação ao valor imóvel?

Importando as bibliotecas necessárias

In [26]:
#manipulação dados
import numpy as np
import pandas as pd

#gráficos
import seaborn as sns
import matplotlib.pyplot as plt
import sweetviz as sv
import plotly.express as px

#banco de dados
import sqlite3

# Machine learning
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.dummy import DummyRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor

# testar diferentes modelos de IA
from pycaret.regression import *

ModuleNotFoundError: No module named 'plotly'

### Carregando a Base de Dados

Os dados foram transformados usando o airflow, basicamente o script copiava a base de dados para outro banco chamado 'imoveis_dw.db', com os dados transformado para realizar nossas análises.

In [None]:
connect_dw_imoveis = sqlite3.connect("../data/imoveis_dw.db")

In [None]:
#usando o metodo do pandas para ler dados sql
data = pd.read_sql_query(r"""
    SELECT * FROM IMOVEIS
    """, 
    connect_dw_imoveis
    )

In [None]:
data.head()

Exibindo as informações da base de dados

In [None]:
data.info()

### Análise Estatística Básica.

- valores muito anômalos referente ao valor do aluguel, area e numero de andares.

In [None]:
data.describe()

### Verificando a correlação dos atributos

#### itens com maior Correlação positiva referente ao valor do aluguel

1. seguro incendio
2. num_banheiro
3. Garagem
4. num_quartos

In [None]:
plt.figure(figsize =(8,8))
cor = data.corr()
sns.heatmap(cor,annot =True)

Visualizando as correlações em pares

In [None]:
sns.pairplot(data)

'!' permite que você utilize comandos de nivel do sistema operacional

### Gerar Gráficos sweetviz

no exemplo abaixo gera um gráfico mostrando a relação do valor do aluguel com os outros atriutos.

In [None]:
my_report = sv.analyze(data,"valor_aluguel")
#abrir no navegador
my_report.show_html()

In [None]:
# abrir no nooebook
my_report.show_notebook()

# Como os valores de aluguel estão distribuidos?

### Intalando o plotly para visualizações dinamicas

O gráfico abaixo exibe como está distribuido o valor do aluguel de acordo com os imóveis 

In [None]:
fig = px.histogram(data, x="valor_aluguel", marginal="rug", hover_data=data.columns)
fig.show()


o gráfico a baixo mostra a dispersão dos dados referente ao valor do aluguel.

In [None]:
fig = px.box(data, x="valor_aluguel", points="all")
fig.show()

Alguns insigths identificados...<br/>
1. Dados com uma assimetria positiva. <br/>
2. Possíveis outliers acima de 15.000,00. <br/>
3. A maioria dos valores estão na faixa de R$ 499 à 10.000,00.

In [None]:
plt.figure(figsize =(12,5))
sns.rugplot(
            data['valor_aluguel'],
            height=0.6,    
            )

# Existe qualquer relação entre o número de quartos e o valor do aluguel?

In [None]:
sns.jointplot(y= data['valor_aluguel'],x = data['num_quartos'],kind ='reg')

* Podemos observar que o número de quartos influencia no valor do aluguel.
* Os maiores imoveis mais caros são com números de quartos 3 e 4.
* Como uma regra geral temos uma relação positiva entre o número de imóveis e o valor do aluguel.

# O que podemos observar sobre a possibilidade de aceitar animais?

In [None]:
sns.countplot(x = data['aceita_animais']
              ,hue = data['cidade'])

In [None]:
data.head()

* Podemos observar que o número de imóveis que aceitam animais é bem maior do que os que não aceitam.

In [None]:
data["animal_categorical"] =  data['aceita_animais'].map({1:"aceita",0:"nao_aceita"})

In [None]:
sns.boxplot( x = data['valor_aluguel']
            ,y = data['animal_categorical'])

* A maioria dos imóveis que aceitam animais, custam mais caros do que os que não aceitam.

# Cidades e os números de quartos

In [None]:
pd.DataFrame(data['cidade'].unique())

In [None]:
sns.catplot(x='cidade', y='num_quartos', data =data)

* Rio de Janeiro é a cidade com o maior número de quartos.

# Como estão distribuidos os imóveis por número de banheiros?

In [None]:
plt.subplot(2,1,1)
sns.countplot(x = data['num_banheiros'])

* A maioria dos imóveis contém de 1 a 2 banheiros.
* Existem poucos imóveis com 5 ou mais banheiros.

In [None]:
sns.catplot(x ='num_banheiros', y ='valor_aluguel', data = data)

* O maior aluguel é de um imóvel que tem 7 banheiros.
* Existem alugueis caros com imóveis com 1 a 4 banheiros.

# A mobília nos imoveis impactam no valor do aluguel?

In [None]:
data["mobilia_categorical"] =  data['mobilia'].map({1:"mobiliado",0:"nao_mobiliado"})

In [None]:
sns.boxplot( x = data['valor_aluguel']
            ,y = data['mobilia_categorical'])

* De todos os imóveis com valores maiores de aluguel, bem acima da média, são todos não mobiliados.
* O que justifica uma fraca correlação entre os atributos.

# Existe alguma relação entre o número de vagas de garagem e o valor do aluguel?

In [None]:
plt.figure(figsize =(6,4))
ax = sns.regplot(x = data['garagem'],y = data['valor_aluguel'])

In [None]:
plt.figure(figsize =(6,4))
sns.displot(x = data['garagem'], kde = True)

Existe uma pequena correlação entre o número de vagas de garagem e o valor do aluguel.

# Vamos analisar o seguro incêndio

In [None]:
sns.violinplot(x ='cidade', y ='valor_seguro_incendio', data = data,hue ='cidade')

* São Paulo é a cidade com os maiores valores de seguro incêndio, seguido por Porto Alegre, Belo Horizonte, Rio de Janeiro e Campinas.

In [None]:
ax = sns.regplot(x = data['valor_seguro_incendio'],y = data['valor_aluguel'])

* Existe uma alta correlação entre o valor do seguro incendio e o valor do aluguel. 
* Quanto maior o valor do seguro incendio maior o valor do aluguel.

# Existe qualquer relação entre o valor do iptu e o valor do aluguel?

In [None]:
sns.jointplot(y= data['valor_aluguel'],x = data['valor_iptu'],kind ='reg')

* Não temos nenhum impacto

**Pré-processando os dados**

Poucos algoritmos trabalham com dados categóricos, por essas variáveis serem importantes para o nosso modelo precisamos transformar dados categóricos em dados numéricos para poder usar os algoritmos de Machine Learning

Podemos usar duas técnicas bem eficientes que são:

- **Label Encoder**

Basicamente ele substitui a informação por um valor numérico, o grande problema é que os modelos de IA interpretam esses dados em uma ordem (0<1<2) dando um peso maior para o dado categorico representado por um valor maior.

exemplo:

são paulo -> 1
Rio de Janeiro -> 2

Rio de janeiro tem um peso maior que são paulo.


- **One Hot Enconder**

este processo resolve o problema anterio. porém aumenta o tamanho da base de dados, o que o torna difícil de gerenciar para base de dados com grandes quantidades de dados categoricos distintos.

Este método transforma os dados categoricos em colunas e atribuir o valor 1 ou 0 (verdadeiro ou falso). 

exemplo:

é gerado uma colunas chamada São Paulo e todos os dados que correspondem a cidade de São Paulo será atribuído 1, os que não corresponde com São Paulo é atribuído 0.

- Links + info

https://towardsdatascience.com/categorical-encoding-using-label-encoding-and-one-hot-encoder-911ef77fb5bd

Verificando a quantidade de valores únicos na coluna estado

In [None]:
data.estado.unique()

Verificando a quantidade de valores únicos na coluna cidade

In [None]:
data.cidade.unique()

**Aplicando o One Hot Encoder**

Subistituindo o dataframe data pelo dataframe após aplicado o get_dummies()

In [None]:
# get_dummies transforma os dados da coluna aplicando o one hot enconder
data = pd.get_dummies(data, columns=["estado","cidade"], prefix=["estado_","cidade_"])

In [None]:
data.head()

In [None]:
data.columns

# Detecção de Outliers, Machine Learning

Excluindo os atributos categoricos

In [None]:
data.drop(["animal_categorical","mobilia_categorical"], axis=1, inplace=True)

### Outlier Detection

Consiste em detectar valores possivelmente anomálos na nossa base de dados.

Utilizaremos do intervalo interquartil para detectar outliers.

#### Intervalo interquartil (FIQ)

Consiste na quantidade de dispersão no meio.

FiQ = Q3 - Q1

#### Detectando outlier com FIQ

- outlier baixo:

Q1 - (1.5 x FIQ)

- outlier Alto:

Q3 + (1.5 x FiQ)

- Links:

https://pt.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/interquartile-range-iqr/a/interquartile-range-review

https://pt.khanacademy.org/math/statistics-probability/summarizing-quantitative-data/box-whisker-plots/a/identifying-outliers-iqr-rule

Verificando os registros anomalos no atributo valor_aluguel

In [None]:
plt.figure(figsize=(8, 4))
sns.boxplot(x=data['valor_aluguel'])
plt.show()

In [None]:
data.describe()

Quantil 1 = 25% dos dados.

In [None]:
Q1 = data["valor_aluguel"].quantile(.25)

Quantil 3 = 75% dos dados.

In [None]:
Q3 = data["valor_aluguel"].quantile(.75)

In [None]:
Q1,Q3

Faixa de Intervalo Interqualítico

In [None]:
IQR = Q3 - Q1

In [None]:
IQR

Calculando os limites

In [None]:
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

In [None]:
lower,upper

Definindo a seleção dos registros

In [None]:
data_clean = data[data['valor_aluguel'] >= lower] 

In [None]:
data_clean = data_clean[data_clean['valor_aluguel'] <= upper]

In [None]:
data_clean.describe()

In [None]:
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.title('Com Outliers')
sns.boxplot(x= data['valor_aluguel'])

plt.subplot(1, 2, 2)
plt.title('Sem Outliers')
sns.boxplot(x= data_clean['valor_aluguel'])

plt.tight_layout(pad=1.0)
plt.show()

In [None]:
data_clean.describe()

Unificando os dataframes

In [None]:
data = data_clean

# Machine Learning

Separando os dados em features e classes.

In [None]:
y = data['valor_aluguel']
x = data.drop(['valor_aluguel'],axis =1)

Separando os conjuntos de treino e teste.

In [None]:
# função para calcular os resultados dos algoritmos
def calcula_metricas(y_test,preds):
    print('MAE:', mean_absolute_error(y_test, preds))
    print('RMSE:', np.sqrt(mean_squared_error(y_test, preds)))
    print('R2:', r2_score(y_test, preds))

In [None]:
# Separando para conjunto de testes e de treino
X_train, X_test, y_train, y_test = train_test_split(x,y,test_size =0.3)

In [None]:
acc=[]

### Calculando a nossa Baseline

Baseline é uma referência usada para comparar valores passados e presentes, dessa forma a empresa pode ter uma base para seus valores futuros.

nas células a baixo a gente cria um modelo simulando uma baseline, utilizando a média.

nosso objetivo e tornar nossos algoritmos mais eficientes que a baseline.

In [None]:
model = DummyRegressor(strategy="mean")

Iniciando o treinamento.

In [None]:
model.fit(X_train,y_train)

Fazendo as predições

In [None]:
preds = model.predict(X_test)

Calculando as métricas.

In [None]:
calcula_metricas(y_test,preds)

Armazendo o resultado.

In [None]:
acc.append(
            [
              'BAS', r2_score(y_test,preds)
            ]
          )

In [None]:
acc

### Treinando um modelo de Regressão Linear

Basicamente esse modelo consiste em uma equação para estimar o valor esperado de y. esse modelo considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros.

Esse modelo considera uma variável dependente (geralmente representada por y) e as variáveis independente.

- Regressão linear simples:

Considera apenas uma variável independente em relação a variavel dependente.

- Regressão linear múltipla

Considera duas ou mais variáveis independentes em relação a variavel dependente.

- links + info

https://oestatistico.com.br/regressao-linear-simples/

https://pt.wikipedia.org/wiki/Regress%C3%A3o_linear

Instanciando o estimator.

In [None]:
model = LinearRegression()

Iniciando o treinamento.

In [None]:
model.fit(X_train,y_train)

Fazendo as predições

In [None]:
preds = model.predict(X_test)

Calculando as métricas.

In [None]:
calcula_metricas(y_test,preds)

Armazendo o resultado.

In [None]:
acc.append(
            [
              'LIR', r2_score(y_test,preds)
            ]
          )

In [None]:
acc

### Decision Tree Regression

Este Modelo é baseado em uma árvore de decisão. onde existe a "raiz"(variável target) que gera varios "nós", cada nó segue caminhos diferentes de acordo com o resultado da decisão, esses caminhos são titulado de "ramos". 

Basicamente o algoritmo realiza perguntas de sim ou não, que gera um nó de acordo com a resposta, e assim gera um fluxo formando a árvore de decisão.

Com isso esse algoritmo é muito util para previsões de classe, e consegue utilizar dados categóricos 

#### Entropia 

Quanto maior a entropia, maior a desordem dos dados; E quanto menor, maior será a ordem destes dados em relação a variavel target. Partindo da entropia, o algoritmo confere o ganho de informação de cada variável. Aquela que apresentar maior ganho de informação será a variável do primeiro nó da árvores.

#### regressão 

Nos problemas de regressão nosso objetivo é prever um valor, e não uma classe. Para isso a árvore utilizará os conceitos de média e desvio padrão, que possibilitarão um resultado final numérico.

- links + info

https://didatica.tech/como-funciona-o-algoritmo-arvore-de-decisao/

https://medium.com/turing-talks/turing-talks-17-modelos-de-predi%C3%A7%C3%A3o-decision-tree-610aa484cb05

Iniciando o treinamento.

In [None]:
model = DecisionTreeRegressor()
model.fit(X_train,y_train)

Fazendo as predições

In [None]:
preds = model.predict(X_test)

Calculando as métricas.

In [None]:
calcula_metricas(y_test,preds)

Armazendo o resultado.

In [None]:
acc.append(['DTR',r2_score(y_test,preds)])

In [None]:
acc

### Random Forest

Este algoritmo se comporta de maneira parecida com o anterior. algumas diferenças são a criação de muitas árvores de decisão. Basicamente ele seleciona duas ou mais variáveis aleatórias (diferente do anterior que seleciona as váriaveis em sua totalidade) e utilizando o metodo de entropia ou de índice Gini ele seleciona quais dessa variáveis aleatorias será escolhida para compor o nó da raiz, basicamente o modelo segue assim sempre excluindo as váriaveis  já selecionadas até formar a árvore de decisão.

Cada árvore criada irá apresentar o seu resultado, sendo que em problemas de regressão será realizada a média dos valores previstos, e esta média informada como resultado final, e em problemas de classificação o resultado que mais vezes foi apresentado será o escolhido.

- Links + info

https://didatica.tech/o-que-e-e-como-funciona-o-algoritmo-randomforest/

Iniciando o treinamento.

In [None]:
model = RandomForestRegressor()
model.fit(X_train,y_train)

Fazendo as predições

In [None]:
preds = model.predict(X_test)

Calculando as métricas.

In [None]:
calcula_metricas(y_test,preds)

Armazendo o resultado.

In [None]:
acc.append(['RFN',r2_score(y_test,model.predict(X_test))])

In [None]:
acc

### KNN Regressor

Esse Modelo basicamente Prevê comparando o quão similar os dados de treinamento são com os dados informados para a previsão.

Para realizar a previsão ele usa cálculos matemáticos (Euclidiana, Manhattan, Minkowski, Ponderada) para verificar o quão similar esse dados informados são com os dados usados no treinamento do modelo.

- Links + info

https://medium.com/brasil-ai/knn-k-nearest-neighbors-1-e140c82e9c4e

Iniciando o treinamento.

In [None]:
model = KNeighborsRegressor()
model.fit(X_train,y_train)

Fazendo as predições

In [None]:
preds = model.predict(X_test)

Calculando as métricas.

In [None]:
calcula_metricas(y_test,preds)

Armazendo o resultado.

In [None]:
acc.append(['KNNR',r2_score(y_test,model.predict(X_test))])

In [None]:
acc

Ordenando os resultados.

In [None]:
acc.sort(key = lambda y:y[1],reverse =True)

In [None]:
acc

## Pycaret

Essa Biblioteca ajuda a selecionar qual melhor modelo para as previsões, dentre outras diversas funções.

In [None]:
connect_dw_imoveis = sqlite3.connect("../data/imoveis_dw.db")

In [None]:
data2 = pd.read_sql_query(r"""
    SELECT * FROM IMOVEIS
    """, 
    connect_dw_imoveis
    )

In [None]:
data2.head()

In [None]:
s = setup( data2
          ,target = 'valor_aluguel'
          ,numeric_features = [ 'num_quartos'
                               ,'num_banheiros'
                               ,'garagem'
                               ,'num_andares'
                               ,'aceita_animais'
                               ,'mobilia']
          ,log_experiment = True
          ,experiment_name = 'exp-bootcamp'
         )

### Validação cruzada k-fold

para treinar o modelo e evitar problemas de overfitting, o conjunto de dados é dividido em partes, e então usa a primeira parte para testar e o resto para treinar, depois ele realiza outro treinamento agora com a segunda parte para teste e o resto (incluindo a primeira parte) para treinamento, ele continua assim de forma que todos os dados foram usados tanto para teste como para treinamento.

Fold = representa em quantas partes o modelo será dividido

- Links + info

https://drigols.medium.com/introdu%C3%A7%C3%A3o-a-valida%C3%A7%C3%A3o-cruzada-k-fold-2a6bced32a90

Comparando os modelos 

In [None]:
best = compare_models(fold = 5)

Listando os modelos

In [None]:
models()

Selecionando o melhor algoritmo

In [None]:
catboost = create_model('catboost', fold = 5)

Otimizando o modelo

a célula a baixo ajusta os parâmetros do modelo, para torna-lo mais eficiente

In [None]:
tuned_et = tune_model(catboost,fold=5)

Visualizando os residuais

In [None]:
plot_model(catboost)

Visualizando o erro do modelo

In [None]:
plot_model(catboost, plot = 'error')

Visualizando as features importantes

In [None]:
plot_model(catboost, plot='feature')

Finaliza o modelo

In [None]:
final_catboost = finalize_model(catboost)

Salva o modelo

In [None]:
save_model(final_catboost,'modelo-final')

In [None]:
!ls

### Test Time

In [None]:
model_test = load_model('modelo-final')

In [None]:
data_teste = data2.drop(["valor_aluguel"],axis=1)

In [None]:
predict_model(model_test, data=data_teste)