# Base de Dados


In [159]:
#importação de bibliotecas;
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

In [160]:
#Carregando o dataset que será usado para a análise;
url = "https://raw.githubusercontent.com/aanabeatrizz/TGI/main/boston_house_prices.csv"
boston = pd.read_csv(url, sep='\t', encoding='utf-8')
boston = pd.read_csv(url, sep=',', encoding='utf-8')
boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [161]:
#Descrição da base de dados: `boston`, aqui podemos ver algumas características da base, tais como:
# número de registros
# números de atributos
# informações sobre esses atributos
# e referências

#Boston house prices dataset
#Características do conjunto de dados:

    #Número de instâncias: 506
    #Número de atributos: 13 preditivos numéricos/categóricos. O valor mediano (atributo 14) geralmente é o alvo.

    #Informações do Atributo (em ordem):
        #- CRIM     taxa de criminalidade per capita por cidade;
        #- ZN       proporção de terrenos residenciais zoneados para lotes com mais de 25.000 pés quadrados.
        #- INDUS    proporção de acres comerciais não varejistas por cidade
        #- CHAS     Variável dummy Charles River (= 1 se o trato limita o rio; 0 caso contrário)
        #- NOX      concentração de óxidos nítricos (partes por 10 milhões)
        #- RM       número médio de quartos por habitação
        #- AGE      proporção de unidades ocupadas pelos proprietários construídas antes de 1940
        #- DIS      distâncias ponderadas para cinco centros de emprego de Boston
        #- RAD      índice de acessibilidade às rodovias radiaisopried
        #- TAX      taxa de imposto sobre a propriedade de valor total por US$ 10.000
        #- PTRATIO  proporção aluno-professor por cidade
        #- B        1000(Bk - 0,63)^2 onde Bk é a proporção de negros por cidade
        #- LSTAT    % status mais baixo da população

   #- Belsley, Kuh & Welsch, 'Regression diagnostics: Identifying Influential Data and Sources of Collinearity', Wiley, 1980. 244-261.
   #- Quinlan,R. (1993). Combining Instance-Based and Model-Based Learning. In Proceedings on the Tenth International Conference of Machine Learning, 236-243, University of Massachusetts, Amherst. Morgan Kaufmann.

In [162]:
#Criando um dataframe (data) em Pandas para iniciarmos a fase de Análise Exploratória de Dados (EDA);
data = pd.DataFrame(boston, columns=boston.columns)

In [163]:
#Adicionando a coluna (MEDV) que será nossa variável alvo no dataframe;
data['MEDV'] = boston['MEDV']


In [164]:
#Vendo mais detalhes dos dados(aqui também podemos ver o `tipo de dados`, `memória alocada`);
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    int64  
 4   NOX      506 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    int64  
 9   TAX      506 non-null    int64  
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  MEDV     506 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB


In [165]:
#Convertendo algumas tipagens em certas colunas;
data.RM = data.RM.astype(int)
data.CHAS = data.CHAS.astype(float)
data.RAD = data.RAD.astype(float)
data.TAX = data.TAX.astype(float)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    float64
 1   ZN       506 non-null    float64
 2   INDUS    506 non-null    float64
 3   CHAS     506 non-null    float64
 4   NOX      506 non-null    float64
 5   RM       506 non-null    int32  
 6   AGE      506 non-null    float64
 7   DIS      506 non-null    float64
 8   RAD      506 non-null    float64
 9   TAX      506 non-null    float64
 10  PTRATIO  506 non-null    float64
 11  B        506 non-null    float64
 12  LSTAT    506 non-null    float64
 13  MEDV     506 non-null    float64
dtypes: float64(13), int32(1)
memory usage: 53.5 KB


In [166]:
#Estatística descritiva da Coluna Número de Quartos (RM)
#podemos ver abaixo a média(*mean*), mediana(50%), desvio padrão(std) e os quartis.
#vemos que em média as casas (contidas na base de dados) tem entre 5 e 6 quartos.
data.RM.describe()

count    506.000000
mean       5.776680
std        0.778123
min        3.000000
25%        5.000000
50%        6.000000
75%        6.000000
max        8.000000
Name: RM, dtype: float64

#Baseline


In [167]:
#Criação de uma baseline por categoria,sendo imóvel Pequeno, Médio ou Grande tendo como base o número de quartos.

#Regras:
#- Menor ou igual a 4 quartos - Pequeno
#- Maior que 4 e menor que 7 quartos - Médio
#- Maior ou igual a 7 quartos - Grande

In [168]:
#Criando uma variável categorias;
categorias = []

In [169]:
# Alimenta a lista categorias com base nas regras descritas acima;
categorias = []
for valor in data['RM']:
  if valor <= 4:
    categorias.append('Pequeno')
  elif valor < 7:
    categorias.append('Medio')
  else:
    categorias.append('Grande')


In [170]:
#Criando uma coluna categorias na base de dados (data) com base nas regras do baseline;
data['categorias'] = categorias

In [171]:
#Visualizando a quantidade de imóveis por categoria;

#Podemos observar que a grande maioria dos imóveis são médios;
data.categorias.value_counts()

categorias
Medio      427
Grande      64
Pequeno     15
Name: count, dtype: int64

In [172]:
#Visualizando o Valor Médio dos imóveis por Categorias (medias_categorias)

# criando a variável
medias_categorias = data.groupby(by='categorias')['MEDV'].mean()

In [173]:
# visualizando a variável
medias_categorias

categorias
Grande     38.396875
Medio      20.340281
Pequeno    17.260000
Name: MEDV, dtype: float64

In [174]:
#Criação de um Dicionário para armazenarmos nossa base linha (`chave:valor`);

In [175]:
#Criando o dicionário com as chaves: médio, grande e pequeno e seus respectivos valores;
dic_baseline = {'Grande': medias_categorias[0], 'Medio': medias_categorias[1], 'Pequeno': medias_categorias[2]}

In [176]:
#Imprime dicionário;
dic_baseline

{'Grande': 38.396875,
 'Medio': 20.340281030444963,
 'Pequeno': 17.259999999999998}

In [177]:
#Criando uma função na baseline para retornar o valor médio com base no número de quartos (o número de quartos será a entrada da função);
def retorna_baseline(num_quartos):
  if num_quartos <= 4:
    return dic_baseline.get('Pequeno')
  elif num_quartos < 7:
    return dic_baseline.get('Medio')
  else:
    return dic_baseline.get('Grande')

In [178]:
# Chama a função retorna_baseline (um teste)
retorna_baseline(7)

38.396875

In [179]:
# Executando a função para todos os registros (variável: RM) da base de dados (coleção) para verificar a função;
for n_quartos in data['RM']:
  print('Número de quartos é: {}, Valor médio: {}'.format(n_quartos, retorna_baseline(n_quartos)))


Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 7, Valor médio: 38.396875
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 7, Valor médio: 38.396875
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 5, Valor médio: 20.340281030444963
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 5, Valor médio: 20.340281030444963
Número de quartos é: 5, Valor médio: 20.340281030444963
Número de quartos é: 6, Valor médio: 20.340281030444963
Número de quartos é: 5, Valor médio: 20.340281030444963
Número de quartos é: 5, Valor médio: 20.340281030444963
Número de quartos é: 5, Valor médio: 20.340281030444963
Número de 

#Preparação dos dados para aplicação do Baseline e dos algoritmos de Machine Learning


In [180]:
#Analisando a base de dados (coleção), visualizando suas cinco primeiras linhas (`head`)
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV,categorias
0,0.00632,18.0,2.31,0.0,0.538,6,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0,Medio
1,0.02731,0.0,7.07,0.0,0.469,6,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6,Medio
2,0.02729,0.0,7.07,0.0,0.469,7,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7,Grande
3,0.03237,0.0,2.18,0.0,0.458,6,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4,Medio
4,0.06905,0.0,2.18,0.0,0.458,7,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2,Grande


In [181]:
#Preparando os dados

In [182]:
# Criando o X
X = data.drop(['RAD','TAX','MEDV','DIS','AGE','ZN','categorias'], axis=1)

In [183]:
#Criar o Y (a variável target é o que pretendemos prever)
# Variável 'y' é nossa variável alvo (Target)
y = data['MEDV']

In [184]:
#Visualizando as primeiras linhas das variáveis X;
X.head()

Unnamed: 0,CRIM,INDUS,CHAS,NOX,RM,PTRATIO,B,LSTAT
0,0.00632,2.31,0.0,0.538,6,15.3,396.9,4.98
1,0.02731,7.07,0.0,0.469,6,17.8,396.9,9.14
2,0.02729,7.07,0.0,0.469,7,17.8,392.83,4.03
3,0.03237,2.18,0.0,0.458,6,18.7,394.63,2.94
4,0.06905,2.18,0.0,0.458,7,18.7,396.9,5.33


In [185]:
#Visualizando as primeiras linhas das variáveis Y;
y.head()

0    24.0
1    21.6
2    34.7
3    33.4
4    36.2
Name: MEDV, dtype: float64

In [186]:
#Separando os conjuntos de treino e teste, com a base criada de x e y;

In [187]:
# Carrega o método train_test_split
#!pip install scikit-learn
from sklearn.model_selection import train_test_split


In [188]:
# divide os dados entre o conjunto de treino e teste, 80% e 20%.
# define um random_state - quando utilizar esse valor em qualquer lugar, retornará os mesmos dados

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state=5)

In [189]:
# Visualizando a quantidade de linhas dos conjuntos criados acima;
print ('X_train: numero de linhas e colunas: {}'.format(X_train.shape))
print ('X_test: numero de linhas e colunas: {}'.format(X_test.shape))
print ('y_train: numero de linhas e colunas: {}'.format(y_train.shape))
print ('y_test: numero de linhas e colunas: {}'.format(y_test.shape))

X_train: numero de linhas e colunas: (404, 8)
X_test: numero de linhas e colunas: (102, 8)
y_train: numero de linhas e colunas: (404,)
y_test: numero de linhas e colunas: (102,)


#Aplicando o Modelo de Baseline

In [190]:
#Aplicando apenas a média das categorias criadas com base nos números de quartos (explicadas anteriormente)`

In [191]:
#Visualizando as cinco primeiras linhas dos dados de teste (X_test)
X_test.head()

Unnamed: 0,CRIM,INDUS,CHAS,NOX,RM,PTRATIO,B,LSTAT
226,0.38214,6.2,0.0,0.504,8,17.4,387.38,3.13
292,0.03615,4.95,0.0,0.411,6,19.2,396.9,4.7
90,0.04684,3.41,0.0,0.489,6,17.8,392.18,8.81
373,11.1081,18.1,0.0,0.668,4,20.2,396.9,34.77
273,0.22188,6.96,1.0,0.464,7,18.6,390.77,6.58


In [192]:
#Criando um variável (predição - lista), que vai armazenar a predição, com base no baseline (variável RM - número de quartos), para cada um dos registros de teste (X_teste)
predicoes = []

In [193]:
#Para cada registro do teste (X_test) alimenta a Lista Predições;
for n_quartos in X_test['RM']:
  predicoes.append(retorna_baseline(n_quartos))

In [194]:
# Visualizando as 10 primeiras linhas da Lista de Predições
predicoes[:10]

[38.396875,
 20.340281030444963,
 20.340281030444963,
 17.259999999999998,
 38.396875,
 20.340281030444963,
 20.340281030444963,
 20.340281030444963,
 20.340281030444963,
 20.340281030444963]

#Log dos Modelos Gerados

In [195]:
#Histórico das análises e suas evoluções, permitindo a evolução dado o baseline;

In [196]:
# Cria um dataframe (df_results) vazio
df_results = pd.DataFrame()

In [197]:
#Adicionando ao dataframe (df_results) o valor real do y_test (colune: valor_real)
df_results['valor_real'] = y_test.values

In [198]:
#Adicionanado ao dataframe (df_results) o valor predito pelo baseline (coluna: valor_predito_baseline)
df_results['valor_predito_baseline'] = predicoes

In [199]:
#Visualizando as 10 primeiras linhas do df_results (até agora com o valor original e o valor previsto pela baseline);
df_results.head(10)

Unnamed: 0,valor_real,valor_predito_baseline
0,37.6,38.396875
1,27.9,20.340281
2,22.6,20.340281
3,13.8,17.26
4,35.2,38.396875
5,10.4,20.340281
6,23.9,20.340281
7,29.0,20.340281
8,22.8,20.340281
9,23.2,20.340281


In [200]:
#Visualização em gráfico valor real e o baseline para termos uma ideia de como ficaram essas predições do baseline;
#pip install plotly
#!pip install nbformat
#!pip install ipykernel
#!pip install --upgrade nbformat
import plotly.graph_objects as go

# Create traces
fig = go.Figure()

# Linha com os dados de teste
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_real,
                         mode='lines+markers',
                         name='Valor Real'))

# Linha com os dados preditos
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_baseline,
                         mode='lines+markers',
                         name='Valor Predito Baseline'))
# Plota a figura
fig.show()

print('Podemos observar no plot acima que existe uma grande diferença entre o valor Real e o valor Predito pelo baseline.')
print('Vamos usar outros algoritmos de machine learning para tentar melhorar o valor.')

Podemos observar no plot acima que existe uma grande diferença entre o valor Real e o valor Predito pelo baseline.
Vamos usar outros algoritmos de machine learning para tentar melhorar o valor.


In [201]:
#Avaliando o modelo baseline, iremos utilizar o RMSE (*ROOT MEAN SQUARE ERROR*).
from sklearn.metrics import mean_squared_error
from math import sqrt

In [202]:
rmse = (np.sqrt(mean_squared_error(y_test, predicoes)))

In [203]:
print('Performance do modelo baseline:')
print('\nRMSE é: {} '.format(rmse))

# Quanto menor o valor do RMSE, melhor!

Performance do modelo baseline:

RMSE é: 6.327165389325235 


# Aplicando o modelo de Regressão Linear

In [204]:
#Devido a correlação entre algumas features vamos usar uma regressão linear, o modelo é simples e eficiente e a solução é rápida e robusta.

In [205]:
#Carregando o pacote LinearRegression;
from sklearn.linear_model import LinearRegression

In [206]:
#Criando o objeto do tipo LinearRegression;
lin_model = LinearRegression()

In [207]:
#Treinando o algoritmo e criando o modelo de regressão linear;
lin_model.fit(X_train, y_train)

In [208]:
#avaliando o Modelo (lin_model) nos dados de teste (X_test);
y_pred = lin_model.predict(X_test)

In [209]:
#Calculando a métrica RMSE;
rmse = (np.sqrt(mean_squared_error(y_test, y_pred)))

In [210]:
#Visualizando a Performance do modelo utilizando Regressão Linear;
print('Performance do modelo (Regressão Linear) avaliado com os dados de teste:')
print('\nRMSE é: {} '.format(rmse))

print('Podemos observar que já diminuiu em relação a baseline.')

Performance do modelo (Regressão Linear) avaliado com os dados de teste:

RMSE é: 5.140405968314253 
Podemos observar que já diminuiu em relação a baseline.


In [211]:
# Atribuindo os resultados da predição (Regressão Linear) ao dataframe df_results;
df_results['valor_predito_reg_linear'] = lin_model.predict(X_test)

In [212]:
df_results.head(10)

Unnamed: 0,valor_real,valor_predito_baseline,valor_predito_reg_linear
0,37.6,38.396875,36.006464
1,27.9,20.340281,27.777128
2,22.6,20.340281,26.231909
3,13.8,17.26,1.189552
4,35.2,38.396875,33.436667
5,10.4,20.340281,6.597715
6,23.9,20.340281,25.734054
7,29.0,20.340281,30.465789
8,22.8,20.340281,25.54283
9,23.2,20.340281,20.639646


In [213]:
#Aqui já observamos que os valores preditos através da Regressão Linear estão bem mais próximos aos valores reais;
#Vamos criar um gráfico com três informações para visualizarmos melhor;

In [214]:
import plotly.graph_objects as go

# Create traces
fig = go.Figure()

# Linha com os dados de teste
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_real,
                         mode='lines+markers',
                         name='Valor Real'))

# Linha com os dados de baseline
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_baseline,
                         mode='lines+markers',
                         name='Baseline'))

# Linha com os dados preditos pela regressão linear
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_reg_linear,
                         mode='lines',
                         line = dict(color = '#FEBFB3'),
                         name='Valor Predito Regressão Linear'))

# Plota a figura
fig.show()

#Aplicando o modelo de Árvore de Decisão


In [215]:
#O algoritmo é de aprendizado supervisionado, explicabilidade do modelo e é simples.

In [216]:
#Importando o pacote DecisionTreeRegressor do skLearn;
from sklearn.tree import DecisionTreeRegressor

In [217]:
#Criando um objeto do tipo DecisionTreeRegressor;
regressor = DecisionTreeRegressor()

In [218]:
#Treinando o algortimo e criando o modelo, tuilizando Decision Tree;
regressor.fit(X_train, y_train)

In [219]:
#Avaliando o modelo de árvore de decisão;
#Fazendo as previsões com base nos dados de teste (X_test);
y_pred = regressor.predict(X_test)

In [220]:
#Adicionando o valor do Modelo (Decision Tree) no dataframe df_results (coluna: valor_predito_arvore);
df_results['valor_predito_arvore'] = y_pred

In [221]:
# Visualizando o dataframe df_results;
df_results.head(10)

Unnamed: 0,valor_real,valor_predito_baseline,valor_predito_reg_linear,valor_predito_arvore
0,37.6,38.396875,36.006464,46.7
1,27.9,20.340281,27.777128,28.5
2,22.6,20.340281,26.231909,22.9
3,13.8,17.26,1.189552,13.8
4,35.2,38.396875,33.436667,33.2
5,10.4,20.340281,6.597715,8.8
6,23.9,20.340281,25.734054,26.6
7,29.0,20.340281,30.465789,24.3
8,22.8,20.340281,25.54283,18.5
9,23.2,20.340281,20.639646,16.8


In [222]:
#Avaliação do Modelo (`Decision Tree`);
#Calculando a métrica RMSE para as predições do Modelo Decision Tree;
rmse = (np.sqrt(mean_squared_error(y_test, y_pred)))

#imprime a performance do modelo;
print ('Performance do modelo avaliado com os dados de teste:')
print('\nRMSE é: {} '.format(rmse))

Performance do modelo avaliado com os dados de teste:

RMSE é: 4.495793240657882 


In [223]:
#Os resultados melhoraram ainda mais, como mostra a métrica RMSE, vamos ver no gráfico
import plotly.graph_objects as go

# cria uma figura
fig = go.Figure()

# Linha com os dados de teste
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_real,
                         mode='lines+markers',
                         name='Valor Real'))

# Linha com os dados de teste
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_baseline,
                         mode='lines+markers',
                         name='Valor Predito Baseline'))


# Linha com os dados de teste
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_reg_linear,
                         mode='lines+markers',
                         name='Valor Predito Reg Liner'))

# Linha com os dados preditos
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_arvore,
                         mode='lines+markers',
                         name='Valor Predito Arvore'))
# Plota a figura
fig.show()

#Aplicando o modelo Random Forest

In [224]:
#Algoritmo de método enemble, mais robustez para os modelos e menos overfitting;

In [225]:
#Importa o método RandomForestRegressor;
from sklearn.ensemble import RandomForestRegressor

In [226]:
#Cria o objeto rf_regressor com parâmetros default;
rf_regressor = RandomForestRegressor()

In [227]:
#Treinando o algoritmo e gereando o modelo de random forest
rf_regressor.fit(X_train, y_train)

In [228]:
#Predições do Modelo (Random Forest) nos dados de teste;
y_pred = rf_regressor.predict(X_test)

In [229]:
#Adicionando os resultados da predição acima no dataframe df_results;
df_results['valor_predito_random_forest'] = rf_regressor.predict(X_test)

In [230]:
#Calculando a métrica RMSE;
rmse = (np.sqrt(mean_squared_error(y_test, y_pred)))

In [231]:
#Visualizando a performance do modelo Random Forest;
print ('Performance do Modelo (Random Forest) avaliado com os dados de teste:')
print('\nRMSE é: {} '.format(rmse))

Performance do Modelo (Random Forest) avaliado com os dados de teste:

RMSE é: 3.6046569742432895 


In [232]:
#O modelo melhorou ainda mais com base no RMSE, vamos ver no gráfico agora;
# Plotando os resultados dos modelos e o valor real.
import plotly.graph_objects as go

# Create traces
fig = go.Figure()

# Linha com os dados de teste
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_real,
                         mode='markers',
                         name='Valor Real'))

# Linha com os dados da baseline
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_baseline,
                         mode='lines+markers',
                         line = dict(color = '#FF00FF'),
                         name='Valor da Baseline'))

# Linha com os dados preditos pela arvore
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_arvore,
                         mode='lines',
                         line = dict(color = '#B2FF66'),
                         name='Valor Predito Árvore'))

# Linha com os dados preditos pela regressão linear
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_reg_linear,
                         mode='lines',
                         line = dict(color = '#17BECF'),
                         name='Valor Predito Regressão Linear'))


# Linha com os dados preditos pela Random Forest
fig.add_trace(go.Scatter(x=df_results.index,
                         y=df_results.valor_predito_random_forest,
                         mode='lines',
                         line = dict(color = '#7F7F7F'),
                         name='Valor Predito Random Forest'))

# Plota a figura
fig.show()

In [233]:
# Visualizando o dataframe df_results
df_results.head(10)

Unnamed: 0,valor_real,valor_predito_baseline,valor_predito_reg_linear,valor_predito_arvore,valor_predito_random_forest
0,37.6,38.396875,36.006464,46.7,44.717
1,27.9,20.340281,27.777128,28.5,28.379
2,22.6,20.340281,26.231909,22.9,22.283
3,13.8,17.26,1.189552,13.8,11.961
4,35.2,38.396875,33.436667,33.2,33.912
5,10.4,20.340281,6.597715,8.8,7.92
6,23.9,20.340281,25.734054,26.6,22.56
7,29.0,20.340281,30.465789,24.3,24.13
8,22.8,20.340281,25.54283,18.5,20.342
9,23.2,20.340281,20.639646,16.8,19.953


#Deploy da Aplicação


In [234]:
#Para o uso de deploy vamos fazer um desenvolvimento e streamlit;

In [235]:
X['MEDV'] = y

In [236]:
X.head()

Unnamed: 0,CRIM,INDUS,CHAS,NOX,RM,PTRATIO,B,LSTAT,MEDV
0,0.00632,2.31,0.0,0.538,6,15.3,396.9,4.98,24.0
1,0.02731,7.07,0.0,0.469,6,17.8,396.9,9.14,21.6
2,0.02729,7.07,0.0,0.469,7,17.8,392.83,4.03,34.7
3,0.03237,2.18,0.0,0.458,6,18.7,394.63,2.94,33.4
4,0.06905,2.18,0.0,0.458,7,18.7,396.9,5.33,36.2


In [237]:
#Exportando os dados da tabela x para um csv;
X.to_csv('data.csv', index=False)