## ***Analisando os preços das casas de Melbourne.***

dataset tirado do link:
https://www.kaggle.com/dataset/dansbecker/melbourne-housing-snapshot?select=melb_data.csv

Queremos saber qual é o melhor modelo de ML para se trabalhar com esse conjunto de dados.

In [None]:
# IMPORTANDO AS BIBLIOTECAS
# Tratamento dos dados


import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#from pandas_profiling import ProfileReport
pd.options.display.float_format = '{:,.2f}'.format
%matplotlib inline

base = pd.read_csv("melb_data.csv")

# Vou retirar as colunas que tiveram uma alta cardinalidade
base = base.drop(['Suburb', 'Address','SellerG', 'Date'], axis=1)

# Tambem vou retirar as colunas que apresentam mais de 20% de valores nulos
base = base.drop(['BuildingArea','YearBuilt'], axis=1)

base.head()

In [None]:
# Mostrando a correlação entr as variáveis

plt.figure(figsize=(13,8))
sns.heatmap(base.corr(),annot=True, cmap='icefire')
plt.show()

# Nesse caso não iremos usar as variáveis de texto, mas se precisassemos bastava tratá-las para variáveis numéricas.

In [None]:
# Vou escolher apenas as colunas que tiveram as correlações mais altas e Landsize pois retirei a BuildingArea.

base1 = base[['Price', 'Rooms', 'Bathroom', 'Bedroom2', 'Car', 'Landsize']]
print(base1.info(), '\n\n')

# Ainda existem valores vazios na coluna 'car'

# Irei tratar esses valores apenas retirando as linhas com valores nulos, já que não são muitos valores

base1 = base1.dropna(axis=0)
print(base1.info())

### **Criando os modelos de ML**

In [None]:
# O primeiro passo é separar a nossa variável que queremos prever (y) e quais vão ser as colunas que iremos usar para essa predição (x)

Y = base1.Price
X = base1.drop('Price', axis=1)

# Em seguida irei separar em treino e teste



*   A base de treino vai ser usada para treinar o modelo para que ele faça as previsões
*   A base de teste vai ser usada para, ao usar o modelo já treinado, verificar o erro da previsão já feita pelo modelo em relação aos valores reais.



In [None]:
from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(X,Y)

# O próximo passo é escolher o modelo que iremos usar.

### Regressão Linear

In [None]:
# Importando e instanciando o modelo

from sklearn.linear_model import LinearRegression
modelo = LinearRegression()

# Fit do modelo
modelo = modelo.fit(x_treino, y_treino)

# Prevendo os dados de teste usando o modelo
y_regressao = modelo.predict(x_teste)

# podemos visualizar os pontos: previstos X real
plt.figure(figsize=(6,6))
sns.scatterplot(x=y_teste.values/1000000, y=y_regressao/1000000)
plt.ylim(0,10)
plt.xlim(0,10)
plt.show()

In [None]:
# Para avaliar o modelo, precisamos calcular os erros

# Avaliando o erro quadrático médio
from sklearn.metrics import mean_squared_error

erro_quadratico = mean_squared_error(y_teste, y_regressao)
print(erro_quadratico)

# Avaliando o R quadrado
from sklearn.metrics import r2_score
r2_regressao = r2_score(y_teste, y_regressao)
print(r2_regressao)

### Regressão Linear: Selecionando outras colunas

In [None]:
base2 = base[['Price', 'Rooms', 'Bathroom', 'Bedroom2', 'Car', 'Longtitude', 'Lattitude','Distance', 'Landsize', 'Postcode', 'Propertycount']]
base2 = base2.dropna(axis=0)
base2.info()

In [None]:
from numpy.ma.core import mean
# Vamos fazer as mesmas etapas que fizemos anteriormente

# Separando a base
y = base2.Price
x = base2.drop('Price', axis=1)

# Treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x,y)

# Fit para os novos modelos
modelo2 = LinearRegression()

# FIT
modelo2 = modelo2.fit(x_treino, y_treino)

# Usando o modelo para prever os dados de teste
y_regressao2 = modelo2.predict(x_teste)

# Avaliando os erros
# Erro quadrátivo médio
erro_quadratico2 = mean_squared_error(y_teste, y_regressao2)
print(erro_quadratico2)

# R quadrado
r2_regressao2 = r2_score(y_teste, y_regressao2)
print(r2_regressao2, '\n\n')

plt.figure(figsize=(6,6))
sns.scatterplot(x=y_teste.values/1000000, y=y_regressao2/1000000)
plt.ylim(0,10)
plt.xlim(0,10)
plt.show()

### Árvore de decisão


*   Vamos usar o mesmo treino e teste da base anterior



In [None]:
# Importando o modelo

from sklearn.tree import DecisionTreeRegressor
modelo_tree = DecisionTreeRegressor()

modelo_tree = modelo_tree.fit(x_treino, y_treino)

y_tree = modelo_tree.predict(x_teste)

# Erro quadrático médio
erro_quadratico_tree = mean_squared_error(y_teste, y_tree)
print(erro_quadratico_tree)

# R quadrado
r2_tree = r2_score(y_teste, y_tree)
print(r2_tree)

### Resultados

In [None]:
print('Regressão Linear')
print('Erro quadrático médio: ' + str(round(erro_quadratico, 2)))
print('R quadrado: ' + str(round(r2_regressao, 4)))
print('----------------------------------------------------------')
print('Regressão Linear: Novas features')
print('Erro quadrático médio: ' + str(round(erro_quadratico2, 2)))
print('R quadrado: ' + str(round(r2_regressao2, 4)))
print('----------------------------------------------------------')
print('Árvore de Decisão')
print('Erro quadrático médio: ' + str(round(erro_quadratico_tree, 2)))
print('R quadrado: ' + str(round(r2_tree, 4)))
print('----------------------------------------------------------')

### Conclui-se que o modelo de árvore de decisão seria o melhor modelo para se estar trabalhando neste conjunto de dados por ser o que mais se aproxima do valor 1.