# Housing Prices - Exercício de Machine Learning

### O problema central é tentar prever o preço médio de uma casa em uma determinada região, atráves de uma base de dados com os preços dos anos anteriores. Isso pode servir como base para alguém que quer saber, por exemplo, qual a melhor região para se investir em imóveis, visando o lucro com uma venda futura.

## Importando as Bibliotecas:

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

## Carregando o Dataset:

In [None]:
casas = pd.read_csv('Downloads\housing.csv')
casas.head()

## Analisando o Dataset:

In [None]:
casas.dtypes

In [None]:
casas.describe()

#### Como o describe mostrou, a única coluna que não está completa é a total_bedrooms, com 207 valores nulos. Como esse valor é baixo quando comparado á quantidade de linhas na tabela(<1%), vou excluir:

In [None]:
casas = casas.dropna()

## Verificando Se Não Há Mais Valores Nulos:

In [None]:
casas.isnull().sum()

In [None]:
casas.shape

## Fazendo a Correlação dos Dados:

In [None]:
plt.figure(figsize = (20,12))
plt.title('Correlação das Variáveis')
plt.style.use('ggplot')
sns.heatmap(casas.corr(), linewidths = 1, cmap='rocket_r', annot=True);

In [None]:
plt.figure(figsize = (15,8))
plt.title("Proximidade Com o Mar X Valor Médio da Residência")
plt.xlabel(" ")
plt.ylabel("Valor Médio da Residência")
sns.barplot(x="ocean_proximity", y="median_house_value", data=casas, order=['INLAND', '<1H OCEAN', 'NEAR OCEAN', 'NEAR BAY', 'ISLAND']);

In [None]:
casas['ocean_proximity'].value_counts()

#### Percebe-se que enquanto as casas que ficam em ilhas são as que possuem maior valor, a maioria das casas são aquelas que ficam á menos de uma hora do oceano. Além, os valores em ocean_proximity se repetem várias vezes, o que indica que são uma categoria.

## Algumas Correlações:

In [None]:
plt.scatter(casas['longitude'], casas['latitude'])
plt.title('Distribuição das residências')
plt.show()

In [None]:
plt.scatter(casas['median_income'] * 10000, casas['median_house_value'])
plt.title('Relação entre o valor médio da casa e a renda')
plt.show()

## Análise da Coluna de Total de Quartos:

In [None]:
casas['total_rooms'].describe()

In [None]:
casas[casas['total_rooms']>30000].count()

#### Como pode-se ver, dos 20433 distritos registrados, apenas 7 possuem um número total de quartos acima de 30000, mas vou considerar.

## Histogramas:

In [None]:
casas.hist(figsize=(20, 20))

In [None]:
sns.histplot(casas['housing_median_age'])

In [None]:
sns.histplot(casas['median_income'])

In [None]:
sns.histplot(casas['total_rooms'])

In [None]:
casas.describe()

## Criando Previsores:

In [None]:
previsores = casas.drop(columns='median_house_value')
previsores.head()

## Criando a Classe:

In [None]:
classe = casas['median_house_value']
classe.head()

In [None]:
previsores.shape

## Separando os Dados em Treino e Teste:

In [None]:
X_treino, X_teste, y_treino, y_teste = train_test_split(previsores, classe, test_size = 0.15, random_state = 0)

In [None]:
X_treino.shape

In [None]:
X_teste.shape

In [None]:
y_treino.shape

In [None]:
y_teste.shape

#### Arrumando a coluna de proximidade com o oceano, já que é uma categoria, conforme indicado previamente.

In [None]:
X_treino = pd.get_dummies(X_treino)

In [None]:
list(X_treino.columns)

In [None]:
X_teste = pd.get_dummies(X_teste)

In [None]:
list(X_teste.columns)

## Árvore de Decisão:

In [None]:
destree = DecisionTreeRegressor(random_state=42)
destree.fit(X_treino, y_treino)

In [None]:
X_treino.shape

In [None]:
previsoes = destree.predict(X_teste)
previsoes

In [None]:
print('Acurácia da Árvore de Decisão: ' + str(r2_score(y_teste, previsoes)*100) + '%')

## Random Forest:

In [None]:
from sklearn.ensemble import RandomForestRegressor
frt = RandomForestRegressor(n_estimators = 200)
frt.fit(X_treino, y_treino)

In [None]:
previsoes2 = frt.predict(X_teste)
previsoes2

In [None]:
print('Acurácia da Random Forest: ' + str(r2_score(y_teste, previsoes2)*100) + '%')

#### Como podemos ver, o modelo de Árvore de Decisão não se sai tão bem nessa situação, possuindo apenas 65% de precisão. No entanto, ao usarmos a Random Forest, a precisão se aproxima dos 82%, que é um valor mais aceitável e próximo do real.