# Projeto 2 Ciência dos Dados - Engenharia Insper 2021.1
## Integrantes: Rafael Pascarelli Nicheri e Vinícius Matheus Morales
____________________________________________________________________________________________________________________________
## Objetivo:
### - Com esse projeto pretendemos prever o valor do aluguel de um determinado imóvel com base nos seguintes dados:
- Tamanho do terreno em m²;
- Quantidade de quartos;
- Quantidade de banheiros;
- Quantidade de suítes;
- Quantidade de vagas de carro;
- Se possui elevador;
- Se possui móveis;
- Se possui piscina;
- Se é uma construção nova;
- Região da cidade de São Paulo onde o imóvel se encontra.

## 1. Importando as bibliotecas que serão utilizadas no projeto e lendo o Dataset que será utilizado para as previsões

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
data = pd.read_csv('sao-paulo-properties-april-2019.csv')

### 1.1 Filtrando o Dataset em um DataFrame que contenha apenas os aluguéis e exclua as vendas

In [3]:
rent_filter = data['Negotiation Type'] == 'rent' # Filtro para usarmos apenas dados de aluguel
rent_data = data.loc[rent_filter, :] # Aplicando o filtro para mostrar apenas dados de alugel
rent_data

Unnamed: 0,Price,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,New,District,Negotiation Type,Property Type,Latitude,Longitude
0,930,220,47,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.543138,-46.479486
1,1000,148,45,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.550239,-46.480718
2,1000,100,48,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.542818,-46.485665
3,1000,200,48,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.547171,-46.483014
4,1300,410,55,2,2,1,1,1,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.525025,-46.482436
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11205,3700,595,73,1,2,1,1,0,0,1,0,Brooklin/São Paulo,rent,apartment,-23.617682,-46.694963
11206,21000,3000,208,4,4,3,3,1,1,1,0,Brooklin/São Paulo,rent,apartment,-23.606891,-46.695934
11207,3800,710,55,1,1,0,1,0,1,1,0,Brooklin/São Paulo,rent,apartment,0.000000,0.000000
11208,5000,2354,205,3,2,1,2,1,0,0,0,Brooklin/São Paulo,rent,apartment,-23.612287,-46.681482


### 1.2 Reordenando os dados para ficarem em uma ordem mais legível

In [4]:
# DataFrame com os dados relevantes
relevant_data = rent_data.iloc[:, :-5]
relevant_data = relevant_data.loc[:, ['Condo', 'Size', 'Rooms', 'Toilets', 'Suites', 'Parking', 'Elevator', 'Furnished', 'Swimming Pool', 'New', 'Price']]
relevant_data.sort_values('Price')

Unnamed: 0,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,New,Price
508,295,48,2,2,1,1,0,0,0,0,480
4486,380,66,2,1,0,1,0,0,0,0,500
2878,36,45,1,2,1,0,0,0,1,0,500
288,0,40,1,2,1,1,0,0,0,0,500
122,0,50,1,2,1,1,0,0,0,0,500
...,...,...,...,...,...,...,...,...,...,...,...
10530,4500,442,4,5,4,6,0,0,1,0,40000
234,0,443,4,2,1,1,0,0,0,0,45000
3732,6100,349,4,5,4,5,0,0,1,0,50000
1589,6800,598,4,7,4,6,1,0,1,0,50000


## 2. Preprocessamento de dados

In [5]:
# Transformando int em float para auxiliar no dimensionamento de recursos
for i in relevant_data.keys():
    relevant_data[i] = relevant_data[i].astype(float)

In [6]:
X = relevant_data.iloc[:, :-1].values # Separando as variáveis independentes
Y = relevant_data.iloc[:, -1].values # Separando a variável dependente

### 2.1 Separando os dados em Treino e Teste

In [7]:
# Separando os dados em Treino e Teste
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

### 2.2 Dimensionamento de recursos

In [8]:
# Dimensionamento de recursos
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train[:, :5] = sc.fit_transform(X_train[:, :5])
X_test[:, :5] = sc.transform(X_test[:, :5])

# Regressões

## 3. Regressão por Árvore de Decisão

In [9]:
# Aplicar o Decision Tree Regressor
from sklearn.tree import DecisionTreeRegressor
regressor = DecisionTreeRegressor()
regressor.fit(X_train, Y_train)

DecisionTreeRegressor()

In [10]:
Y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((Y_pred.reshape(len(Y_pred),1), Y_test.reshape(len(Y_test),1)),1))

[[ 1600.   1850. ]
 [10000.   8000. ]
 [ 1131.5  1365. ]
 ...
 [ 2800.   2400. ]
 [ 3500.   2900. ]
 [ 3300.   3500. ]]


### 3.1 Precisão por R²

In [11]:
from sklearn.metrics import r2_score
r2_score(Y_test, Y_pred)

0.3867470397302043

### 3.2 Plotagem de gráfico para visualizar a precisão

In [12]:
# Pensar em como fazer

## 4. Regressão linear simples

In [13]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, Y_train)

LinearRegression()

In [14]:
Y_pred = regressor.predict(X_test)
print(np.concatenate((Y_pred.reshape(len(Y_pred),1), Y_test.reshape(len(Y_test),1)),1))

[[ 950.67 1850.  ]
 [7353.23 8000.  ]
 [ 786.11 1365.  ]
 ...
 [2187.78 2400.  ]
 [3195.81 2900.  ]
 [2184.29 3500.  ]]


### 4.1 Precisão por R²

In [15]:
from sklearn.metrics import r2_score
r2_score(Y_test, Y_pred)

0.6369121134827275

### 4.2 Plotagem de gráfico para visualizar precisão

In [16]:
# Pensar em como fazer

## 5. Regressão por Vetores de Suporte

In [17]:
from sklearn.svm import SVR
regressor = SVR(kernel='rbf')
regressor.fit(X_train, Y_train)

SVR()

In [18]:
Y_pred = regressor.predict(X_test)
print(np.concatenate((Y_pred.reshape(len(Y_pred),1), Y_test.reshape(len(Y_test),1)),1))

[[1695.15 1850.  ]
 [2834.28 8000.  ]
 [1878.44 1365.  ]
 ...
 [1878.74 2400.  ]
 [2307.9  2900.  ]
 [1853.1  3500.  ]]


### 5.1 Precisão por R²

In [19]:
from sklearn.metrics import r2_score
r2_score(Y_test, Y_pred)

0.018594321459640795

### 5.2 Plotagem de gráfico para visualização

In [20]:
# Pensar em como fazer

## 6. Regressão por Floresta Aleatória

In [21]:
from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor()
regressor.fit(X_train, Y_train)

RandomForestRegressor()

In [22]:
Y_pred = regressor.predict(X_test)
print(np.concatenate((Y_pred.reshape(len(Y_pred),1), Y_test.reshape(len(Y_test),1)),1))

[[1591.   1850.  ]
 [8819.74 8000.  ]
 [1498.38 1365.  ]
 ...
 [2721.52 2400.  ]
 [3624.86 2900.  ]
 [2438.5  3500.  ]]


### 6.1 Precisão por R²

In [23]:
from sklearn.metrics import r2_score
r2_score(Y_test, Y_pred)

0.679240834378749

### 6.2 Plotagem de gráfico para visualização

In [24]:
# Pensar em como fazer

# Classificadores