# Cabeçalho
## UFRJ  - 2021-1
#### Introdução ao Aprendizado de Máquina - Trabalho 2
##### Aluno: Bernardo Bevilaqua Földes Guimarães
##### Professor: Heraldo Luis Silveira de Almeida

# Introdução
#### O trabalho consiste em realizar um modelo preditivo para tentar estimar o valor dos imóveis de uma cidade com base em diversos atributos. Para isso, primeiro foi necessário treinar o modelo com dados que já apresentavam o preço e posteriormente prever o valor  de outras 2000 amostras.
#### O trabalho deverá ser submetido ao Kaggle onde será realizada uma competição cujo objetivo é apresentar resultados com o menor Root Mean Squared Percentage Error

## Importa Bibliotecas

In [15]:
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sklearn.preprocessing import StandardScaler, PowerTransformer, RobustScaler, QuantileTransformer 
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Ridge
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import cross_val_score
from xgboost import XGBRegressor
import pandas as pd
import numpy as np
from pandas_profiling import ProfileReport

In [4]:
pwd

'C:\\Users\\Dell\\UFRJ\\2021-1\\Intro Aprendizado Maquinas\\introdução_apredizado_de_maquina\\trabalho02'

## Ler Dados de Treinamento

In [5]:
df = pd.read_csv("./conjunto_de_treinamento.csv")

## Exploração dos Dados

In [None]:
df.head()

In [None]:
df.shape

#### Pelo comando abaixo, verificamos que não existem valores em branco no conjunto

In [None]:
df.isnull().values.any()

In [None]:
df[['churrasqueira','estacionamento','piscina','playground','quadra',\
   's_festas','s_ginastica','sauna','vista_mar','s_jogos']].sum()

#### Explorando a quantidade de dados e a distribuição deles

In [None]:
len(df['bairro'].unique())

In [None]:
df['bairro'].hist()
plt.xticks(rotation=90)
plt.tight_layout()

In [None]:
df['tipo'].value_counts()

In [None]:
df['tipo_vendedor'].value_counts()

##### Iremos utilizar o ProfileReport Para fazer uma análise gerão dos dados

In [None]:
profile.to_widgets()

##### Essa função retorna erros, porem ela é necessária para gerar o notebook abaixo

In [52]:
profile = ProfileReport(df, title="Pandas Profiling Report", explorative=True)

In [None]:
profile.to_notebook_iframe()

## Pré-processamento

### Para não garantirmos que os dados estão aleatóriamente embaralhados usamos a função shuffle

In [61]:
df = shuffle(df, random_state=0)
X, y = df.drop('preco',axis=1), df['preco']

#### Podemos excluir a coluna Id, pois ela não possui significado preditivo nenhum e a coluna diferencias também não contribui com nada, visto que ja foi  feito o one hot encoding dela anteriormente.

#### Para os campos "bairro", "tipo" e "tipo_vendedor", foi feito o one hot encoding, para transformar variáveis categóricas em binárias

In [62]:
def preprocessing(X):
    X.drop(['Id','diferenciais'],axis=1,inplace=True)
    X = pd.get_dummies(X,columns=['bairro','tipo','tipo_vendedor'])
    return X

In [63]:
X = preprocessing(X)

## Escolhendo o Modelo

#### A função rmspe será a responsável por calcular a eficiência dos modelos propostos, quanto menor, melhor será o resultado

In [36]:
def rmspe(estimator, X, y):
    model = estimator.fit(X,y)
    y_pred = model.predict(X)
    y_true = y
    loss = np.sqrt(np.mean(np.square(((y_true - y_pred) / y_true)), axis=0))

    return loss

#### Precisamos aplicar uma escala para não termos um peso muito maior de uma coluna em  relação a outra

In [64]:
scaler = QuantileTransformer()
X = scaler.fit_transform(X)

#### Iremos agora testar alguns tipos de modelo para posteriormente escolher o melhor

### KNeighborsRegressor()

In [75]:
print("k    --  rmspe")
for k in range(55,70):
    cv_score_Knn = cross_val_score(KNeighborsRegressor(n_neighbors=k), X, y, cv=10, scoring=rmspe)
    print(k, "  --  ", cv_score_Knn.mean())

k    --  rmspe
55   --   4.205698277639458
56   --   4.183232255929349
57   --   4.162093004767811
58   --   4.136864249014509
59   --   4.126647051298488
60   --   4.12545001269931
61   --   4.105662454296789
62   --   4.07265334727572
63   --   4.085413031998797
64   --   4.076107569622101
65   --   4.085733541871053
66   --   4.095684436062502
67   --   4.107033578248396
68   --   4.114638848364063
69   --   4.130589561796868


#### Observamos que o Knn tem seu melhor resultado para k=62, porém ainda é um valor muito alto

### Ridge()

In [97]:
print("alpha   --  rmspe")
for alpha in range(470,475):
    cv_score_ridge = cross_val_score(Ridge(alpha=alpha), X, y, cv=10, scoring=rmspe)
    print(alpha, "    --  ", cv_score_ridge.mean())
    

alpha   --  rmspe
470     --   3.7213627565433334
471     --   3.721356110115031
472     --   3.7213516952994348
473     --   3.7213495003463883
474     --   3.721349513572515


#### Observamos que o Ridge tem seu melhor resultado para alpha≅470, porém ainda é um valor muito alto

### XGBRegressor()

In [65]:
cv_score_xgb = cross_val_score(XGBRegressor(random_state=0),X,y,cv=10,scoring=rmspe) 
cv_score_xgb.mean()

0.1400386474829928

###### Resultado muito superior aos outros

## ------------------------------------------------
# Predição dos Dados de Teste
## ------------------------------------------------

#### Para conseguir prever os dados de teste, iremos ler novamente os dados de treinamento para zerar as transformações feitas  nele

In [66]:
df = pd.read_csv("./conjunto_de_treinamento.csv")
df_test = pd.read_csv("./conjunto_de_teste.csv")

In [67]:
df = shuffle(df, random_state=0)
X, y = df.drop('preco',axis=1), df['preco']

#### Após novamente embaralharmos os dados de treinamento, iremos preprocessar os dados de treinamento e de teste, porém agora iremos excluir as colunas que se encontram apenas em um deles

In [68]:
df_test = preprocessing(df_test)
X = preprocessing(X)


for column in X.columns:
    if column not in df_test.columns:
        X.drop(column,axis=1, inplace=True)

for column in df_test.columns:
    if column not in X.columns:
        df_test.drop(column,axis=1, inplace=True)

#### Com os dados já processados, iremos utilizar o XGBRegressor(), que foi o que apresentou melhor resultado anteriormente. Para isso usaremos um Pipeline, que primeiro irá aplicar a escala correta e depois aplicar o modelo

In [69]:
xgb = Pipeline([('scaler',QuantileTransformer ()),
                    ('model',XGBRegressor(random_state=0))])
model = xgb.fit(X,y)

In [70]:
test_pred = model.predict(df_test)

#### Como já temos os resultados do modelo preditos, iremos gerar um dataframe no formato pedido pelo Kaggle e gerar um csv

In [71]:
respostas = pd.DataFrame(
    {"Id": range(2000),
     "preco": test_pred})


respostas.to_csv(path_or_buf="respostas.csv", index=False)