# 5. Combinando Atributos
* Como foi visto o *scikit-learn* possui alguns métodos que aplicam transformação em atributos e variáveis (por exemplo, *StandardScaler* e *OrdinalEncoder*).
* No entando, é possível costumizar um transformador seguindo o *pipeline* do *scikit-learn* simplesmente adicionando os métodos *fit*, *transform* e *fit_transform*.
* No *scikit-learn* é possível instanciar a classe *TransformerMixim* como classe base do método de transformação cutomizado e o método *fit_transform* já estará implementado.
* Ainda, adicionando o *BaseEstimator* como classe base os métodos *get_params* e *set_params* também já estarão implementados (esses métodos podem ser úteis durante a otimização de hiper-parâmetros).

## 5.1 Exercício
* Usando o conjunto de dados *Brazilian Houses to Rent*, crie um novo atributo, *bathroom_per_rooms* combinando os atributos *rooms* e *bathroom*.

1. Use a codificação *one-hot* no atributo *city* e a codificação ordinal para os atributos *animal* e *furniture*.
2. Crie um novo atributo, *bathroom_pre_rooms* usando os atributos *rooms* e *bathroom.
2. Use os atributos *area, rooms, bathroom, bathroom_per_rooms, parking spaces, hoa, city, animal* e *furniture* para explicar a variável *rent amount*.
3. Siga o mesmo procedimento da questão 3.2 descrita no notebook sobre Regressão Linear para comparar a Regressão Linear com o Random Forest para regressão.

In [32]:
# bibliotecas
import pandas as pd
import numpy as np

# módulos
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [11]:
data = pd.read_csv("./houses_to_rent_v2.csv")
data_numeric= data.drop(['city', 'animal','furniture'], axis =1) # todos os dados numericos ficam em data_numeric - fiz isso para usar esse dataframe com meu novo transformador
data_numeric

Unnamed: 0,area,rooms,bathroom,parking spaces,floor,hoa (R$),rent amount (R$),property tax (R$),fire insurance (R$),total (R$)
0,70,2,1,1,7,2065,3300,211,42,5618
1,320,4,4,0,20,1200,4960,1750,63,7973
2,80,1,1,1,6,1000,2800,0,41,3841
3,51,2,1,0,2,270,1112,22,17,1421
4,25,1,1,0,1,0,800,25,11,836
...,...,...,...,...,...,...,...,...,...,...
10687,63,2,1,1,5,402,1478,24,22,1926
10688,285,4,4,4,17,3100,15000,973,191,19260
10689,70,3,3,0,8,980,6000,332,78,7390
10690,120,2,2,2,8,1585,12000,279,155,14020


In [47]:
# tratamento de dados categóricos
city_feature = data[['city']].to_numpy()
onehot_encoder = OneHotEncoder().fit(city_feature)
cat_city = onehot_encoder.transform(city_feature).toarray()

cat_city

array([[0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0.],
       ...,
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [13]:
categorial_features = data[["animal", "furniture"]].to_numpy()
ordinal_encoder = OrdinalEncoder().fit(categorial_features)
cat_data = ordinal_encoder.transform(categorial_features)
cat_data

array([[0., 0.],
       [0., 1.],
       [0., 1.],
       ...,
       [1., 0.],
       [0., 0.],
       [0., 1.]])

In [14]:
rooms_ix, bathroom_ix = 1, 2
class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self
    def transform(self, X, y=None):
        bathroom_per_rooms = X[:, bathroom_ix] / X[:, rooms_ix]
        return np.c_[X,bathroom_per_rooms] # np.x_[] faz uma concatenação no axis=1

In [15]:
attr_adder = CombinedAttributesAdder()
data_transform = attr_adder.transform(data_numeric.values)
data_transform.shape

(10692, 11)

In [16]:
cat_city.shape

(10692, 5)

In [17]:
cat_data.shape

(10692, 2)

In [18]:
data_all = np.concatenate([data_transform, cat_city, cat_data], axis=1) # falta só fazer a regresão linear do data_all
data_all

array([[70, 2, 1, ..., 1.0, 0.0, 0.0],
       [320, 4, 4, ..., 1.0, 0.0, 1.0],
       [80, 1, 1, ..., 0.0, 0.0, 1.0],
       ...,
       [70, 3, 3, ..., 0.0, 1.0, 0.0],
       [120, 2, 2, ..., 0.0, 0.0, 0.0],
       [80, 2, 1, ..., 1.0, 0.0, 1.0]], dtype=object)

In [51]:
# op = 1 é regressão linear
# op = 2 é random forest

def funcRegressaoLinear(x,y,op):
    
    x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2, random_state=1) #random_state é pra segurar o valores pra testar
    
    scaler = StandardScaler().fit(x_train)
    x_train, x_test = scaler.transform(x_train), scaler.transform(x_test)
    
    if op == 1:
        model = LinearRegression()
        model.fit(x_train, y_train)

    if op == 2:
        model = RandomForestRegressor()
        model.fit(x_train,y_train)
        
    y_hat = model.predict(x_test)
    
    print(f"R²: {model.score(x_test, y_test):.2f}")
    print(f"MSR: {mean_squared_error(y_test, y_hat):.2f}")

In [54]:
print('LinearRegression()')
funcRegressaoLinear(np.delete(data_all, [4,6,7,8,9], axis=1), data_all[:,6], 1)

LinearRegression()
R²: 0.47
MSR: 6554743.19


In [55]:
print('RandomForestRegressor()')
funcRegressaoLinear(np.delete(data_all, [4,6,7,8,9], axis=1), data_all[:,6], 2)

RandomForestRegressor()
R²: 0.59
MSR: 5075851.07
