<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/2025_1s/TIC/Aula_08_Outros_regressores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Outros modelos (não lineares) de regressão**

Nas aulas passadas vimos o uso das Árvores de Decisão, Florestas Aleatórias e Redes neurais para problemas de classificação. No entanto, todos esses modelos também podem ser usados para problemas de regressão.

Nesta aula, veremos como implementar tais modelos no Python. A teoria é praticamente a mesma. O que altera é que, ao invés de prever as classes (exemplo, 0 e 1), os modelos vão indicar valores contínuos.

## Exemplo - Auto MPG

Para aplicar os métodos que serão vistos nesta aula, vamos usar o conjunto de dados chamado Auto MPG. Esse conjunto de dados pode ser extraído diretamente da biblioteca *seaborn*.

Este conjunto de dados descreve o consumo de diferentes carros (medido pelo número de milhas percorridas com o uso de um galão de gasolina) com base no seguinte conjunto de características de tais carros:

- cylinders -> Número de cilíndros.

- displacement -> Capacidade do motor.

- horsepower -> Potência (cavalo-vapor).

- weight -> Peso.

- acceleration -> Tempo, em segundos, até atingir a velocidade de 100 km/h (partindo do carro em repouso).

- model_year -> Ano do modelo do carro

- origin -> Local de produção do carro.

- name -> Nome do modelo do carro.

Uma característica interessante nesse dado é que ele possui variáveis categóricas, o que traz uma interpretação diferente para o coeficiente associado a elas.

In [None]:
import pandas as pd

import seaborn as sns
df = sns.load_dataset('mpg')
df = df.dropna()
df.head()

Para os modelos que veremos na aula, vamos considerar os atributos *cylinders*, *displacement*, *horsepower*, *weight*, *acceleration*, *model_year* e *origin* para prever o *mpg*.

### Árvore de Decisão

In [None]:
from sklearn.tree import DecisionTreeRegressor # Veja aqui a alteração
from sklearn.model_selection import train_test_split

# Preparando os dados
X = df.drop(columns=['mpg','name'])
X = pd.get_dummies(X) # Dessa forma, já transformamos as dummies em categóricas no próprio DataFrame
y = df['mpg']

# Separando os dados de Treinamento e Teste
seed = 1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=seed)

# Declarando o Modelo
#clf = DecisionTreeRegressor(criterion='squared_error',random_state=seed)
clf = DecisionTreeRegressor(criterion='squared_error',min_samples_leaf=5,min_samples_split=5,max_depth=None,random_state=seed)

# Aprendizado
clf.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test)


### Avaliando o ajuste

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score

# Comparando os valores reais e os preditos
plt.figure()
plt.scatter(y_test, y_pred)
plt.xlabel('Valores reais')
plt.ylabel('Valores preditos')
plt.title('Valores reais x Valores preditos')
plt.show()

print("Erro quadrático médio:", mean_squared_error(y_test, y_pred))
print("R^2:", r2_score(y_test, y_pred))

Reparem, agora, no resultado do modelo seguinte. Nele, colocamos como condição `max_depth=2`.

In [None]:
# Declarando o Modelo
clf = DecisionTreeRegressor(criterion='squared_error',min_samples_leaf=5,min_samples_split=5,max_depth=2,random_state=seed)

# Aprendizado
clf.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test)


### Avaliando o ajuste

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score

# Comparando os valores reais e os preditos
plt.figure()
plt.scatter(y_test, y_pred)
plt.xlabel('Valores reais')
plt.ylabel('Valores preditos')
plt.title('Valores reais x Valores preditos')
plt.show()

print("Erro quadrático médio:", mean_squared_error(y_test, y_pred))
print("R^2:", r2_score(y_test, y_pred))

Isso acontece porque o modelo considerou apenas duas ramificações e, portanto, 4 resutlados possíveis. Veja na figura abaixo como fica a árvore neste caso. Então, no caso da regressão, o número de ramificações determina o quanto o modelo vai percorrer os possíveis valores a serem previstos. Esse valor precisa ser grande (ou deixar sem restrição).

In [None]:
import matplotlib.pyplot as plt
from sklearn import tree

plt.figure(figsize=(20,12))

tree.plot_tree(clf, fontsize=9)

plt.show()

Opções código:

- **min_samples_leaf** (Número Mínimo de Amostras em uma Folha):
Se o número de amostras em uma folha for menor do que o valor definido em **min_samples_leaf**, então a divisão (split) não será realizada e a folha será considerada pura.

- **min_samples_split** (Número Mínimo de Amostras para Divisão):
número mínimo de amostras necessárias para realizar uma divisão em um nó (um ponto onde a árvore se ramifica).
Se o número de amostras em um nó for menor do que o valor definido em min_samples_split, então a divisão não será realizada, e esse nó se tornará uma folha (caso contrário, a árvore continuará dividindo).

- **max_depth** (Profundidade Máxima da Árvore):
Define o número máximo de níveis ou camadas que a árvore de decisão pode ter a partir do nó raiz (o topo da árvore).


### Floresta aleatória

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Declarando o Modelo
clf = RandomForestRegressor(random_state=seed)

# Aprendizado
clf.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test)


### Avaliando o ajuste

In [None]:
# Comparando os valores reais e os preditos
plt.figure()
plt.scatter(y_test, y_pred)
plt.xlabel('Valores reais')
plt.ylabel('Valores preditos')
plt.title('Valores reais x Valores preditos')
plt.show()

print("Erro quadrático médio:", mean_squared_error(y_test, y_pred))
print("R^2:", r2_score(y_test, y_pred))

Reparem, agora, no resultado do modelo seguinte. Nele, colocamos como condição `max_depth=2`.

In [None]:
# Declarando o Modelo
clf = RandomForestRegressor(random_state=seed,max_depth=2)

# Aprendizado
clf.fit(X_train, y_train)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test)


### Avaliando o ajuste

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score

# Comparando os valores reais e os preditos
plt.figure()
plt.scatter(y_test, y_pred)
plt.xlabel('Valores reais')
plt.ylabel('Valores preditos')
plt.title('Valores reais x Valores preditos')
plt.show()

print("Erro quadrático médio:", mean_squared_error(y_test, y_pred))
print("R^2:", r2_score(y_test, y_pred))

Reparem na diferença em relação à árvore de decisão. Neste cenário, também consideramos apenas duas ramificações e, portanto, 4 resutlados possíveis para cada árvore. Mas como temos várias árvores na floresta aleatória, mais valores são possíveis de serem alcançados no modelo de regressão.

### Interpretando o modelo


In [None]:
# Cria um vetor contendo as importâncias atribuídas a cada atributo na base de dados usada no treinamento
feature_importances = pd.Series(clf.feature_importances_, index=X_train.columns).sort_values(ascending=False)

# Plot
feature_importances.plot.bar();

Esse resulado indica que *displacement* é o atributo que mais contribui para prever o valor do *mpg*. Por outro lado, a indicação do país de origem dos veículos assim como a aceleração não possuem grande impacto no modelo. Esses atributos poderiam ser retirados sem prejudicar a qualidade do modelo. Veja nos códigos seguintes.

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Preparando os dados
X2 = df.drop(columns=['mpg','name','origin','acceleration'])
X2 = pd.get_dummies(X2) # Dessa forma, já transformamos as dummies em categóricas no próprio DataFrame

# Separando os dados de Treinamento e Teste
X_train2, X_test2, y_train2, y_test2 = train_test_split(X2, y, test_size=0.2, random_state=seed)

# Declarando o Modelo
clf = RandomForestRegressor(random_state=seed)

# Aprendizado
clf.fit(X_train2, y_train2)                  # Emprega o conjunto de treinamento
y_pred = clf.predict(X_test2)


### Avaliando o ajuste

In [None]:
# Comparando os valores reais e os preditos
plt.figure()
plt.scatter(y_test2, y_pred)
plt.xlabel('Valores reais')
plt.ylabel('Valores preditos')
plt.title('Valores reais x Valores preditos')
plt.show()

print("Erro quadrático médio:", mean_squared_error(y_test, y_pred))
print("R^2:", r2_score(y_test, y_pred))

### Opções código

- **n_estimators**: Número de árvores de decisão que serão consideradas no *ensemble*. Lembre-se que quanto maior esse número, maior (geralmente) o desempenho do modelo e maior é tempo computacional.

- **max_features** {“sqrt”, “log2”, None}: Número de atributos considerados na seleção do subconjunto para particionar cada nó das árvores. Por padrão, considera-se `sqrt`, ou seja, esse número como a raiz quadrada do número total de atributos.

- **min_samples_leaf** (Número Mínimo de Amostras em uma Folha): Se o número de amostras em uma folha para cada árvore de decisão for menor do que o valor definido em **min_samples_leaf**, então a divisão (split) não será realizada e a folha será considerada pura.

- **min_samples_split** (Número Mínimo de Amostras para Divisão):
número mínimo de amostras necessárias para realizar uma divisão em um nó (um ponto onde a árvore se ramifica) em cada árvore de decisão. Se o número de amostras em um nó for menor do que o valor definido em min_samples_split, então a divisão não será realizada, e esse nó se tornará uma folha (caso contrário, a árvore continuará dividindo).

- **max_depth** (Profundidade Máxima da Árvore):
Define o número máximo de níveis ou camadas que cada árvore de decisão pode ter a partir do nó raiz (o topo da árvore).


### Redes neurais artificiais

In [None]:
# Normalizando os dados

X_train = (X_train - X_train.mean()) / X_train.std()
X_test = (X_test - X_test.mean()) / X_test.std()

### Configuração e Treinamento da Rede DeepLearning

Nossa rede terá:


*   9 neurônios de entrada, correspondendo a cada atributo de entrada
*   3 camadas ocultas de 10 neurônios cada
*   1 camada de saída com 1 neurônio correspondendo à previsão do modelo

Usaremos a função de ativação: relu.


In [None]:
# Treinamento ()

import numpy as np
from keras import Sequential, layers

# Definição

model = Sequential([layers.Dense(9, activation='relu', input_shape=[len(X_train.keys())])])

model.add(layers.Dense(10, activation='relu'))
model.add(layers.Dense(10, activation='relu'))
model.add(layers.Dense(10, activation='relu'))
model.add(layers.Dense(1, activation='relu'))

model.compile(loss='mse', optimizer='adam', metrics=['mse'])

# Treinamento
history = model.fit(np.matrix(X_train), np.transpose(np.matrix(y_train)), validation_split=0.2, epochs=400)


### Avaliando o ajuste

In [None]:
#@markdown executar!
def plot_history(history):
  hist = pd.DataFrame(history.history)
  hist['epoch'] = history.epoch

  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Square Error')
  plt.plot(hist['epoch'], hist['mse'],
           label='Train Error')
  plt.plot(hist['epoch'], hist['val_mse'],
           label = 'Val Error')
  plt.ylim([0,20])
  plt.legend()
  plt.show()


print('completed!')

In [None]:
plot_history(history)

In [None]:
# Comparando os valores reais e os preditos

y_pred = model.predict(X_test)

plt.figure()
plt.scatter(y_test, y_pred)
plt.xlabel('Valores reais')
plt.ylabel('Valores preditos')
plt.title('Valores reais x Valores preditos')
plt.show()

print("Erro quadrático médio:", mean_squared_error(y_test, y_pred))
print("R^2:", r2_score(y_test, y_pred))