Baseline e modelo linear
========================



## Baseline



Vamos treinar nosso primeiro modelo de machine learning! Este é um dos modelos mais simples que existe: a sua estratégia é sempre prever a média dos valores do target.

Vamos primeiro carregar os dados.



In [1]:
import seaborn as sns
from sklearn.model_selection import train_test_split

TAMANHO_TESTE = 0.1
SEMENTE_ALEATORIA = 61455
DATASET_NAME = "diamonds"
FEATURES = ["carat", "depth", "table", "x", "y", "z"]
TARGET = ["price"]

df = sns.load_dataset(DATASET_NAME)

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=TAMANHO_TESTE, random_state=SEMENTE_ALEATORIA
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

# observe que usamos o .values aqui pois queremos apenas os valores
X_treino = df_treino.reindex(FEATURES, axis=1).values
y_treino = df_treino.reindex(TARGET, axis=1).values
X_teste = df_teste.reindex(FEATURES, axis=1).values
y_teste = df_teste.reindex(TARGET, axis=1).values

Agora vamos treinar nosso modelo!



In [2]:
from sklearn.dummy import DummyRegressor

# cria o modelo
modelo_baseline = DummyRegressor()

# treina o modelo
modelo_baseline.fit(X_treino, y_treino)

# realiza uma previsão usando o modelo treinado
previsao = modelo_baseline.predict(X_teste)
print(previsao)

[3932.63554155 3932.63554155 3932.63554155 ... 3932.63554155 3932.63554155
 3932.63554155]


Como saber se nosso modelo é bom? Para isso precisamos de *métricas*! Uma métrica bastante útil é a raiz quadrada do erro quadrático médio (RMSE, *root mean squared error*).



In [3]:
from sklearn.metrics import mean_squared_error

y_verdadeiro = y_teste
y_previsao = modelo_baseline.predict(X_teste)

RMSE = mean_squared_error(y_verdadeiro, y_previsao, squared=False)

print(f"O RMSE do modelo baseline foi de {RMSE} dólares.")

O RMSE do modelo baseline foi de 3984.6429215453436 dólares.


Você deve estar se perguntando porque um modelo tão simples como este existe. A resposta é que este é o tipo de modelo que usamos como *baseline*. Quando estudamos aprendizado de máquina nós geralmente queremos *comparar* diferentes modelos em busca do que tem a melhor performance. Para isso, é necessário ter mais de um modelo disponível (do contrário não conseguimos comparar nada).

Os modelos *dummy* (também conhecidos como modelos fictícios) servem como uma primeira linha de base para nossas comparações. Agora que temos esse modelo, sabemos que qualquer modelo que tiver performance melhor que este será bem-vindo. Também sabemos que se algum modelo tiver performance pior que este modelo, então ele é tão ruim a ponto de ser pior que apenas chutar a média&#x2026;



## Modelo linear



OK&#x2026; quem sabe você não tenha ficado tão animado assim com seu primeiro modelo de machine learning, mas considere ele o &ldquo;Olá, mundo!&rdquo; do aprendizado de máquina. Este tipo de modelo que vimos já nos mostrou muita coisa interessante sobre como o `scikit-learn` funciona! E a boa notícia é que esse conhecimento pode ser usado para os modelos mais interessantes!

Vamos treinar um outro modelo considerado simples, um modelo linear! Este modelo, assim como o nome sugere, irá buscar como relacionar linearmente as suas features com seu target. Apesar de nem tudo nessa vida ser linear, modelos lineares podem ser muito úteis em diversas situações e eles trazem a vantagem que são modelos que podem ser facilmente *analisados* (isto é, você pode facilmente se debruçar sobre o modelo e analisar como ele faz as suas previsões).

Novamente, vamos carregar os dados (aqui é a mesma célula de cima, está repetida apenas para facilitar a visualização).



In [4]:
import seaborn as sns
from sklearn.model_selection import train_test_split

TAMANHO_TESTE = 0.1
SEMENTE_ALEATORIA = 61455
DATASET_NAME = "diamonds"
FEATURES = ["carat", "depth", "table", "x", "y", "z"]
TARGET = ["price"]

df = sns.load_dataset(DATASET_NAME)

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=TAMANHO_TESTE, random_state=SEMENTE_ALEATORIA
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

# observe que usamos o .values aqui pois queremos apenas os valores
X_treino = df_treino.reindex(FEATURES, axis=1).values
y_treino = df_treino.reindex(TARGET, axis=1).values
X_teste = df_teste.reindex(FEATURES, axis=1).values
y_teste = df_teste.reindex(TARGET, axis=1).values

Hora de treinar nosso modelo! Observe que a sintaxe é praticamente a mesma que usamos acima!!



In [5]:
from sklearn.linear_model import LinearRegression

# cria o modelo
modelo_linear = LinearRegression()

# treina o modelo
modelo_linear.fit(X_treino, y_treino)

# realiza uma previsão usando o modelo treinado
previsao = modelo_linear.predict(X_teste)
print(previsao)

[[ 897.93104962]
 [ 116.55100153]
 [ 722.52416738]
 ...
 [ 490.07633889]
 [1018.33532029]
 [ 706.0257798 ]]


Vamos checar se nosso modelo linear tem performance melhor que o modelo baseline.



In [6]:
from sklearn.metrics import mean_squared_error

y_verdadeiro = y_teste
y_previsao = modelo_linear.predict(X_teste)

RMSE = mean_squared_error(y_verdadeiro, y_previsao, squared=False)

print(f"O RMSE do modelo linear foi de {RMSE} dólares.")

O RMSE do modelo linear foi de 1476.6783402952751 dólares.


O RMSE do modelo linear foi de 1477 dólares enquanto que a performance do modelo baseline foi de 3985 dólares. Estamos indo na direção certa! 🎉



## Normalizando os dados



Em certos casos é benéfico ou até necessário normalizar os dados antes de treinar seu modelo. Vamos ver como fazer isso usando o `scikit-learn`. Iniciamos carregando os dados.



In [7]:
import seaborn as sns
from sklearn.model_selection import train_test_split

TAMANHO_TESTE = 0.1
SEMENTE_ALEATORIA = 61455
DATASET_NAME = "diamonds"
FEATURES = ["carat", "depth", "table", "x", "y", "z"]
TARGET = ["price"]

df = sns.load_dataset(DATASET_NAME)

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=TAMANHO_TESTE, random_state=SEMENTE_ALEATORIA
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

# observe que usamos o .values aqui pois queremos apenas os valores
X_treino = df_treino.reindex(FEATURES, axis=1).values
y_treino = df_treino.reindex(TARGET, axis=1).values
X_teste = df_teste.reindex(FEATURES, axis=1).values
y_teste = df_teste.reindex(TARGET, axis=1).values

O `scikit-learn` já tem embutido diversas funções para normalizar os dados. Vamos usar a normalização pelo mínimo e máximo (função `MinMaxScaler`).



In [8]:
from sklearn.preprocessing import MinMaxScaler

normalizador_x = MinMaxScaler()
normalizador_y = MinMaxScaler()

normalizador_x.fit(X_treino)
normalizador_y.fit(y_treino)

Observe na célula acima que nós fitamos o normalizador apenas nos dados de treino. Lembre-se que os dados de teste não podem ser usados durante o treino diretamente <u>ou indiretamente</u>! Você deve sempre considerar que os dados de teste <u>não existem</u>! Se você falhar em seguir essa regra, irá cometer um dos 7 pecados capitais do aprendizado de máquina, o pecado do [vazamento de dados](https://en.wikipedia.org/wiki/Leakage_(machine_learning)).

Agora vamos ajustar nosso modelo. Veja que usamos o normalizador para transformar (`transform`) e reverter (`inverse_transform`) os valores das features e do target.



In [9]:
from sklearn.linear_model import LinearRegression

# cria o modelo
modelo_linear = LinearRegression()

# treina o modelo
modelo_linear.fit(
    normalizador_x.transform(X_treino),
    normalizador_y.transform(y_treino),
)

# realiza uma previsão usando o modelo treinado
previsao = modelo_linear.predict(normalizador_x.transform(X_treino))
previsao = normalizador_y.inverse_transform(previsao)
print(previsao)

[[1459.91052178]
 [1671.38453724]
 [1265.63384206]
 ...
 [3499.6381101 ]
 [ 233.55501214]
 [ 671.81326587]]


Finalmente, vamos investigar se a normalização melhorou a performance do nosso modelo.



In [10]:
from sklearn.metrics import mean_squared_error

y_verdadeiro = y_teste
y_previsao = modelo_linear.predict(normalizador_x.transform(X_teste))
y_previsao = normalizador_y.inverse_transform(y_previsao)

RMSE = mean_squared_error(y_verdadeiro, y_previsao, squared=False)

print(f"O RMSE do modelo linear foi de {RMSE} dólares.")

O RMSE do modelo linear foi de 1476.6783402952751 dólares.


Como você pode ver, o RMSE do modelo linear sem normalização foi de 1477 dólares e o RMSE do modelo linear com normalização foi de 1477 dólares. Isso nos mostra que neste caso, não houve diferença em se aplicar a normalização nos dados.

