Baseline e modelo linear
========================



## Baseline



Vamos treinar nosso primeiro modelo de machine learning! Este √© um dos modelos mais simples que existe: a sua estrat√©gia √© sempre prever a m√©dia dos valores do target.

Vamos primeiro carregar os dados.



In [1]:
import seaborn as sns
from sklearn.model_selection import train_test_split

TAMANHO_TESTE = 0.1
SEMENTE_ALEATORIA = 61455
DATASET_NAME = "diamonds"
FEATURES = ["carat", "depth", "table", "x", "y", "z"]
TARGET = ["price"]

df = sns.load_dataset(DATASET_NAME)

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=TAMANHO_TESTE, random_state=SEMENTE_ALEATORIA
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

# observe que usamos o .values aqui pois queremos apenas os valores
X_treino = df_treino.reindex(FEATURES, axis=1).values
y_treino = df_treino.reindex(TARGET, axis=1).values
X_teste = df_teste.reindex(FEATURES, axis=1).values
y_teste = df_teste.reindex(TARGET, axis=1).values

Agora vamos treinar nosso modelo!



In [2]:
from sklearn.dummy import DummyRegressor

# cria o modelo
modelo_baseline = DummyRegressor()

# treina o modelo
modelo_baseline.fit(X_treino, y_treino)

# realiza uma previs√£o usando o modelo treinado
previsao = modelo_baseline.predict(X_teste)
print(previsao)

[3932.63554155 3932.63554155 3932.63554155 ... 3932.63554155 3932.63554155
 3932.63554155]


Como saber se nosso modelo √© bom? Para isso precisamos de *m√©tricas*! Uma m√©trica bastante √∫til √© a raiz quadrada do erro quadr√°tico m√©dio (RMSE, *root mean squared error*).



In [3]:
from sklearn.metrics import mean_squared_error

y_verdadeiro = y_teste
y_previsao = modelo_baseline.predict(X_teste)

RMSE = mean_squared_error(y_verdadeiro, y_previsao, squared=False)

print(f"O RMSE do modelo baseline foi de {RMSE} d√≥lares.")

O RMSE do modelo baseline foi de 3984.6429215453436 d√≥lares.


Voc√™ deve estar se perguntando porque um modelo t√£o simples como este existe. A resposta √© que este √© o tipo de modelo que usamos como *baseline*. Quando estudamos aprendizado de m√°quina n√≥s geralmente queremos *comparar* diferentes modelos em busca do que tem a melhor performance. Para isso, √© necess√°rio ter mais de um modelo dispon√≠vel (do contr√°rio n√£o conseguimos comparar nada).

Os modelos *dummy* (tamb√©m conhecidos como modelos fict√≠cios) servem como uma primeira linha de base para nossas compara√ß√µes. Agora que temos esse modelo, sabemos que qualquer modelo que tiver performance melhor que este ser√° bem-vindo. Tamb√©m sabemos que se algum modelo tiver performance pior que este modelo, ent√£o ele √© t√£o ruim a ponto de ser pior que apenas chutar a m√©dia&#x2026;



## Modelo linear



OK&#x2026; quem sabe voc√™ n√£o tenha ficado t√£o animado assim com seu primeiro modelo de machine learning, mas considere ele o &ldquo;Ol√°, mundo!&rdquo; do aprendizado de m√°quina. Este tipo de modelo que vimos j√° nos mostrou muita coisa interessante sobre como o `scikit-learn` funciona! E a boa not√≠cia √© que esse conhecimento pode ser usado para os modelos mais interessantes!

Vamos treinar um outro modelo considerado simples, um modelo linear! Este modelo, assim como o nome sugere, ir√° buscar como relacionar linearmente as suas features com seu target. Apesar de nem tudo nessa vida ser linear, modelos lineares podem ser muito √∫teis em diversas situa√ß√µes e eles trazem a vantagem que s√£o modelos que podem ser facilmente *analisados* (isto √©, voc√™ pode facilmente se debru√ßar sobre o modelo e analisar como ele faz as suas previs√µes).

Novamente, vamos carregar os dados (aqui √© a mesma c√©lula de cima, est√° repetida apenas para facilitar a visualiza√ß√£o).



In [4]:
import seaborn as sns
from sklearn.model_selection import train_test_split

TAMANHO_TESTE = 0.1
SEMENTE_ALEATORIA = 61455
DATASET_NAME = "diamonds"
FEATURES = ["carat", "depth", "table", "x", "y", "z"]
TARGET = ["price"]

df = sns.load_dataset(DATASET_NAME)

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=TAMANHO_TESTE, random_state=SEMENTE_ALEATORIA
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

# observe que usamos o .values aqui pois queremos apenas os valores
X_treino = df_treino.reindex(FEATURES, axis=1).values
y_treino = df_treino.reindex(TARGET, axis=1).values
X_teste = df_teste.reindex(FEATURES, axis=1).values
y_teste = df_teste.reindex(TARGET, axis=1).values

Hora de treinar nosso modelo! Observe que a sintaxe √© praticamente a mesma que usamos acima!!



In [5]:
from sklearn.linear_model import LinearRegression

# cria o modelo
modelo_linear = LinearRegression()

# treina o modelo
modelo_linear.fit(X_treino, y_treino)

# realiza uma previs√£o usando o modelo treinado
previsao = modelo_linear.predict(X_teste)
print(previsao)

[[ 897.93104962]
 [ 116.55100153]
 [ 722.52416738]
 ...
 [ 490.07633889]
 [1018.33532029]
 [ 706.0257798 ]]


Vamos checar se nosso modelo linear tem performance melhor que o modelo baseline.



In [6]:
from sklearn.metrics import mean_squared_error

y_verdadeiro = y_teste
y_previsao = modelo_linear.predict(X_teste)

RMSE = mean_squared_error(y_verdadeiro, y_previsao, squared=False)

print(f"O RMSE do modelo linear foi de {RMSE} d√≥lares.")

O RMSE do modelo linear foi de 1476.6783402952751 d√≥lares.


O RMSE do modelo linear foi de 1477 d√≥lares enquanto que a performance do modelo baseline foi de 3985 d√≥lares. Estamos indo na dire√ß√£o certa! üéâ



## Normalizando os dados



Em certos casos √© ben√©fico ou at√© necess√°rio normalizar os dados antes de treinar seu modelo. Vamos ver como fazer isso usando o `scikit-learn`. Iniciamos carregando os dados.



In [7]:
import seaborn as sns
from sklearn.model_selection import train_test_split

TAMANHO_TESTE = 0.1
SEMENTE_ALEATORIA = 61455
DATASET_NAME = "diamonds"
FEATURES = ["carat", "depth", "table", "x", "y", "z"]
TARGET = ["price"]

df = sns.load_dataset(DATASET_NAME)

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=TAMANHO_TESTE, random_state=SEMENTE_ALEATORIA
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

# observe que usamos o .values aqui pois queremos apenas os valores
X_treino = df_treino.reindex(FEATURES, axis=1).values
y_treino = df_treino.reindex(TARGET, axis=1).values
X_teste = df_teste.reindex(FEATURES, axis=1).values
y_teste = df_teste.reindex(TARGET, axis=1).values

O `scikit-learn` j√° tem embutido diversas fun√ß√µes para normalizar os dados. Vamos usar a normaliza√ß√£o pelo m√≠nimo e m√°ximo (fun√ß√£o `MinMaxScaler`).



In [8]:
from sklearn.preprocessing import MinMaxScaler

normalizador_x = MinMaxScaler()
normalizador_y = MinMaxScaler()

normalizador_x.fit(X_treino)
normalizador_y.fit(y_treino)

Observe na c√©lula acima que n√≥s fitamos o normalizador apenas nos dados de treino. Lembre-se que os dados de teste n√£o podem ser usados durante o treino diretamente <u>ou indiretamente</u>! Voc√™ deve sempre considerar que os dados de teste <u>n√£o existem</u>! Se voc√™ falhar em seguir essa regra, ir√° cometer um dos 7 pecados capitais do aprendizado de m√°quina, o pecado do [vazamento de dados](https://en.wikipedia.org/wiki/Leakage_(machine_learning)).

Agora vamos ajustar nosso modelo. Veja que usamos o normalizador para transformar (`transform`) e reverter (`inverse_transform`) os valores das features e do target.



In [9]:
from sklearn.linear_model import LinearRegression

# cria o modelo
modelo_linear = LinearRegression()

# treina o modelo
modelo_linear.fit(
    normalizador_x.transform(X_treino),
    normalizador_y.transform(y_treino),
)

# realiza uma previs√£o usando o modelo treinado
previsao = modelo_linear.predict(normalizador_x.transform(X_treino))
previsao = normalizador_y.inverse_transform(previsao)
print(previsao)

[[1459.91052178]
 [1671.38453724]
 [1265.63384206]
 ...
 [3499.6381101 ]
 [ 233.55501214]
 [ 671.81326587]]


Finalmente, vamos investigar se a normaliza√ß√£o melhorou a performance do nosso modelo.



In [10]:
from sklearn.metrics import mean_squared_error

y_verdadeiro = y_teste
y_previsao = modelo_linear.predict(normalizador_x.transform(X_teste))
y_previsao = normalizador_y.inverse_transform(y_previsao)

RMSE = mean_squared_error(y_verdadeiro, y_previsao, squared=False)

print(f"O RMSE do modelo linear foi de {RMSE} d√≥lares.")

O RMSE do modelo linear foi de 1476.6783402952751 d√≥lares.


Como voc√™ pode ver, o RMSE do modelo linear sem normaliza√ß√£o foi de 1477 d√≥lares e o RMSE do modelo linear com normaliza√ß√£o foi de 1477 d√≥lares. Isso nos mostra que neste caso, n√£o houve diferen√ßa em se aplicar a normaliza√ß√£o nos dados.

