# 🪄  A magia dos pipelines

Guerreiros da missão: **Tsuru** (Júlia Guedes Almeida dos Santos), **Pólux** (Raquel de Godoy Vianna) e **Tiles** (Thalles José de Souza Cansi).

> O feitiço vira contra o feiticeiro.

## 🖼️ Enunciado

<div style="text-align: justify;">
Crie pelo menos 3 pipelines diferentes e utilize eles em um conjunto de dados a sua escolha. Pelo menos um destes pipelines deve ser criado pela função Pipeline do scikit-learn (ver mais informações aqui). Pelo menos um destes pipelines deve conter 3 ou mais passos. Os pipelines devem fazer sentido.
</div>

## 📝 Introdução

<div style="text-align: justify;">
É um novo dia no reino de Lumi e os cavaleiros da Aliança da Supernova iniciam uma nova jornada. Após ouvir falar sobre estes valentes cavaleiros e seus ideais revolucionários, a Guilda dos Magos contatou a Aliança™ e instigou os membros desta guilda a se aventurarem pelo mundo mágico dos pipelines! Em troca dessa nobre missão de desbravamento, a Guilda dos Magos se uniria à revolução proposta pela Aliança da Supernova e propagaria seus princípios pelo reino de Lumi. Assim, como cavaleiros comprometidos com suas convicções revolucionárias, bem como aprendizes ávidos por conhecimento, a Aliança da Supernova decidiu aceitar essa missão! Nesse sentido, utilizando seu conjunto de dados favorito, que trata sobre Supercondutores [1]. Com isso, eles serão capazes de analisar atributos de supercondutores e prever a temperatura crítica deles. Pipeline, em suma, consiste em uma maneira de combinar processos, de modo a facilitar a manipulação dos dados, bem como a implementação de modelos.

</div>

## 🗡️ Que comecem os códigos!

### 📚 Importação de bibliotecas

Os cavaleiros importam as bibliotecas essenciais para a execução do código!

In [19]:
import os
import pandas as pd
from sklearn.neighbors import KNeighborsRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import root_mean_squared_error
from sklearn.pipeline import Pipeline


### ⚛️ Importação do Dataset

Antes de começar, devemos importar o conjunto de dados com o qual iremos trabalhar.

In [20]:
df = pd.read_csv(f"../data/train.csv", sep = ',')
df = df.dropna()
display(df)

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
0,4,88.944468,57.862692,66.361592,36.116612,1.181795,1.062396,122.90607,31.794921,51.968828,...,2.257143,2.213364,2.219783,1.368922,1.066221,1,1.085714,0.433013,0.437059,29.00
1,5,92.729214,58.518416,73.132787,36.396602,1.449309,1.057755,122.90607,36.161939,47.094633,...,2.257143,1.888175,2.210679,1.557113,1.047221,2,1.128571,0.632456,0.468606,26.00
2,4,88.944468,57.885242,66.361592,36.122509,1.181795,0.975980,122.90607,35.741099,51.968828,...,2.271429,2.213364,2.232679,1.368922,1.029175,1,1.114286,0.433013,0.444697,19.00
3,4,88.944468,57.873967,66.361592,36.119560,1.181795,1.022291,122.90607,33.768010,51.968828,...,2.264286,2.213364,2.226222,1.368922,1.048834,1,1.100000,0.433013,0.440952,22.00
4,4,88.944468,57.840143,66.361592,36.110716,1.181795,1.129224,122.90607,27.848743,51.968828,...,2.242857,2.213364,2.206963,1.368922,1.096052,1,1.057143,0.433013,0.428809,23.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21258,4,106.957877,53.095769,82.515384,43.135565,1.177145,1.254119,146.88130,15.504479,65.764081,...,3.555556,3.223710,3.519911,1.377820,0.913658,1,2.168889,0.433013,0.496904,2.44
21259,5,92.266740,49.021367,64.812662,32.867748,1.323287,1.571630,188.38390,7.353333,69.232655,...,2.047619,2.168944,2.038991,1.594167,1.337246,1,0.904762,0.400000,0.212959,122.10
21260,2,99.663190,95.609104,99.433882,95.464320,0.690847,0.530198,13.51362,53.041104,6.756810,...,4.800000,4.472136,4.781762,0.686962,0.450561,1,3.200000,0.500000,0.400000,1.98
21261,2,99.663190,97.095602,99.433882,96.901083,0.690847,0.640883,13.51362,31.115202,6.756810,...,4.690000,4.472136,4.665819,0.686962,0.577601,1,2.210000,0.500000,0.462493,1.84


Só relembrando aquilo que já foi demonstrado anteriormente: o dataset com o qual estamos trabalhando não apresenta valores faltantes!

### 🗂️Treino ou teste?

Para, posteriormente, realizar uma análise da eficiência do modelo é essencial separarmos o dataframe em dados de **treino** (90% do dataset original) e dados **teste** (os 10% restantes). Isso foi feito por meio da função ``train_test_split`` do módulo ``scikit-learn``. 

In [21]:
tamanho_teste = 0.1
seed = 314159

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=tamanho_teste, random_state=seed, shuffle=True
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

In [22]:
df_treino

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
20691,5,66.164747,68.003517,32.238494,27.740366,1.325491,1.078844,139.10806,34.777015,44.608681,...,3.260000,2.992556,2.791176,1.513603,1.314525,4,1.210000,1.356466,1.480676,2.00000
20128,4,81.756699,79.817745,76.282833,75.254709,1.312596,1.137617,81.48200,29.096429,32.890369,...,3.614800,3.309751,3.407937,1.333736,1.002987,3,1.940800,1.118034,1.198675,6.20000
6816,6,97.247133,62.248237,70.691312,37.270004,1.534688,1.454705,192.98100,27.333512,68.900818,...,2.436667,2.492883,2.289162,1.717076,1.406645,3,1.016667,1.105542,1.042108,51.70000
20995,3,92.333933,17.099683,55.672861,12.748629,0.782568,0.735562,164.15580,9.764041,67.020920,...,3.075692,3.301927,3.066042,1.088900,0.330789,1,2.765538,0.471405,0.264505,5.65000
13818,1,195.084000,195.084000,195.084000,195.084000,0.000000,0.000000,0.00000,0.000000,0.000000,...,6.000000,6.000000,6.000000,0.000000,0.000000,0,0.000000,0.000000,0.000000,0.00104
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1451,4,76.444563,50.426168,59.356672,34.708082,1.199541,1.293319,121.32760,13.267725,43.823354,...,2.071429,2.213364,2.058771,1.368922,1.192015,1,0.857143,0.433013,0.257539,92.00000
3650,7,71.885607,43.718278,60.708840,32.373992,1.811361,1.776320,121.32760,10.224831,35.914688,...,2.123077,2.245649,2.102339,1.927392,1.487321,1,1.030769,0.451754,0.328525,50.00000
10577,2,105.808190,99.357285,105.018648,98.777034,0.685694,0.609754,25.80362,40.002285,12.901810,...,4.750000,4.472136,4.728708,0.686962,0.514653,1,2.750000,0.500000,0.433013,17.40000
16373,2,123.386835,123.386835,122.407038,122.407038,0.685217,0.685217,31.03727,15.518635,15.518635,...,2.000000,1.732051,1.732051,0.562335,0.562335,2,1.000000,1.000000,1.000000,1.06000


In [23]:
df_teste

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
10365,5,79.171174,51.516898,59.994943,34.424411,1.389953,1.452301,122.906070,13.193298,50.424957,...,2.097790,2.168944,2.080894,1.594167,1.276648,1,1.022101,0.400000,0.297030,80.50
11956,2,165.561235,174.446490,163.401324,172.491479,0.680130,0.578651,53.311530,81.842843,26.655765,...,5.000000,4.242641,4.762203,0.636514,0.500402,3,3.000000,1.500000,1.414214,0.48
18318,3,87.468333,79.562500,82.555758,74.869788,1.041270,1.079755,71.755000,12.160000,29.905282,...,4.500000,4.762203,4.242641,1.054920,1.098612,3,0.000000,1.414214,1.500000,15.00
7732,5,90.062574,57.098710,70.846965,35.859379,1.440875,1.140113,128.242600,32.864070,47.990598,...,2.267857,2.352158,2.229448,1.589027,1.133428,1,1.107143,0.489898,0.442843,15.00
4638,7,115.323400,87.694604,83.550312,68.201146,1.703770,1.581531,192.981000,31.836924,76.422671,...,2.580000,2.944713,2.390576,1.836012,1.708707,4,0.740000,1.577909,1.176265,108.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12586,2,68.089956,87.985234,64.039504,86.815356,0.634265,0.154248,46.268088,81.691406,23.134044,...,3.930000,3.464102,3.920255,0.682908,0.208508,1,3.510000,0.500000,0.255147,0.08
6786,6,92.855242,60.800751,68.700024,36.699339,1.545324,1.403882,192.981000,28.317872,65.029203,...,2.433333,2.615321,2.284275,1.707475,1.394385,3,1.040000,1.213352,1.048279,70.00
8104,5,89.395704,56.835274,70.516349,35.780198,1.443072,1.111241,124.908250,33.013201,47.250556,...,2.277500,2.491462,2.234701,1.564957,1.134470,2,1.100000,0.800000,0.476364,37.00
2317,5,103.341080,90.687349,79.252892,73.751495,1.434500,1.302115,142.925950,36.950657,54.530943,...,2.185714,2.491462,2.145559,1.564957,1.456030,2,0.685714,0.800000,0.486764,50.00


Agora, definiremos X_treino e y_treino, bem como o X_teste e o y_teste, isto é, quais os atributos (x) e qual o target (y). Nesse sentido, o target será a temperatura crítica, enquanto os atributos serão as colunas restantes. Para isso, inicialmente, foi definida uma lista com os nomes das colunas do dataframe para facilitar o processo.

In [24]:
lista_colunas = list(df.columns)

In [25]:
target = [lista_colunas.pop(81)]
atributos = lista_colunas

y_treino = df_treino[target]
X_treino = df_treino[atributos]

y_teste = df_teste[target]
X_teste = df_teste[atributos]

Abaixo, exibimos os y treino e teste, bem como o X treino e teste.

In [26]:
y_treino

Unnamed: 0,critical_temp
20691,2.00000
20128,6.20000
6816,51.70000
20995,5.65000
13818,0.00104
...,...
1451,92.00000
3650,50.00000
10577,17.40000
16373,1.06000


In [27]:
y_teste

Unnamed: 0,critical_temp
10365,80.50
11956,0.48
18318,15.00
7732,15.00
4638,108.00
...,...
12586,0.08
6786,70.00
8104,37.00
2317,50.00


In [28]:
X_treino

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,mean_Valence,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence
20691,5,66.164747,68.003517,32.238494,27.740366,1.325491,1.078844,139.10806,34.777015,44.608681,...,3.400000,3.260000,2.992556,2.791176,1.513603,1.314525,4,1.210000,1.356466,1.480676
20128,4,81.756699,79.817745,76.282833,75.254709,1.312596,1.137617,81.48200,29.096429,32.890369,...,3.500000,3.614800,3.309751,3.407937,1.333736,1.002987,3,1.940800,1.118034,1.198675
6816,6,97.247133,62.248237,70.691312,37.270004,1.534688,1.454705,192.98100,27.333512,68.900818,...,2.666667,2.436667,2.492883,2.289162,1.717076,1.406645,3,1.016667,1.105542,1.042108
20995,3,92.333933,17.099683,55.672861,12.748629,0.782568,0.735562,164.15580,9.764041,67.020920,...,3.333333,3.075692,3.301927,3.066042,1.088900,0.330789,1,2.765538,0.471405,0.264505
13818,1,195.084000,195.084000,195.084000,195.084000,0.000000,0.000000,0.00000,0.000000,0.000000,...,6.000000,6.000000,6.000000,6.000000,0.000000,0.000000,0,0.000000,0.000000,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1451,4,76.444563,50.426168,59.356672,34.708082,1.199541,1.293319,121.32760,13.267725,43.823354,...,2.250000,2.071429,2.213364,2.058771,1.368922,1.192015,1,0.857143,0.433013,0.257539
3650,7,71.885607,43.718278,60.708840,32.373992,1.811361,1.776320,121.32760,10.224831,35.914688,...,2.285714,2.123077,2.245649,2.102339,1.927392,1.487321,1,1.030769,0.451754,0.328525
10577,2,105.808190,99.357285,105.018648,98.777034,0.685694,0.609754,25.80362,40.002285,12.901810,...,4.500000,4.750000,4.472136,4.728708,0.686962,0.514653,1,2.750000,0.500000,0.433013
16373,2,123.386835,123.386835,122.407038,122.407038,0.685217,0.685217,31.03727,15.518635,15.518635,...,2.000000,2.000000,1.732051,1.732051,0.562335,0.562335,2,1.000000,1.000000,1.000000


In [29]:
X_teste

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,mean_Valence,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence
10365,5,79.171174,51.516898,59.994943,34.424411,1.389953,1.452301,122.906070,13.193298,50.424957,...,2.200000,2.097790,2.168944,2.080894,1.594167,1.276648,1,1.022101,0.400000,0.297030
11956,2,165.561235,174.446490,163.401324,172.491479,0.680130,0.578651,53.311530,81.842843,26.655765,...,4.500000,5.000000,4.242641,4.762203,0.636514,0.500402,3,3.000000,1.500000,1.414214
18318,3,87.468333,79.562500,82.555758,74.869788,1.041270,1.079755,71.755000,12.160000,29.905282,...,5.000000,4.500000,4.762203,4.242641,1.054920,1.098612,3,0.000000,1.414214,1.500000
7732,5,90.062574,57.098710,70.846965,35.859379,1.440875,1.140113,128.242600,32.864070,47.990598,...,2.400000,2.267857,2.352158,2.229448,1.589027,1.133428,1,1.107143,0.489898,0.442843
4638,7,115.323400,87.694604,83.550312,68.201146,1.703770,1.581531,192.981000,31.836924,76.422671,...,3.285714,2.580000,2.944713,2.390576,1.836012,1.708707,4,0.740000,1.577909,1.176265
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12586,2,68.089956,87.985234,64.039504,86.815356,0.634265,0.154248,46.268088,81.691406,23.134044,...,3.500000,3.930000,3.464102,3.920255,0.682908,0.208508,1,3.510000,0.500000,0.255147
6786,6,92.855242,60.800751,68.700024,36.699339,1.545324,1.403882,192.981000,28.317872,65.029203,...,2.833333,2.433333,2.615321,2.284275,1.707475,1.394385,3,1.040000,1.213352,1.048279
8104,5,89.395704,56.835274,70.516349,35.780198,1.443072,1.111241,124.908250,33.013201,47.250556,...,2.600000,2.277500,2.491462,2.234701,1.564957,1.134470,2,1.100000,0.800000,0.476364
2317,5,103.341080,90.687349,79.252892,73.751495,1.434500,1.302115,142.925950,36.950657,54.530943,...,2.600000,2.185714,2.491462,2.145559,1.564957,1.456030,2,0.685714,0.800000,0.486764


### 🫧 Definindo e utilizando cada ``Pipeline``

Com o intuito de facilitar o processo de implementação de modelos, serão definidas pipelines que normalizam os dados e, posteriormente aplicam cada modelo. Nesse sentido, para criar cada uma das Pipelines, será utilizado o `make_pipeline` do módulo `scikit-learn`. Abaixo, elas são definidas.

##### 🪼*1. Pipeline para normalização, PCA e modelo de regressão linear*

O primeira pipeline a ser definido consiste em um pipeline que realiza a normalização padrão (StandardScaler), o PCA e, por fim, a implementação do modelo de regressão linear. Isso com o intuito de facilitar a análise realizada na quest acerca das hipóteses reais.

In [30]:
num_componentes = 20

modelo_regressao_linear_PCA_pipeline = make_pipeline(
    StandardScaler(),
    PCA(num_componentes),
    LinearRegression(),
)

modelo_regressao_linear_PCA_pipeline.fit(X_treino, y_treino)

Agora, a métrica do modelo implementado pelo Pipeline criado será aferida por intermédio da RMSE.

In [31]:
modelo_regressao_linear_PCA_pipeline.fit(X_treino, y_treino)

X_verdadeiro = X_teste
y_verdadeiro = y_teste

y_previsto = modelo_regressao_linear_PCA_pipeline.predict(X_verdadeiro)

RMSE = root_mean_squared_error(y_verdadeiro, y_previsto)

print(f"O RMSE do modelo foi de {RMSE} K.")

O RMSE do modelo foi de 21.094527875219427 K.


##### 🪼*2. Pipeline para normalização e modelo de regressão linear*

O primeiro pipeline a ser definido consiste em um pipeline que realiza a normalização padrão (StandardScaler) seguida pela implementação do modelo de regressão linear.

In [32]:
modelo_regressao_linear_pipeline = make_pipeline(
    StandardScaler(),
    LinearRegression(),
)

modelo_regressao_linear_pipeline.fit(X_treino, y_treino)

Agora, a métrica do modelo que Pipeline criado implementou será aferida por intermédio da RMSE.

In [33]:
modelo_regressao_linear_pipeline.fit(X_treino, y_treino)

X_verdadeiro = X_teste
y_verdadeiro = y_teste

y_previsto = modelo_regressao_linear_pipeline.predict(X_verdadeiro)

RMSE = root_mean_squared_error(y_verdadeiro, y_previsto)

print(f"O RMSE do modelo foi de {RMSE} K.")

O RMSE do modelo foi de 17.72913808802947 K.


Que interessante! Haja vista os resultados obtidos, nota-se que realizar o PCA antes de implementar o modelo de regressão linear, acaba tornado a performance deste pior.

##### 🪼*3. Pipeline para normalização e modelo SGD*

Como já vimos anteriormente em outra missão, o método de regressão SGD é um modelo mais adequado para os dados que possuímos, motivo pelo qual, será criado um pipeline para normalização e posterior implementação deste.

In [34]:
from sklearn.linear_model import SGDRegressor

pipeline_sgd = Pipeline([
    ('scaler', StandardScaler()),
    ('model', SGDRegressor(max_iter=1000, tol=1e-3))
])

pipeline_sgd.fit(X_treino.values, y_treino.values.ravel())

Possibilitando uma comparação de eficiência deste modelo por meio do seu RMSE:

In [47]:
pipeline_sgd.fit(X_treino, y_treino)

X_verdadeiro = X_teste
y_verdadeiro = y_teste

y_previsto = pipeline_sgd.predict(X_verdadeiro)

RMSE = root_mean_squared_error(y_verdadeiro, y_previsto)

print(f"O RMSE do modelo foi de {RMSE} K.")

  y = column_or_1d(y, warn=True)


O RMSE do modelo foi de 17.84571127920462 K.


##### 🪼*4. Pipeline para normalização e modelo k-NN regressor*

In [41]:
modelo_knn_pipeline = make_pipeline(
    StandardScaler(),
    KNeighborsRegressor(n_neighbors=4, p=1)
)
modelo_knn_pipeline.fit(X_treino, y_treino)

Aferindo o RMSE do modelo implementado pelo pipeline criado:

In [45]:
modelo_knn_pipeline.fit(X_treino, y_treino)

X_verdadeiro = X_teste
y_verdadeiro = y_teste

y_previsto = modelo_knn_pipeline.predict(X_verdadeiro)

RMSE = root_mean_squared_error(y_verdadeiro, y_previsto) 

print(f"O RMSE do modelo foi de {RMSE} K.")

O RMSE do modelo foi de 10.272014405190896 K.


## 🛡️ Conclusão

Após a missão de desbravamento realizada, os cavaleiros da Aliança da Supernova foram capazes de aprender mais sobre os pipelines, denotando que são ferramentas extremamente úteis para facilitar a execução passos sequênciais envolvidos na implementação do modelo de aprendizado de máquina. Além disso, com o fim desta exploração, a Guilda dos Magos reconheceu os cavaleiros da Aliança como nobres aventureiros, bem como denotou que esta guilda é promotora de um movimento válido e justo. Esses foram os principais motivos para que a Guilda dos Magos se unisse à Aliança da Supernova no tocante aos seus ideais revolucionários, correspondendo a uma importante aquisição na luta para o fim da homogeinização dos cavaleiros de Lumi. Contudo, vale ressaltar que a jornada de Tsuru, Pólux e Tiles ainda será marcada por aventuras e aprendizados cada vez mais relevantes para seus objetivos finais!

Os cavaleiros Tsuru, Pólux e Tiles esperam que esse trabalho possa ser bem aproveitado pelos cidadãos de Lumi e, sobretudo, por seus mais novos aliados: a Guilda dos Magos. Que a sede de exploração da magia da predição esteja sempre com vocês! ⚔️

## 📚 Referências!

Encontram-se listados abaixo os pergaminhos e escrituras de anciões sábios utilizados pela Aliança da Supernova no decorrer da missão.

[1] A data-driven statistical model for predicting the critical temperature of a superconductor. https://archive.ics.uci.edu/dataset/464/superconductivty+data

[2] Daniel Roberto Cassar. (2024). Jupyter Notebook *ATP-203 8.1 - Redução de dimensionalidade com PCA*. [Material não publicado].

[3] Daniel Roberto Cassar. (2024). Jupyter Notebook *ATP-203 7.0 - Dados sintéticos e pipeline*. [Material não publicado].