#  <font color=''>IA</font><font color='#7ac77a'>rpi</font> 
## Introduzindo Aprendizado de Máquina no ensino de Física
--------------------------------------------

Neste Jupyter Notebook são apresentados os passos para estudar um dataset de dados experimentais do rolamento em um plano inclinado. Concomitante ao uso de algoritmos de Aprendizado de Máquina (Machine Learning - ML), são realizados cálculos através de um modelo físico, discutido ao longo de cada tarefa.

- 1) Carregando os dados;
- 2) Realizando tarefa de Aprendizado Supervisionado de Classificação;
- 3) Realizando tarefa de Aprendizado Supervisionado de Regressão.

----------------------

### 1) Carregando os dados

Para trabalhar com dados na forma de tabela, usamos a biblioteca **pandas**.

In [None]:
import pandas as pd  # Importando a biblioteca pandas com o nome pd

In [None]:
tabela_dados = pd.read_csv('../datasets/rolling.csv', sep=';') # Carrega o arquivo .csv na variável tabela_dados. 
#tabela_dados = pd.read_csv('https://raw.githubusercontent.com/simcomat/IArpi/main/datasets/rolling.csv', sep=';') # Para abrir o .csv direto do github

In [None]:
tabela_dados.head(5) # Visualizando as 5 primeiras linhas da tabela

Sabemos pela teoria que o coeficiente $\beta$ é $\frac{2}{5}$ para a esfera, $\frac{1}{2}$ para o cilindro (disco) e $1$ para o aro.

Vamos adicionar uma coluna na tabela contendo essa informação.

Primeiro definimos uma função que recebe o nome do objeto e retorna o valor associado a ele:

In [None]:
def valor_beta(objeto):
    betas = {
        'esfera':0.4,
        'cilindro':0.5,
        'aro':1
    }
    return(betas[objeto])

In [None]:
valor_beta('esfera')  # Testando a função que acabamos de criar (ela acessa a key objeto da estrutura dict betas)

Vamos criar uma coluna 'Beta' na tabela que recebe a aplicação da função 'valor_beta' sobre a coluna 'Objeto':

In [None]:
tabela_dados['Beta'] = tabela_dados['Objeto'].apply(valor_beta)

In [None]:
tabela_dados.head(3) # Vendo o começo da tabela

In [None]:
tabela_dados.tail(3) # Vendo a parte final da tabela

Vamos visualizar os dados plotando gráficos de dispersão. Abaixo estamos importando as bibliotecas Seaborn e Matplotlib para realizar essas funções. (O excesso de codificação está relacionado a formatação dos gráficos).

In [None]:
# Módulos para plotar gráficos e ajustar formatação dos mesmos
import matplotlib.pyplot as plt
import matplotlib.transforms as mtransforms
from matplotlib.ticker import AutoMinorLocator
from matplotlib.lines import Line2D
import seaborn as sns

In [None]:
# Definição dos tamanhos de fontes e ticks dos gráficos
fsize = 12
tsize = 10
major = 5.0
minor = 3.0

style = 'default'
plt.style.use(style)

#plt.rcParams['text.usetex'] = True  # Para usar fonte tex (precisa instalar o tex antes)
plt.rcParams['font.size'] = fsize      
plt.rcParams['legend.fontsize'] = tsize
plt.rcParams['xtick.direction'] = 'in'
plt.rcParams['ytick.direction'] = 'in'
plt.rcParams['xtick.major.size'] = major
plt.rcParams['xtick.minor.size'] = minor
plt.rcParams['ytick.major.size'] = major
plt.rcParams['ytick.minor.size'] = minor

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=3, sharex='col', sharey='row', figsize=(9, 5))
plt.subplots_adjust(wspace=0.22, hspace=0.25)

# Esfera
esferas = tabela_dados[tabela_dados['Objeto']=='esfera']
sns.scatterplot(data=esferas,
              y="Tempo (s)", x='Altura (m)',
              hue = 'Ângulo (°)',palette="YlGn", edgecolor='k', s=25, legend=False,
              ax = axs[0][0],
             )
sns.scatterplot(data=esferas,
              x="Altura (m)", y='Velocidade Média (m/s)',
              hue = 'Ângulo (°)',palette="YlGn", edgecolor='k', s=25, legend=False,
              ax = axs[1][0]
             )

# Cilindro
cilindros = tabela_dados[tabela_dados['Objeto']=='cilindro']
sns.scatterplot(data=cilindros,
              y="Tempo (s)", x='Altura (m)',
              hue = 'Ângulo (°)', palette="YlGn", edgecolor='k', s=25, legend=False,
              ax = axs[0][1]
             )
sns.scatterplot(data=cilindros,
              x="Altura (m)", y='Velocidade Média (m/s)',
              hue = 'Ângulo (°)',palette="YlGn", edgecolor='k', s=25, legend=False,
              ax = axs[1][1]
             )

# Aro
aros = tabela_dados[tabela_dados['Objeto']=='aro']
sns.scatterplot(data=aros,
              y="Tempo (s)", x='Altura (m)',
              hue = 'Ângulo (°)', palette="YlGn", edgecolor='k', s=25, legend=False,
              ax = axs[0][2]
             )
sns.scatterplot(data=aros,
              x="Altura (m)", y='Velocidade Média (m/s)',
              hue = 'Ângulo (°)',palette="YlGn", edgecolor='k', s=25, legend=True,
              ax = axs[1][2]
             )

# Adicionando Legenda
plt.legend(edgecolor = 'w', title='Ângulos (°)',bbox_to_anchor=(1.05, 1.5), loc='upper left', borderaxespad=0)
leg = axs[1][2].get_legend()

for lbl in leg.get_texts():
    label_text = lbl.get_text()
    new_text = f'{float(label_text):,.1f}'
    lbl.set_text(new_text)
    
for ha in leg.legendHandles:
    ha.set_edgecolor("k")
    
# Arrumando cada subplot do gráfico
lables_subplots=[['(a)','(b)','(c)'],['(d)','(e)','(f)']]
for i in range(0,2):
    for j in range(0,3):
        axs[i][j].grid(alpha=0.2, linestyle='-.', color='k', linewidth =1)
        trans = mtransforms.ScaledTranslation(10/72, -5/72, fig.dpi_scale_trans)
        axs[i][j].text(0.0, 1.0, lables_subplots[i][j], transform=axs[i][j].transAxes + trans,
                fontsize='medium', verticalalignment='top')
        axs[i][j].set_xlim([0,0.15])

        if i==0:
            axs[i][j].set_ylim([0,2.5])
            axs[i][j].set_yticks([0, 0.5, 1, 1.5, 2, 2.5])
            if j==0:  axs[i][j].set_title('Esfera')
            if j==1:  axs[i][j].set_title('Cilindro')
            if j==2:  axs[i][j].set_title('Aro')
        else:
            axs[i][j].set_ylim([0,1])
            axs[i][j].set_yticks([0, 0.5, 1])

        axs[i][j].xaxis.set_minor_locator(AutoMinorLocator())
        axs[i][j].yaxis.set_minor_locator(AutoMinorLocator())

#plt.savefig("dados.pdf", format="pdf", bbox_inches='tight') # Para salvar a imagem em formato .pdf (.png, .jpeg, etc)

------------------------------------
## 2) Classificação

Nesta tarefa queremos classificar cada objeto a partir dos dados experimentais.

Primeiramente vamos rodar o modelo físico simplifcado sobre os dados. 

Iremos fazer o cálculo pontual do valor de $\beta$ para cada dado experimental, seguindo:

### $\beta = \frac{0.5gh}{V_{med}^2}-1$

Vamos definir uma função para isso:

In [None]:
import numpy as np # Para funcoes matematicas de seno/cosseno e conversao radiano/grau

In [None]:
# A função recebe a altura, tempo e o ângulo de inclinação e devolve beta predito
def encontra_beta(altura, tempo, theta):
    g=9.8                                        # Aceleração da gravidade
    distancia=altura/np.sin(np.deg2rad(theta))   # Distância percorrida sobre o plano
    vmed = distancia/tempo                       # Velocidade média do objeto
    beta = (0.5*g*altura/vmed**2)-1
    return beta

Aplicando a função na tabela de dados:

In [None]:
tabela_dados['Beta MF'] = tabela_dados.apply(lambda x: encontra_beta(x['Altura (m)'],
                                                                     x['Tempo (s)'],
                                                                     x['Ângulo (°)']), axis=1)

In [None]:
tabela_dados.head(3)

Agora vamos aplicar o modelo a Aprendizado de Máquina de Classificação.

Precisamos separar as colunas pertinentes do modelo (features) das outras colunas: 

In [None]:
x = tabela_dados[['Altura (m)','Ângulo (°)', 'Tempo (s)']]  # Features
y = tabela_dados['Objeto']                                  # Atributo alvo

In [None]:
x.head(3)

In [None]:
y.head(3)

Agora vamos separar as linhas em dois conjuntos, um de **treinamento** e outro de **teste**. Vamos usar a biblioteca Scikit-Learn para isso:

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Dividindo conjunto de treinamento e conjunto de teste
# Stratify garante que a quantidade de cada objeto seja aproximadamente o mesmo nos conjuntos de treino e teste

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.20, random_state = 42, stratify=y)

In [None]:
len(x_train), len(y_train), len(x_test), len(y_test) # Vendo a quantidade de linhas em cada conjunto

Alguns métodos de Aprenizado de Máquina tendem a dar mais importância para features com valores numéricos maiores. Como os modelos não conhecem "unidade físicas", vamos transformar os dados numéricos de entrada (x) através de um escalonador. A ideia é que o intervalo de valores fique entre 0 e 1 para cada feature.

In [None]:
from sklearn.preprocessing import MinMaxScaler   # Escalonador

In [None]:
scaler = MinMaxScaler()   # Instanciando o escalonador
scaler.fit(x_train)       # Treinando o escalonador apenas com os dados de treinamento

x_train_scaled = scaler.transform(x_train)   # Transformando os dados de treinamento pelo escalonador treinado
x_test_scaled = scaler.transform(x_test)     # Transformando os dados de teste pelo escalonado treinado

Uma vez que os dados estão devidamente transformados para os algoritmos de Aprendizado de Máquina, vamos importar eles do Sklearn e instanciá-los.

In [None]:
from sklearn.dummy import DummyClassifier           # Modelo base
from sklearn.neighbors import KNeighborsClassifier  # k-vizinhos mais próximos (KNN)
from sklearn.ensemble import RandomForestClassifier # RandomForest
from sklearn.ensemble import GradientBoostingClassifier # GradientBoosting
from sklearn.svm import SVC                         # Maquina de Vetor Suporte SVM
from sklearn.neural_network import MLPClassifier    # Multlayer Perceptron
from sklearn.naive_bayes import GaussianNB          # Naive Bayes
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis, LinearDiscriminantAnalysis

In [None]:
# Dummy Classifier
base_model = DummyClassifier(strategy="uniform")
base_model.fit(x_train_scaled,y_train)

# LDA (Discriminante Linear)
lda = LinearDiscriminantAnalysis()  # Criando classificador (sem nenhum hiperparametro)
lda.fit(x_train_scaled, y_train)    # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# QDA (Discriminante Quadrático)
qda = QuadraticDiscriminantAnalysis()
qda.fit(x_train_scaled, y_train)

# GaussianNB
gNB = GaussianNB()
gNB.fit(x_train_scaled, y_train)

# KNN
knn = KNeighborsClassifier()     # Criando classificador (sem nenhum hiperparametro)
knn.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# SVM
svm = SVC()
svm.fit(x_train_scaled, y_train)

# MLP 
mlpc = MLPClassifier(random_state=42)
mlpc.fit(x_train_scaled, y_train)
# (As iterações de aprendizado podem alcançar o limite default emitindo um warning) 

# RandomForest
rf = RandomForestClassifier(random_state=42) # Criando classificador (hiperparametro de seed)
rf.fit(x_train_scaled, y_train) #  

#Gradient Boosting
gboo = GradientBoostingClassifier(random_state=42)
gboo.fit(x_train_scaled, y_train)

Vamos criar um discionário contendo todos os objetos dos classificadores treinados. Dessa forma, poderemos acessar qualquer um dos modelos através da variável ``` classificacores```:

In [None]:
classificadores = {
    'BM':base_model,
    'LDA':lda,
    'QDA':qda,
    'GNB':gNB,
    'KNN':knn,
    'SVM':svm,
    'RF':rf,
    'GB':gboo,
    'MLP':mlpc
}

Pronto! Nossos algoritmos de Aprendizado de Máquina foram treinandos para realizar a classificação dos dados. Eles já estão prontos para uso! Contudo, precisamos ver qual o desempenho dele para a tarefa pretendida. Para isso, vamos verificar se eles acertam as classificações dos objetos sobre o conjunto de teste.

Vamos medir algumas métricas em relação a isso: acurácia e o coeficiente kappa de Cohen. Existem outras métricas possíveis, entretanto focaremos nessas. Primeiro vamos importá-las:

In [None]:
from sklearn.metrics import accuracy_score, cohen_kappa_score, make_scorer  # Métricas de  Classificacao
from sklearn.metrics import confusion_matrix                                # Métricas de Classificacao

Agora vamos criar variáveis (estruturas dicionário e lista) para armazenar o valor de cada métrica calculada para cada modelo testado.

In [None]:
resultados={}
resultados_kappa={}
resultados_accuracia={}

lab = ['esfera','cilindro','aro']
for clf_name, clf in classificadores.items():  # Iterando sobre todos os modelos treinados
    y_pred = clf.predict(x_test_scaled)        # Passando para o ML apenas os dados de teste escalonados
    
    acc = accuracy_score(y_test, y_pred)
    kappa =  cohen_kappa_score(y_test, y_pred, labels=lab)
    
    scoring = {'accuracy': acc,
               'kappa' :kappa,
         }
    resultados_kappa[clf_name]=kappa
    resultados_accuracia[clf_name]=acc
    resultados[clf_name]=scoring

Vamos usar uma estrutura de dados pandas DataFrame para visualizar os dados das métricas que armazenamos no passo anterior:

In [None]:
resultado_teste_classificao = pd.DataFrame(data=resultados)
resultado_teste_classificao.head()

Como o algoritmo KNN rendeu o melhor resultado, vamos criar a Matriz de Confusão dele e compará-lo com o modelo físico (MF) calculado anteriormente.

Para facilitar a comparação, vamos criar uma imagem adequada:

In [None]:
y_pred= knn.predict(x_test_scaled)                # Resultados apenas do KNN
matriz_confusao=confusion_matrix(y_test, y_pred)  # Matriz de confusão do KNN
result_test=tabela_dados.iloc[x_test.index]       # Pegando apenas as linhas de teste da tabela original (para ver o MF)  

In [None]:
# Figura Classificação
fig, axd = plt.subplot_mosaic([['(a)', '(c)', '(d)'],
                               ['(b)', '(c)', '(d)']],
                              figsize=(11, 4.5), constrained_layout=True)

# Gráficos de barras de comparação dos métodos
sns.barplot(x=list(resultados_accuracia.keys()),y =[round(resultados_accuracia[k],3) for k in resultados_accuracia.keys()],
            ax=axd['(a)'], color='#81BC82', edgecolor='grey' )
sns.barplot(x=list(resultados_kappa.keys()), y =[round(resultados_kappa[k],3) for k in resultados_kappa.keys()],
            ax=axd['(b)'], color='#81BC82', edgecolor='grey' )

axd['(b)'].set_xlabel('Algoritmos de Classificação')
axd['(a)'].set_ylabel('Acurácia'), axd['(a)'].set_ylim([0,1])
axd['(b)'].set_ylabel('$\kappa$ de Cohen'), axd['(b)'].set_ylim([0,1])
axd['(a)'].set_yticks([0, 0.5, 1])
axd['(b)'].set_yticks([0, 0.5, 1])
axd['(a)'].bar_label(axd['(a)'].containers[0], rotation=90, label_type='center', color='white')
axd['(a)'].set_title('Métricas')

pos=0.05
colors_kappa=['k','k','k','k','w','k','w','w','k']
y_pos_kappa=[0.4,0.47,0.56,0.52,0.5,0.58,0.5,0.5,0.68]
for i, kp in enumerate([round(resultados_kappa[k],3) for k in resultados_kappa.keys()]):       
    plt.text(pos,y_pos_kappa[i],
             s =  '{0:.3f}'.format(kp),
             color=colors_kappa[i],
             rotation=90,
             horizontalalignment='center',
             verticalalignment='top',
             multialignment='center')
    pos = pos+1

plt.setp(axd['(a)'].get_xticklabels(), visible=False)
axd['(b)'].tick_params(axis='x', rotation=45)

# Matriz de Confusao
sns.heatmap(matriz_confusao, annot=True, ax=axd['(c)'], cmap="YlGn",
            xticklabels=['esfera', 'cilindro', 'aro'], yticklabels=['esfera', 'cilindro', 'aro'],
            cbar_kws={'label': 'Quantidade de Exemplos Testados'},
            robust=True)
axd['(c)'].set_ylabel('Objeto Verdadeiro')
axd['(c)'].set_xlabel('Objeto Predito')
axd['(c)'].set_title('Aprendizado de Máquina')

  
# Violinplot
sns.violinplot(y='Objeto',x='Beta MF', data=result_test, order =['esfera', 'cilindro', 'aro'],
               palette="YlGn", ax=axd['(d)'])
axd['(d)'].get_yaxis().set_visible(False)
plt.setp(axd['(d)'].get_yticklabels(), visible=False)
axd['(d)'].set_xlabel('$\\beta$ predito'), axd['(d)'].set_xlim([-0.5,2])
axd['(d)'].set_title('Modelo Físico')
axd['(d)'].xaxis.set_minor_locator(AutoMinorLocator())
axd['(d)'].set_ylim([2.5,-0.5])
axd['(d)'].plot([0.4,0.4], [-1,3], color='#d5e6ac', linestyle='dashed', linewidth = 1) 
axd['(d)'].plot([0.5,0.5], [-1,3], color='#81bc82', linestyle='dashed', linewidth = 1) 
axd['(d)'].plot([1,1], [-1,3], color='#2e7748', linestyle='dashed', linewidth = 1) 
custom_lines = [Line2D([0], [0], color='#d5e6ac', lw=5),
                Line2D([0], [0], color='#81bc82', lw=5),
                Line2D([0], [0], color='#2e7748', lw=5)]
axd['(d)'].legend(handles=custom_lines, labels=['esfera', 'cilindro', 'aro'],
                  title='Objeto Verdadeiro',loc='upper right', frameon=False)

# Escrevendo os itens (a), (b), ... em cada um dos gráficos da figura
for label, ax in axd.items():
    if label=='(c)':
        trans = mtransforms.ScaledTranslation(-20/72, 7/72, fig.dpi_scale_trans)
        ax.text(0.0, 1.0, label, transform=ax.transAxes + trans,
                fontsize='medium', verticalalignment='top')
    else:
        trans = mtransforms.ScaledTranslation(10/72, -5/72, fig.dpi_scale_trans)
        ax.text(0.0, 1.0, label, transform=ax.transAxes + trans,
                fontsize='medium', verticalalignment='top')

#plt.savefig("classificacao.pdf", format="pdf") # Para salvar a imagem em formato pdf

------------------------------------
## 3) Regressão

Nesta tarefa queremos predizer a Velocidade Média a partir dos dados experimentais.

Queremos manter a mesma informação para o Modelo Físico (MF) e os modelos de Aprendizado de Máquina (ML). Como no modelo físico entramos com $\beta$ de cada objeto, queremos fazer o mesmo com o modelo de ML, entretanto devemos lembrar que estamos presos as medidas feitas. Não medimos $\beta$ experimentalmente, dessa forma não seria justo inseri-lo diretamente na tabela para os modelos de ML, afinal eles devem ser agnósticos a física. Para contornar essa complicação, e ainda assim indicar para o ML que são objetos diferentes, podemos passar a coluna de observação "Objeto" diretamente.

Entretanto, os algoritmos de regressão não estão preparados para receber um nome (string) como entrada. Então, apenas fornecer o nome do objeto (esfera, cilindro, aro) para o modelo não irá funcionar. Precisamos primeiro converter esses nomes em uma representação numérica. Para isso vamos usar o OneHot Encoding. Nessa representação, cada valor do atributo objeto torna-se uma característica única (feature). Para 3 valores de objetos teremos 3 novas colunas com valores binários (verdadeiro ou falso, 1 ou 0) representando cada objeto, por exemplo, se seguirmos (esfera, cilindro, aro) uma esfera será represntada pela tupla (1,0,0) enquanto um aro será por (0,0,1). Fisicamente, misturas não seriam possiveis como uma esfera-aro (1,0,1), mas em outras situações essa técnica pode ser usada para representar a presença de mais um objeto (como palavras em uma frase).

In [None]:
ohe = pd.get_dummies(tabela_dados.Objeto, prefix='objeto') # One hot encoding
tabela_dados = tabela_dados.join(ohe)

In [None]:
tabela_dados.head()

Agora vamos rodar o modelo físico simplifcado sobre os dados. 

Iremos fazer o cálculo pontual do valor de $v_{med}$ para cada dado experimental, seguindo:

### $v_{med}=\frac{1}{2}\sqrt{\frac{2gh}{1+\beta}}$


Vamos definir uma função para isso:

In [None]:
def encontra_velocidade(altura, objeto0, objeto1, objeto2):
    g=9.8 
    # O MF sabe o beta devido a teoria
    if objeto0==1:
        beta=2/5 # Esfera
    elif objeto1==1:
        beta=1/2 # Cilindro
    elif objeto2==1:
        beta=1 # Aro
    vel_med = (0.5)*(2*g*altura/(1+beta))**0.5
    return vel_med

Para aplicar o ML, vamos separar os dados e escalonar as features de entrada, igual fizemos para classificação:

In [None]:
x = tabela_dados[['Altura (m)','Ângulo (°)', 'objeto_aro', 'objeto_cilindro','objeto_esfera']] 
y = tabela_dados['Velocidade Média (m/s)'] # Atributo alvo

# Dividindo conjunto de treinamento e conjunto de teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.20, random_state = 42)

In [None]:
x_train

In [None]:
scaler = MinMaxScaler()
scaler.fit(x_train)

x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

De maneira análoga a classificação, vamos importar os algoritmos de Regressão e instanciar eles no código:

In [None]:
from sklearn.linear_model import LinearRegression      # Regressao Linear
from sklearn.svm import SVR                            # Regressão por Máquina de Vetor Suporte
from sklearn.tree import DecisionTreeRegressor         # Regressão por Árvore de Decisão
from sklearn.neighbors import KNeighborsRegressor      # k-vizinhos mais próximos (KNN)
from sklearn.ensemble import RandomForestRegressor     # RandomForest
from sklearn.ensemble import GradientBoostingRegressor # GradientBoosting
from sklearn.neural_network import MLPRegressor        # Multilayer Perceptron

In [None]:
# Regressao Linear
lr = LinearRegression()
lr.fit(x_train_scaled,y_train)

# KNN Regressor
knnr = KNeighborsRegressor()
knnr.fit(x_train_scaled,y_train)

# SVM
svmr = SVR()
svmr.fit(x_train_scaled,y_train)

# Regressão por Árvore de Decisão
dtr = DecisionTreeRegressor()
dtr.fit(x_train_scaled,y_train)

# Regressão por Random
rfr = RandomForestRegressor(random_state=42)
rfr.fit(x_train_scaled, y_train)

# Regressõ por GB
gbr = GradientBoostingRegressor(random_state=42)
gbr.fit(x_train_scaled, y_train)

# Multilayer Perceptron
mlpr =  MLPRegressor(random_state=42)
mlpr.fit(x_train_scaled,y_train)

In [None]:
regressores = {
    'LR':lr,
    'KNNR':knnr,
    'SVMR':svmr,
    'RFR':rfr,
    'GBR':gbr,
    'MLPR':mlpr,
}

Assim como na classificação, vamos importar as bibliotecas de métricas e calcular o desempenho dos algoritmos sobre os dados de teste:

In [None]:
from sklearn.metrics import mean_absolute_error, r2_score       # Métricas de Regressão

In [None]:
resultados={}
resultados_MAE={}
resultados_R2={}

for rg_name, rg in regressores.items():
    
    y_pred = rg.predict(x_test_scaled)        # Entrando os dados de teste no modelo ML
    mae = mean_absolute_error(y_test, y_pred) # Calculando métrica MAE
    r2 = r2_score(y_test, y_pred)             # Calculando métrica R2
    
    # Salvando resultados
    scoring = {'MAE': mae,
               'R2' :r2
         }
    resultados[rg_name]=scoring
    resultados_MAE[rg_name]=mae
    resultados_R2[rg_name]=r2

Fazendo as predições de velocidade pelo modelo físico:

In [None]:
x_test2 = x_test.copy() 
x_test2['Vel MF'] = x_test2.apply(lambda x: encontra_velocidade(x['Altura (m)'], x['objeto_aro'],
                                                            x['objeto_cilindro'], x['objeto_esfera']), axis=1)
y_pred_modelo = np.array(x_test2['Vel MF'])

resultados_MAE['MF'] = mean_absolute_error(y_test, y_pred_modelo)
resultados_R2['MF'] = r2_score(y_test, y_pred_modelo)
resultados['MF'] = {'MAE': resultados_MAE['MF'],
                    'R2' :resultados_R2['MF']
                    }

In [None]:
resultado_teste_regressao = pd.DataFrame(data=resultados)
resultado_teste_regressao.head()

In [None]:
y_pred= knnr.predict(x_test_scaled)

In [None]:
# Figura Regressor
fig, axd = plt.subplot_mosaic([['(a)', '(c)', '(d)'],
                               ['(b)', '(c)', '(d)']],
                              figsize=(11, 4.5), constrained_layout=True)


# Gráficos de barras (a) e (b)
clrs = ['#81BC82' for i in regressores]+['#d5e6ac'] # Definição de cores em código hexadecimal
sns.barplot(x=list(resultados_MAE.keys()), y =[round(resultados_MAE[k],3) for k in resultados_MAE.keys()],
            ax=axd['(a)'], palette=clrs, edgecolor='grey')
sns.barplot(x=list(resultados_R2.keys()),  y =[round(resultados_R2[k],3) for k in resultados_R2.keys()],
            ax=axd['(b)'], palette=clrs, edgecolor='grey')

axd['(b)'].set_xlabel('Algoritmos de Regressão')
axd['(a)'].set_ylabel('MAE (m/s)'), axd['(a)'].set_ylim([0,0.06])
axd['(b)'].set_ylabel('$R^2$'), axd['(b)'].set_ylim([0,1])
axd['(a)'].set_yticks([0, 0.03, 0.06])
axd['(b)'].set_yticks([0, 0.5, 1])
axd['(b)'].bar_label(axd['(b)'].containers[0],  rotation=90, label_type='center', color='white')
axd['(a)'].set_title('Métricas')
plt.setp(axd['(a)'].get_xticklabels(), visible=False)
axd['(b)'].tick_params(axis='x', rotation=45)

pos=0.05
colors_mae=['w','k','w','k','k','w','w']  # Cores dos valores expressos nas barras do item (a)
y_pos_mae=[0.027,0.038,0.033,0.038,0.038,0.027,0.04] # Altura dos valores expressos nas abrras do item (a)
for i, kp in enumerate([round(resultados_MAE[k],3) for k in resultados_MAE.keys()]):       
    axd['(a)'].text(pos,y_pos_mae[i],
             s =  '{0:.3f}'.format(kp),
             color=colors_mae[i],
             rotation=90,
             horizontalalignment='center',
             verticalalignment='top',
             multialignment='center')
    pos = pos+1


# Grafico de dispersão ML
sns.scatterplot(x=y_test,y=y_pred, label='$y_{pred}$', color='#81BC82', edgecolor='k',
                marker='o', s=25, ax=axd['(c)'])
axd['(c)'].plot([0,1], [0,1], color='r', linestyle='dashed', linewidth = 1,
                  label='$y_{pred}=y_{test}$') # Reta 100% correto
axd['(c)'].set(xlabel='Velocidade Média \n Experimental (m/s)', ylabel='Velocidade Média Predita (m/s)')
axd['(c)'].legend(loc=4)
axd['(c)'].set_xlim([0.2,0.8]), axd['(c)'].set_ylim([0.2,0.8])
axd['(c)'].set_xticks([0.2, 0.4, 0.6, 0.8]), axd['(c)'].set_yticks([0.2, 0.4, 0.6, 0.8])
axd['(c)'].xaxis.set_minor_locator(AutoMinorLocator())
axd['(c)'].yaxis.set_minor_locator(AutoMinorLocator())
axd['(c)'].grid(alpha=0.2, linestyle='-.', color='k', linewidth =1)
axd['(c)'].set_title('Aprendizado de Máquina')

# Grafico de dispersão MF
sns.scatterplot(x=y_test,y=y_pred_modelo, label='$y_{pred}$', color='#d5e6ac', edgecolor='k',
                marker='o', s=25, ax=axd['(d)'])
axd['(d)'].plot([0,1], [0,1], color='r', linestyle='dashed', linewidth = 1,
                  label='$y_{pred}=y_{test}$') # Reta 100% correto
axd['(d)'].set(xlabel='Velocidade Média \n Experimental (m/s)', ylabel='Velocidade Média Predita (m/s)')
axd['(d)'].legend(loc=4)
axd['(d)'].set_xlim([0.2,0.8]), axd['(d)'].set_ylim([0.2,0.8])
axd['(d)'].set_xticks([0.2, 0.4, 0.6, 0.8]), axd['(d)'].set_yticks([0.2, 0.4, 0.6, 0.8])
axd['(d)'].xaxis.set_minor_locator(AutoMinorLocator())
axd['(d)'].yaxis.set_minor_locator(AutoMinorLocator())
axd['(d)'].grid(alpha=0.2, linestyle='-.', color='k', linewidth =1)
axd['(d)'].set_title('Modelo Físico')
axd['(d)'].yaxis.tick_right()
axd['(d)'].set_ylabel('')

# Escrevendo os itens (a), (b), ... em cada um dos gráficos da figura
for label, ax in axd.items():
    trans = mtransforms.ScaledTranslation(10/72, -5/72, fig.dpi_scale_trans)
    ax.text(0.0, 1.0, label, transform=ax.transAxes + trans,
            fontsize='medium', verticalalignment='top')
    
#plt.savefig("regressao.pdf", format="pdf") # Para salvar a imagem em formato pdf