# Taller: "Introducción al aprendizaje automático en Python"

## Objetivo

Crearemos un modelo simple de aprendizaje automático para analizar datos de vibración de un rodamiento. El modelo clasificará automáticamente si el rodamiento funciona normal o si tiene alguna falla.

## Datos brutos

Los datos brutos para este ejercicio fueron obtenidos desde: https://data.mendeley.com/datasets/v43hmbwxpm/2

<br>
<center>
    <img src="test-bench.jpg" width="500" />
</center>

Los datos brutos corresponden a señales de aceleración vibratoria a diferentes velocidades de giro.

Ejemplo de señal:

<center>
    <img src="bearing-signal.png" width="800" />
</center>

## Datos procesados

Para este ejercicio, utilizaremos como datos algunos valores estadísticos calculados a partir de las señales

Extracto:

<center>
    <img src="data-processed.png" width="500" />
</center>

Cada señal tendrá una etiqueta asociada a la condición mecánica del rodamiento:

<br>
<center>
    <img src="labels-1.png" width="800" />
</center>


## Construcción de modelos

<br>
<center>
    <img src="training1.png" width="850"/>
</center>

## Primer paso: Cargar los datos

In [81]:
import pandas as pd
df = pd.read_excel('data-bearing-simple.xlsx', index_col=0)
display(df)

Unnamed: 0,rps,max,rms,kurt,label
0,15.024038,0.311521,0.029794,7.642549,1
1,15.024038,0.216155,0.022242,6.541628,1
2,15.024038,0.255288,0.028959,9.691690,1
3,15.988251,0.323688,0.030494,8.147744,1
4,16.276042,0.210893,0.024360,6.408226,1
...,...,...,...,...,...
1195,21.701389,0.054362,0.012577,0.150175,0
1196,21.701389,0.073107,0.014421,0.888064,0
1197,21.701389,0.068503,0.012097,0.790625,0
1198,21.701389,0.083301,0.014015,1.250510,0


## Segundo paso: Sets de entrenamiento y test

In [82]:
X = df.values[:, 0:4]
y = df.values[:, 4]

print(X)
print(y)
print(len(y))


[[1.50240385e+01 3.11520735e-01 2.97939555e-02 7.64254855e+00]
 [1.50240385e+01 2.16155053e-01 2.22417637e-02 6.54162790e+00]
 [1.50240385e+01 2.55287866e-01 2.89586583e-02 9.69169014e+00]
 ...
 [2.17013889e+01 6.85026851e-02 1.20967984e-02 7.90625273e-01]
 [2.17013889e+01 8.33008057e-02 1.40145207e-02 1.25051006e+00]
 [2.38822109e+01 7.80392517e-02 1.44544282e-02 9.60056814e-01]]
[1. 1. 1. ... 0. 0. 0.]
1200


In [83]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

print(len(y_train))
print(len(y_test))


900
300


## Tercer paso: Selección del modelo clasificador

En este caso usaremos un modelo llamado **regresión logística** que se construye a partir de una regresión lineal combinada con una función logística.

La regresión lineal es:

\begin{split}
    \hat{y} = w_0 + w_1 x_1 + ... + w_m x_m
\end{split}

La función logística es:

\begin{split}
    f(t) = \frac{1}{1 + e^{-t}}
\end{split}

<center>
    <img src="logistic-1.png" width="600"/>
</center>


Documentación del modelo en Python:

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html


## Cuarto paso: Entrenamiento y prueba del modelo

In [84]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

clf = LogisticRegression(C=0.01, solver='newton-cg', random_state=0)
clf.fit(X_train, y_train)
y_train_predict = clf.predict(X_train)

print('La exactitud de clasificación para entrenamiento es: ', accuracy_score(y_train, y_train_predict))

La exactitud de clasificación para entrenamiento es:  0.9422222222222222


In [85]:
y_test_predict = clf.predict(X_test)

print('La exactitud de clasificación para prueba es: ', accuracy_score(y_test, y_test_predict))

La exactitud de clasificación para prueba es:  0.9466666666666667


# Visualización con tres atributos

In [89]:
import matplotlib.pyplot as plt

%matplotlib qt
fig = plt.figure()
ax = fig.add_subplot(projection='3d') 

ax.scatter(X_test[:, 0][y_test == 0], X_test[:, 1][y_test == 0], X_test[:, 2][y_test == 0], color='blue', label='Sin falla')
ax.scatter(X_test[:, 0][y_test == 1], X_test[:, 1][y_test == 1], X_test[:, 2][y_test == 1], color='red', label='Con falla')

ax.set_xlabel("RPS")
ax.set_ylabel("MAX")
ax.set_zlabel("RMS")
ax.set_title('Clases verdaderas')
ax.legend()
plt.show()

In [87]:
fig = plt.figure()
ax = fig.add_subplot(projection='3d') 

ax.scatter(X_test[:, 0][y_test_predict == 0], X_test[:, 1][y_test_predict == 0], X_test[:, 2][y_test_predict == 0], color='blue', label='Sin falla')
ax.scatter(X_test[:, 0][y_test_predict == 1], X_test[:, 1][y_test_predict == 1], X_test[:, 2][y_test_predict == 1], color='red', label='Con falla')

ax.set_xlabel("RPS")
ax.set_ylabel("MAX")
ax.set_zlabel("RMS")
ax.set_title('Clases predichas')
ax.legend()
plt.show()

# ¡Gracias por su atención!