# Búsqueda de secuencias multidimensionales

### Autora: Lucía Núñez Calvo

#### Fecha: 22 de Marzo de 2022

En este cuaderno se van a mostrar varios ejemplos de como con la librería "Tslearn" se encuentran ya no sólo una secuencia igual dentro de una de mayor tamaño si no también secuencias similares multidimensionales.
Por otra parte, se mostrará una posible implementación del agrupamiento de todas las secuencias parecidas a un patrón de referencia dentro de una secuencia de mayor tamaño

In [1]:
import random
import numpy as np
from tslearn.metrics import dtw_subsequence_path

In [18]:
#Patrón de referencia
pattern_2D=[[134.56, 454.56], [457.76, 56.67], [3.45, 345.4], [987.7, 45.66]]

#Subsecuencia más parecida (Cambiamos solo los decimales)
subsequence_1_2D = [[134.76, 454.45], [457.81, 56.23], [3.04, 345.44], [987.27, 45.1]]

#Otras secuencias relativamente parecidas
sequence_1_2D = [[145.43, 453.12], [458.45, 52.43], [3.36, 347.56], [985.65, 44.10]]
sequence_2_2D = [[137.55, 454.23], [450.67, 56.34], [2.75, 346.34], [988.45, 46.51]]

#Secuencias sin parecidos
sequence_3_2D = [[543.67, 5.43], [345.89, 156.17], [334.54, 556.02], [3.25, 345.61]]
sequence_4_2D = [[77.09, 54.67], [99.64, 656.71], [356.75, 56.34], [77.23, 65.18]]

large_sequence_2D = np.concatenate((sequence_1_2D,sequence_3_2D,subsequence_1_2D,sequence_4_2D,sequence_2_2D)
                                    ,axis=0)

path, dist = dtw_subsequence_path(pattern_2D, large_sequence_2D)
print("- Ruta: ",path)
print("\n- Distancia: ",dist)

path=np.array(path)
a_ast = path[0, 1]
b_ast = path[-1, 1]

print("\n- El patrón de referencia es: [[134.56, 454.56], [457.76, 56.67], [3.45, 345.4], [987.7, 45.66]]")
print("\n- La subsecuencia más parecida y la que debería encontrar es: [[134.76, 454.45], [457.81, 56.23], [3.04, 345.44], [987.27, 45.1]]")
print("\n- Tamaño de la secuencia larga", len(large_sequence_2D))
print("\n- Posición en la que empieza la subsecuencia del array de mayor tamaño: ", a_ast)
print("\n- Posición en la que acaba la subsecuencia del array de mayor tamaño: ", b_ast)

print("\n-Subsecuencia encontrada: ",large_sequence_2D[a_ast:b_ast+1])

- Ruta:  [(0, 8), (1, 9), (2, 10), (3, 11)]

- Distancia:  0.9572878355019743

- El patrón de referencia es: [[134.56, 454.56], [457.76, 56.67], [3.45, 345.4], [987.7, 45.66]]

- La subsecuencia más parecida y la que debería encontrar es: [[134.76, 454.45], [457.81, 56.23], [3.04, 345.44], [987.27, 45.1]]

- Tamaño de la secuencia larga 20

- Posición en la que empieza la subsecuencia del array de mayor tamaño:  8

- Posición en la que acaba la subsecuencia del array de mayor tamaño:  11

-Subsecuencia encontrada:  [[134.76 454.45]
 [457.81  56.23]
 [  3.04 345.44]
 [987.27  45.1 ]]


<div class="alert alert-block alert-success">
    Se puede ver como devuelve la secuencia más parecida al patrón de referencia
</div>

# Búsqueda y agrupamiento de varias series similares 

Vamos a crear una serie de datos unidimensionales para probar el almacenamiento de secuencias similares

In [19]:
import numpy as np
import random
from tslearn.metrics import dtw_subsequence_path

#Patrón de referencia
pattern=[134.56, 454.56, 457.76, 56.67, 3.45, 345.4, 987.7, 45.66, 5.76]

#Subsecuencia más parecida (Cambiamos solo los decimales)
subsequence_1 = [134.76, 454.45, 457.81, 56.23, 3.04, 345.44, 987.27, 45.1, 5.41]

#Subsecuancia cambiando los decimales y dos valores enteros
subsequence_2 = [134.46, 454.48, 450.84, 56.33, 3.07, 345.42, 998.23, 45.32, 5.51]

#Subsecuancia cambiando los decimales y tres valores enteros
subsequence_3 = [134.62, 420.53, 451.62, 56.34, 3.09, 345.27, 977.75, 45.42, 5.55]

def initialize(n):
    sequence = np.zeros(n)
    
    for i in range(n):
        sequence[i] = round(random.uniform(1.55, 999.95),2)
        
    return sequence

sequence_1 = initialize(500)
sequence_2 = initialize(500)
sequence_3 = initialize(500)
sequence_4 = initialize(500)

large_sequence = np.concatenate((sequence_1,
                                 subsequence_3,
                                 sequence_2,
                                 subsequence_2,
                                 sequence_3,
                                 subsequence_1,
                                 sequence_4), axis=None)

path, dist = dtw_subsequence_path(pattern, large_sequence)
print("- Ruta: ",path)
print("\n- Distancia: ",dist)

path=np.array(path)
a_ast = path[0, 1]
b_ast = path[-1, 1]

print("\n- El patrón de referencia es: [134.56, 454.56, 457.76, 56.67, 3.45, 345.4, 987.7, 45.66, 5.76]")
print("\n- La subsecuencia más parecida y la que debería encontrar es: [134.76, 454.45, 457.81, 56.23, 3.04, 345.44, 987.27, 45.1, 5.41]")
print("\n- Tamaño de la secuencia larga", len(large_sequence))
print("\n- Posición en la que empieza la subsecuencia: ", a_ast)
print("\n- Posición en la que acaba la subsecuencia: ", b_ast)
print("\n-Subsecuencia encontrada: ",large_sequence[a_ast:b_ast+1])

- Ruta:  [(0, 1518), (1, 1519), (2, 1520), (3, 1521), (4, 1522), (5, 1523), (6, 1524), (7, 1525), (8, 1526)]

- Distancia:  1.0192644406629983

- El patrón de referencia es: [134.56, 454.56, 457.76, 56.67, 3.45, 345.4, 987.7, 45.66, 5.76]

- La subsecuencia más parecida y la que debería encontrar es: [134.76, 454.45, 457.81, 56.23, 3.04, 345.44, 987.27, 45.1, 5.41]

- Tamaño de la secuencia larga 2027

- Posición en la que empieza la subsecuencia:  1518

- Posición en la que acaba la subsecuencia:  1526

-Subsecuencia encontrada:  [134.76 454.45 457.81  56.23   3.04 345.44 987.27  45.1    5.41]


Como se puede comprobar, al igual que en el caso anterior encuentra la secuencia parecida a la perfección.
Ahora se van a calcular las matrices de costes acumulados y locales 

In [22]:
def calcule_matrix(X,Y):
    # Matriz de distancias 
    C=np.zeros((len(X),len(Y)))

    for i in range(len(X)):
        for j in range(len(Y)):
            C[i][j] = np.sqrt(pow(abs((X[i]-Y[j])),2)) #Distancia euclidiana 
            #C[i][j] = abs((X[i]-Y[j])) #Distancia manhattan
            
    # Matriz de costes acumulados        
    D=np.zeros((len(X),len(Y)))
    D[:,0]=np.cumsum(C[:,0]) #inicialización de la primera columna
    D[0,:]=C[0,:] #Inicialización de la primera fila 

    for i in range(1,len(X)):
        for j in range(1,len(Y)):
            D[i][j] = C[i][j]+min(D[i-1][j],D[i][j-1],D[i-1][j-1])
    return C,D

C,D=calcule_matrix(pattern,large_sequence)
print("\nMatriz de distancias o matriz de costes locales con sqrt(x[i] - y[j])^2:\n ",C) 
print("\nMatriz de costes acumulados:\n ",D) 


Matriz de distancias o matriz de costes locales con sqrt(x[i] - y[j])^2:
  [[652.31 860.84 376.78 ... 360.12 678.86 408.39]
 [332.31 540.84  56.78 ...  40.12 358.86  88.39]
 [329.11 537.64  53.58 ...  36.92 355.66  85.19]
 ...
 [200.83   7.7  476.36 ... 493.02 174.28 444.75]
 [741.21 949.74 465.68 ... 449.02 767.76 497.29]
 [781.11 989.64 505.58 ... 488.92 807.66 537.19]]

Matriz de costes acumulados:
  [[ 652.31  860.84  376.78 ...  360.12  678.86  408.39]
 [ 984.62 1193.15  433.56 ...   69.76  428.62  496.78]
 [1313.73 1522.26  487.14 ...   66.56  422.22  507.41]
 ...
 [3469.65 3276.52 2092.   ... 1394.44 1224.98 1669.73]
 [4210.86 4226.26 2557.68 ... 1843.46 1992.74 1722.27]
 [4991.97 5200.5  3063.26 ... 2332.38 2651.12 2259.46]]


Una vez se tienen calculadas ambas matrices, se usará la matriz de costes locales para obtener el coste total que vendrá determinado por el último valor de dicha matriz. Lo siguiente será localizar las posibles rutas dentro de la matriz de costes 

In [28]:
from scipy.signal import find_peaks

from tslearn import metrics
from tslearn.generators import random_walks
from tslearn.preprocessing import TimeSeriesScalerMeanVariance

#Calculamos el coste de la función
cost_func = C[-1, :]

#Identificamos los posibles caminos
sz=10
potential_matches = find_peaks(-cost_func, distance=sz * 0.75, height=-50)[0]

#Calcula las rutas óptimas a partir de cada uno de los mínimos identificados
paths = [metrics.subsequence_path(C, match) for match in potential_matches]
print("Rutas óptimas: ",paths)
print("\n Número de rutas: ",len(paths))

Rutas óptimas:  [[(0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (5, 0), (6, 0), (6, 1), (7, 2), (7, 3), (7, 4), (7, 5), (7, 6), (7, 7), (8, 7)], [(0, 19), (1, 20), (1, 21), (1, 22), (1, 23), (1, 24), (1, 25), (2, 25), (2, 26), (3, 27), (3, 28), (4, 28), (5, 29), (5, 30), (6, 31), (6, 32), (7, 33), (8, 33)], [(0, 42), (1, 42), (2, 42), (3, 42), (4, 42), (5, 42), (6, 43), (6, 44), (6, 45), (7, 46), (7, 47), (8, 47)], [(0, 62), (1, 63), (2, 63), (3, 64), (4, 64), (5, 65), (6, 66), (7, 67), (7, 68), (7, 69), (8, 69)], [(0, 139), (1, 139), (2, 139), (3, 139), (4, 139), (5, 139), (6, 140), (7, 141), (8, 141)], [(0, 155), (1, 155), (2, 155), (3, 155), (4, 155), (5, 156), (5, 157), (5, 158), (6, 159), (6, 160), (7, 161), (8, 161)], [(0, 190), (1, 190), (2, 190), (3, 190), (4, 190), (5, 191), (6, 192), (6, 193), (6, 194), (7, 195), (7, 196), (7, 197), (7, 198), (8, 199)], [(0, 207), (1, 207), (2, 207), (3, 208), (4, 208), (5, 208), (6, 209), (7, 210), (7, 211), (7, 212), (8, 212)], [(0, 258), (1, 258

Como se puede observar tenemos 70 posibles rutas pero sólamente tres secuencias parecidas al patrón por lo que tendremos que filtrar las posibles secuencias. Las restricciones para encontrar la nueva secuencia son las siguientes:
- La subsecuencia a encontrar dentro de la secuencia de mayor tamaño debe tener la misma longitud que el patrón de referencia
- Opción 1: Que todos los valores de la subsecuencia estén contenidos dentro de una tasa de error respecto al patrón de referencia. 
- Opción 2: Sacar la distancia DTW entre el patrón de referencia y la supuesta subsecuencia y si la distancia no supera un valor máximo, será una secuencia candidata. OPCIÓN ESCOGIDA
    - Los datos se podrían almacenar en una matriz de la siguiente forma: 
    - [secuencia encontrada] [distancia] [punto de inicio] [punto de fin] 
    - No los almacenaremos ya que no usaremos estos datos 
    - Las rutas óptimas se guardarán en otro vector
    

In [38]:
rate_error=40
number_sequences=1
new_paths=[]

for p in paths:
    p=np.array(p)
    a_ast = p[0, 1]
    b_ast = p[-1, 1]
    sub_sequence=large_sequence[a_ast:b_ast+1]
    if len(large_sequence[a_ast:b_ast+1]) == len(pattern):
        path, dist = dtw_subsequence_path(sub_sequence, pattern)
        
        if dist < rate_error:
            print("\nSubsecuencia ",number_sequences, large_sequence[a_ast:b_ast+1])
            print("Diferencia entre la subsecuencia y el patrón: ",pattern - large_sequence[a_ast:b_ast+1])
            print("Posición en la que empieza la subsecuencia: ",a_ast)
            print("Posición en la que acaba la subsecuencia: ",b_ast) 
            new_paths.append(p)
            number_sequences=number_sequences+1

print("\nRutas encontradas: ",new_paths)


Subsecuencia  1 [134.62 420.53 451.62  56.34   3.09 345.27 977.75  45.42   5.55]
Diferencia entre la subsecuencia y el patrón:  [-0.06 34.03  6.14  0.33  0.36  0.13  9.95  0.24  0.21]
Posición en la que empieza la subsecuencia:  500
Posición en la que acaba la subsecuencia:  508

Subsecuencia  2 [134.46 454.48 450.84  56.33   3.07 345.42 998.23  45.32   5.51]
Diferencia entre la subsecuencia y el patrón:  [  0.1    0.08   6.92   0.34   0.38  -0.02 -10.53   0.34   0.25]
Posición en la que empieza la subsecuencia:  1009
Posición en la que acaba la subsecuencia:  1017

Subsecuencia  3 [134.76 454.45 457.81  56.23   3.04 345.44 987.27  45.1    5.41]
Diferencia entre la subsecuencia y el patrón:  [-0.2   0.11 -0.05  0.44  0.41 -0.04  0.43  0.56  0.35]
Posición en la que empieza la subsecuencia:  1518
Posición en la que acaba la subsecuencia:  1526

Rutas encontradas:  [array([[  0, 500],
       [  1, 501],
       [  1, 502],
       [  2, 502],
       [  3, 503],
       [  4, 504],
       [

<div class="alert alert-block alert-warning">
    <b>Conclusión: </b>Como se puede observar en los anteriores ejemplos, la librería de  <b>tslearn</b> permite tanto, trabajar con series multidimensionales como unidimensionales. Por otra parte si combinamos la librería <b>scipy</b> con la librería anter, conseguiremos localizar todas las secuencias parecidas al patrón de referencia y no únicamente la más parecida. 

    
Este aspecto será interesante para la búsqueda de posiciones del esqueleto ya que puede que dos ejercicios sean muy similares y se tengan que poder clasificar de algún modo.    
</div>