**Алгоритм**

Необходимо разделить весь путь каждой траектории на одинаковое количество отрезков. На стыке между двумя отрезками лежат точки. Суть алгоритма состоит в том, что дистанции между соответствующими точками из каждой траектории будут маленькие, если траектории близкие, и большие, если траектории отличаются сильно. Чем больше таких точек будет, тем более точный результат выдаст алгоритм. Этот самый результат представляет собой отношение суммы дистанций между точками к минимуму из квадратов длин траекторий. Его значение лежит в диапазоне [0; 1]. Чем ближе к нулю, тем траектории более похожи друг на друга. Чем ближе к единице - тем они различнее.

In [1]:
import pandas as pd
import numpy as np
!pip install frechetdist

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting frechetdist
  Downloading frechetdist-0.6-py3-none-any.whl (7.6 kB)
Installing collected packages: frechetdist
Successfully installed frechetdist-0.6


In [2]:
# функция вычисления расстояния между точками
def euqlelian_distance(p1, p2):
  return np.sqrt((p1[0] - p2[0])**2 + (p1[1] - p2[1])**2)

In [3]:
# вычисляем дистанцию между нынешней точкой траектории и предыдущей
dataset = pd.read_csv('traks.csv', sep =  ';')

def f(row):
  if row.name == 0 or row['track'] !=  dataset.loc[row.name-1]['track']:
    return 0
  prev = dataset.loc[row.name-1]
  return euqlelian_distance((prev['x'], prev['y']), (row['x'],row['y']))

dataset['dist_to_prev_point'] = dataset.apply(f, axis = 1)
dataset.head()

Unnamed: 0,track,time,x,y,dist_to_prev_point
0,1,10:32:13,1598,526,0.0
1,1,10:32:14,1524,544,76.157731
2,1,10:32:15,1441,557,84.011904
3,1,10:32:16,1357,392,185.151289
4,1,10:32:17,1395,573,184.945938


In [4]:
coords_of_traks = {num: {'len': 0, 'points':[]} for num in dataset['track'].unique()}
coords_of_traks

{1: {'len': 0, 'points': []},
 2: {'len': 0, 'points': []},
 3: {'len': 0, 'points': []},
 4: {'len': 0, 'points': []}}

In [5]:
# группируем точки по номеру траектории
for idx, row in dataset.iterrows():
  coords_of_traks[row['track']]['points'].append([row['x'], row['y'], row['dist_to_prev_point']])
  coords_of_traks[row['track']]['len'] += row['dist_to_prev_point']


In [6]:
# объект-обработчик траектории
class TrakObj:
  def __init__(self, seq, max_len, k):

    self.iterator = 0 # нынешнее место нахождения объекта
    self.max_len = max_len # длина траектории
    self.seq = seq # набор точек
    self.step = self.max_len/k # размер шага

    self.cure_len = 0 # текущая длина
    self.cure_step = self.step # текущий шаг 
    self.result_point= None # последняя найденная точка
    self.is_find_point = False # флаг найденной точки
    self.is_done = False # флаг завершения прохода по траектории
  
  # функция условия увеличения шага
  def increase_step(self):
    if self.cure_step + self.step < self.max_len:
      self.cure_step += self.step
    else:
      self.is_done = True
  # функция поиска следующей точки
  def is_find_next_result_point(self, i):
    if self.cure_len + self.seq[i][2] < self.cure_step:
      self.cure_len += self.seq[i][2]
      self.is_find_point = False
      return self.is_find_point 
    coef = (self.cure_step - self.cure_len) / (self.cure_len + self.seq[i][2] - self.cure_len)
    self.result_point = (self.seq[i][0]*coef, self.seq[i][1]*coef)
    self.is_find_point = True
    return self.is_find_point 

# вычисление коэффициента схожести траекторий
def calc_similarity_of_traks(k, seq1, seq2):
  # k - количество точек на каждой траектории, seq1, seq2 - последовательности точек и дистанций между ними
  o1 = TrakObj(seq1['points'], seq1['len'], k)
  o2 = TrakObj(seq2['points'], seq2['len'], k)

  sum_dist = 0.
  while True:
    while True:
      # если в пределах следующего отрезка нет искомой точки, то делаем большой шаг вперед по первой  последовательности отрезков
      if not o1.is_find_next_result_point(o1.iterator) and o1.iterator < len(o1.seq):
        o1.iterator += 1
      # то же справедливо для второй последовательности
      elif not o2.is_find_next_result_point(o2.iterator) and o2.iterator < len(o2.seq):
        o2.iterator += 1
      # если нашли соответствующие точки - вычисляем дистанцию между ними
      elif o1.is_find_point and o2.is_find_point:
        sum_dist += euqlelian_distance(o1.result_point, o2.result_point)
        break
    o1.increase_step()
    o2.increase_step()

    if o1.is_done and o2.is_done:
      coeff = min(o1.max_len**2, o2.max_len**2)
      res = sum_dist/coeff
      # в тех частных случаях, когда алгоритм выдает значение больше единицы, 
      # траектории либо сильно отличаются по длине, либо расстояние между
      # траекториями больше, чем длина одной из траекторий. В любом из 
      # этих случаев траектории считаются максимально отличными друг от друга
      # и результату сравнения присваивается значение 1.
      if res > 1: 
        res = 1
      return sum_dist/coeff

In [7]:
points = 10000
score_1_3 = calc_similarity_of_traks(points, coords_of_traks[1], coords_of_traks[3])
score_1_2 = calc_similarity_of_traks(points, coords_of_traks[1], coords_of_traks[2])
score_1_4 = calc_similarity_of_traks(points, coords_of_traks[1], coords_of_traks[4])
score_2_4 = calc_similarity_of_traks(points, coords_of_traks[2], coords_of_traks[4])
score_3_4 = calc_similarity_of_traks(points, coords_of_traks[3], coords_of_traks[4])

worst = max(score_1_3, score_1_2, score_1_4, score_2_4, score_3_4)
sum = score_1_3 + score_1_2 + score_1_4 + score_2_4 + score_3_4

print('Обычная оценка / Стандартизированная оценка')
print('1-3 score: ', score_1_3,'1-3 normalized_score', score_1_3/worst)
print('1-2 score: ', score_1_2,'1-2 normalized_score', score_1_2/worst)
print('1-4 score: ', score_1_4,'1-4 normalized_score', score_1_4/worst)
print('2-4 score: ', score_2_4,'2-4 normalized_score', score_2_4/worst)
print('3-4 score: ', score_3_4,'3-4 normalized_score', score_3_4/worst)

Обычная оценка / Стандартизированная оценка
1-3 score:  0.061069959441721305 1-3 normalized_score 0.2938594176016951
1-2 score:  0.10610140618899112 1-2 normalized_score 0.5105439354216643
1-4 score:  0.2061454031911393 1-4 normalized_score 0.9919405330672245
2-4 score:  0.20782032422216654 2-4 normalized_score 1.0
3-4 score:  0.1998273742277107 3-4 normalized_score 0.9615391323039651


Как можно заметить, 1-3 похожи, 1-2 чуть менее похожи, 1/2/3-4 - сильно отличаются.