In [1]:
import pandas as pd
import copy
from datetime import datetime as dt

### Загрузка сырых данных

In [2]:
kb = pd.read_csv('./keyboard_A_non_insider_1.csv', sep='|', header=None)
kb.info()
kb.head(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 3 columns):
0    18 non-null object
1    18 non-null object
2    18 non-null object
dtypes: object(3)
memory usage: 560.0+ bytes


Unnamed: 0,0,1,2
0,"2019-12-04 04:25:14,553",release,Key.enter
1,"2019-12-04 04:25:25,621",press,Key.esc
2,"2019-12-04 04:25:25,699",release,Key.esc
3,"2019-12-04 04:25:26,632",press,Key.space
4,"2019-12-04 04:25:26,728",release,Key.space
5,"2019-12-04 04:25:27,562",press,Key.backspace
6,"2019-12-04 04:25:27,651",release,Key.backspace
7,"2019-12-04 04:25:27,808",press,Key.backspace
8,"2019-12-04 04:25:27,884",release,Key.backspace
9,"2019-12-04 04:25:28,127",press,Key.backspace


In [3]:
ms = pd.read_csv('./mouse_A_non_insider_1.csv', sep='|', header=None)
ms.info()
ms.head(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
0    10 non-null object
1    10 non-null object
2    10 non-null object
dtypes: object(3)
memory usage: 368.0+ bytes


Unnamed: 0,0,1,2
0,"2019-12-04 04:25:16,140",press,Button.left
1,"2019-12-04 04:25:16,235",release,Button.left
2,"2019-12-04 04:25:16,670",press,Button.left
3,"2019-12-04 04:25:16,788",release,Button.left
4,"2019-12-04 04:25:17,751",press,Button.right
5,"2019-12-04 04:25:17,757",release,Button.right
6,"2019-12-04 04:25:18,909",press,Button.left
7,"2019-12-04 04:25:18,973",release,Button.left
8,"2019-12-04 04:25:19,984",press,Button.left
9,"2019-12-04 04:25:20,087",release,Button.left


### Списки выделяемых признаков

In [4]:
# кнопки мыши
mouse_buttons = [
    "Button.left",
    "Button.right",
]

# специальные клавиши
special_keys = [
    "Key.esc",
    "Key.tab",
    "Key.caps_lock",
    "Key.shift",
    "Key.ctrl",
    "Key.alt",
    "Key.cmd",
    "Key.space",
    "Key.enter",
    "Key.backspace",
]

# диграфы и триграфы - сочетания из 2-х и 3-х букв
eng_di = ["th", "he", "in", "er", "an", "re", "es", "on", "st", "nt", "en", "at", "ed", "nd", "to", "or", "ea"]
eng_tri = ["the", "and", "ing", "ent", "ion", "her", "for", "tha", "nth", "int", "ere", "tio", "ter", "est", "ers", "ati", "hat"]
ru_di = ["ст","ен","ов","но","ни","на","ра","ко","то","ро","ан","ос","по","го","ер","од", "ре"]
ru_tri = ["ени","ост","ого","ств","ско","ста","ани","про","ест","тор","льн","ова","ния","ние","при","енн","год"]

# признаки для специальных признаков и кнопок мыши
spec_features = {
    "dwell": [0, 0], # длительность нажатия
    "interval" : [0, 0], # промежуток между отпусканием текущей и нажатием следующей
    "flight": [0,0] # промежуток между нажатием текущей и нажатием следующей
}

# признаки для диграфов
di_features = {
    "dwell_first": [0,0], # длительность нажатия первой буквы
    "dwell_second": [0,0], # длительность нажатия второй буквы
    "interval": [0,0], # промежуток между отпусканием первой и нажатием второй буквы
    "flight": [0,0], # промежуток между нажатием первой и нажатием второй буквы
    "up_to_up": [0,0], # промежуток между отпусканием первой и отпусканием второй
    "latency": [0,0], # промежуток между нажатием первой и отпусканием второй
}

# признаки для триграфов
tri_features = {
    "dwell_first": [0,0], # длительность нажатия первой буквы
    "dwell_second": [0,0], # длительность нажатия второй буквы
    "dwell_third": [0,0], # длительность нажатия третьей буквы
    "interval_first": [0,0], # промежуток между отпусканием первой и нажатием второй буквы
    "interval_seconds": [0,0], # промежуток между отпусканием второй и нажатием третьей буквы
    "flight_first": [0,0], # промежуток между нажатием первой и нажатием второй буквы
    "flight_second": [0,0], # промежуток между нажатием второй и нажатием третьей буквы    
    "up_to_up_first": [0,0], # промежуток между отпусканием первой и отпусканием второй
    "up_to_up_second": [0,0], # промежуток между отпусканием второй и отпусканием третьей
    "latency": [0,0], # промежуток между нажатием первой и отпусканием третьей
}

### Выделение признаков

In [5]:
# здесь будут храниться все вышеприведённые признаки
features = {}

class FeatureProcessor:
    # вычисление признаков для кнопок мыши
    def mouse_and_special_keys(self, df, events):
        for event in events:
            for i, row in df.iterrows():
                if row[1] == "press" and row[2] == event:
                    if event not in features: # в словаре признаков пока не выделена память под эту кнопку
                        features[event] = copy.deepcopy(spec_features) # выделяем память
                    press = dt.strptime(row[0], '%Y-%m-%d %H:%M:%S,%f') # фиксируем время нажатия кнопки
                    # время отпускания нажатой кнопки 
                    # по умолчанию задаётся значением press, 
                    # так как release для последнего события в датасете может отсутствовать
                    release = dt.strptime(row[0], '%Y-%m-%d %H:%M:%S,%f')
                    # время нажатия кнопки после отпускания текущей
                    # по умолчанию задаётся значением press, 
                    # так как press следующей кнопки для последнего события в датасете может отсутствовать
                    press_next = dt.strptime(row[0], '%Y-%m-%d %H:%M:%S,%f')
                    j = 1
                    while True: # ищем время отпускания кнопки
                        try: # пробуем обратиться по индексу i + j
                            next_row = df.iloc[i + j]
                            if next_row[1] == "release" and next_row[2] == event:
                                # фиксируем время отпускания текущей кнопки
                                release = dt.strptime(next_row[0], '%Y-%m-%d %H:%M:%S,%f')
                                try: # пробуем обратиться по индексу i +j + 1
                                    # фиксируем время нажатия следующей кнопки
                                    press_next = dt.strptime(df.iloc[i + j + 1][0], '%Y-%m-%d %H:%M:%S,%f')
                                except IndexError: # в случае отсутствия такого индекса, т.е. в случае выхода за границу датафрейма
                                    # фиксируем время нажатия следующей кнопки, как время отпускания текущей
                                    press_next = dt.strptime(next_row[0], '%Y-%m-%d %H:%M:%S,%f')
                                finally:
                                    # выходим из вспомогательного цикла в любом случае, так как release был найден
                                    break
                            else:
                                j+=1 # переход к следующей строке
                        except IndexError:
                            # выходим из вспомогательного цикла
                            break
                    # считаем признаки
                    # dwell
                    features[event]["dwell"][0] += (release - press).microseconds // 1000 # прибавляем длительность
                    features[event]["dwell"][1] += 1 # увеличиваем количество обработанных кнопок event
                    # interval
                    features[event]["interval"][0] += (press_next - release).microseconds // 1000 # прибавляем длительность
                    features[event]["interval"][1] += 1 # увеличиваем количество обработанных кнопок event
                    # flight
                    features[event]["flight"][0] += (press_next - press).microseconds // 1000 # прибавляем длительность
                    features[event]["flight"][1] += 1 # увеличиваем количество обработанных кнопок event

In [6]:
fp = FeatureProcessor()
fp.mouse_and_special_keys(ms, mouse_buttons)
fp.mouse_and_special_keys(kb, special_keys)
print(features)

{'Button.left': {'dwell': [380, 4], 'interval': [1409, 4], 'flight': [789, 4]}, 'Button.right': {'dwell': [6, 1], 'interval': [152, 1], 'flight': [158, 1]}, 'Key.esc': {'dwell': [78, 1], 'interval': [933, 1], 'flight': [11, 1]}, 'Key.shift': {'dwell': [617, 1], 'interval': [639, 1], 'flight': [256, 1]}, 'Key.cmd': {'dwell': [96, 1], 'interval': [956, 1], 'flight': [52, 1]}, 'Key.space': {'dwell': [96, 1], 'interval': [834, 1], 'flight': [930, 1]}, 'Key.enter': {'dwell': [0, 1], 'interval': [0, 1], 'flight': [0, 1]}, 'Key.backspace': {'dwell': [230, 3], 'interval': [605, 3], 'flight': [835, 3]}}
