<a href="https://colab.research.google.com/github/hypo69/1001-python-ru/blob/master/articles/typing_identification/typing_identification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Создание "Слепка" Клавиатурного Почерка: Идентификация пользователя с помощью машинного обучения и Scikit-learn

## Введение

Как и отпечатки пальцев, уникальные для каждого человека, или неповторимый рисунок радужной оболочки глаза, существуют и другие, менее очевидные, но не менее характерные идентификаторы. Представьте себе традиционное письмо от руки. Каждый из нас обладает уникальным почерком, легко узнаваемым даже по нескольким словам. Наклон букв, их размер, сила нажатия, характерные росчерки – всё это формирует неповторимый стиль, по которому мы безошибочно узнаём автора.

А что, если я скажу, что подобный "почерк" существует и в цифровом мире? Речь идет о "клавиатурном почерке" – уникальном стиле набора текста на клавиатуре, который, как и рукописный почерк, может быть использован для идентификации личности.

В эпоху цифровых технологий, когда идентификация личности становится всё более сложной и важной, появляются новые подходы к защите от мошенничества и подмены. Анализ "клавиатурного почерка" – один из таких подходов, предлагающий дополнительный уровень безопасности в онлайн-пространстве. Представьте себе, что ваша система способна узнать вас по тому, *как* вы набираете текст, а не только по тому, *что* вы набираете (пароль).

В этой статье мы покажем, как создать "слепок" клавиатурного почерка и использовать его для идентификации пользователя с помощью библиотеки машинного обучения Scikit-learn в Python. Мы рассмотрим основные этапы, от сбора данных до обучения и оценки модели, и обсудим как возможности, так и ограничения этого интересного и перспективного подхода.

## 1. Сбор данных: Записываем каждый удар по клавишам

Первый и важнейший шаг – сбор данных о нажатиях клавиш. Нам необходимо регистрировать события `keydown` (нажатие) и `keyup` (отпускание) каждой клавиши, а также временные метки этих событий.  Это можно сделать с помощью JavaScript на стороне клиента.

**Ключевые данные:**

*   `key`: Нажатая клавиша (символ).
*   `type`: Тип события (`keydown` или `keyup`).
*   `timestamp`: Временная метка (в миллисекундах).

Собранные данные следует хранить в структурированном формате, например, в JSON. Для каждого пользователя необходимо собрать достаточное количество данных – чем больше, тем лучше.

## 2. Извлечение признаков: Выявляем уникальные характеристики

Собранные данные – это "сырой материал". Чтобы использовать их для машинного обучения, необходимо извлечь из них *признаки*.

**Важные признаки:**

*   Длительность нажатия (Key Hold Time)
*   Интервал между нажатиями (Inter-Key Interval)
*   Диграфы и Триграфы
*   Частота использования символов
*   Частота ошибок
*   Скорость набора текста

## 3. Подготовка данных: Чистота и порядок – залог успеха

После извлечения признаков необходимо подготовить данные для обучения модели. Этот этап включает:

*   Очистку данных
*   Обработку пропущенных значений
*   Нормализацию данных
*   Разделение данных на обучающую и тестовую выборки

In [None]:
# Импортируйте необходимые библиотеки
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# Замените этот пример на загрузку ваших реальных данных!
# Пример: data = load_data_from_your_files()
data = np.array([
    [1.0, 2.0, 3.0, np.nan, 5.0],
    [6.0, 7.0, 8.0, 9.0, 10.0],
    [1.0, np.nan, 3.0, 5.0, 6.0],
    [7.0, 8.0, 9.0, 10.0, 11.0],
    [2.0, 3.0, 4.0, 5.0, np.nan]
])

labels = ["user1", "user2", "user1", "user2", "user1"]


# 1. Обработка пропущенных значений (Imputation)
imputer = SimpleImputer(strategy='mean')
data = imputer.fit_transform(data)

# 2. Нормализация данных (Scaling)
scaler = StandardScaler()
data = scaler.fit_transform(data)

# 3. Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42)

print("Обучающая выборка (признаки):\n", X_train)
print("Тестовая выборка (признаки):\n", X_test)
print("Обучающая выборка (метки):\n", y_train)
print("Тестовая выборка (метки):\n", y_test)

## 4. Обучение модели: Создаем "слепок" клавиатурного почерка

Используем алгоритм классификации (например, RandomForestClassifier) для обучения модели.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Обучение модели RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
predictions = model.predict(X_test)

# Оценка точности модели
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")

## 5. Оценка модели: Измеряем точность "слепка"

Оцениваем модель на тестовой выборке, используя метрики такие как Accuracy, Precision, Recall, F1-score.

## 6. Развертывание модели: Идентификация в реальном времени

Описываем процесс использования обученной модели для идентификации пользователей в реальном времени.

## Важные замечания и ограничения:

*   Количество данных
*   Изменчивость стиля
*   Конфиденциальность
*   Противодействие
*   Сложность признаков

## Заключение

Подчеркиваем потенциал, ограничения и этические аспекты технологии.  Призываем к дальнейшему изучению и разработке.

# Дальнейшие шаги:

*   Загрузите свои данные о нажатиях клавиш.
*   Реализуйте функцию `load_data_from_your_files()`.
*   Экспериментируйте с разными алгоритмами машинного обучения.
*   Попробуйте улучшить точность модели, используя Feature Engineering.
*   Помните об этических аспектах!