Skip to content

Защита персональных данных клиентов страховой компании

Notifications You must be signed in to change notification settings

egorumaev/2022-personal-data-protection

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

2022-personal-data-protection

Защита персональных данных клиентов страховой компании

ПРОЕКТ «Защита персональных данных клиентов страховой компании „Хоть потоп‟»


Примененные библиотеки

  • Pandas, Numpy, Matplotlib, Seaborn, Phik, Sklearn

Цель и задачи проекта

Личные (персональные) данные являются мишенью для злоумышленников, которые стремятся любым способом заполучить их для использования в собственных корыстных целях. Чаще всего под угрозу попадают данные банковских карт, логины и пароли, информация со смартфонов (заметки, данные о местоположении, просматриваемая на экране информация), документы (паспорта, PDF-файлы с билетами, документы, представляющие коммерческую тайну, и прочая конфиденциальная информация). Среди украденных данных частных лиц 36% составляют учетные данные, по 19% приходится на персональные данные и данные платежных карт, 12% – на личную переписку, 14% составляет другая информация (данные 2020 г.).

По данным разработчика средств для информационной безопасности «СерчИнформ» в первом полугодии 2020 г. персональные данные в том или ином виде утекали из 91% российских компаний. В начале 2022 года стало известно о крупных утечках персональных данных пользователей популярных сервисов доставки еды и медицинской лаборатории, что вызвало широкий общественный резонанс.

Цель исследования: для защиты персональных данных клиентов страховой компании «Хоть потоп» разработать метод преобразования данных, гарантирующий одновременно невозможность восстановления персональной информации и высокое качество моделей машинного обучения, использующих обезличенные персональные данные.

Для достижения цели выполнены задачи:

  • загружены и изучены данные

  • исследовано изменение качества линейной регрессии при умножении датасета с признаками на обратимую матрицу

  • предложен алгоритм преобразования данных для достижения поставленной цели

  • применен алгоритм преобразования данных с использованием матричных операций

Подбор наилучшей модели для достижения поставленной согласно техзадания цели не требуется.


Основные результаты

(1) Cоздан class для объекта LinearRegression, который был использован для машинного обучения. Исследовательский проект был выполнен без импортирования модели LinearRegression из библиотеки sklearn. Обучение модели и получение предсказаний было выполнено с помощью объявленного class LinearRegression.

(2) Математически доказано, что умножение датасета с признаками на обратимую матрицу не влияет на качество линейной регрессии, при этом позволяет значительно повысить надежность защиты персональных данных клиентов.

(3) Предложен алгоритм преобразования данных для обеспечения надежной защиты персональных данных клиентов и сохранения качества результатов машинного обучения.

(4) Проведен расчет метрик R2 и MSE на исходном датасете до и после кодирования датасетов с обучающими и тестовыми признаками, подтвердивший правильность сделанных предположений. В результате применения кодирования методом умножения датасетов с признаками на обратимую матрицу одновременно гарантирована защита персональных данных клиентов и обеспечено сохранение качества модели LinearRegression.

About

Защита персональных данных клиентов страховой компании

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages