2022-personal-data-protection

Защита персональных данных клиентов страховой компании

ПРОЕКТ «Защита персональных данных клиентов страховой компании „Хоть потоп‟»

Примененные библиотеки

Pandas, Numpy, Matplotlib, Seaborn, Phik, Sklearn

Цель и задачи проекта

Личные (персональные) данные являются мишенью для злоумышленников, которые стремятся любым способом заполучить их для использования в собственных корыстных целях. Чаще всего под угрозу попадают данные банковских карт, логины и пароли, информация со смартфонов (заметки, данные о местоположении, просматриваемая на экране информация), документы (паспорта, PDF-файлы с билетами, документы, представляющие коммерческую тайну, и прочая конфиденциальная информация). Среди украденных данных частных лиц 36% составляют учетные данные, по 19% приходится на персональные данные и данные платежных карт, 12% – на личную переписку, 14% составляет другая информация (данные 2020 г.).

По данным разработчика средств для информационной безопасности «СерчИнформ» в первом полугодии 2020 г. персональные данные в том или ином виде утекали из 91% российских компаний. В начале 2022 года стало известно о крупных утечках персональных данных пользователей популярных сервисов доставки еды и медицинской лаборатории, что вызвало широкий общественный резонанс.

Цель исследования: для защиты персональных данных клиентов страховой компании «Хоть потоп» разработать метод преобразования данных, гарантирующий одновременно невозможность восстановления персональной информации и высокое качество моделей машинного обучения, использующих обезличенные персональные данные.

Для достижения цели выполнены задачи:

загружены и изучены данные
исследовано изменение качества линейной регрессии при умножении датасета с признаками на обратимую матрицу
предложен алгоритм преобразования данных для достижения поставленной цели
применен алгоритм преобразования данных с использованием матричных операций

Подбор наилучшей модели для достижения поставленной согласно техзадания цели не требуется.

Основные результаты

(1) Cоздан class для объекта LinearRegression, который был использован для машинного обучения. Исследовательский проект был выполнен без импортирования модели LinearRegression из библиотеки sklearn. Обучение модели и получение предсказаний было выполнено с помощью объявленного class LinearRegression.

(2) Математически доказано, что умножение датасета с признаками на обратимую матрицу не влияет на качество линейной регрессии, при этом позволяет значительно повысить надежность защиты персональных данных клиентов.

(3) Предложен алгоритм преобразования данных для обеспечения надежной защиты персональных данных клиентов и сохранения качества результатов машинного обучения.

(4) Проведен расчет метрик R2 и MSE на исходном датасете до и после кодирования датасетов с обучающими и тестовыми признаками, подтвердивший правильность сделанных предположений. В результате применения кодирования методом умножения датасетов с признаками на обратимую матрицу одновременно гарантирована защита персональных данных клиентов и обеспечено сохранение качества модели LinearRegression.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
2022_personal_data_protection.ipynb		2022_personal_data_protection.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2022-personal-data-protection

ПРОЕКТ «Защита персональных данных клиентов страховой компании „Хоть потоп‟»

Примененные библиотеки

Цель и задачи проекта

Основные результаты

About

Releases

Packages

Languages

egorumaev/2022-personal-data-protection

Folders and files

Latest commit

History

Repository files navigation

2022-personal-data-protection

ПРОЕКТ «Защита персональных данных клиентов страховой компании „Хоть потоп‟»

Примененные библиотеки

Цель и задачи проекта

Основные результаты

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages