# Прогнозирование оттока клиентов банка

### Постановка бизнес-задачи, описание предметной области.  

#### Набор данных
В качестве предметной области выбрано сохранение клиентов банка.  
Для этой задачи был выбран следующий [набор данных](https://www.kaggle.com/datasets/shubhammeshram579/bank-customer-churn-prediction)

#### Описание предметной области
Сохранение клиентов банка — это комплекс процессов, направленных на снижение оттока клиентов и повышение их лояльности.  
Этот комплекс включает: анализ причин ухода, прогнозирование рисков, разработку стратегий удержания и оценку их эффективности.  

Ключевыми сущностями являются клиенты, банковские продукты, причины оттока и действия по удержанию.  
Клиенты характеризуются данными вроде дохода, кредитного рейтинга и количеством используемых банковских продуктов. Банковские продукты — это счета, кредиты, карты с их условиями. Причины оттока могут быть связаны с сервисом, тарифами или внешними факторами. Действия по удержанию включают персональные предложения, программы лояльности и улучшение обслуживания.  

#### Контекст бизнеса и ключевые аспекты
Если рассматривать **контекст бизнеса**, то внешними факторами могут быть другие банки (конкуренты), которые переманивают клиентов выгодными условиями. Также внешними факторами являются экономические кризисы, скачки курсов валют и новые законы. Также к внешним факторам можно отнести пожелания клиентов.  
Внутренние факторы имеют свои особенности: устаревшая инфраструктура банка может замедлять отдельные бизнес-процессы, из-за чего клиенты могут быть недовольны. Также стратегия банка может негативно повлиять на клиента, например агрессивная реклама продуктов банка могут создать впечатление, что банк только хочет продать как можно больше своих продуктов клиенту, даже если клиент обратился за помощью.  

**Ключевым аспектом** данной области является разработка стратегий по сохранению клиентов.  
Самое главное - данные. Без понимания кто уходит и почему невозможно точно создать стратегию. Также данные служат для персонализации - предложение уникальных условий создает привлекательность, так как клиент чувствует себя особенным. Также в стратегию можно включать цифровизацию инфраструктуры (если система банка устаревшая), разработку новых продуктов, модернизацию своих существующих сервисов.  

#### Бизнес-задача:
Разработать систему прогнозирования оттока клиентов на основе анализа доступных данных для выявления закономерностей, влияющих на уход клиентов и своевременному применению мер по удержанию клиентов.  
Ожидаемый бизнес-эффект: снижение оттока клиентов за счет выявления тех, кто имеет высокую вероятность уйти; повышение эффективности маркетинга и программ лояльности.  

#### Основные проблемы и причины для бизнеса

В области сохранения клиентов бизнес сталкивается с рядом серьёзных проблем, которые делают удержание клиентов сложной и многослойной задачей.  
Одной из главных трудностей является ограниченное понимание причин, по которым клиенты уходят. Часто такие причины либо не фиксируются вовсе, либо информация собирается формально и не даёт возможности провести глубокий анализ. Без достоверных данных бизнес не может точно определить, какие факторы повлияли на решение клиента, а значит — не может выстроить эффективную стратегию удержания.  
Также существенной проблемой остаётся недостаточная персонализация. Большинство банков до сих пор применяют одинаковые меры ко всем клиентам — общие скидки, массовые рассылки, стандартные предложения. Такой подход не работает в условиях высокой конкуренции, когда клиенты ожидают индивидуального отношения и сервис, адаптированный под их поведение и потребности.  
Техническая сторона тоже вызывает трудности. Многие банки по-прежнему используют устаревшие ИТ-системы, которые слабо интегрированы и не позволяют в режиме реального времени собирать и анализировать поведенческие данные. Это тормозит развитие цифровых сервисов, затрудняет запуск персонализированных предложений и снижает общую гибкость бизнеса.  
Кроме того, даже если банк имеет доступ к данным, спрогнозировать поведение клиента — непростая задача. Необходимо не просто собирать информацию, но и выстраивать аналитические модели, которые предугадывают отток, оценивают уровень риска и предлагают релевантные меры. Такие модели требуют постоянной донастройки и качественных входных данных. Также банки ограничены в своих действиях законодательством и внешними условиями. Например, жёсткие регуляции по обработке персональных данных ограничивают возможности для персонализации.  

#### Описание набора данных
[Ссылка на набор данных](https://www.kaggle.com/datasets/shubhammeshram579/bank-customer-churn-prediction)

Для анализа используется набор данных, связанный с оттоком клиентов банка (customer churn). Этот датасет широко применяется в образовательных целях и задачах машинного обучения, связанных с классификацией и прогнозированием оттока. Он содержит информацию о клиентах банка, включая их демографические и поведенческие характеристики, а также метку — ушёл клиент или остался.  

Датасет представляет собой таблицу, где каждая строка соответствует одному клиенту, а столбцы — признакам (атрибутам), описывающим клиента. Всего 14 признаков:
1. CustomerId: уникальный идентификатор для каждого клиента. Тип данных - Integer
2. Surname: Фамилия или имя клиента. Тип данных - String
3. CreditScore: числовое значение, представляющее кредитный рейтинг клиента. Тип данных - Integer
4. Geography: страна, в которой проживает клиент (Франция, Испания или Германия). Тип данных - Category
5. Gender: пол клиента (мужской или женский). Тип данных - Category
6. Age: возраст клиента. Тип данных - Integer
7. Tenure: количество лет, в течение которых клиент работает с банком. Тип данных - Integer
8. Balance: Остаток средств на счёте клиента. Тип данных - Float
9. NumOfProducts: Количество банковских продуктов, которыми пользуется клиент (например, сберегательный счет, кредитная карта). Тип данных - Integer
10. HasCrCard: наличие у клиента кредитной карты (1 = да, 0 = нет). Тип данных - Bool
11. IsActiveMember: является ли клиент активным участником (1 = да, 0 = нет). Тип данных - Bool
12. EstimatedSalary: предполагаемая зарплата клиента. Тип данных - Float
13. Exited: отток клиентов (1 = да, 0 = нет). Тип данных - Bool

В процессе обработки набора типы данных будут нормализованы.
