# Учебный проект 2_Анализ оттока клиентов банка

## Содержание

* [Описание проекта](#Описание)
* [Импорт библиотек Python и загрузка данных](#Импорт)
* [Предобработка данных](#Предобработка)

## Описание проекта <a class = 'anchor' id = 'Описание'></a>

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Датасет имеет следующую структуру:

* **children** - количество детей в семье;
* **days_employed** — общий трудовой стаж в днях;
* **dob_years** — возраст клиента в годах;
* **education** — уровень образования клиента;
* **education_id** — идентификатор уровня образования;
* **family_status** — семейное положение;
* **family_status_id** — идентификатор семейного положения;
* **gender** — пол клиента;
* **income_type** — тип занятости;
* **debt** — имел ли задолженность по возврату кредитов;
* **total_income** — ежемесячный доход;
* **purpose** — цель получения кредита;

## Импорт библиотек Python и загрузка данных <a class = 'anchorn' id = 'Импорт'></a>

Данный блок характеризуется следующими последовательными действиями:

1. Импорт библиотек Python:
    * для манипулирования данными;
    * для визуализации данных;
2. Загрузка данных в рабочую среду Jupyter Notebook. Инициализация переменной **data** для хранения загруженного датасета;
3. Вывод на экран параметров датасета:
    * Перечень столбцов набора данных;
    * Количество строк в наборе данных;
    * Количество столбцов в наборе данных.

In [2]:
# импорт библиотек Python
import pandas as pd #для анализа табличных данных
import numpy as np #для работы с объектами линейной алгебры

import matplotlib.pyplot as plt # для визуализации данных

In [6]:
# инициализация переменной 'data' и загрузка набора данных
data = pd.read_csv('C:/Users/User/Desktop/YandexPractikum_projects/datasets/data.csv')

# вывод на экран перечня столбцов датасета
for column in data.columns.to_list():
    print('*', column)

print()
print('Количество строк в наборе данных:', data.shape[0])
print('Количество столбцов в наборе данных:', data.shape[1])

* children
* days_employed
* dob_years
* education
* education_id
* family_status
* family_status_id
* gender
* income_type
* debt
* total_income
* purpose

Количество строк в наборе данных: 21525
Количество столбцов в наборе данных: 12


**Вывод:**

1. Импортированы библиотеки Python:
    * для работы с данными табличного вида;
    * для визуализации данных.
2. Инициализирована переменная **data** и загружен рабочий датасет в рабочую среду;
3. Выведены на экран следующие параметры датасета:
    * перечень названий столбцов с данными;
    * количество строк в наборе данных;
    * количество столбцов в наборе данных.

## Предобработка данных <a class = 'anchor' id = 'Предобработка'></a>

Данный блок характеризуется следующими последовательными действиями:

1. Вывод на экран структуры и основной информации о датасете;
2. Проверка набора данных на пропущенные значения. Принятие решения об исключении пропущенных значений в датасете;
3. Проверка набора даных на наличие аномальных значений:
    * Проверка на аномально большие значения;
    * Проверка на аномально малые значения;
4. Изучение датасета на наличие дубликатов (явных и неявных). Выбор метода по исключению дубликатов из набора данных;
5. Категоризация данных. Создание новых сущностей в наборе данных по значениям из других столбцов.

In [7]:
# вывод первых 20 строчек на экран
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [8]:
# вывод основной информации о датасете на экран
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [9]:
# вывод на экран количества пустых значений в наборе данных
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [11]:
# вывод на экран доли пропущенных значений от общего количества данных в наборе
print('Доля пропущенных значений в наборе данных: {:.1%}'.format(data['days_employed'].isna().sum() / data.shape[0]))

Доля пропущенных значений в наборе данных: 10.1%


**Вывод по промежуточному этапу:**

Исходя из большого процента пропущенных значений, - **10.1%** - нельзя исключить строки, содержащие пустоты, из общего набора данных. Так можно исказить первоначальную информацию, хранящуюся в датасете.

Можно заполнить пустоты медианным значением, так как оно меньше подвержено влиянию выбросов, чем среднее арифметическое.

In [12]:
# заполнение пустых ячеек медианным значением по специализированным группам
income_type_ls = list(data['income_type'].unique())

for income_type in income_type_ls:
    median_value = data[data['income_type'] == income_type]['total_income'].median()
    data.loc[(data['income_type'] == income_type) & (data['total_income'].isna()), 'total_income'] = median_value

In [13]:
# вывод на экран описательной статистики по набору данных
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,165225.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,98043.67
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,107798.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,142594.4
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,195549.9
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод по промежуточному этапу:**

В наборе данных присутствуют аномальные значения:

    'children' - количество детей у клиентов: -1 и 20;
    'day_employed' - отрицательные значения трудового стажа в днях

Скорее всего значения отрицательные значения трудового стажа - техническая ошибка при заполнении базы данных. Количество отрицательных значений огромно - 3 квартиль (75-перцентиль) находится так же в отрицательной зоне. По этой причине нельзя удалить из датасета эти строки.

Принято решение заменить отрицательные значения на положительные.

In [14]:
# меняем отрицательные значения на положительные
data['days_employed'] = abs(data['days_employed'])

In [15]:
# вывод медианного значения трудового стажа в днях для каждого типа занятости
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

**Вывод по промежуточному этапу:**

У двух типов (безработные и пенсионеры) получаются аномально большие значения.

Исправление таких значений должно быть основано либо на четком понимании контекста исходного набора данных, либо на экспертном мнении руководителя, либо на вводной от заказчика.

Исправление данных значений выходит за рамки выполнения учебного проекта, поэтому данные группы останутся без изменений.

In [16]:
# вывод на экран уникальных значений столбца 'children'
data.children.unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [19]:
# вывод на экран количество строк, содержащих аномальные отрицательные значения
print('Количество клиентов с \"отрицательным\" значением детей:', data[data['children'] < 0]['children'].sum())

Количество клиентов с "отрицательным" значением детей: -47


In [20]:
# вывод на экран количество строк, содержащих аномальные положительные значения
print('Количество клиентов с аномально большим количеством детей:', data[data['children'] == 20]['children'].sum())

Количество клиентов с аномально большим количеством детей: 1520


**Вывод по промежуточному этапу:**

Количество записей с аномальными показателями количества детей ничтожно мало по сравнению с количеством строк общего набора данных.

Исходя из этого, строки, содержащие такие значения можно удалить.

In [21]:
# удаление строк с аномальными данными о количестве детей
data = data[(data['children'] >= 0) & (data['children'] < 20)]

# проверка удаления строк
data.children.unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [22]:
# заполнение пропусков в столбце 'days_employed' медианными значениями по каждому типу занятости
for income_type in income_type_ls:
    median_value = data[data['income_type'] == income_type]['days_employed'].median()
    data.loc[(data['income_type'] == income_type) & (data['days_employed'].isna()), 'days_employed'] = median_value

# проверка заполнения пропусков
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [23]:
# замена вещественного типа данных на целочисленный
data['total_income'] = data['total_income'].astype('int')

In [24]:
# понижение регистра в столбце 'education'
data['education'] = data['education'].str.lower()

# вывод на экран количество строк-дубликатов
data.duplicated().sum()

71

In [25]:
# удаление дубликатов из набора данных
data = data.drop_duplicates()

### Категоризация данных

На основании приведенных диапазонов необходимо создать новый столбец, содержащий категории данных - `total_income_category`:

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [26]:
# инициализация функции categorize_income()
def categorize_income(total_income):
    if total_income < 30001:
        return "E"
    elif total_income < 50001:
        return "D"
    elif total_income < 200001:
        return "C"
    elif total_income < 1000001:
        return "B"
    else:
        return "A"

In [27]:
# создание столбца 'total_income_category'
data['total_income_category'] = data['total_income'].apply(categorize_income)

На основании данных, содержащихся в столбце `purpose` (цели взятия кредита) необходимо создать новый столбец, содержащий категории данных - `purpose_category`:

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

In [29]:
# перечень уникальных целей взятия кредита
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [30]:
# инициализация функции categorize_purpose()
def categorize_purpose(purpose):
    if 'авто' in purpose:
        return 'операции с автомобилем'
    elif 'обр' in purpose:
        return 'получение образования'
    elif 'свадь' in purpose:
        return 'проведение свадьбы'
    else:
        return 'операции с недвижимостью'

In [31]:
# создание столбца 'purpose_category'
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

**Вывод:**

1. Набор проверен на пропущенные значения. Пустые ячейки обнаружены в следующих столбцах:
    * 'days_employed' - 2 174 значения. Что составляет **10.1%** от общего количества строк;
    * 'total_income' - 2 174 значения. Что составляет **10.1%** от общего количества строк;

Среди причин появления могут быть технические ошибки при формировании набора данных, а также человеческий фактор - ошибки при внесении данных в базу, а также сам факт не указания информации клиентом о себе.

Используя вводную из описания задания, пустые значения в столбце 'total_income' были заполнены медианным значением по данному столбцу.

Заполнение пустых ячеек медианным значением приоритетнее среднего по причине того, что медиана, как статистическая метрика, меньше подвержена влиянию аномальных значений.


## Исследовательский анализ данных