# Исследование надежности заемщиков
<a id='intro'></a>

**Задача: по результатам исследования полученных от банка данных дать ответы на следующие вопросы:**<br/>

  **1) Есть ли зависимость между количеством детей и возвратом кредита в срок?<br/>
    2) Есть ли зависимость между семейным положением и возвратом кредита в срок?<br/>
    3) Есть ли зависимость между уровнем дохода и возвратом кредита в срок?<br/>
    4) Как разные цели кредита влияют на его возврат в срок?**

## Обзор данных
[В начало](#intro)

In [1]:
import pandas as pd

In [2]:
try:
    df = pd.read_csv("Y:/Обучение цифровой профессии/Аналитик данных/01-02 Предобработка данных/data.csv")
except:
    df = pd.read_csv("/datasets/data.csv")
    
print("Первые 15 строк датафрейма:")
display(df.head(15))
print("Общая информация о датафрейме:")
df.info()
print("=============================================================================")
print("Разброс значений, максимум, минимум, среднее и медиана в столбцах датафрейма:")
df.describe()

Первые 15 строк датафрейма:


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Общая информация о датафрейме:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
Разброс значений, максимум, минимум, среднее и медиана в столбцах датафрейма:


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Датафрейм представляет собой таблицу из 12 столбцов и 21525 строк.<br/>
В столбцах используются значения различных типов (строки, целые и вещественные числа).<br/>
Почти все столбцы, за исключением двух, полностью заполнены информацией. Ячейки с текстом содержат явные и неявные смысловые дубли (например, "среднее / Среднее / СРЕДНЕЕ" или "сыграть свадьбу / на проведение свадьбы"), а с данными по количеству детей и трудовому стажу - отрицательные значения.<br/>
Требуется предобработка данных.

## Предобработка данных
[В начало](#intro)

### Поиск пропусков
[В начало](#intro)

Определяем столбцы с пропусками:

In [3]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропущенные значения обнаружены в двух столбцах:<br/> 
1) days_employed (общий трудовой стаж в днях);<br/>
2) total_income (ежемесячный доход).

Проверим, какую долю составляют пропущенные значения в каждом из столбцов с пропусками.

In [4]:
# Объявим переменные (понадобятся в дальнейшем исследовании).
rows_count = df.shape[0]
days_employed_null = df["days_employed"].isna().sum()
total_income_null = df["total_income"].isna().sum()
print(f"Всего датафрейм содержит {df.shape[0]} строк (считая нулевую).")
print(f"Количество пустых строк для столбцов: \n - days_employed: {days_employed_null}\n - total_income: {total_income_null}")
print("Доля пустых строк для столбцов: \n - days_employed: {:.0%}".format(days_employed_null/rows_count),"\n - total_income: {:.0%}".format(total_income_null/rows_count))
print("\nДоля пропущенных значений среди всех данных,%:")
df.isna().mean()*100

Всего датафрейм содержит 21525 строк (считая нулевую).
Количество пустых строк для столбцов: 
 - days_employed: 2174
 - total_income: 2174
Доля пустых строк для столбцов: 
 - days_employed: 10% 
 - total_income: 10%

Доля пропущенных значений среди всех данных,%:


children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

Мы не знаем, как банк получил статистику по клиентам.

Если использовалась информация из пенсионного фонда России (ПФР), то отсутствие сведений о трудовом стаже и доходе почти наверняка означает, что человек официально нигде не работал. Если использовалась информация из анкет, которые заполняют клиенты, то отсутствие данных может означать как то, что человек официально не работал, так и то, что человек по каким-то причинам не захотел раскрывать информацию о стаже и доходе. Также возможно произошел сбой при выгрузке данных.

Определим, для одних ли и тех же строк отсутствуют данные в интересующих нас столбцах. Также посмотрим на первые 10 строк с отсутствующими данными и оценим категории граждан, по которым нет сведений о стаже / доходах.

In [5]:
# Создаем проверочный датафрейм, в котором заменяем во всех пустых ячейках NaN на строку 'no_data':
df_test = df.fillna('no_data')
# Находим количество строк датафрейма с ячейками 'no_data',
# в которых такие ячейки одновременно имеются в обоих интересующих столбцах
# и сравниваем полученное количество с ранее найденным количеством строк с пустыми ячейками исходного датафрейма:
d_t_test = df_test.loc[(df_test['days_employed'] == 'no_data') & (df_test['total_income'] == 'no_data')]
d_t_test_shape = d_t_test.shape[0]

if (d_t_test_shape == days_employed_null) & (d_t_test_shape == total_income_null):
    print("""
    В интересующих нас столбцах данные отсутствуют для одних и тех же потенциальных клиентов, 
    т.е. для этих людей имеется явная связь между отсутствием данных о трудовом стаже и ежемесячных доходах.
    """)
else: 
    print("Встречаются случаи, когда данные о стаже и доходах не указаны для разных потенциальных клиентов")
display(d_t_test.head(10))


    В интересующих нас столбцах данные отсутствуют для одних и тех же потенциальных клиентов, 
    т.е. для этих людей имеется явная связь между отсутствием данных о трудовом стаже и ежемесячных доходах.
    


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,no_data,65,среднее,1,гражданский брак,1,M,пенсионер,0,no_data,сыграть свадьбу
26,0,no_data,41,среднее,1,женат / замужем,0,M,госслужащий,0,no_data,образование
29,0,no_data,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,no_data,строительство жилой недвижимости
41,0,no_data,50,среднее,1,женат / замужем,0,F,госслужащий,0,no_data,сделка с подержанным автомобилем
55,0,no_data,54,среднее,1,гражданский брак,1,F,пенсионер,1,no_data,сыграть свадьбу
65,0,no_data,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,no_data,операции с коммерческой недвижимостью
67,0,no_data,52,высшее,0,женат / замужем,0,F,пенсионер,0,no_data,покупка жилья для семьи
72,1,no_data,32,высшее,0,женат / замужем,0,M,госслужащий,0,no_data,операции с коммерческой недвижимостью
82,2,no_data,50,высшее,0,женат / замужем,0,F,сотрудник,0,no_data,жилье
83,0,no_data,52,среднее,1,женат / замужем,0,M,сотрудник,0,no_data,жилье


Из анализа таблицы видно, что стаж и доход не указан для различных категорий граждан (например, пенсионеров, компаньонов, госслужащих, сотрудников). Эти люди явно работали/работают. Значит, наиболее вероятные причины отсутствия данных в том, что человек по каким-то причинам не захотел раскрывать информацию о стаже и доходе, либо произошел сбой при выгрузке данных.

В отсутствии достоверных сведений для количественных переменных о стаже и доходах целесообразно заполнить пропуски медианным значением — так с одной стороны статистка существенно не изменится, но с другой стороны для дальнейшего анализа будут доступны все строки исходного датасета.

### Проверка данных на аномалии и исправления
[В начало](#intro)

Последовательно проверим значения в столбцах датафрейма на аномалии. 

В столбце **children** (количество детей в семье) по смыслу не должно быть отрицательных значений. Также мало у кого сегодня более 5 детей, хотя многодетные родители могут встречаться.

In [6]:
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

К аномальным значениям относим "-1" и "20": вероятно при заполнении анкет были допущены ошибки. Например, если анкету заполняли  вручную, то знак "минус" на самом деле мог означать "тире". При заполнении анкеты на компьютере палец мог случайно почти одновременно нажать на две клавиши "2" и "0", которые на цифровой клавиатуре расположены рядом друг под другом.

Заменим все значения "-1" на "1", а "20" на "2" и оценим, долю замененных строк по отношению к количеству строк всего датасета.

In [7]:
var_1 = df[df['children'] == -1].shape[0]
var_2 = df[df['children'] == 20].shape[0]
df['children'] = df['children'].replace(-1, 1)
df['children'] = df['children'].replace(20, 2)
print(f"Всего строк в датафрейме {rows_count}\nКоличество замен значений \n-1 на 1: {var_1}\n20 на 2: {var_2}")
print("Доля строк с замененными значениями \n-1 на 1: {:.2%}".format(var_1/rows_count),"\n20 на 2: {:.2%}".format(var_2/rows_count))

Всего строк в датафрейме 21525
Количество замен значений 
-1 на 1: 47
20 на 2: 76
Доля строк с замененными значениями 
-1 на 1: 0.22% 
20 на 2: 0.35%


В столбце **days_employed** (общий трудовой стаж в днях) не должно быть отрицательных значений. 

Согласно статье 63 ТК РФ официально работать в России можно с 16 лет.<br/> Если количество лет трудового стажа больше возраста человека, то считаем такие данные недостоверными, однако исключать их из дальнейшего анализа не будем, поскольку для ответов на вопросы поставленной задачи трудовой стаж не имеет значения.

In [8]:
# Находим количество отрицательных значений:
var_1 = df[(df['days_employed'] < 0)]['days_employed'].count()
# Меняем в датасете все отрицательные значения на значения по модулю:
df["days_employed"] = df["days_employed"].abs()
# Заменяем все пропуски в столбце days_employed нулями:
df['days_employed'] = df['days_employed'].fillna(0)
# Заполняем нулевые значения в days_employed медианными значениями по этому столбцу:
df["days_employed"] = df["days_employed"].replace(0, df["days_employed"].median())
# Собираем промежуточный датасет, только из тех строк, в которых стаж в годах меньше, либо равен 
# разности между возрастом гражданина и разрешенным возрастом начала работы (16 лет):
df_test = df[(df["days_employed"]/365) <= (df["dob_years"]-16)]
print(f"В столбце days_employed было заменено: \n - на модули {var_1} значений,\n - пропусков на нули {days_employed_null} значений.")
print(f"После проверки условия соблюдения ТК РФ считаем недостоверными {rows_count - df_test.shape[0]} значений столбца days_employed\n(количество достоверных значений в столбце: {df_test.shape[0]}).\nДля дальнейшего исследования оставляем все {df.shape[0]} строк датафрейма.")
print("\nПервые 15 строк обновленного датафрейма:")
display(df.head(15))

В столбце days_employed было заменено: 
 - на модули 15906 значений,
 - пропусков на нули 2174 значений.
После проверки условия соблюдения ТК РФ считаем недостоверными 3624 значений столбца days_employed
(количество достоверных значений в столбце: 17901).
Для дальнейшего исследования оставляем все 21525 строк датафрейма.

Первые 15 строк обновленного датафрейма:


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Другие проверки на аномалии:<br/>
* а) в столбцах **dob_years** (возраст клиента в годах) и **total_income** (ежемесячный доход) не должно быть отрицательных значений.<br/>
* б) в столбце **debt** (имел ли задолженность по возврату кредитов) значения должны быть только 0 или 1.<br/>
Для проверки а) отрицательные значения заменяем на модули; для проверки б) - исключаем не прошедшие проверку строки из дальнейшего рассмотрения.

Значения в столбцах **education_id** (идентификатор уровня образования) и **family_status_id** (идентификатор семейного положения) не так важны для исследования.<br/>
В столбце **gender** (пол клиента) значения могут быть любыми - не так важно, какого пола клиент, главное чтобы аккуратно платил по кредиту.

In [9]:
# Проверка а):
if (df[(df['dob_years'] < 0)]['dob_years'].count()) == 0 or (df[(df['total_income'] < 0)]['total_income'].count()) == 0:
    print("Проверка а) пройдена - отрицательных значений нет.")
else:
    df["dob_years"] = df["dob_years"].abs()
    df["total_income"] = df["total_income"].abs()
    print("Проверка а) НЕ пройдена. Значения столбцов заменены на модули.")
# Проверка б):
print(f"Уникальные значения в столбцах \n - debt: {df['debt'].unique()}")
var_0 = df[(df['debt'] == 0)]['debt'].count()
var_1 = df[(df['debt'] == 1)]['debt'].count()
var_sum = df['debt'].count()
if ((var_0)+(var_1)) == (var_sum):
    print("Проверка б) пройдена - присутствуют только значения 0 или 1.")
else:
    df["debt"] = (df["debt"] == 0) & (df["debt"] == 1)
    print(f"Проверка б) НЕ пройдена. Не прошедшие проверку строки исключены. \n Обновленный датафрейм содержит следующие уникальные значения в столбце debt: {df['debt'].unique()}")
print(f"Уникальные значения в столбцах \n - education_id: {df['education_id'].unique()} \n - family_status_id: {df['family_status_id'].unique()} \n - gender: {df['gender'].unique()} ")
print("\nРаспределение заемщиков по полу:")
df["gender"].value_counts()

Проверка а) пройдена - отрицательных значений нет.
Уникальные значения в столбцах 
 - debt: [0 1]
Проверка б) пройдена - присутствуют только значения 0 или 1.
Уникальные значения в столбцах 
 - education_id: [0 1 2 3 4] 
 - family_status_id: [0 1 2 3 4] 
 - gender: ['F' 'M' 'XNA'] 

Распределение заемщиков по полу:


F      14236
M       7288
XNA        1
Name: gender, dtype: int64

### Изменение типов данных
[В начало](#intro)

Пропуски в столбце ежемесячного дохода (total_income) заменяем медианой в зависимости от типа занятости (income_type).<br/>
Заменям вещественный тип данных в столбце total_income на целочисленный с помощью метода astype().

In [10]:
# Заполняем пропуски медианой в зависимости от типа занятости применяя функцию transform():
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform("median"))
# Заменяем вещественный тип данных в столбце total_income на целочисленный:
df["total_income"] = df["total_income"].astype('int')
print("\nПервые 15 строк обновленного датафрейма:")
df.head(15)


Первые 15 строк обновленного датафрейма:


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


### Удаление дубликатов
[В начало](#intro)

Все явные дубликаты удаляем. Находим неявные дубликаты и приводим значения к единообразию.

In [11]:
var_1 = df.shape[0]
print(f"Количество строк в датафрейме до обработки явных дубликатов: {var_1}")
'''Чтобы в индексах не было пропусков при удалении дубликатов,
вместе с drop_duplicates() вызываем метод reset_index().
Аргумент drop=True указываем, чтобы не создавать столбец
со старыми значениями индексов.'''
df = df.drop_duplicates().reset_index(drop=True)
var_2 = df.shape[0]
if var_1 == var_2:
    print("Явных дубликатов не обнаружено.")
else:
    print(f"Количество строк в датафрейме после обработки явных дубликатов: {df.shape[0]}")

Количество строк в датафрейме до обработки явных дубликатов: 21525
Количество строк в датафрейме после обработки явных дубликатов: 21471


In [12]:
# Уникальные значения в столбце education:
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [13]:
# Обработка неявных дубликатов в столбце education - приведодим все слова к нижнему регистру используя str.lower():       
df['education'] = df['education'].str.lower()

df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [14]:
# Одработка неявных дубликатов в столбце family_status:
df['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [15]:
# Приводим значения к нижнему регистру в столбце family_status:
df['family_status'] = df['family_status'].replace("Не женат / не замужем", "не женат / не замужем")
#df['family_status'] = df['family_status'].str.lower()
df['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [16]:
# Одработка неявных дубликатов в столбце income_type:
df['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [17]:
# Одработка неявных дубликатов в столбце purpose:
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [18]:
# Обработка неявных дубликатов в столбце purpose:
print(f"Количество строк до обработки столбца purpose: {df['purpose'].count()}")
def purpose_replace_wrong_values(text):
    if 'автомобил' in text: return 'операции с автомобилем'
    elif 'свадьб' in text: return 'проведение свадьбы'
    elif 'образов' in text: return 'получение образования'
    else: return 'операции с недвижимостью'
  
df['purpose_category'] = df['purpose'].apply(purpose_replace_wrong_values)
print(f"Количество строк после обработки столбца purpose: {df['purpose_category'].count()}")
df['purpose_category'].unique()

Количество строк до обработки столбца purpose: 21471
Количество строк после обработки столбца purpose: 21471


array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

Для поиска и удаления дубликатов в данных были применены методы:<br/>
* drop_duplicates() - для явных дубликатов;
* unique(), str.lower(), replace(), а также создан дополнительный столбец через функцию с if/else и метод apply().

Возможные причины появления дубликатов: ручной ввод данных анкет - каждый человек заносил сведения "по-своему".

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма
[В начало](#intro)

Создадим два новых датафрейма, в которых: 
* каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
* каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.

Затем удалим из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id.

In [19]:
# Создаем датафреймы соответсвий:
education_dict = df[['education','education_id']]
family_status_dict = df[['family_status', 'family_status_id']]

# Удаляем дубликаты из датафреймов соответствий:
education_dict = education_dict.drop_duplicates().reset_index(drop=True)
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)
print("Датафрейм соответствий для столбца education:") 
display(education_dict.head())
print("Датафрейм соответствий для столбца family_status:") 
display(family_status_dict.head()) 

Датафрейм соответствий для столбца education:


Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Датафрейм соответствий для столбца family_status:


Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


In [20]:
# Удаляем из исходного датафрейма столбцы education и family_status:
df = df.drop(['education'], axis=1).reset_index(drop=True)
df = df.drop(['family_status'], axis=1).reset_index(drop=True)
display(df.head()) 

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,проведение свадьбы


### Категоризация дохода
[В начало](#intro)

Создадим столбец total_income_category с диапазонами А...Е, которым соответствуют категории: 
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

In [21]:
# Создадим функцию, которая категоризирует данные total_income:
def f_total_income_category(total_income):  
    if 0 <= total_income <= 30000: return 'E'
    elif 30001 <= total_income <= 50000: return 'D'
    elif 50001 <= total_income <= 200000: return 'C'   
    elif 200001 <= total_income <= 1000000: return 'B'
    else: return 'A'

# Создадим столбец total_income_category с диапазонами А...Е
df['total_income_category'] = df['total_income'].apply(f_total_income_category)

print("Первые 5 строк обновленного датафрейма:")
display(df.head())

Первые 5 строк обновленного датафрейма:


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,операции с недвижимостью,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,операции с автомобилем,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,операции с недвижимостью,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,получение образования,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,проведение свадьбы,C


### Категоризация целей кредита
[В начало](#intro)

Функция, которая на основании данных из столбца purpose формирует новый столбец purpose_category, в который входят категории: 
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'

была нами создана в последнем этапе п. "2.4. Удаление дубликатов".

## Ответы на вопросы
[В начало](#intro)

### Есть ли зависимость между количеством детей и возвратом кредита в срок?
[В начало](#intro)

In [22]:
# Добавим в датафрейм столбец debt_count из вариантов ответов в столбце debt:
df['debt_count'] = df['debt']
# Для оценки возможной зависимости значений построим сводную таблицу функцией pivot_table():
df_question_one_data = df.pivot_table(index=['children'], columns='debt_count', values='debt', aggfunc=['count'])
df_question_one = df.pivot_table(index=['children'], values='debt', aggfunc=['count', 'mean'])

# Названия столбцов итоговой сводной таблицы:
# print(df_question_one.columns)

# Cортируем итоговую сводную таблицу по убыванию:
df_question_one = df_question_one.sort_values(by=('mean', 'debt'), ascending=False)
 
print("Сводная таблица по интересующему столбцу с информацией о количествах возврата (count 0) или невозврата (count 1) кредита:")
display(df_question_one_data)

print("Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)\nи долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:")
df_question_one

Сводная таблица по интересующему столбцу с информацией о количествах возврата (count 0) или невозврата (count 1) кредита:


Unnamed: 0_level_0,count,count
debt_count,0,1
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,13044.0,1063.0
1,4411.0,445.0
2,1926.0,202.0
3,303.0,27.0
4,37.0,4.0
5,9.0,


Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)
и долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:


Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
4,41,0.097561
2,2128,0.094925
1,4856,0.091639
3,330,0.081818
0,14107,0.075353
5,9,0.0


**Наблюдается зависимость между количеством детей и возвратом кредита в срок: как правило, чем больше детей в семье, тем выше риски невозврата. Если детей нет, то статистика по возвратам хорошая.**

Исключение составляют семьи с 3 детьми с неплохой статисткой возвратов. Случай с 5 детьми также довольно уникальный: количество таких семей наименьшее - выборка самая маленькая, но кредиты возвращались вовремя.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?
[В начало](#intro)

In [23]:
# Для оценки возможной зависимости значений построим сводную таблицу методом .pivot_table():
df_question_two_data = df.pivot_table(index=['family_status_id'], columns='debt_count', values='debt', aggfunc=['count'])
df_question_two = df.pivot_table(index=['family_status_id'], values='debt', aggfunc=['count', 'mean']).reset_index()

# Для удобства интерпретации данных к сводной таблице добавляем датафрейм соответствий family_status_dict методом .merge():
#data.merge(data2, on='merge_column', how='left')
df_question_two = df_question_two.merge(family_status_dict, on='family_status_id', how='left')

# Названия столбцов итоговой сводной таблицы:
#print(df_question_two.columns)

# Cортируем итоговую сводную таблицу по убыванию:
df_question_two = df_question_two.sort_values(by=('mean', 'debt'), ascending=False)
 
print("Сводная таблица по интересующему столбцу с информацией о количествах возврата (count 0) или невозврата (count 1) кредита:")
display(df_question_two_data)
print("Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)\nи долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:")
df_question_two

  return merge(


Сводная таблица по интересующему столбцу с информацией о количествах возврата (count 0) или невозврата (count 1) кредита:


Unnamed: 0_level_0,count,count
debt_count,0,1
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2
0,11413,931
1,3775,388
2,896,63
3,1110,85
4,2536,274


Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)
и долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:


Unnamed: 0,family_status_id,"(family_status_id, )","(count, debt)","(mean, debt)",family_status
4,4,4,2810,0.097509,не женат / не замужем
1,1,1,4163,0.093202,гражданский брак
0,0,0,12344,0.075421,женат / замужем
3,3,3,1195,0.07113,в разводе
2,2,2,959,0.065693,вдовец / вдова


**Наблюдается четкая зависимость между официальным семейным статусом и возвратом кредита в срок: как правило, если клиент не состоит в браке или брачные отношения не узаконены, то риски невозврата выше.**

Такое положение дел возможно объяснить тем, что у официально семейных граждан больше возможностей для оплаты кредита (если второй супруг работает) и, вероятно, выше сознательность. Случаи разводов и вдовцов показывают схожую с семейными гражданами статистику (но и количество таких случаев в проанализированном датафрейме на несколько порядков ниже).

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
[В начало](#intro)

In [24]:
# Для удобства интерпретации данных cоздадим функцию, которая переводит значения total_income по правилу из п. 2.6. в интервалы:
def f_total_income_interval(total_income):  
    if 0 <= total_income <= 30000: return 'от 0 до 30000'
    elif 30001 <= total_income <= 50000: return 'от 30001 до 50000'
    elif 50001 <= total_income <= 200000: return 'от 50001 до 200000'   
    elif 200001 <= total_income <= 1000000: return 'от 200001 до 1000000'
    else: return '1000001 и более'

# Создадим столбец total_income_interval с интервалами:
df['total_income_interval'] = df['total_income'].apply(f_total_income_interval)

# Для оценки возможной зависимости значений построим сводную таблицу методом .pivot_table():
df_question_three_data = df.pivot_table(index=['total_income_category', 'total_income_interval'], columns='debt_count', values='debt', aggfunc=['count'])
df_question_three = df.pivot_table(index=['total_income_category', 'total_income_interval'], values='debt', aggfunc=['count', 'mean']).reset_index()

# Названия столбцов итоговой сводной таблицы:
#print(df_question_three.columns)

# Cортируем итоговую сводную таблицу по убыванию:
df_question_three = df_question_three.sort_values(by=( 'mean', 'debt'), ascending=False)
 
print("Сводная таблица по интересующему столбцу информацией о количествах возврата (count 0) или невозврата (count 1) кредита:\n")
display(df_question_three_data)
print("Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)\nи долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:")
df_question_three

Сводная таблица по интересующему столбцу информацией о количествах возврата (count 0) или невозврата (count 1) кредита:



Unnamed: 0_level_0,Unnamed: 1_level_0,count,count
Unnamed: 0_level_1,debt_count,0,1
total_income_category,total_income_interval,Unnamed: 2_level_2,Unnamed: 3_level_2
A,1000001 и более,23,2
B,от 200001 до 1000000,4686,356
C,от 50001 до 200000,14672,1360
D,от 30001 до 50000,329,21
E,от 0 до 30000,20,2


Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)
и долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:


Unnamed: 0_level_0,total_income_category,total_income_interval,count,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,debt,debt
4,E,от 0 до 30000,22,0.090909
2,C,от 50001 до 200000,16032,0.08483
0,A,1000001 и более,25,0.08
1,B,от 200001 до 1000000,5042,0.070607
3,D,от 30001 до 50000,350,0.06


**Самые высокие риски невозврата у граждан с самыми низкими доходами (до 30000 р.) - группы "Е". Плохо обстоят дела с возвратами у самой многочисленной группы "С" с доходами от 50001 до 200000 р. При этом для граждан с более высокими уровнями доходов анализ показал более выгодную картину по возвратам. Лучше всех возвращают кредиты граждане группы "D" c доходами от 300001 до 50000 р., но и количество таких заемщиков небольшое.**

Ситуацию с невозвратом кредитов в группе граждан с доходами "С" возможно объяснить тем, что это наиболее экономически активная группа - число ее членов в разы превышает совокупное число членов других групп. Отсюда и более информативная статистика.

### Как разные цели кредита влияют на его возврат в срок?
[В начало](#intro)

In [25]:
# Для оценки возможной зависимости значений построим сводную таблицу функцией pivot_table():
df_question_four_data = df.pivot_table(index=['purpose_category'], columns='debt_count', values='debt', aggfunc=['count'])
df_question_four = df.pivot_table(index=['purpose_category'], values='debt', aggfunc=['count', 'mean'])

# Названия столбцов итоговой сводной таблицы:
# print(df_question_four.columns)

# Cортируем итоговую сводную таблицу по убыванию:
df_question_four = df_question_four.sort_values(by=( 'mean', 'debt'), ascending=False)
 
print("Сводная таблица по интересующему столбцу информацией о количествах возврата (count 0) или невозврата (count 1) кредита:")
display(df_question_four_data)
print("Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)\nи долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:")
df_question_four

Сводная таблица по интересующему столбцу информацией о количествах возврата (count 0) или невозврата (count 1) кредита:


Unnamed: 0_level_0,count,count
debt_count,0,1
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,3905,403
операции с недвижимостью,10032,782
получение образования,3644,370
проведение свадьбы,2149,186


Сводная таблица по интересующему столбцу с общим количеством кредитов (count debt)
и долей невозврата кредита (mean debt = count 1 / count debt), отсортированная по убыванию долей невозврата:


Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
операции с автомобилем,4308,0.093547
получение образования,4014,0.092177
проведение свадьбы,2335,0.079657
операции с недвижимостью,10814,0.072314


**Выявлена следующая зависимость между целями кредита и возвратом кредита в срок: самые высокие риски невозврата - по операциям с автомобилями и получением образования. Чуть лучше ситуация по проведению свадеб. Самые же аккуратные платежи граждане совершают по операциям с недвижимостью. Кроме того, и количество самих кредитов по недвижимости больше суммы кредитов, выданных для всех других целей.**

Вывод о том, что по недвижимости кредиты самые возвращаемые, возможно объяснить высокой ценой и длительным сроком таких кредитов - очевидно, что платежеспособность таких клиентов перед выдачей кредитов необходимо проверять наиболее тщательно. Здесь распространена практика поручительства, залога объекта (ипотека) и страхование от неплатежей, что в совокупности улучшает статистку по платежам.

Кредитные суммы на прочие цели, как правило, намного меньше, чем суммы по недвижимости (например, оплата образования почти наверняка обойдется дешевле покупки жилья) и, вероятно, поэтому столь жестких проверок со стороны банков не делается.

## Общий вывод
[В начало](#intro)

**ЧТО СДЕЛАНО НА ЭТАПЕ ПРЕДОБРАБОТКИ ДАННЫХ**

Исходный датафрейм представлял собой таблицу из 12 столбцов и 21525 строк.
Имелись пропуски данных, недостоверные значения, явные и неявные смысловые дубликаты, аномальные значения.

Мы не знаем, как банк получил статистику по клиентам. Если использовалась информация из пенсионного фонда России (ПФР), то отсутствие сведений о трудовом стаже и доходе почти наверняка означает, что человек официально нигде не работал. Если использовалась информация из анкет, которые заполняют клиенты, то отсутствие данных может означать как то, что человек официально не работал, так и то, что человек по каким-то причинам не захотел раскрывать информацию о стаже и доходе. Также возможно произошел сбой при выгрузке данных.<br/>
Наиболее вероятно, что исходный датафрейм создан на основе анкетирования клиентов.

В столбце **children** (количество детей в семье) к аномальным значениям относим "-1" и "20": вероятно при заполнении анкет были допущены ошибки. Например, если анкету заполняли вручную, то знак "минус" на самом деле мог означать "тире". При заполнении анкеты на компьютере палец мог случайно почти одновременно нажать на две клавиши "2" и "0", которые на цифровой клавиатуре расположены рядом друг под другом. Заменяем все значения "-1" на "1", а "20" на "2".

В столбце **days_employed** (общий трудовой стаж в днях) не должно быть отрицательных значений. Согласно статье 63 ТК РФ официально работать в России можно с 16 лет, но исключать строки, неудовлетворяющие этому условию, не стали - столбец не влияет на решение поставленной задачи.

Другие проверки на аномалии:
* а) в столбцах **dob_years** (возраст клиента в годах) и **total_income** (ежемесячный доход) не должно быть отрицательных значений - отрицательные значения заменили на модули;

* б) в столбце **debt** (имел ли задолженность по возврату кредитов) значения должны быть только 0 или 1 - исключать непрошедшие проверку строки из дальнейшего рассмотрения не пришлось.

Значения в столбцах **education_id** (идентификатор уровня образования) и **family_status_id** (идентификатор семейного положения) не так важны для исследования.

В столбце **gender** (пол клиента) значения могут быть любыми - не так важно, какого пола клиент, главное чтобы аккуратно платил по кредиту.

Все явные дубликаты удалили. Значения неявных дубликатов привели к единообразию.
Возможные причины появления дубликатов: ручной ввод данных анкет - каждый человек заносил сведения "по-своему".

Выполнили категоризацию целей кредита ('операции с автомобилем', 'операции с недвижимостью', 'проведение свадьбы', 'получение образования).


<br/>**ИТОГИ ИССЛЕДОВАНИЯ - ОТВЕТЫ НА ПОСТАВЛЕННЫЕ ВОПРОСЫ**


**1) Есть ли зависимость между количеством детей и возвратом кредита в срок?<br/>** 
**- Как правило, чем больше детей в семье, тем выше риски невозврата. Если детей нет, то статистика по возвратам хорошая.**

Исключение составляют семьи с 3 детьми с неплохой статисткой возвратов. Случай с 5 детьми также довольно уникальный: количество таких семей наименьшее - выборка самая маленькая, но кредиты возвращались вовремя.

**2) Есть ли зависимость между семейным положением и возвратом кредита в срок?<br/>** 
**- Как правило, если клиент не состоит в браке или брачные отношения не узаконены, то риски невозврата выше.**

У официально семейных граждан больше возможностей для оплаты кредита (если второй супруг работает) и, вероятно, выше сознательность. Случаи разводов и вдовцов показывают схожую с семейными гражданами статистику (но и количество таких случаев в проанализированном датафрейме на несколько порядков ниже).

**3) Есть ли зависимость между уровнем дохода и возвратом кредита в срок?<br/>** 
**- Самые высокие риски невозврата у граждан с самыми низкими доходами (до 30000 р.) - группы "Е". Плохо обстоят дела с возвратами у самой многочисленной группы "С" с доходами от 50001 до 200000 р. При этом для граждан с более высокими уровнями доходов анализ показал более выгодную картину по возвратам. Лучше всех возвращают кредиты граждане группы "D" c доходами от 300001 до 50000 р., но и количество таких заемщиков небольшое.**

Ситуацию с невозвратом кредитов в группе граждан с доходами "С" возможно объяснить тем, что это наиболее экономически активная группа - число ее членов в разы превышает совокупное число членов других групп. Отсюда и более информативная статистика.

**4) Как разные цели кредита влияют на его возврат в срок?<br/>** 
**- Самые высокие риски невозврата - по операциям с автомобилями и получением образования. Чуть лучше ситуация по проведению свадеб. Самые же аккуратные платежи граждане совершают по операциям с недвижимостью.**

Вывод о том, что по недвижимости кредиты самые возвращаемые, возможно объяснить высокой ценой и длительным сроком таких кредитов - очевидно, что платежеспособность таких клиентов перед выдачей кредитов необходимо проверять наиболее тщательно. Здесь распространена практика поручительства, залога объекта (ипотека) и страхование от неплатежей, что в совокупности улучшает статистку по платежам. Кроме того, и количество самих кредитов по недвижимости больше суммы кредитов, выданных для всех других целей.

Кредитные суммы на прочие цели, как правило, намного меньше, чем суммы по недвижимости (например, оплата образования почти наверняка обойдется дешевле покупки жилья) и, вероятно, поэтому столь жестких проверок со стороны банков не делается.