<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Первичный-анализ-данных" data-toc-modified-id="Первичный-анализ-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Первичный анализ данных</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Определение-и-заполнение-пропущенных-значений" data-toc-modified-id="Определение-и-заполнение-пропущенных-значений-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Определение и заполнение пропущенных значений</a></span></li><li><span><a href="#Изменение-типов-данных" data-toc-modified-id="Изменение-типов-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Изменение типов данных</a></span></li><li><span><a href="#Определение-и-удаление-дубликатов" data-toc-modified-id="Определение-и-удаление-дубликатов-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Определение и удаление дубликатов</a></span></li><li><span><a href="#Лемматизация" data-toc-modified-id="Лемматизация-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Лемматизация</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Категоризация данных</a></span></li></ul></li><li><span><a href="#Анализ-полученных-данных" data-toc-modified-id="Анализ-полученных-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Анализ полученных данных</a></span><ul class="toc-item"><li><span><a href="#Определение-зависимости-между-наличием-детей-и-возвратом-кредита-в-срок." data-toc-modified-id="Определение-зависимости-между-наличием-детей-и-возвратом-кредита-в-срок.-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Определение зависимости между наличием детей и возвратом кредита в срок.</a></span></li><li><span><a href="#Определение-зависимости-между-семейным-положением-и-возвратом-кредита-в-срок" data-toc-modified-id="Определение-зависимости-между-семейным-положением-и-возвратом-кредита-в-срок-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Определение зависимости между семейным положением и возвратом кредита в срок</a></span></li><li><span><a href="#Определение-зависимости-между-уровнем-дохода-и-возвратом-кредита-в-срок" data-toc-modified-id="Определение-зависимости-между-уровнем-дохода-и-возвратом-кредита-в-срок-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Определение зависимости между уровнем дохода и возвратом кредита в срок</a></span></li><li><span><a href="#Определение-зависимости-между-целью-кредита-и-возвратом-его-в-срок" data-toc-modified-id="Определение-зависимости-между-целью-кредита-и-возвратом-его-в-срок-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Определение зависимости между целью кредита и возвратом его в срок</a></span></li></ul></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

# Проект «Исследование надёжности заёмщиков»

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цели:**
1. Определить есть ли зависимость между наличием детей и возвратом кредита в срок.
2. Определить есть ли зависимость между семейным положением и возвратом кредита в срок.
3. Определить есть ли зависимость между уровнем дохода и возвратом кредита в срок.
4. Определить как разные цели кредита влияют на его возврат в срок.

**Описание данных:**
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

## Первичный анализ данных

In [1]:
import pandas as pd
import numpy as np
from pymystem3 import Mystem
from collections import Counter
from tqdm import tqdm

pd.options.display.float_format = '{:.2f}'.format

In [2]:
df = pd.read_csv('data.csv')

Переименуем некоторые столбцы исходной таблицы, с целью более ясного отражения описываемого ими признака.
- days_employed — work_experience
- dob_years — age
- income_type — employment_type
- total_income — salary

In [3]:
df = df.rename(columns={'days_employed': 'work_experience', 'dob_years': 'age', 
                        'income_type': 'employment_type', 'total_income': 'salary'})

In [4]:
df.head(10)

Unnamed: 0,children,work_experience,age,education,education_id,family_status,family_status_id,gender,employment_type,debt,salary,purpose
0,1,-8437.67,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья
1,1,-4024.8,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля
2,0,-5623.42,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья
3,3,-4124.75,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование
4,0,340266.07,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу
5,0,-926.19,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья
6,0,-2879.2,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем
7,0,-152.78,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.93,образование
8,2,-6929.87,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы
9,0,-2188.76,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   work_experience   19351 non-null  float64
 2   age               21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   employment_type   21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  salary            19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Получили общую информацию по исследуемому датафрейму и всем его признакам. Стоит отметить, что данный датафрейм имеет 7 количественных (типы *float64*, *int64*) и 5 качественных (тип *object*) признаков, которые в полной мере соответствуют хранящимся данным. 

Можно отметить следующие проблемные места:
1. В столбцах `work_experience` и `salary` имеется одинаковое количество пропущенных значений, которые, скорее всего, неслучайны, принадлежат одним и тем же объектам и являются следствием не предоставления данной информации заемщиком (кредит "без справки о доходах") либо не внесением последней в базу данных.
2. Тип данных для столбцов `work_experience` и `salary` стоит изменить с *float* на *int* для удобочитаемости без потери значимой информации.

In [6]:
df[df.isna().any(axis=1)].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2174 entries, 12 to 21510
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          2174 non-null   int64  
 1   work_experience   0 non-null      float64
 2   age               2174 non-null   int64  
 3   education         2174 non-null   object 
 4   education_id      2174 non-null   int64  
 5   family_status     2174 non-null   object 
 6   family_status_id  2174 non-null   int64  
 7   gender            2174 non-null   object 
 8   employment_type   2174 non-null   object 
 9   debt              2174 non-null   int64  
 10  salary            0 non-null      float64
 11  purpose           2174 non-null   object 
dtypes: float64(2), int64(5), object(5)
memory usage: 220.8+ KB


Убедились, что пропуски принадлежат одним и тем же объектам.

In [7]:
df.describe()

Unnamed: 0,children,work_experience,age,education_id,family_status_id,debt,salary
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.54,63046.5,43.29,0.82,0.97,0.08,167422.3
std,1.38,140827.31,12.57,0.55,1.42,0.27,102971.57
min,-1.0,-18388.95,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.42,33.0,1.0,0.0,0.0,103053.15
50%,0.0,-1203.37,42.0,1.0,0.0,0.0,145017.94
75%,1.0,-291.1,53.0,1.0,1.0,0.0,203435.07
max,20.0,401755.4,75.0,4.0,4.0,1.0,2265604.03


In [8]:
df.describe(include=['object'])

Unnamed: 0,education,family_status,gender,employment_type,purpose
count,21525,21525,21525,21525,21525
unique,15,5,3,8,38
top,среднее,женат / замужем,F,сотрудник,свадьба
freq,13750,12380,14236,11119,797


Используя метод `describe()` и `describe(include=['object'])` получили описательную статистику данных по всем количественным и качественным признакам датафрейма, соответственно.

**Можно отметить следующие проблемные места:**
1. Отрицательные значения в столбце `children`.
2. Большое количество отрицательных значений в столбце `work_experience`. Данная ошибка, скорее всего, связанна с проблемой при выгрузке информации из базы данных и решается функцией `abs()`.
3. Максимальные значения в столбцах `children` (*20 детей*), `work_experience` (*401755.400475	дней*) и минимальное в столбце `age` (*0 лет*) не могут соответствовать действительности. И, скорее всего, являются ошибкой оператора при внесении значений в базу данных.
4. Большое количество (*15*) уникальных значений в столбце `education`. Связано это с использованием разного регистра при внесении информации в базу данных.
5. В столбце `gender` можно отметить *3* уникальных значения, что может соответствовать действительности в реалиях *XXI* веке, однако, более вероятно, что под графой *гендер* имелся ввиду *пол* и уникальных значения должно быть *2*.


In [9]:
df['children'].value_counts(normalize = True)

 0    0.66
 1    0.22
 2    0.10
 3    0.02
 20   0.00
-1    0.00
 4    0.00
 5    0.00
Name: children, dtype: float64

In [10]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

**Выводы**
1. Пропущенные значения в столбцах `work_experience` и `salary` необходимо восстановить. В `work_experience` пропуски заменим средним значением трудового стажа в зависимости от вида деятельности. Отрицательные значения заменим на положительные. В `salary` — медианным значением заработной планы в зависимости от вида деятельности и образования.
2. С учетом небольшого относительного количества объектов с проблемными значениями в столбце `children`, а также с учетом того, что данный столбец необходим для расчета целевого показателя и потенциальное искажение распределения данных при неверном его заполнении может отразиться на результатах, строки со значением *-1* и *20* стоит удалить.
3. Нулевые значения в столбце `age` можно заменить на средние значения в зависимости от вида деятельности.
4. Чтобы учесть дубликаты, связанные с регистром символов, в столбце `education`, все символы в строках данного столбца приведем к нижнему регистру.
5. Для упрощения манипуляций со значениями и ввиду отсутствия вероятности потери значимой информации стоит изменить тип данных для столбцов `work_experience` и `salary` с *float* на *int*.

## Предобработка данных

### Определение и заполнение пропущенных значений

In [11]:
df = df[(df['children'] < 20) & (df['children'] >= 0)]

In [12]:
df['children'].value_counts()

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

In [13]:
df.isna().sum()

children               0
work_experience     2162
age                    0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
employment_type        0
debt                   0
salary              2162
purpose                0
dtype: int64

Чтобы в дальнейшем заполнить пропущенные данные наиболее вероятными значениями, для начала разберемся с другими недочетами в столбце `work_experience` (отрицательные и невероятные значения).

In [14]:
df['work_experience'] = round(df['work_experience'].abs())

In [15]:
# Посмотрим на распределение невероятных значений в столбце 'work_experience'. 
# Условием для выявления данных значений определяем максимально возможный стаж работы для самого пожилого объекта в выборке 
# с учетом начала трудовых отношений в 16 лет.
df.loc[df['work_experience'] > (df['age'].max() - 16)*365]['work_experience'].describe()

count     3431.00
mean    365025.90
std      21087.47
min     328729.00
25%     346649.00
50%     365287.00
75%     383293.00
max     401755.00
Name: work_experience, dtype: float64

Можно заметить, что в датафрейме *3431* объект с невероятными значениями в данном столбце. Также стоит обратить внимание, что значения хоть и невероятны, но распределены равномерно. Таким образом, скорее всего, была допущена ошибка при отделении целой части числа от дроби. Для исправления ошибки данные значения необходимо разделить на *100*.

In [16]:
df['work_experience'] = df['work_experience'].apply(lambda x: x / 100 if x > (df['age'].max() - 16) * 365 else x)

In [17]:
df['work_experience'] = df.groupby('employment_type')['work_experience'].transform(lambda x: x.fillna(x.mean()))

In [18]:
df['work_experience'].describe()

count   21402.00
mean     2586.34
std      2046.15
min        24.00
25%      1027.00
50%      2323.66
75%      3636.17
max     18389.00
Name: work_experience, dtype: float64

In [19]:
df['salary'] = df.groupby(['employment_type', 'education'])['salary'].transform(lambda x: x.fillna(x.median()))

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21402 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   work_experience   21402 non-null  float64
 2   age               21402 non-null  int64  
 3   education         21402 non-null  object 
 4   education_id      21402 non-null  int64  
 5   family_status     21402 non-null  object 
 6   family_status_id  21402 non-null  int64  
 7   gender            21402 non-null  object 
 8   employment_type   21402 non-null  object 
 9   debt              21402 non-null  int64  
 10  salary            21402 non-null  float64
 11  purpose           21402 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


In [21]:
df['age'] = df.groupby(['employment_type'])['age'].transform(lambda x: x.replace(0, int(x.mean())))

In [22]:
df = df.drop(df[df['gender'] == 'XNA'].index)

In [23]:
df['gender'].value_counts()

F    14154
M     7247
Name: gender, dtype: int64

In [24]:
df.describe()

Unnamed: 0,children,work_experience,age,education_id,family_status_id,debt,salary
count,21401.0,21401.0,21401.0,21401.0,21401.0,21401.0,21401.0
mean,0.47,2586.35,43.5,0.82,0.97,0.08,165399.93
std,0.75,2046.2,12.24,0.55,1.42,0.27,98293.51
min,0.0,24.0,19.0,0.0,0.0,0.0,20667.26
25%,0.0,1027.0,34.0,1.0,0.0,0.0,107634.55
50%,0.0,2323.66,43.0,1.0,0.0,0.0,143092.82
75%,1.0,3636.18,53.0,1.0,1.0,0.0,198088.68
max,5.0,18389.0,75.0,4.0,4.0,1.0,2265604.03


**Вывод:**
1. Были исправлены ошибочные и восстановлены пропущенные значения в столбцах `work_experience`, `age` и `salary`. 
2. Были удалены строки с проблемными значениями в столбцах `children`, `age` и `gender`.

### Изменение типов данных

In [25]:
df['work_experience'], df['salary'] = df['work_experience'].astype('int'), df['salary'].astype('int')

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21401 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21401 non-null  int64 
 1   work_experience   21401 non-null  int32 
 2   age               21401 non-null  int64 
 3   education         21401 non-null  object
 4   education_id      21401 non-null  int64 
 5   family_status     21401 non-null  object
 6   family_status_id  21401 non-null  int64 
 7   gender            21401 non-null  object
 8   employment_type   21401 non-null  object
 9   debt              21401 non-null  int64 
 10  salary            21401 non-null  int32 
 11  purpose           21401 non-null  object
dtypes: int32(2), int64(5), object(5)
memory usage: 2.0+ MB


### Определение и удаление дубликатов

In [27]:
df['education'] = df['education'].str.lower()

In [28]:
df['education'].value_counts()

среднее                15136
высшее                  5237
неоконченное высшее      740
начальное                282
ученая степень             6
Name: education, dtype: int64

In [29]:
print(f'В датафрейме {df.duplicated().sum()} дублирующихся значений')

В датафрейме 54 дублирующихся значений


In [30]:
df = df.drop_duplicates().reset_index(drop = True)

In [31]:
print(f'В датафрейме {df.duplicated().sum()} дублирующихся значений')

В датафрейме 0 дублирующихся значений


**Выводы:** 
1. В *пункте 2.2* произвели изменение типов данных столбцов `work_experience`и `salary`, что повысило их читабельность. 
2. В *пункте 2.3* очистили датафрейм от дубликатов, которые влияют на статистическое распределение данных и могли вызвать смещение финальных оценок.

### Лемматизация

В исследуемом датафрейме имеется столбец `purpose`, который обозначает цель получения кредита. Данные в нем хранятся в свободной, указанной заемщиком, форме. Для определения влияния цели кредита на возврат его в срок необходимо привести значения данного столбца к единообразию. Для этого выполним лемматизацию, то есть преобразуем слова в их базовые формы, с помощью разработанной специалистами Яндекса библиотеки `pymystem3`.

In [32]:
df['purpose'].value_counts()

свадьба                                   792
на проведение свадьбы                     768
сыграть свадьбу                           764
операции с недвижимостью                  672
покупка коммерческой недвижимости         659
покупка жилья для сдачи                   650
операции с жильем                         647
операции с коммерческой недвижимостью     645
жилье                                     641
покупка жилья                             640
покупка жилья для семьи                   637
недвижимость                              631
строительство собственной недвижимости    628
операции со своей недвижимостью           623
строительство жилой недвижимости          621
покупка своего жилья                      619
строительство недвижимости                619
покупка недвижимости                      615
ремонт жилью                              604
покупка жилой недвижимости                602
на покупку своего автомобиля              504
заняться высшим образованием      

In [33]:
purposes = ' '.join(list(df['purpose'].unique()))
lemmas = Counter(Mystem().lemmatize(purposes)).most_common()
print(*lemmas, sep='\n')

(' ', 96)
('покупка', 10)
('недвижимость', 10)
('автомобиль', 9)
('образование', 9)
('жилье', 7)
('с', 5)
('операция', 4)
('на', 4)
('свой', 4)
('свадьба', 3)
('строительство', 3)
('получение', 3)
('высокий', 3)
('дополнительный', 2)
('для', 2)
('коммерческий', 2)
('жилой', 2)
('подержать', 2)
('заниматься', 2)
('сделка', 2)
('приобретение', 1)
('сыграть', 1)
('проведение', 1)
('семья', 1)
('собственный', 1)
('со', 1)
('профильный', 1)
('сдача', 1)
('ремонт', 1)
('\n', 1)


In [34]:
final_lemmas = [i[0] for i in lemmas if len(i[0]) > 4][:10]
print(*final_lemmas, sep='\n')

покупка
недвижимость
автомобиль
образование
жилье
операция
свадьба
строительство
получение
высокий


Проведя анализ изначальных значений столбца `purpose` и *10* наиболее часто встречающихся лемм можно выделить следующее:
1. недвижимость и жилье синонимы и могут являться целью кредита;
2. автомобиль может являться целью кредита;
3. образование может являться целью кредита;
4. свадьба может являться целью кредита;
5. остальные леммы являются частью вышеописанных целей кредита и не имеют самостоятельной ценности.

In [35]:
final_lemmas = [i for i in final_lemmas if i not in ('покупка', 'операция', 'строительство', 'получение', 'высокий')]

**Вывод:**
Проведя лемматизацию получили список *10* наиболее часто встречающихся лемм среди уникальных значений столбца `purpose`, из которых выбрали *5* наиболее вероятные для проведения дальнейшей категоризации данных.


### Категоризация данных

С учетом целей данного исследования необходимо выделить определенные сегменты в признаках `children`, `salary` и `purpose`. Для этого прибегнем к категоризации данных.

Для столбца `children` выделим следующие категории:
- нет детей — значение 0;
- 1-2 ребенка — значения 1 и 2;
- многодетные — все значения более 2.

In [36]:
df['children_category'] = df['children'].\
apply(lambda x: np.where(x==0, 'нет детей', np.where(1<=x<=2, '1-2 ребенка', 'многодетные')))

С учетом распределения значений в столбце `salary` выделим следующие категории:
- менее 50 тыс. — значения меньше 50000
- 50-100 тыс. — значения в диапазоне 50000-100000, не включая последнее
- 100-500 тыс. — значения в диапазоне 100000 - 500000, не включая последнее
- более 500 тыс. - значения выше 500000

In [37]:
df['salary_category'] = df['salary'].\
apply(lambda x: np.where(x<50000, 'менее 50 тыс.', 
                         np.where(50000<=x<100000, '50-100 тыс.', 
                                  np.where(100000<=x<500000, '100-500 тыс.', 'более 500 тыс.'))))

Для столбца `purpose`  выделим следующие категории:
- 1 — цель: операции с недвижимостью
- 2 — цель: операции с автомобилями
- 3 — цель: получение образования
- 4 — цель: проведение свадьбы

In [38]:
# Создадим словарь final_lemma_dict с 5 наиболее точно описывающими цель кредита леммами, полученными в пункте 2.4, 
# в качестве ключа и целевыми категориями в качестве значения.
final_lemma_dict = dict(zip(final_lemmas, [1, 2, 3, 1, 4]))

In [39]:
# Создадим словарь purpose_id_dict, в котором сопоставим целевые категории уникальным значениям столбца 'purpose'.
purpose_id_dict = {}
for c in tqdm(list(df['purpose'].unique())):
    for i in c.split():
        lemma = Mystem().lemmatize(i)
        if lemma[0] in final_lemma_dict:
            purpose_id_dict.update({c:final_lemma_dict[lemma[0]]})

100%|██████████████████████████████████████████████████████████████████████████████████| 38/38 [01:29<00:00,  2.35s/it]


In [40]:
def purpose_id(row):
    for k, v in purpose_id_dict.items():
        if row == k:
            return v
        
        
df['purpose_id'] = df['purpose'].apply(purpose_id)

In [41]:
df.sample(10, random_state=17)

Unnamed: 0,children,work_experience,age,education,education_id,family_status,family_status_id,gender,employment_type,debt,salary,purpose,children_category,salary_category,purpose_id
6446,0,2088,40,среднее,1,женат / замужем,0,F,сотрудник,0,78828,ремонт жилью,нет детей,50-100 тыс.,1
1402,1,482,57,среднее,1,гражданский брак,1,M,сотрудник,0,183284,сыграть свадьбу,1-2 ребенка,100-500 тыс.,4
15914,0,3987,62,среднее,1,вдовец / вдова,2,F,пенсионер,0,123612,строительство недвижимости,нет детей,100-500 тыс.,1
8091,2,437,38,среднее,1,женат / замужем,0,M,сотрудник,0,175426,получение образования,1-2 ребенка,100-500 тыс.,3
3532,1,3591,44,высшее,0,женат / замужем,0,M,пенсионер,0,99336,покупка жилья для семьи,1-2 ребенка,50-100 тыс.,1
20518,0,2304,25,высшее,0,Не женат / не замужем,4,M,сотрудник,1,273216,заняться образованием,нет детей,100-500 тыс.,3
20532,0,3589,34,среднее,1,женат / замужем,0,M,компаньон,0,95405,приобретение автомобиля,нет детей,50-100 тыс.,2
7159,2,1922,37,среднее,1,женат / замужем,0,M,госслужащий,0,206255,строительство недвижимости,1-2 ребенка,100-500 тыс.,1
18736,0,304,49,среднее,1,женат / замужем,0,F,сотрудник,0,245904,строительство собственной недвижимости,нет детей,100-500 тыс.,1
12623,0,1187,52,высшее,0,женат / замужем,0,F,госслужащий,0,260578,на покупку автомобиля,нет детей,100-500 тыс.,2


**Выводы:** Провели категоризацию данных с целью сегментации и дальнейшей оценки заемщиков по целевым признакам.

## Анализ полученных данных

### Определение зависимости между наличием детей и возвратом кредита в срок.

In [42]:
df_children = df.groupby('children_category')['debt'].mean()
ls = sorted(df['children_category'].unique())
for i in range(len(df_children)):
    print(f'{round(df_children[i] * 100, 1)} % заемщиков из категории "{ls[i]}" имеют задолженность по кредиту.')

9.3 % заемщиков из категории "1-2 ребенка" имеют задолженность по кредиту.
8.2 % заемщиков из категории "многодетные" имеют задолженность по кредиту.
7.5 % заемщиков из категории "нет детей" имеют задолженность по кредиту.


**Вывод:** Заемщики *без детей* менее всех склонны иметь задолженность по кредиту.

### Определение зависимости между семейным положением и возвратом кредита в срок

In [43]:
df_pivot_family_status = df.pivot_table(index='family_status', columns='debt', values='family_status_id', aggfunc='count')
df_pivot_family_status['percentage of debtors'] = ((df_pivot_family_status[1] / df_pivot_family_status[0]) * 100)
df_pivot_family_status['percentage of debtors'] = df_pivot_family_status['percentage of debtors'].astype('int')
df_pivot_family_status['number of borrowers'] = df_pivot_family_status[1] + df_pivot_family_status[0]

In [44]:
df_pivot_family_status.loc[:, ['percentage of debtors', 'number of borrowers']]

debt,percentage of debtors,number of borrowers
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
Не женат / не замужем,10,2796
в разводе,7,1189
вдовец / вдова,7,951
гражданский брак,10,4145
женат / замужем,8,12266


**Вывод:** Заемщики, которые связаны либо были связаны узами брака менее всех склонны иметь задолженность по кредиту.

### Определение зависимости между уровнем дохода и возвратом кредита в срок

In [45]:
df_pivot_salary = df.pivot_table(index='salary_category', columns='debt', values='salary', aggfunc='count')
df_pivot_salary['percentage of debtors'] = ((df_pivot_salary[1] / df_pivot_salary[0]) * 100)
df_pivot_salary['percentage of debtors'] = df_pivot_salary['percentage of debtors'].astype('int')
df_pivot_salary['number of borrowers'] = df_pivot_salary[1] + df_pivot_salary[0]

In [46]:
df_pivot_salary.loc[:, ['percentage of debtors', 'number of borrowers']]

debt,percentage of debtors,number of borrowers
salary_category,Unnamed: 1_level_1,Unnamed: 2_level_1
100-500 тыс.,8,16679
50-100 тыс.,8,4075
более 500 тыс.,6,222
менее 50 тыс.,6,371


**Вывод:** Заемщики, уровень дохода которых менее *50 тыс* либо более *500 тыс* менее всех склонны иметь задолженность по кредиту.

### Определение зависимости между целью кредита и возвратом его в срок

In [47]:
df_pivot_purpose = df.pivot_table(index='purpose_id', columns='debt', values='purpose', aggfunc='count')
df_pivot_purpose['percentage of debtors'] = ((df_pivot_purpose[1] / df_pivot_purpose[0]) * 100)
df_pivot_purpose['percentage of debtors'] = df_pivot_purpose['percentage of debtors'].astype('int')
df_pivot_purpose['number of borrowers'] = df_pivot_purpose[1] + df_pivot_purpose[0]

In [48]:
df_pivot_purpose.loc[:, ['percentage of debtors', 'number of borrowers']]

debt,percentage of debtors,number of borrowers
purpose_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,7,10753
2,10,4281
3,10,3989
4,8,2324


In [49]:
for key, value in final_lemma_dict.items():
    print(f'{value} - цель: {key}')

1 - цель: недвижимость
2 - цель: автомобиль
3 - цель: образование
1 - цель: жилье
4 - цель: свадьба


**Вывод:** Заемщики, цель кредита которых операции с недвижимостью менее всех склонны иметь по нему задолженность.

## Вывод

Во время проведения исследования было обнаружено, что методы сбора данных банка плохо контролируются, что, в свою очередь, привело к появлению недопустимых значений (отрицательные значения количества детей в семье, большое количество отрицательных либо значительно превышающих возраст клиента значений общего трудового стажа, нулевые значения возраста клиента), а также отсутствию значений, повторяющимся значениям. В результате анализа данных, которые не защищены от такого рода проблем, можно прийти к неверным решениям и выводам по статистике платёжеспособности клиентов. Качество данных является первостепенной задачей при проведении анализа, ведь мусор на входе, мусор на выходе.

С целью исключения факторов снижающих качество данных, была произведена обработка дубликатов, противоречивых значений, восстановление и заполнение пропусков, редактирование аномальных значений, что в итоге позволило подойти к анализу статистики платёжеспособности клиентов и получению ответов на целевые вопросы.

Исследование показало, что существует зависимость между наличием детей, семейным положением, уровнем дохода, целью кредита и возвратом кредита в срок:


1. *Наличие детей:*

    - 9.3 % заемщиков из категории "1-2 ребенка" имеют задолженность по кредиту;
    - 8.2 % заемщиков из категории "многодетные" имеют задолженность по кредиту;
    - 7.5 % заемщиков из категории "нет детей" имеют задолженность по кредиту.
    
    
2. *Семейное положение:*

    - 10 % заемщиков из категории "не женат/не замужем" имеют задолженность по кредиту;
    - 7 % заемщиков из категории "в разводе" имеют задолженность по кредиту;
    - 7 % заемщиков из категории "вдовец/вдова" имеют задолженность по кредиту;
    - 10 % заемщиков из категории "гражданский брак" имеют задолженность по кредиту;
    - 8 % заемщиков из категории "женат/замужем" имеют задолженность по кредиту.


3. *Уровень дохода:*

    - 8 % заемщиков из категории "100-500 тыс." имеют задолженность по кредиту;	
    - 8 % заемщиков из категории "50-100 тыс." имеют задолженность по кредиту;	
    - 6 % заемщиков из категории "более 500 тыс." имеют задолженность по кредиту;	
    - 6 % заемщиков из категории "менее 50 тыс." имеют задолженность по кредиту.
    
    
3. *Цель кредита:*

    - 7 % заемщиков из категории "недвижимость" имеют задолженность по кредиту;
    - 10 % заемщиков из категории "автомобиль" имеют задолженность по кредиту;
    - 10 % заемщиков из категории "образование" имеют задолженность по кредиту;
    - 8 % заемщиков из категории "свадьба" имеют задолженность по кредиту;
    
    
Согласно полученным результатам можно сделать вывод о том, что наиболее надежным заемщиком является человек, который связан либо был связан в прошлом узами брака, не имеющий детей и целью получения кредита которого является операция с недвижимостью.