# Исследование характеристик заемщиков (Borrower Characteristics Research)

## Описание проекта

На основе данных кредитного отдела банка оценить способность потенциального заёмщика вернуть кредит банку.

**Цель исследования:**

Определить, вляют ли количество детей, семейное положение, уровень дохода, цель кредита на факт погашения кредита в срок.

Исследование включает в себя:
 1. Обзор данных
 2. Предобработка данных
 3. Исследовательский анализ
 4. Вывод

## Обзор данных <a id="1"></a> 

Импортируем библиотеку `pandas`

In [1]:
import pandas as pd # импорт библиотеки pandas

Загрузим данные и получим информацию о данных. Создадим функцию `df_read_csv`, которая выведит сообщение об ошибке, если информация о файле будет указана неверно

In [2]:
def df_read_csv(path):
    try:
        return pd.read_csv(path)
    except Exception:
        print('Ошибка при загрузке файла')
df = df_read_csv('data.csv')

Выведим первые десять строк таблицы:

In [3]:
df.head(10) # получение первых 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Получим общую информацию о таблице:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


В таблице 11 столбцов. Типы данных в столбцах разные — `object`, `int`, `float`.

Согласно документации к данным:
* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Выводы**

В каждой строке таблицы — данные о клиенте банка.

В данных встречаются пропуски (в столбцах `days_employed` и `total_income`), а также расхождение с хорошим стилем.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных <a id="2"></a> 

### Заполнение пропусков <a id="2.1"></a> 

В столбце `total_income` есть пропущенные значения. Выведим первые пять строк с пропусками:

In [6]:
df[df['total_income'].isna()].head(5) # вывод 5 строк таблицы с пропущенными значениями в столбце total_income

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Вычислим долю пропущенных значений от общего числа значений в столбце `total_income`: 

In [7]:
pass_total_income = len(df[df['total_income'].isna()]) # количество пропущенных значений
total_income_len = len(df['total_income']) # общее количество значений
print(f'Доля пропущенных значений {pass_total_income / total_income_len:.0%}') # доля пропущенных значений в %

Доля пропущенных значений 10%


In [8]:
df['total_income'].isna().mean() # второй способ подсчета пропущенных значений

0.10099883855981417

Пропуски данных в столбце `total_income` записаны как NaN. Это ожидаемы пропуски данных. Причины появления пропусков могут быть разными. Например, клиент не указал о себе сведения, или ошибки на стадии переноса данных. 10% - это достаточно высокое значение, поэтому пропуски стоит заполнить. 

Найдем минимальное и максимальное значения в столбце `total_income`:

In [9]:
df['total_income'].min(), df['total_income'].max() # нахождение минимального и максимального значениий

(20667.26379327158, 2265604.028722744)

Видим, что минимальное и максимальное значения различаются в два порядка. Медиана менее чувствительна к выбросам, чем среднее арифметическое, поэтому пропущенные значения заполним медианными, причем тип занятости `income_type` можно учесть при вычислении медианы.

In [10]:
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform('median')) #заполнение пропусков в total_income по группам в income_type
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Пропущенных значений не осталось, а заполнились они медианными значениями.

**Выводы**

В столбце `total_income` были найдены пропущенные значения, их доля от общего числа значений в столбце составляет 10%. Заполнить эти значения было решено медианными значениями с учетом типа занятости. В итоге в столбце `total_income` не осталось пропусков, но остались пропуски в столбце `days_employed`, с которыми разберемся далее.

### Проверка данных на аномалии и исправления <a id="2.2"></a> 

В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Мы видим, что в столбце `days_employed` отрицательное количество дней трудового стажа. Предположим, что это ошибка данных, полученная во время записи данных. Исправим ее, поставив отрицательные значения по модулю, т.е. сделаем их положительными.

In [11]:
df['days_employed'] = df['days_employed'].abs() # выбор модуля числа
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Теперь необходимо заполнить пропуски в столбце `days_employed`. Доля пропусков такая же, как в столбце `total_income` - 10%. Проверим, есть ли разброс в значениях в столбце `days_employed`:

In [12]:
df['days_employed'].min(), df['days_employed'].max() # нахождение минимального и максимального значениий

(24.14163324048118, 401755.40047533)

Исходя из полученных данных, видим что разброс состовляет 4 порядка, поэтому следует заполнить пропуски медианными значениями аналогично столбцу `total_income`.

In [13]:
df['days_employed'] = df['days_employed'].fillna(df.groupby('income_type')['days_employed'].transform('median')) #заполнение пропусков в days_employed по группам в income_type
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Проверим столбец `children` на аномалии.

In [14]:
df['children'].value_counts() # количество уникальных значений в столбце

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

В столбце `children` обнаружено 2 аномалии: отрицательное количество детей и **20** детей у 76 клиентов. Отрицательное количество детей заменим на положительное, предположив, что это ошибка ввода данных, а значение **20** поменяем на среднее значение детей в столбце, т.к. среднее арифметическое лучше использовать для данных без выбросов.

In [15]:
df['children'] = df['children'].abs() # модуль значений
children_mean = df['children'].mean() # среднее значение 
df.loc[df['children'] == 20, 'children'] = children_mean # замена значения 20 на среднее значение в столбце
df['children'] = df['children'].astype(int) # перевод значений в начальный формат
df['children'].value_counts() # количество уникальных значений в столбце

0    14225
1     4865
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Как видим, в столбце `children` аномалий больше нет .

Проверим столбец `gender` на аномалии.

In [16]:
print(df['gender'].value_counts()) # количество уникальных значений в столбце
df[df['gender'] == 'XNA'] # вывод строки по условию

F      14236
M       7288
XNA        1
Name: gender, dtype: int64


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358.600502,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


Данные в этом столбце являются категориальными, а уникальных значений всего 3, при этом одно из них является явно ошибкой, поэтому заменим это значение на моду (наиболее встречающееся значение)

In [17]:
gender_mode = df['gender'].mode() # мода 
print(gender_mode)
df.loc[df['gender'] == 'XNA', 'gender'] = gender_mode[0] # замена значения XNA на моду в столбце
df['gender'].value_counts()

0    F
dtype: object


F    14237
M     7288
Name: gender, dtype: int64

**Выводы**

В данных были найдени аномалии в столбцах `days_employed`, `children`, `gender`. В столбце `days_employed` отрицательные значения заменили на положительные, а пропуски заполнили медианными значениями. В столбце `children` также отрицательные значения заменили на положительные, а также значение **20** (количество детей в семье) заменили на среднее арифметическое по столбцу. В столбце `gender` было выявлено страннное значение `XNA` в 1 строке, которое заменили на моду (`F`)

### Изменение типов данных  <a id="2.3"></a> 

Заменим вещественный тип данных в столбце `total_income` на целочисленный.

In [18]:
df['total_income'] = df['total_income'].astype('int') # изменение типа данных на int
df.dtypes # вывод типов данных столбцов 

children              int32
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income          int32
purpose              object
dtype: object

### Удаление дубликатов <a id="2.4"></a> 

Посчитаем количество дубликатов в таблице.

In [19]:
duplicate_str = df.duplicated().sum() # всего дубликатов
duplicate_str_ratio = duplicate_str / total_income_len # доля дубликатов от общего числа значений
print(f' Число явных дубликатов {duplicate_str} \n Доля дубликатов {duplicate_str_ratio:.2%}')

 Число явных дубликатов 54 
 Доля дубликатов 0.25%


Т.к. доля дубликатов низкая, то можно сказать, что на итоговый результат они оказывают незначительное. Удалим эти дубликаты.

In [20]:
df = df.drop_duplicates() #удаление явных дубликатов
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21471 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int32  
 1   days_employed     21471 non-null  float64
 2   dob_years         21471 non-null  int64  
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  int32  
 11  purpose           21471 non-null  object 
dtypes: float64(1), int32(2), int64(4), object(5)
memory usage: 2.0+ MB


После удаления дубликатов осталось **21471** строка.

Теперь найдем неявные дубликаты. В столбце `education` данный записаны разным регистром: с использованием заглавных и строчных букв. Приведем все значения к одному виду.

In [21]:
df['education'] = df['education'].str.lower() # приведение данных к нижнему регистру
df['education'].value_counts() # количество уникальных значений в столбце

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Теперь все данные в столбце приведены к одному виду. Проделаем такую же операцию со столбцом `family_status`. Регистр в этом столбце не влияет на нахождение дубликатов, но стоит привести все к единому виду. 

In [22]:
df['family_status'] = df['family_status'].str.lower() # приведение данных к нижнему регистру
df['family_status'].value_counts() # количество уникальных значений в столбце

женат / замужем          12344
гражданский брак          4163
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

После изменения регистра посчитаем количество появившихся дубликатов и удалим их.

In [23]:
duplicate_str = df.duplicated().sum() # неявных дубликатов всего
print('Новые дубликаты', duplicate_str)
df = df.drop_duplicates() #удаление неявных дубликатов
df.info()

Новые дубликаты 17
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21454 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int32  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  int32  
 11  purpose           21454 non-null  object 
dtypes: float64(1), int32(2), int64(4), object(5)
memory usage: 2.0+ MB


**Выводы**

В таблице было найдено **54** явных дубликата, которые могли появиться из-за неправильного ввода данных, но также это могут быть и просто одинаковые данные, т.к. в базе нет уникального индификатора клиента (id). Но доля этих дубликатов очень мала, что незначительно повлияет на итоговый результат. Эти дубликаты были удалены. Также столбец `education` был приведен к одному нижнему реестру, после чего появились еще **17** дубликатов и были удалены. Для поиска неявных дубликатов применялся метод с использованием `value_counts()`, а для удаления `drop_duplicates()`.

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма <a id="2.5"></a> 

В исходных данных есть столбцы `education_id` и `education`, а также `family_status_id` и `family_status`, которые по сути дублируют информаци. Создадим два новых датафрейма, которые будут являться словарями, в которых каждому уникальному значению из `education` соответствует уникальное значение `education_id` — в первом, каждому уникальному значению из `family_status` соответствует уникальное значение `family_status_id` — во втором.

In [24]:
education_df = df[['education_id', 'education']] # создание нового датафрейма
education_df = education_df.drop_duplicates().reset_index(drop=True) # удаление дубликатов и создание новых индексов
education_df.head(10)

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [25]:
family_status_df = df[['family_status_id', 'family_status']] # создание нового датафрейма
family_status_df = family_status_df.drop_duplicates().reset_index(drop=True) # удаление дубликатов и создание новых индексов
family_status_df

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


Два новых датафрейма созданы. Теперь удалим столбцы `education`, `family_status` из исходного датафрейма, т.к. они дублируют информацию.

In [26]:
df = df.drop('education', 1) # удаление столбца education
df = df.drop('family_status', 1) # удаление столбца family_status
df.head(5)

# Если появляется предупреждение, выделенное красным цветом, то не стоит на него обращать внимание, 
# в нашем случае всё верно

  df = df.drop('education', 1) # удаление столбца education
  df = df.drop('family_status', 1) # удаление столбца family_status


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


**Выводы**

Для упрощения исходного датафрейма мы удалили два столбца `education`, `family_status`, а информацию, которая в них содержалась сохранили в новые датафреймы `education_df` и `family_status_df`  — это словари, к которым можно обращаться по идентификатору, а общими столбцами остались столбцы `education_id` и `family_status_id`, соответственно.

### Категоризация дохода <a id="2.6"></a> 

Чтобы было проще оценивать клиентов разобьем их по категориям в зависимости от дохода. Для этого создадим новый столбец `total_income_category`с категориями:

* `0–30000 — 'E';`
* `30001–50000 — 'D';`
* `50001–200000 — 'C';`
* `200001–1000000 — 'B';`
* `1000001 и выше — 'A'`

In [27]:
def total_income_category(total_income): # создание функции по условиям
    if total_income <= 30000:
        return 'E'
    if total_income >=30001 and total_income <= 50000:
        return 'D'
    if total_income >=50001 and total_income <= 200000:
        return 'C'
    if total_income >=200001 and total_income <= 1000000:
        return 'B'
    return 'A'
df['total_income_category'] = df['total_income'].apply(total_income_category) # добавление нового столбца с прменением функции
display(df.head(10))
df['total_income_category'].value_counts() # количество уникальных значений в столбце для проверки

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C
5,0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,152.779569,50,1,0,M,сотрудник,0,135823,образование,C
8,2,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C
9,0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C


C    16015
B     5042
D      350
A       25
E       22
Name: total_income_category, dtype: int64

**Выводы**

Добавив новый столбец и проведя категоризацию данных по доходу, стало проще оценивать клиентов. Этот столбец понадобится для дальнейшего исследования.

### Категоризация целей кредита <a id="2.7"></a> 

Проверим на уникальные значения столбец `purpose`:

In [28]:
df['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

Как видно, названий целей кредита много, но многие из них идентичны по сути. Создадим функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:
* `операции с автомобилем`,
* `операции с недвижимостью`,
* `проведение свадьбы`,
* `получение образования`.

In [29]:
def purpose_category(purpose): # создание функции по условиям
    if 'автомобил' in purpose:
        return 'операции с автомобилем' 
    elif 'недвижимост' in purpose or 'жиль' in purpose:
        return 'операции с недвижимостью'
    elif 'свадьб' in purpose:
        return 'проведение свадьбы'
    elif 'образован' in purpose:
        return 'получение образования'
df['purpose_category'] = df['purpose'].apply(purpose_category) # добавление нового столбца с прменением функции
display(df.head(10))
df['purpose_category'].value_counts(dropna=False) # количество уникальных значений в столбце для проверки

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

**Выводы**

Мы выделили основные категории на основании целей кредитов, что дает более наглядное представление данных.

## Исследовательский анализ <a id="3"></a> 

### Есть ли зависимость между количеством детей и возвратом кредита в срок? <a id="3.1"></a> 

Создадим сводную таблицу, где увидим какое количество клиентов имеют задолженность по кредиту в зависимости от количества детей.

In [30]:
children_result = df.pivot_table(index='children', columns= 'debt', values='days_employed', aggfunc='count') # создание сводной таблицы
children_result['общее_число_клиентов'] = (children_result[0] + children_result[1]) # создание нового столбца
children_result['доля_должников'] = children_result[1] / (children_result[0] + children_result[1]) * 100 # создание нового столбца
children_result.rename(columns = {1 : 'число_должников', 0 : 'число_клиентов_без_долгов'}, inplace = True) # переименование столбцов
children_result

debt,число_клиентов_без_долгов,число_должников,общее_число_клиентов,доля_должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,13096.0,1071.0,14167.0,7.559822
1,4410.0,445.0,4855.0,9.165808
2,1858.0,194.0,2052.0,9.454191
3,303.0,27.0,330.0,8.181818
4,37.0,4.0,41.0,9.756098
5,9.0,,,


In [31]:
# 2 метод построения таблицы с помощью groupby
df.groupby('children').\
            agg(число_клиентов=('debt','count'), число_должников=('debt','sum'), доля_должников=('debt','mean')).\
            style.format({'доля_должников' : '{:.2%}'.format})

Unnamed: 0_level_0,число_клиентов,число_должников,доля_должников
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14167,1071,7.56%
1,4855,445,9.17%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.00%


#### Вывод 1:

Из таблицы видно, что наличие детей увеличивает количество невозвратов кредита в срок, но разница в количестве детей очень незначительно увеличивает процент должников. В столбце `result` вычисляется процент должников в зависимости от числа детей. Но выборка клиентов хотя бы с 1 ребенком значительно меньше, чем без детей, поэтому с уверенностью нельзя утверждать, что процент останется тем же. Также существует аномалия в значении с тремя детьми. Это может объясняться удалением дубликатов, выбором метода для устранения аномалий в столбце `children`, заполнение пропусков в столбце `days_employed`. Строка с 5 детьми малоинформативна, т.к. слишком малая выборка для вывода.

#### Вопрос 2:

### Есть ли зависимость между семейным положением и возвратом кредита в срок? <a id="3.2"></a> 

Построим таблицу на основе данных из датафрейма `df`, в которой определим зависимость должников от семейного положения

In [32]:
df.groupby('family_status_id').\
            agg(число_клиентов=('debt','count'), число_должников=('debt','sum'), доля_должников=('debt','mean')).\
            style.format({'доля_должников' : '{:.2%}'.format})

Unnamed: 0_level_0,число_клиентов,число_должников,доля_должников
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12339,931,7.55%
1,4151,388,9.35%
2,959,63,6.57%
3,1195,85,7.11%
4,2810,274,9.75%


In [33]:
family_status_df

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


#### Вывод 2:

Из полученных данных видно, что задолженностей у клиентов с семейным положением **"в разводе"** и **"вдовец / вдова"** меньше всего. При этом невозвратов у клиентов со статусом **"не женат / не замужем"** наибольшее количество. Клиентов с задолженностями со статусом **"женат / замужем"**  меньше на 2%, чем со статусом **"гражданский брак"**. Недостаточная выборка, удаление дубликатов, заполнение пропусков в столбце `days_employed` могут повлиять на результат. 

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок? <a id="3.3"></a> 

Построим таблицу для выявления зависимости между уровнем дохода клиента и возвратом кредита в срок.

In [34]:
df.groupby('total_income_category').\
            agg(число_клиентов=('debt','count'), число_должников=('debt','sum'), доля_должников=('debt','mean')).\
            style.format({'доля_должников' : '{:.2%}'.format})

Unnamed: 0_level_0,число_клиентов,число_должников,доля_должников
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,8.00%
B,5042,356,7.06%
C,16015,1360,8.49%
D,350,21,6.00%
E,22,2,9.09%


#### Вывод 3:

Исходя из полученных данных видно, что большинстов клиентов имеют доход 50001–200000 — 'C', при этом доля невозвратов у них наибольшая. Клиентов категорий 'E' и 'A' очень мало, выборка по ним мала, по ним сложно делать выводы. При этом людей категории 'B' (200001–1000000) с задолженностями и 'D' (30001–50000) меньше, чем 'C'. Это можно объяснить, что выборка 'B' и 'D' меньше, для утверждения, что зависимость существует, надо иметь большую выборку во всех категориях. Также влияние на результат могли оказать методы удаления дубликатов, заполнения пропусков в столбцах `days_employed` и `total_income`.

### Как разные цели кредита влияют на его возврат в срок? <a id="3.4"></a> 

Построим таблицу для нахождения зависимсти цели кредита на его возврат в срок.

In [35]:
df.groupby('purpose_category').\
            agg(число_клиентов=('debt','count'), число_должников=('debt','sum'), доля_должников=('debt','mean')).\
            style.format({'доля_должников' : '{:.2%}'.format})

Unnamed: 0_level_0,число_клиентов,число_должников,доля_должников
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4306,403,9.36%
операции с недвижимостью,10811,782,7.23%
получение образования,4013,370,9.22%
проведение свадьбы,2324,186,8.00%


#### Вывод 4:

Должников, которые брали кредит на **операции с недвижимостью** в процентном соотношение меньше всего. Это можно объяснить тем, что такие люди чаще всего берут кредит на долгий срок и на большую сумму, а недвижимость очень важна для людей и их жизни. Кредит на **проведение свадьбы** берут наименьшее количество людей, сумма этого кредита, можно предположить, наименьшая по отношению к остальным категориям и ее выплачивают чаще без задержек. Должников, взявших кредит на **операции с автомобилем** и **получение образования**, наибольшее доля, при этом количество и соотношение людей приблизительно одинаково. Не стоит забывать, что результаты могли быть частично искажены из-за методов удаления дубликатов, заполнения пропусков в столбце `days_employed`.

## Общий вывод <a id="4"></a> 

В ходе исследования было необходимо определить, вляют ли количество детей, семейное положение, уровень дохода, цель кредита на факт погашения кредита в срок.

1. Наличие детей увеличивает количество невозвратов кредита в срок, но разница в количестве детей незначительно увеличивает процент должников. При этом существует аномалия в значении с тремя детьми. Если не учитывать эту аномалию, то зависимость между количеством детей и задолженностями прямая.

2. На основании данных нельзя проследить связь между семейными парами и одинокими людьми, только между каждой из категорий по отдельности.

3. Доля невозвратов у категории 'C' (50001–200000) наибольшая, клиентов категорий 'E' и 'A' очень мало, выборка по ним мала, по ним сложно делать выводы. При этом людей категории 'B' (200001–1000000) с задолженностями и 'D' (30001–50000) меньше, чем 'C'. Т.е. сказать про влияние уровеня дохода на факт погашения кредита в срок нельзя.

4. Должников, которые брали кредит на операции с недвижимостью в процентном соотношение меньше всего. Кредит на проведение свадьбы берут наименьшее количество людей, сумма этого кредита Должников, взявших кредит на операции с автомобилем и получение образования, наибольшее доля, при этом количество и соотношение людей приблизительно одинаково.

На все результаты могут оказывать влияние недостаточная выборка, методы удаления дубликатов, заполнение пропусков, методы для устранения аномалий.
 

