<div style="border:solid purple 3px; padding: 20px"> <h1 style="color:purple; margin-bottom:20px">Исследование надежности заемщиков.</h1>

# Описание проекта


Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

**Цель исследования** - поиск ответов на вопросы:

 - Есть ли зависимость между количеством детей и возвратом кредита в срок?
 - Есть ли зависимость между семейным положением и возвратом кредита в срок?
 - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
 - Как разные цели кредита влияют на его возврат в срок?
    
**Ход исследования**

Данные находятся в файле `/datasets/data.csv`
    
**Шаги исследования:**

1. Обзор данных
    
2. Предобработка данных
        
3. Поиск ответов на вопросы исследования
    
4. Формулировка выводов

## Импорт библиотек

In [1]:
import pandas as pd

## Обзор данных

Сохраним данные в переменной `data`:

In [2]:
data = pd.read_csv(
    'D:/1_Проекты Практикум/М_1/2_Исследование надёжности заёмщиков/data.csv'
)

Общая информация о данных

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Выведем первые десять строк таблицы для ознакомления с данными

In [4]:
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [5]:
data.describe(include='all')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
count,21525.0,19351.0,21525.0,21525,21525.0,21525,21525.0,21525,21525,21525.0,19351.0,21525
unique,,,,15,,5,,3,8,,,38
top,,,,среднее,,женат / замужем,,F,сотрудник,,,свадьба
freq,,,,13750,,12380,,14236,11119,,,797
mean,0.538908,63046.497661,43.29338,,0.817236,,0.972544,,,0.080883,167422.3,
std,1.381587,140827.311974,12.574584,,0.548138,,1.420324,,,0.272661,102971.6,
min,-1.0,-18388.949901,0.0,,0.0,,0.0,,,0.0,20667.26,
25%,0.0,-2747.423625,33.0,,1.0,,0.0,,,0.0,103053.2,
50%,0.0,-1203.369529,42.0,,1.0,,0.0,,,0.0,145017.9,
75%,1.0,-291.095954,53.0,,1.0,,1.0,,,0.0,203435.1,


<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>

В таблице 12 столбцов:

* `children` — количество детей в семье
* `days_employed` — общий трудовой стаж в днях
* `dob_years` — возраст клиента в годах
* `education` — уровень образования клиента
* `education_id` — идентификатор уровня образования
* `family_status` — семейное положение
* `family_status_id` — идентификатор семейного положения
* `gender` — пол клиента
* `income_type` — тип занятости
* `debt` — имел ли задолженность по возврату кредитов
* `total_income` — ежемесячный доход
* `purpose` — цель получения кредита

В таблице 21525 строк. Каждая строка представляет собой данные об одном клиенте банка.

Значения части столбцов связаны между собой - например, `education` и `education_id`. Эти столбцы можно будет заменить на стадии предобработки данных, чтобы избежать перегруженности таблицы.

Названия столбцов можно оставить в исходном виде, они будут удобны при дальнейшем анализе.

На основании первоначальной оценки таблицы можно отметить аномалии и пропуски в данных, поэтому для последующей работы с данными требуется предварительная обработка.

## Предобработка данных

**Этапы предобработки:**
1. Обработка пропусков
1. Поиск и обработка аномалий
1. Изменение типов данных
1. Поиск и удаление дубликатов
1. Формирование дополнительных датафреймов
1. Категоризация дохода
1. Категоризация целей кредита

### Обработка пропусков

Судя по общей информации о данных, выведенной на предыдущем этапе исследования с помощью функции `info()`, пропуски присутствуют в двух столбцах - `days_employed` и `total_income`. 

Найдем количество пропусков в этих столбцах

#### Поиск количества пропусков

In [6]:
print(
    'Количество пропусков в столбце days_employed:', 
    data['days_employed'].isna().sum()
)

print(
    'Количество пропусков в столбце total_income:', 
    data['total_income'].isna().sum()
)

Количество пропусков в столбце days_employed: 2174
Количество пропусков в столбце total_income: 2174


Количество пропусков в обоих столбцах совпадает, поэтому можно предположить, что пропуски не случайны, и расположены в одних и тех же строках.

Найдем, какова доля строк с пропусками в датасете.

In [7]:
print(
    'Доля строк с пропущенными значениями:', 
    data['days_employed'].isna().mean().round(2) * 100, 
    '%'
)

Доля строк с пропущенными значениями: 10.0 %


Доля строк с пропусками довольно велика (10%). Удаление этих строк оказать значительное влияние на результат исследования, поэтому в данном случае лучше заменить пропущенные значения на медианное.

#### Проверка гипотезы о совпадении пропусков

Проверим гипотезу о том, что пропуски в обоих столбцах находятся в одних и тех же строках. Для этого выведем строки, в которых отсутсвуют данные одновременно в обоих столбцах. 

In [8]:
data[
    data[
        'days_employed'
    ].isnull() & data[
        'total_income'
    ].isnull()
]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


**_Гипотеза подтверждается_**, поскольку количество строк с совпадающими пропусками в обоих обозначенных столбцах совпадает с количеством пропусков в каждом из столбцов отдельно - **2174**.


Возможная причина возникновения пропусков - скорее всего пропуски не случайные, поскольку пропуски в обоих столбцах совпадают во всех случаях. Возможно, пропуски смысловые - раз нет стажа, то и доход нельзя посчитать.

#### Замена пропущенных данных в столбце `days_employed`

Проверим адекватность данных в столбце `days_employed` с помощью метода `describe()`.

In [9]:
data['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

По значениям параметров описательной статистики можно заметить значительное количество аномалий в данных (отрицательные значения противоречат смыслу данных в этом столбце), поэтому замену пропусков стоит произвести после устранения аномалий. 

#### Замена пропущенных данных в столбце `total_income`

Заменим пропуски в столбце `'total_income'` на медианное значение.

In [10]:
print(
    'Медианное значение ежемесячного дохода:', 
    round(data['total_income'].median(), 2)
)

print(
    'Средний ежемесячный доход до замены пропусков:', 
    round(data['total_income'].mean(), 2)
)

# Замена пропусков медианным значением 
data['total_income'] = data['total_income'].fillna(
    data['total_income'].median()
)


# Проверка изменения среднего
print(
    'Средний ежемесячный доход после замены пропусков:', 
    round(data['total_income'].mean(), 2)
)


Медианное значение ежемесячного дохода: 145017.94
Средний ежемесячный доход до замены пропусков: 167422.3
Средний ежемесячный доход после замены пропусков: 165159.49


In [11]:
# Проверка успешности замены
if data['total_income'].isna().sum() == 0:
    print('Замена проведена успешно!')
else:
    print('Упс! Замена не прошла')

Замена проведена успешно!


<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>

Пропуски обнаружены в двух столбцах - `days_employed` и `total_income`. Количество пропусков в столбцах совпадает, и пропуски находятся в одних и тех же строках, что позволяет предположить, что пропуски скорее всего взаимосвязаны. Можно предположить, что пропуски смысловые и допущены при заполнении - если нет стажа, нет и данных о доходе. 
    
Более точно определить причины возникновения пропусков можно после консультации с теми, кто предоставил доступ к данным. 

На данном этапе проведена замена пропущенных значений в столбце `total_income` на медианное значение.

Поскольку в данных в столбце `days_employed` обнаружены аномалии, замена пропущенных значений может быть проведена после устранения этих аномалий.

### Поиск и обработка аномалий

По результатам предварительного анализа в данных выявлены такие аномалии:

1) Аномальные значения `'days_employed'`
* Отрицательные значения
* Прочие аномалии

2) Аномальные значения `'children'`
* Отрицательные значения
* Значение `20` 

3) Ноль в столбце `'dob_years'`

4) Значение `XNA` в столбце `'gender'`


#### Аномальные значения `'days_employed'`

Стоит уточнить у разработчиков, нет ли ошибки в формате данных в этом столбце - количество дней логичнее было бы представлять в виде вещественных чисел, а не дробных. Можно предположить, что ошибка в формате или единице измерения. Также возможно, что поскольку данные в виде дробных чисел, они скорее всего были добавлены в таблицу в качестве результата вычисления, а не напрямую, а значит ошибки и аномалии могут быть результатом таковых в исходных данных.

_**Отрицательные значения**_

Отрицательные значения в столбце, обозначающем трудовой стаж в днях - скорее всего ошибка при внесении данных в таблицу, поэтому для исправления значения будут заменены на значения по модулю с помощью функции `abs()`.

In [12]:
# Распределение данных до обработки
data['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [13]:
# Замена отрицательных значений модулем
data['days_employed'] = data['days_employed'].abs()

In [14]:
# Распределение данных после замены отрицательных значений
data['days_employed'].describe()

count     19351.000000
mean      66914.728907
std      139030.880527
min          24.141633
25%         927.009265
50%        2194.220567
75%        5537.882441
max      401755.400475
Name: days_employed, dtype: float64

Все значения столбца теперь имеют положительное значение, и аномалия данных устранена. Можно переходить к замене пропусков.

_**Замена пропусков**_

Заменим пропуски на медианное значение.

In [15]:
# Замена пропусков медианным значением
data['days_employed'] = data['days_employed'].fillna(
    data['days_employed'].mean()
)

# Проверка замены по распределению данных
data['days_employed'].describe()

count     21525.000000
mean      66914.728907
std      131822.719320
min          24.141633
25%        1025.608174
50%        2609.841015
75%       66914.728907
max      401755.400475
Name: days_employed, dtype: float64

In [16]:
if data['days_employed'].isna().sum() == 0:
    print('Замена проведена успешно!')
else:
    print('Упс! Замена не прошла')

Замена проведена успешно!


Пропуски были успешно заменены на медианные значения.

После замены пропусков медианным значением среднее значение уменьшилось, но эти изменения не должны оказать сильного влияния на результаты исследования. Можно двигаться дальше, чтобы устранить прочие аномалии в этом столбце.

_**Прочие аномалии**_

Для оценки данных в столбце `'years_employed'` их имеет смысл перевести из дней в годы. 

Для целей данного исследования будем считать 60 лет максимальным реалистичным рабочим стажем.

Для значений, превышающих данный предел, можно предположить, что при сборе данных могла произойти ошибка и данные были внесены в часах. Переведем данные в годы с учетом этого предположения для проверки гипотезы.

In [17]:
days_per_year = 255

print(
    'Среднее количество рабочих дней в году', 
    days_per_year
)

Среднее количество рабочих дней в году 255


In [18]:
max_realistic_employed = 60*days_per_year

print(
    'Максимальный реалистичный стаж в днях', 
    max_realistic_employed
)

Максимальный реалистичный стаж в днях 15300


In [19]:
def days_to_years(row):

    days = row['days_employed']
    for row in data:
        if days > max_realistic_employed:
            return days / (24 * days_per_year)
        elif days <= max_realistic_employed:
            return days / days_per_year
        else:
            print('Ошибка функции')

try:
    data['years_employed'] = data.apply(
        days_to_years, 
        axis=1
    )
except:
    print('Ошибка в обработке данных')
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,33.088914
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,15.783544
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,22.052638
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,16.175479
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,55.599031


Проверим распределение данных после пересчета трудового стажа из дней в годы.

In [20]:
data['years_employed'].describe()

count    21525.000000
mean        17.439851
std         20.012081
min          0.094673
25%          4.018243
50%         10.218620
75%         18.704887
max         65.646307
Name: years_employed, dtype: float64

После обработки данные выглядят более реалистично, и на данном этапе можно сделать заключение, что предположение о том, что дни рабочего стажа были ошибочно введены в часах, выглядит правдоподобно. Как и в случае с другими аномалиями в данных, источники ошибок и отклонений можно будет установить точнее после консультации с разработчиками.

На данном этапе предобработку данных в столбце `'years_employed'` можно считать завершенной, можно двигаться дальше.

Для дальнейшего анализа переведем данные столбца `'dob_years'` в тип float.

In [21]:
# Перевод значений столбца 'dob_years' в тип float
data['dob_years'] = data[
    'dob_years'
].astype(
    'float'
)

#Для проверки перевода данных в тип Float выведем информацию о данных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
 12  years_employed    21525 non-null  float64
dtypes: float64(4), int64(4), object(5)
memory usage: 2.1+ MB


Данные переведены в тип вещественных чисел успешно, можно двигаться дальше.

Столбец `'days_employed'` теперь можно удалить, эти данные не понадобятся для дальнейшего исследования.

In [22]:
del(data['days_employed'])

#Проверим удаление столбца
data.head()

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,33.088914
1,1,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,15.783544
2,0,33.0,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,22.052638
3,3,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,16.175479
4,0,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,55.599031


#### Аномальные значения `'children'`

Для поиска аномальных значений выведем сводные данные по столбцу:

In [23]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

К аномальным значениям можно отнести отрицательные значения `-1` и `20`. Источниками ошибок может быть ошибка при внесении данных или ошибка при выгрузке.

_**Отрицательные значения**_

In [24]:
print(
    'Доля строк с ошибками составляет', 
    ((
            data[data['children']<0]['children'].count()*100
        ) / data['children'].count()
    ).round(3), 
    '%'
)

Доля строк с ошибками составляет 0.218 %


Количество строк с отрицательными значениями составляет менее 1% от общего объема данных. 

Поскольку один из возможных источников аномалии - ошибка при внесении данных в базу, можно предположить что значение, которое предполагалось изначально, равно 1. Для исправления ошибок заменим отрицательные данные по модулю с помощью функции `abs()`.

In [25]:
data['children'] = data['children'].abs()

# Проверка устранения аномалии
data['children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

Отрицательные значения исправлены, данная аномалия устранена.

_**Значение `20`**_

Это значение повторяется в таблице 76 раз. Как и в случае с аномалиями, которые были рассмотрены выше, источник ошибки можно будет узнать точно после обсуждения с разработчиками.

На данном этапе можно предположить, что эти данные все же являются ошибкой, а не реальным значением. Случайность ошибки можно будет оценить после оценки значений других параметров для строк с этой аномалией. Для этого выведем первые 10 строк на экран.

In [26]:
data[data['children'] == 20].head(10)

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
606,20,21.0,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья,3.451848
720,20,44.0,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости,3.355277
1074,20,56.0,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования,12.982006
2510,20,59.0,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью,10.64377
2941,20,0.0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля,8.476829
3302,20,35.0,среднее,1,Не женат / не замужем,4,F,госслужащий,0,145017.937533,профильное образование,10.933779
3396,20,56.0,высшее,0,женат / замужем,0,F,компаньон,0,145017.937533,высшее образование,10.933779
3671,20,23.0,среднее,1,Не женат / не замужем,4,F,сотрудник,0,101255.492076,на покупку подержанного автомобиля,3.581026
3697,20,40.0,среднее,1,гражданский брак,1,M,сотрудник,0,115380.694664,на покупку подержанного автомобиля,11.403571
3735,20,26.0,высшее,0,Не женат / не замужем,4,M,сотрудник,0,137200.646181,ремонт жилью,3.157037


В таблице выше никакая связь со значениями в других столбцах не бросается в глаза, поэтому можно предположить, что ошибки случайные, а не связаны с другими параметрами таблицы.

Для определения лучшего способа исправления этой аномалии выведем несколько сводных таблиц. Таким образом можно выяснить, на какое значение лучше заменить аномалии исходя из значений других параметров (возраста, уровня образования, семейного положения, пола).

In [27]:
data.pivot_table(
    index=['family_status'], 
    columns='children', 
    values='dob_years', 
    aggfunc='mean'
)

children,0,1,2,3,4,5,20
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Не женат / не замужем,38.790728,36.623348,36.893333,39.0,41.0,,31.555556
в разводе,48.684949,40.398734,36.345679,35.909091,36.0,,42.0
вдовец / вдова,57.625,49.395062,42.7,43.0,30.0,,61.0
гражданский брак,44.527616,38.023928,36.002907,36.339286,31.875,38.5,45.75
женат / замужем,47.6156,38.298572,35.542671,36.044177,37.068966,38.857143,41.163265


In [28]:
data.pivot_table(
    index=['education_id'], 
    columns='children', 
    values='dob_years', 
    aggfunc='mean'
)

children,0,1,2,3,4,5,20
education_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,43.117034,37.176912,35.397482,36.53012,33.888889,,40.571429
1,47.696747,39.14997,35.889444,36.047619,36.65625,38.875,42.516667
2,35.191358,32.767045,35.722222,35.875,,,29.5
3,51.26455,41.516667,37.52,41.857143,,38.0,
4,58.5,37.0,,36.0,,,


In [29]:
data.pivot_table(
    index=['gender'], 
    columns='children', 
    values='dob_years', 
    aggfunc='mean'
)

children,0,1,2,3,4,5,20
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
F,47.914002,38.457974,34.949166,35.505102,34.857143,35.428571,43.553191
M,42.811708,38.314516,37.069095,37.432836,38.615385,50.5,39.0
XNA,24.0,,,,,,


Хотя такую оценку нельзя назвать точной, но по данным в сводных таблицах по параметрам `'dob_years'`, `'family_status'`, `'education'` и `'gender'` можно заключить, что данные строки со значением `20` в столбце `'children'` скорее к ближе данным в строках со значением `0`, чем `2`, поэтому для целей данного исследования заменим аномальное значение `20` на значение `0`.

In [30]:
data['children'] = data[
    'children'
].replace(20, 0)

data['children'].value_counts()

0    14225
1     4865
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Аномальные значения в столбце `'children'` удалены, можно двигаться дальше.

#### Ноль в столбце `'dob_years'`

In [31]:
print(
    'Количество клиентов с 0 в столбце dob_years:', 
    data[data['dob_years']==0]['dob_years'].count()
)

Количество клиентов с 0 в столбце dob_years: 101


In [32]:
print(
    'Количество клиентов с 0 в столбце dob_years:', 
    ((100 * data[
        data['dob_years']==0
    ]['dob_years'].count()) / len(
        data['dob_years']
    )).round(3),
    '%'
)

Количество клиентов с 0 в столбце dob_years: 0.469 %


In [33]:
data[data['dob_years']==0].head(10)

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
99,0,0.0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль,56.624448
149,0,0.0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем,10.44813
270,3,0.0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью,7.343777
578,0,0.0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости,65.009243
1040,0,0.0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль,4.541292
1149,0,0.0,среднее,1,женат / замужем,0,F,компаньон,0,201852.430096,покупка недвижимости,3.665313
1175,0,0.0,среднее,1,женат / замужем,0,F,пенсионер,0,313949.845188,получение дополнительного образования,60.601227
1386,0,0.0,высшее,0,женат / замужем,0,M,госслужащий,0,240523.618071,сделка с автомобилем,19.777333
1890,0,0.0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,145017.937533,жилье,10.933779
1898,0,0.0,среднее,1,вдовец / вдова,2,F,пенсионер,0,127400.268338,на покупку автомобиля,60.481134


Из таблицы выше никаких видимых закономерностей с другими параметрами не обнаружено. Ошибки, скорее всего, допущены случайно.

Доля строк с такой аномалией меньше 1% от всей таблицы, поэтому для целей данного исследования можно оставить данные строки как есть, поскольку это отклонение не должно значительно повлиять на конечный результат.

#### Пропущенное значение в столбце `gender`

In [34]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

В одной строке пропущено значение столбца `gender`. Для удаления строки заменим значение `XNA` на значение, которое распознает функция `dropna()`.

In [35]:
data = data.replace('XNA', None)
data = data.dropna(
    subset = ['gender']
).reset_index(drop=True)

# Проверка
data['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

Пропущенное значение удалено.

<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>
    
Для обработки обнаруженных аномалий были проведены такие действия: 
    
1) Аномальные значения `'days_employed'`
    
 * Отрицательные значения
    
_Отрицательные значения были заменены по модулю с помощью функции `abs()`_
    
 * Прочие аномалии
    
_Значения приведены к общей единице измерения (годы)_
    
2) Аномальные значения `'children'`

 * Отрицательные значения - заменены по модулю с помощью функции `abs()`
    
_Отрицательные значения были заменены по модулю с помощью функции `abs()`_

 * Значение `20`
    
_По результатам сравнения показателей по другим параметрам в таблице значения были заменены на `0`_

3) Ноль в столбце `'dob_years'`

_В связи с незначительной долей таких отклонений и низкой вероятностью того, что эти аномалии повлияют на конечный результат исследования, строки с этим отклонением оставлены как есть_

4) Пропущенное значение в столбце `'gender'`

_Пропущенное значение удалено_

### Изменение типов данных

In [36]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   dob_years         21525 non-null  float64
 2   education         21525 non-null  object 
 3   education_id      21525 non-null  int64  
 4   family_status     21525 non-null  object 
 5   family_status_id  21525 non-null  int64  
 6   gender            21525 non-null  object 
 7   income_type       21525 non-null  object 
 8   debt              21525 non-null  int64  
 9   total_income      21525 non-null  float64
 10  purpose           21525 non-null  object 
 11  years_employed    21525 non-null  float64
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


Типа данных `total_income` следует изменить с вещественного на целочисленный с помощью метода `astype()`.

In [37]:
# Перевод значений столбца 'total_income' в тип int
data['total_income'] = data[
    'total_income'
].astype('int')

#Для проверки перевода данных в тип int выведем информацию о данных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   dob_years         21525 non-null  float64
 2   education         21525 non-null  object 
 3   education_id      21525 non-null  int64  
 4   family_status     21525 non-null  object 
 5   family_status_id  21525 non-null  int64  
 6   gender            21525 non-null  object 
 7   income_type       21525 non-null  object 
 8   debt              21525 non-null  int64  
 9   total_income      21525 non-null  int32  
 10  purpose           21525 non-null  object 
 11  years_employed    21525 non-null  float64
dtypes: float64(2), int32(1), int64(4), object(5)
memory usage: 1.9+ MB


Изменение типа данных проведено успешно, можно двигаться дальше.

<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>
    
Тип данных в столбце `'total_income'` успешно заменен с вещественных на целые. Это необходимо в дальнейшем анализе для категоризации данных.

### Удаление дубликатов.

#### Неявные дубликаты

Сначала удалим неявные дубликаты в столбце `education`. Для этого выведем на экран все уникальные значения в этом столбце:

In [38]:
data[
    'education'
].sort_values().unique()

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

Для поиска дубликатов в столбце `education` приведем значения в один регистр с помощью функции `lower()`:

In [39]:
data['education'] = data[
    'education'
].str.lower()

Проверим, прошло ли изменение регистра после применения функции:

In [40]:
data[
    'education'
].sort_values().unique()

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

После замены регистра видно, что дубликаты в столбце были удалены, можно двигаться дальше.
Причиной возникновения дубликатов в столбце `education` скорее всего были ошибки при внесении ответов в базу данных.

Проверим, есть ли неявные дубликаты в других столбцах: 

In [41]:
data[
    'income_type'
].sort_values().unique()

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

In [42]:
data[
    'family_status'
].sort_values().unique()

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

При выводе уникальных значений из столбцов `'income_type'` и `'family_status'` неявные повторы не выявлены. Остальные столбцы таблицы так или иначе уже проверялись на неявные дубликаты на предыдущих этапах предобработки, поэтому можно двигаться дальше.

#### Явные дубликаты

Теперь проверим явные дубликаты с помощью функции `duplicated()`.

In [43]:
print(
    'Количество явных дубликатов в датафрейме:', 
    data.duplicated().sum()
)

Количество явных дубликатов в датафрейме: 71


In [44]:
data[data.duplicated()].head()

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
2849,0,41.0,среднее,1,женат / замужем,0,F,сотрудник,0,145017,покупка жилья для семьи,10.933779
3290,0,58.0,среднее,1,гражданский брак,1,F,пенсионер,0,145017,сыграть свадьбу,10.933779
4182,1,34.0,высшее,0,гражданский брак,1,F,сотрудник,0,145017,свадьба,10.933779
4851,0,60.0,среднее,1,гражданский брак,1,F,пенсионер,0,145017,свадьба,10.933779
5557,0,58.0,среднее,1,гражданский брак,1,F,пенсионер,0,145017,сыграть свадьбу,10.933779


In [45]:
data = data.drop_duplicates().reset_index(
    drop=True
)

In [46]:
if data.duplicated().sum() ==0:
    print(
        'Дубликаты удалены успешно!'
    )
else:
    print(
        'Упс! При удалении дубликатов что-то пошло не так'
    )

Дубликаты удалены успешно!


<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>
    
В таблице был обнаружен 71 **явный** дубликат , которые были удалены с помощью функции `drop_duplicates()`.
    
**Неявные** дубликаты в столбце `'education'` были удалены с помощью перевода всех данных столбца в нижний регистр. В остальных столбцах неявные дубликаты обнаружены не были.

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Создадим дополнительные датафреймы для столбцов, содержащих информацию об образовании и семейном положении.

#### Образование

Для создания "словаря" объединим столбцы `education` и `education_id`.

In [47]:
education_log = data[[
    'education', 
    'education_id'
]]
education_log.head()

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,среднее,1
3,среднее,1
4,среднее,1


Для удаления дубликатов из таблицы применим функцию drop_duplicates().

In [48]:
education_log = education_log.drop_duplicates(
).reset_index(
    drop=True
)
education_log

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


#### Семейный статус

Проделаем те же шаги для столбцов `family_status` и `family_status_id`

In [49]:
family_status_log = data[[
    'family_status', 
    'family_status_id'
]]
family_status_log.head()

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,женат / замужем,0
2,женат / замужем,0
3,женат / замужем,0
4,гражданский брак,1


Удалим повторяющиеся значения из "словаря" `family_status_log`:

In [50]:
family_status_log = family_status_log.drop_duplicates(
).reset_index(
    drop=True
)
family_status_log

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


После создания "словарей" можно удалить столбцы `education` и `family_status`.

In [51]:
del(data['education'])
del(data['family_status'])

# Проверка удаления столбцов
data.head()

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,42.0,0,0,F,сотрудник,0,253875,покупка жилья,33.088914
1,1,36.0,1,0,F,сотрудник,0,112080,приобретение автомобиля,15.783544
2,0,33.0,1,0,M,сотрудник,0,145885,покупка жилья,22.052638
3,3,32.0,1,0,M,сотрудник,0,267628,дополнительное образование,16.175479
4,0,53.0,1,1,F,пенсионер,0,158616,сыграть свадьбу,55.599031


Столбцы удалены успешно, в таблице остались только столбцы с идентификаторами, что делает таблицу намного компактнее.

<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>
    
Созданы два дополнительных датафрейма с идентификаторами для столбцов `'education'` и `'family_status'`. 
    
Столбцы с данными удалены из основного датафрейма, в таблице эти данные теперь представлены с помощью столбцов `'education_id'` и `'family_status_id'`.

### Категоризация дохода.

Для удобства обработки данных необходимо категоризировать данные в столбце `'total_income'`. Для этого используем функцию, которая присвоит каждому значению столбца одну из следующих категорий:
 * 0–30000 — `'E'`;
 * 30001–50000 — `'D'`;
 * 50001–200000 — `'C'`;
 * 200001–1000000 — `'B'`;
 * 1000001 и выше — `'A'`.

Присвоенные категории будут указаны в таблице в отдельном столбце `'total_income_category'`

In [52]:
def income_category(row):

    total_income = row['total_income']

    if total_income <= 30000:
        return 'E'
    elif 30001 <= total_income <= 50000:
        return 'D'
    elif 50001 <= total_income <= 200000:
        return 'C'
    elif 200001 <= total_income <= 1000000:
        return 'B'
    else:
        return 'A'
data[
    'total_income_category'
] = data.apply(
    income_category, 
    axis=1
) 

data.head()

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,total_income_category
0,1,42.0,0,0,F,сотрудник,0,253875,покупка жилья,33.088914,B
1,1,36.0,1,0,F,сотрудник,0,112080,приобретение автомобиля,15.783544,C
2,0,33.0,1,0,M,сотрудник,0,145885,покупка жилья,22.052638,C
3,3,32.0,1,0,M,сотрудник,0,267628,дополнительное образование,16.175479,B
4,0,53.0,1,1,F,пенсионер,0,158616,сыграть свадьбу,55.599031,C


In [53]:
data[
    'total_income_category'
].value_counts()

C    16016
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>
    
Значения данных о доходе разделены на 5 категорий, где `A` - категория с наибольшими значениями, а `E` - с наименьшими. 
    
В таблицу добавлен соответствующий столбец `'total_income_category'`.

### Категоризация целей кредита.

Создадим новый столбец `'purpose_category'`, который будет включать следующие категории:

 * ‘операции с автомобилем’,
 * ‘операции с недвижимостью’,
 * ‘проведение свадьбы’,
 * ‘получение образования’.

Для этого используем функцию, которая будет на основании соответсвия содержания данных в столбце `'purpose'` указывать соответствующее значение категории в новом столбце `'purpose_category'`.

In [54]:
def purpose_category_name(row):

    purpose = row['purpose']

    if ('авто' in purpose or
        'машин' in purpose):
        return 'операции с автомобилем'
    
    elif ('квартир' in purpose or
        'дом' in purpose or
        'жиль'in purpose or
        'недвижим' in purpose):
        return 'операции с недвижимостью'
    
    elif ('свадьб' in purpose or
        'замуж' in purpose or
        'брак'in purpose):
        return 'проведение свадьбы'
    
    elif ('учеб' in purpose or
        'обучен' in purpose or
        'образован'in purpose):
        return 'получение образования'
    
    else:
        return 'необходимо уточнить категорию'

data['purpose_category'] = data.apply(
    purpose_category_name, 
    axis=1
) 
data.head()

Unnamed: 0,children,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,total_income_category,purpose_category
0,1,42.0,0,0,F,сотрудник,0,253875,покупка жилья,33.088914,B,операции с недвижимостью
1,1,36.0,1,0,F,сотрудник,0,112080,приобретение автомобиля,15.783544,C,операции с автомобилем
2,0,33.0,1,0,M,сотрудник,0,145885,покупка жилья,22.052638,C,операции с недвижимостью
3,3,32.0,1,0,M,сотрудник,0,267628,дополнительное образование,16.175479,B,получение образования
4,0,53.0,1,1,F,пенсионер,0,158616,сыграть свадьбу,55.599031,C,проведение свадьбы


In [55]:
print(
    'Количество ошибок в определении категории цели кредита:', 
    data[
        data['purpose_category'] == 'необходимо уточнить категорию'
    ]['purpose_category'].count()
)

Количество ошибок в определении категории цели кредита: 0


Столбец с категорией добавлен успешно. 

<div style="border:solid purple 1px; padding: 20px"> <b>Выводы</b>
    
Данные в столбце `'purpose'` разделены на 4 категории по ключевым словам в тексте:
    
 * ‘операции с автомобилем’,
 * ‘операции с недвижимостью’,
 * ‘проведение свадьбы’,
 * ‘получение образования’.

Этап предобработки данных можно считать завершенным.
    
Перейдем к поиску ответов на вопросы, сформулированные в описании проекта

## Поиск ответов на вопросы исследования

### Вопрос 1:
Есть ли зависимость между **количеством детей** и возвратом кредита в срок?

In [56]:
data.pivot_table(
    index=['children'], 
    columns='debt', 
    values='total_income_category', 
    aggfunc='count'
)

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13096.0,1071.0
1,4410.0,445.0
2,1858.0,194.0
3,303.0,27.0
4,37.0,4.0
5,9.0,


Сведем в таблицу долю в процентах для клиентов с задолженностью по кредиту в зависимости от количества детей.

In [57]:
q_1 = data.pivot_table(
    index='children', 
    values='debt', 
    aggfunc=[
        'count', 
        'sum', 
        'mean'
    ])

q_1.columns = q_1.columns.droplevel()
q_1.columns = [
    'Общее кол-во клиентов', 
    'Кол-во должников', 
    'Доля должников от общего кол-ва'
]

q_1

Unnamed: 0_level_0,Общее кол-во клиентов,Кол-во должников,Доля должников от общего кол-ва
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14167,1071,0.075598
1,4855,445,0.091658
2,2052,194,0.094542
3,330,27,0.081818
4,41,4,0.097561
5,9,0,0.0


#### Вывод 1:

Строгая зависимость процента клиентов, которые вернули кредит в срок, от количества детей не обнаружена. 

Клиенты с высоким процентом кредитов, возвращенных в срок, имеют 5 детей (100% вернули кредит в срок) или не имеют детей вовсе - 92% таких клиентов вернули кредит вовремя. Однако количество клиентов с 5 детьми в данном датафрейме крайне мало (9 человек), поэтому данные по этой категории клиентов скорее всего нельзя считать закономерностью из-за непредставительности выборки.

Самый высокий процент задолженностей по кредиту среди клиентов с 4 детьми - почти 10% клиентов из этой категории имеют задержку по кредиту. Однако количество клиентов в этой категории также мало и не дает основания делать обоснованый вывод, поскольку велика вероятность ошибки.

Среди категорий клиентов из категорий с более представительной выборкой по параметру "количество детей" самый низкий процент возврата кредита в срок у клиентов с 2 детьми.

### Вопрос 2:
Есть ли зависимость между **семейным положением** и возвратом кредита в срок?

Выведем на экран вспомогательный датафрейм-словарь для столбца `'family_status_id'`.

In [58]:
family_status_log

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [59]:
data.pivot_table(
    index=['family_status_id'], 
    columns='debt', 
    values='total_income_category', 
    aggfunc='count'
)

debt,0,1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11408,931
1,3763,388
2,896,63
3,1110,85
4,2536,274


Распределение клиентов в датафрейме по категориям по параметру "семейное положение" более равномерно, чем по предыдущему параметру "количество детей", поэтому для целей данного исследования можно считать выборку представительной, и делать выводы на основании этих данных.

Сведем в таблицу долю в процентах для клиентов с задолженностью по кредиту в зависимости от семейного положения клиента.

In [60]:
q_2 = data.pivot_table(
    index='family_status_id', 
    values='debt', 
    aggfunc=[
        'count', 
        'sum', 
        'mean'
    ])

q_2.columns = q_2.columns.droplevel()
q_2.columns = [
    'Общее кол-во клиентов', 
    'Кол-во должников', 
    'Доля должников от общего кол-ва'
]

q_2

Unnamed: 0_level_0,Общее кол-во клиентов,Кол-во должников,Доля должников от общего кол-ва
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,12339,931,0.075452
1,4151,388,0.093471
2,959,63,0.065693
3,1195,85,0.07113
4,2810,274,0.097509


#### Вывод 2:

Самый высокий процент кредитов, которые не были возвращены в срок, у клиентов с семейным положением "Не женат / не замужем" - почти 10%. 

Самый низкий процент задержек по кредиту у клиентов с семейным положением "вдовец / вдова" - 6,5%.

Стоит отметить, что доля возвращенных в срок кредитов у клиентов, состоящих в официальном и гражданском браке, различается. Среди клиентов, состоящих в официальном браке, процент задолженностей по кредиту почти на 2% больше чем среди тех, кто состоит в гражданском браке. 

### Вопрос 3:
Есть ли зависимость между **уровнем дохода** и возвратом кредита в срок?

In [61]:
data.pivot_table(
    index=['total_income_category'], 
    columns='debt', 
    values='gender', 
    aggfunc='count'
)

debt,0,1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,23,2
B,4685,356
C,14656,1360
D,329,21
E,20,2


Сведем в таблицу долю в процентах для клиентов с задолженностью по кредиту в зависимости от категории дохода клиента.

In [62]:
q_3 = data.pivot_table(
    index='total_income_category', 
    values='debt', 
    aggfunc=[
        'count', 
        'sum', 
        'mean'
    ])

q_3.columns = q_3.columns.droplevel()
q_3.columns = [
    'Общее кол-во клиентов', 
    'Кол-во должников', 
    'Доля должников от общего кол-ва'
]

q_3

Unnamed: 0_level_0,Общее кол-во клиентов,Кол-во должников,Доля должников от общего кол-ва
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,0.08
B,5041,356,0.070621
C,16016,1360,0.084915
D,350,21,0.06
E,22,2,0.090909


#### Вывод 3:

Зависимость между категорией уровня дохода и процентом возврата кредита в срок не обнаружена. Самый высокий процент задолженностей по кредиту (9%) у клиентов с доходами категории E (самый низкий из данного датафрейма), однако самый высокий процент кредитов, возвращенных в срок у клиентов с доходами следующей категории (D). Эта категория клиентов вернула кредит вовремя в 94% случаев.

Второй по проценту задолженностей по кредиту после категории E является категория С. У этой категории количество кредитов в абсолютных значениях значительно больше, чем у остальных категорий, однако и процент невозврата кредита в срок тажке велик - 8.5%.

Распределение клиентов по категориям дохода сложно назвать равномерным, поэтому на выводы по влиянию этого параметра на процент возврата кредита в срок следует ориентироваться только для категорий `B`, `C`, `D`. Для двух других категорий выборка не является представительной с высокой вероятностью ошибок.

### Вопрос 4:
Как разные **цели кредита** влияют на его возврат в срок?

In [63]:
data.pivot_table(
    index=['purpose_category'], 
    columns='debt', 
    values='gender', 
    aggfunc='count'
)

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с автомобилем,3903,403
операции с недвижимостью,10029,782
получение образования,3643,370
проведение свадьбы,2138,186


Сведем в таблицу долю в процентах для клиентов с задолженностью по кредиту в зависимости от цели кредита.

In [64]:
q_4 = data.pivot_table(
    index='purpose_category', 
    values='debt', 
    aggfunc=[
        'count', 
        'sum', 
        'mean'
    ])

q_4.columns = q_4.columns.droplevel()
q_4.columns = [
    'Общее кол-во клиентов', 
    'Кол-во должников', 
    'Доля должников от общего кол-ва'
]

q_4

Unnamed: 0_level_0,Общее кол-во клиентов,Кол-во должников,Доля должников от общего кол-ва
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4306,403,0.09359
операции с недвижимостью,10811,782,0.072334
получение образования,4013,370,0.0922
проведение свадьбы,2324,186,0.080034


#### Вывод 4:

Самый высокий процент кредитов, возвращенных в срок, у клиентов, которые брали кредит для операций с недвижимостью - почти 93%.

Больше всего задержек с возвратом кредита было связано с операциями с автомобилем и на получение образования - меньше 91% этих кредитов было возвращено в срок.

**_Гипотеза_**: Возможно, наличие задержек по кредитам, взятым на разные цели, зависит от семейного положения клиента.

In [65]:
data.pivot_table(
    index=[
        'purpose_category', 
        'debt'
    ], 
    columns='family_status_id', 
    values='gender', 
    aggfunc='count'
)

Unnamed: 0_level_0,family_status_id,0,1,2,3,4
purpose_category,debt,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
операции с автомобилем,0,2507.0,383.0,198.0,260.0,555.0
операции с автомобилем,1,229.0,51.0,20.0,21.0,82.0
операции с недвижимостью,0,6522.0,898.0,514.0,629.0,1466.0
операции с недвижимостью,1,486.0,91.0,28.0,47.0,130.0
получение образования,0,2379.0,344.0,184.0,221.0,515.0
получение образования,1,216.0,60.0,15.0,17.0,62.0
проведение свадьбы,0,,2138.0,,,
проведение свадьбы,1,,186.0,,,


Из сводной таблицы видно, что среди клиентов, которые брали кредит на операции с недвижимостью, самый низкий процент возврата кредита в срок у клиентов в разводе - 87.5% кредитов были возвращены в срок. Среди тех, кто состоит в браке (официальном или гражданском) процент возврата кредита на операции с недвижимостью самый высокий - 91% и почти 95% соответственно.

Похожая картина для кредитов, которые были взяты и для других целей. Процент кредитов с задолженностью для всех целей больше всего у клиентов в разводе (более 10%).

Из этого можно подтвердить гипотезу, что процент возврата кредита в срок действительно больше зависит от семейного положения, а не от целей кредита.

## Общий вывод

<div style="border:solid purple 2px; padding: 20px">
    
Был проведен анализ данных в таблице `/datasets/data.csv` с данными о клиентах кредитного отдела банка. 

На этапе предобработки данных были обработаны пропуски, аномалии и ошибки в данных. Созданы два дополнительных датафрейма-"словаря".
    
<b>На основании данных были сделаны следующие выводы:</b>

1. Параметр **"количество детей"**

Строгая зависимость процента клиентов, которые вернули кредит в срок, от количества детей не обнаружена. 
 * Самый высокий процент возврата кредита в срок у клиентов, не имеющих детей.
 * Самый низкий - у клиентов с 2 детьми.

2. Параметр **"семейное положение"**

 * Самый высокий процент кредитов, которые не были возвращены в срок, у клиентов с семейным положением "Не женат / не замужем". 
 * Самый низкий - у клиентов с семейным положением "вдовец / вдова".
 * Доля возвращенных в срок кредитов у клиентов, состоящих в официальном и гражданском браке, различается. Среди клиентов, состоящих в официальном браке, процент задолженностей по кредиту почти на 2% больше чем среди тех, кто состоит в гражданском браке. 
 
    
3. Параметр **"уровень дохода"**

Строгой зависимости между категорией уровня дохода и процентом возврата кредита в срок не было обнаружено. 
 * Самый высокий процент задолженностей по кредиту у клиентов с доходами категории С 
 * Самый низкий - у клиентов с доходами категории D

4. Параметр **"цели кредита"**

Строгой зависимости между целью кредита и процентом возврата кредита в срок не было обнаружено. 

 * Самый высокий процент кредитов, возвращенных в срок, у клиентов, которые брали кредит для операций с недвижимостью
 * Самый низкий - у клиентов, которые брали кредит для получения образования
