## Исследование надёжности заёмщиков

<h3>Описание данных:

* __children__ — количество детей в семье
*__days_employed__ — общий трудовой стаж в днях
*__dob_years__ — возраст клиента в годах
*__education__ — уровень образования клиента
*__education_id__ — идентификатор уровня образования
*__family_status__ — семейное положение
*__family_status_id__ — идентификатор семейного положения
*__gender__ — пол клиента
*__income_type__ — тип занятости
*__debt__ — имел ли задолженность по возврату кредитов
*__total_income__ — ежемесячный доход
*__purpose__ — цель получения кредита

### Импорт данных и первичный анализ:

In [1]:
import pandas as pd

try:
    statistics = pd.read_csv('C:/Users/Downloads/data.csv')

except FileNotFoundError:
    statistics = pd.read_csv('/datasets/data.csv')
statistics.head(15)
# Импорт данных и вывод на экран первых 15 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
statistics.info() 
# Вывод на экран информации о данных, содержащихся в таблице, включая количество строк и тип данных для каждого столбца

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Пропуски данных:

Пропуски данных присутствуют в двух столбцах - days_employed (общий трудовой стаж в днях) и total_income (ежемесячный доход).


* Пропущенные значения Nan соответствуют типу float, отвечают за отсутствующее в ячейке число. 
*  Пропущенные значения можно отнести к случайным пропускам данных, вероятность пропуска зависит от других значений в
наборе данных, но не от значений собственного столбца.  


In [3]:
statistics['days_employed'].describe() 
#statistics['days_employed'].value_counts() 
# возвращает уникальные значения и количество их упоминаний (оцениваем что типа None нет)

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

In [4]:
statistics['total_income'].describe() 
#statistics['total_income'].value_counts() 
# возвращает уникальные значения и количество их упоминаний (оцениваем что типа None нет)

count    1.935100e+04
mean     1.674223e+05
std      1.029716e+05
min      2.066726e+04
25%      1.030532e+05
50%      1.450179e+05
75%      2.034351e+05
max      2.265604e+06
Name: total_income, dtype: float64

* Пропущенных значений None в столбцах не обнаружено
* Для оценки доли пропущенных значений в каждом из столбцов с пропусками сравним длину столбцов с длинами столбцов без пропусков;


In [5]:
days_employed_missing_data = statistics['dob_years'].count() - statistics['days_employed'].count() 
#разность количества непустых строк столбца без пропусков ('dob_years') и столбца с пропусками

fraction = days_employed_missing_data/statistics['dob_years'].count() 
# отнощение разности к количеству непустых строк (строк без пропусков)

print('Доля пропущенных данных от общего количества в столбцах days_employed и total_income {:.0f} %.'.format(100*fraction))
# количество пропусков данных столбцов days_employed и total_income одинаково

Доля пропущенных данных от общего количества в столбцах days_employed и total_income 10 %.


* Доля незаполненных значений в каждом из столбцов days_employed и одинакова и составляет 10%, что является существенным - таким образом необходимо заполнить пропуски. 
* Пропуски в количественных переменных заполняют характерными значениями - это значения, характеризующие состояние выборки, набора данных, выбранных для проведения исследования. 
* Чтобы примерно оценить типичные значения выборки в указанных стобцах можно оценить значение медианы - число в выборке, что ровно половина элементов больше него, а другая половина — меньше. 
* Анализ столбца days_employed позволяет выявить наличие аномалий в данных, к которым относятся отрицательные значения и аномально большие значения
* Перед заполнением пропусков данных необходимо отработать аномальные значения


### Аномальные значения:

In [6]:
statistics['days_employed'] = abs(statistics['days_employed']) 
# замена отрицательных значений стобца days_employed на положительные по модулю


In [7]:
statistics['income_type'].sort_values(ascending = True).unique() 
#анализ уникальных значений столбца income_type (тип занятости)

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

In [8]:
days = statistics.pivot_table(index=['income_type'], 
                              values = ['days_employed'], 
                              aggfunc=['min', 'max','median'])

# сводная таблица минимальных, максимальных и медианных значений столбца days_employed в зависимости от типа занятости

In [9]:
days.round(2)

Unnamed: 0_level_0,min,max,median
Unnamed: 0_level_1,days_employed,days_employed,days_employed
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,337524.47,395302.84,366413.65
в декрете,3296.76,3296.76,3296.76
госслужащий,39.95,15193.03,2689.37
компаньон,30.2,17615.56,1547.38
пенсионер,328728.72,401755.4,365213.31
предприниматель,520.85,520.85,520.85
сотрудник,24.14,18388.95,1574.2
студент,578.75,578.75,578.75


* Наиболее существенные аномалии в данных у пенсионеров и безработных
* Порядок значений позволяет сделать предположение, что размерность этих аномальных строк не соответствует числу дней, а указывает количество рабочих часов

#### Замена аномальных значений столбца days_employed и заполнение пропусков

In [10]:
statistics.loc[statistics['days_employed']>20000,'days_employed'] = statistics.loc[statistics['days_employed']>20000 ,'days_employed']  / 24
#перевод аномально больших значений из часов в дни
statistics_days = statistics.groupby('income_type')['days_employed'].median() 
#поиск медианных значений

#функция для заполнения пропусков столбца days_employed
def func_days(row): 
    if pd.isna(row['days_employed']):
        return statistics_days.loc[row['income_type']]
    return row['days_employed']

statistics['days_employed'] = statistics.apply(func_days, axis=1) 
#заполнение пропусков столбца days_employed с применением функции


#### Проверка столбца days_employed после замены аномальных значений и заполнения пропусков

In [11]:
days_changed = statistics.pivot_table(index=['income_type'], 
                                      values = ['days_employed'], 
                                      aggfunc=['min', 'max','median'])
# сводная таблица обновленных значений столбца минимальных, максимальных и медианных значений столбца 
# days_employed в зависимости от типа занятости

In [12]:
days_changed.round(2)

Unnamed: 0_level_0,min,max,median
Unnamed: 0_level_1,days_employed,days_employed,days_employed
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
безработный,14063.52,16470.95,15267.24
в декрете,3296.76,3296.76,3296.76
госслужащий,39.95,15193.03,2689.37
компаньон,30.2,17615.56,1547.38
пенсионер,13697.03,16739.81,15217.22
предприниматель,520.85,520.85,520.85
сотрудник,24.14,18388.95,1574.2
студент,578.75,578.75,578.75


* Обновленные значения более адекватно отображают значения 
* В случае с типами занятости "в декрете" и "студент" и "предприниматель" аномалий в данных нет, т.к. количественно они представлены в одной-двух строках 

#### Заполнение пропусков значений столбца total_income 

In [13]:
statistics_grouped = statistics.groupby('income_type')['total_income'].mean()
#поиск средних значений

#функция для заполнения пропусков столбца total_income
def func(row):
    if pd.isna(row['total_income']):
        return statistics_grouped.loc[row['income_type']]
    return row['total_income']

statistics['total_income'] = statistics.apply(func, axis=1)
#заполнение пропусков столбца total_income с применением функции


Уникальные значения столбца dob_years:

In [14]:
statistics['dob_years'].sort_values(ascending = True).unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

In [15]:
print ('Количество строк с указанным возрастом 0:', statistics.loc[statistics['dob_years'] == 0, 'dob_years'].count())

Количество строк с указанным возрастом 0: 101


* Аномалии в данных: значения возраста, равные 0.
* В связи с тем, что столбец не участвует в дальнейшей работе, на данном этапе их можно не исправлять
* В случае изменения поставленной задачи, требуется внесение изменений

#### Замена вещественного типа данных в столбце total_income на целочисленный

In [16]:
statistics['total_income'] = statistics['total_income'].astype('int64', copy=False)
#замена вещественного типа данных в столбце total_income на целочисленный

In [17]:
statistics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


* Проверка полученной таблицы на предмет отсутствия пропусков - все строки с недостающими данными заполнены, тип столбца total_income земенен

### Поиск дубликатов

#### Поиск аномалий данных и неявных дубликатов

Уникальные значения столбца children:

In [20]:
print (statistics['children'].sort_values(ascending = True).unique())

[-1  0  1  2  3  4  5 20]


* Аномалии в данных: значения -1, 20.
* Возможная причина: ручной ввод данных.

In [21]:
#подсчет количества строк, содержащих значение -1
count1 = statistics.loc[statistics['children'] == -1, 'children'].count()

#подсчет количества строк, содержащих значение 20
count2 = statistics.loc[statistics['children'] == 20, 'children'].count()

print ('Количество строк с аномальным значением столбца children -1:', count1)
print ('Количество строк с аномальным значением столбца children 20:', count2)

Количество строк с аномальным значением столбца children -1: 47
Количество строк с аномальным значением столбца children 20: 76


* Аномалии в данных являются несущественными, можно рассматривать в качестве причины ручной ввод данных 
* Аномальные значения столбца children заменим на значение 1 (всесто -1) и значение 2 (вместо 20)

In [22]:
#замена строк, содержащих значение -1
statistics.loc[statistics['children'] == -1, 'children'] = 1

#замена строк, содержащих значение 20
statistics.loc[statistics['children'] == 20, 'children'] = 2

#проверка обновленных уникальных значений стобца children
print (statistics['children'].sort_values(ascending = True).unique())

[0 1 2 3 4 5]


Уникальные значения столбца education:

In [23]:
print (statistics['education'].sort_values(ascending = True).unique())

['ВЫСШЕЕ' 'Высшее' 'НАЧАЛЬНОЕ' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Начальное'
 'Неоконченное высшее' 'СРЕДНЕЕ' 'Среднее' 'УЧЕНАЯ СТЕПЕНЬ'
 'Ученая степень' 'высшее' 'начальное' 'неоконченное высшее' 'среднее'
 'ученая степень']


* Аномалии в данных: наличие верхних и нижних регистров
* Необходимо привести все значения к нижнему регистру

In [24]:
#приведение к нижнему регистру

statistics['education'] = statistics['education'].str.lower()
statistics['education'].sort_values(ascending = True).unique()

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

Уникальные значения столбца purpose:

In [25]:
print (statistics['purpose'].sort_values(ascending = True).unique())

['автомобили' 'автомобиль' 'высшее образование'
 'дополнительное образование' 'жилье' 'заняться высшим образованием'
 'заняться образованием' 'на покупку автомобиля'
 'на покупку подержанного автомобиля' 'на покупку своего автомобиля'
 'на проведение свадьбы' 'недвижимость' 'образование' 'операции с жильем'
 'операции с коммерческой недвижимостью' 'операции с недвижимостью'
 'операции со своей недвижимостью' 'покупка жилой недвижимости'
 'покупка жилья' 'покупка жилья для сдачи' 'покупка жилья для семьи'
 'покупка коммерческой недвижимости' 'покупка недвижимости'
 'покупка своего жилья' 'получение высшего образования'
 'получение дополнительного образования' 'получение образования'
 'приобретение автомобиля' 'профильное образование' 'ремонт жилью'
 'свадьба' 'свой автомобиль' 'сделка с автомобилем'
 'сделка с подержанным автомобилем' 'строительство жилой недвижимости'
 'строительство недвижимости' 'строительство собственной недвижимости'
 'сыграть свадьбу']


* Аномалии в данных: дублирование по смыслу
* Необходима категоризация переменных, которая будет произведена после устранения аномальных данных во всех столбцах

Уникальные значения столбца gender:

In [26]:
print(statistics['gender'].sort_values(ascending = True).unique())

['F' 'M' 'XNA']


* Аномалии в данных: неизвестно значение XNA

In [27]:
#анализ количества строк, содержащих значение XNA

gender = statistics.loc[statistics['gender'] == 'XNA', 'gender'].count()
print ('Количество строк с аномальным значением столбца gender: ', gender)

Количество строк с аномальным значением столбца gender:  1


* Количество строк, содержащих значение XNA несущественно
* Строку, содержащую значение XNA можно не учитывать

In [28]:
# исключение строки, cоlержащей XNA
 
statistics = statistics[statistics['gender'] != 'XNA']

print ('Количество явных дубликатов:', statistics.duplicated().sum())

In [29]:
statistics = statistics.drop_duplicates() 
#удаление явных дубликатов

print ('Количество явных дубликатов:', statistics.duplicated().sum())
#проверка

Количество явных дубликатов: 0


### Создание новых датафреймов

#### Датафрейм на основе столбцов education и education_id

In [30]:
# cоздание датафрейма, в котором каждому уникальному значению из education соответствует уникальное значение education_id 

statistics_edu = statistics[['education', 'education_id']]
statistics_edu = statistics_edu.drop_duplicates()
statistics_edu = statistics_edu.reset_index(drop=True)

In [31]:
statistics_edu

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [32]:
# cоздание датафрейма, в котором каждому уникальному значению из family_status соответствует уникальное значение family_status_id

statistics_fam = statistics[['family_status', 'family_status_id']]
statistics_fam = statistics_fam.drop_duplicates()
statistics_fam = statistics_fam.reset_index(drop=True)

In [33]:
statistics_fam

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [34]:
#удаление из исходного датафрейма столбцы education и family_status

statistics = statistics.drop(columns=['education', 'family_status'])

In [35]:
statistics.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177.753002,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


In [36]:
# Создание столбца total_income_category

def group(income):
    if (income > 0) & (income <= 30000):
        return 'E'
    if (income > 30001) & (income <= 50000):
        return 'D'
    if (income > 50001) & (income <= 200000):
        return 'C'
    if (income > 200001) & (income <= 1000000):
        return 'B'
    return 'A'

statistics['total_income_category'] = statistics['total_income'].apply(group)

In [37]:
statistics.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,14177.753002,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


In [38]:
# Создание столбца purpose_category

def cathegory(purpose):
    if 'автомобил' in purpose:
        return 'операции с автомобилем'
    if ('жиль') in purpose:
        return 'операции с недвижимостью'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'образов' in purpose:
        return 'получение образования'
    return 'операции с недвижимостью'

statistics['purpose_category'] = statistics['purpose'].apply(cathegory)

In [39]:
statistics.head(20)

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177.753002,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


### Ответы на вопросы

#### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [40]:
# Формирование таблицы, позволяющей проанализировать общее количество строк в столбце dept, их суммарное значение и среднее 
# в зависимости от количества детейa

family = statistics.pivot_table(index=['children'], values = ['debt'], aggfunc=['count', 'sum','mean'])

In [41]:
family.round(3)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,14090,1063,0.075
1,4855,445,0.092
2,2128,202,0.095
3,330,27,0.082
4,41,4,0.098
5,9,0,0.0


* Явная зависимость между количеством детей и возвратом кредита в срок не прослеживается.
* Заемщики без детей имеют задолженности в 7,5 % случаев
* Заемщики с одним и двумя детьми - в 9 % случаев
* При наличии трех детей - в 8% случаев
* При наличии четырех детей - в 10 % случаев
* Заемщики с пятью детей не имели задолженностей, но их количество составляет всего 9 человек


#### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [42]:
# Формирование таблицы, позволяющей проанализировать общее количество строк в столбце dept, их суммарное значение и среднее 
# в зависимости от значений family_id

family_id = statistics.pivot_table(index=['family_status_id'], values = ['debt'], aggfunc=['count', 'sum','mean'])

In [43]:
family_id.round(3)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,12339,931,0.075
1,4150,388,0.093
2,959,63,0.066
3,1195,85,0.071
4,2810,274,0.098


In [44]:
statistics_fam

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


* Наменьший процент задолженностей у вдовцов/вдов и составляет 6,6 %
* Далее в рейтинге следуют разведенные заемшики с 7,1 % задолженностей
* У женатых заемщиков процент задолженностей 7,5 %
* 9,3 % задолженностей у сожительствующих
* 9,8 % задолженностей у неженатых
* Наибольший процент задолженностей из представленных категорий у неженатых, наименьший - у вдовцов/вдов

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [45]:
# Формирование таблицы, позволяющей проанализировать минимальное, максимальное и среднее значение дохода
# в зависимости от значений dept

income = statistics.pivot_table(index=['debt'], values = ['total_income'], aggfunc=['min', 'max','mean', 'count', 'median'])

In [46]:
income.round (2)

Unnamed: 0_level_0,min,max,mean,count,median
Unnamed: 0_level_1,total_income,total_income,total_income,total_income,total_income
debt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
0,21205,2265604,167804.34,19712,152187.5
1,20667,2200852,163190.24,1741,148800.0


* Анализ минимального, максимального и среднего значения дохода позволяет сделать вывод, что как в случае с наличием задолженностей, так и в случае с их отсутствием минимальные, максимальные и средние значения дохода являются сопоставимыми  
* Зависимость между уровнем дохода и возвратом кредита в срок не прослеживается в явном виде


#### Как разные цели кредита влияют на его возврат в срок?

In [47]:
# Формирование таблицы, позволяющей проанализировать общее количество строк в столбце dept, их суммарное значение и среднее
# в зависимости от целей кредита

purpose = statistics.pivot_table(index=['purpose_category'], values = ['debt'], aggfunc=['count', 'sum','mean'])

In [48]:
purpose.round(3)

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
операции с автомобилем,4306,403,0.094
операции с недвижимостью,10810,782,0.072
получение образования,4013,370,0.092
проведение свадьбы,2324,186,0.08


* Наименьший процент задолженностей (7,2 %) у операций с недвижимостью
* 8% задолженностей в случае проведения свадьбы
* Самый высокий процент задолженностей у операций с недвижимостью, 9,4%, чуть ниже для целей получения образования, 9,2%

### Общие выводы

* На основании полученных данных можно сделать выводы о том что семейное положение и количество детей клиента не влияет на факт погашения кредита в срок
* Разница между наибольшим и наибольшим процентом задолженностей при рассмотрении количества детей составляет 2,5 %
* Разница между наибольшим и наибольшим процентом задолженностей при рассмотрении семейного положения составляет 3,2 %
* Разница между наибольшим и наибольшим процентом задолженностей при рассмотрении цели кредита составляет 2,2 %
* Выводы об отсутствии взаимосвязей сделаны на основании того что 2 - 3 % несуществнная разница

### Общие выводы

* В ходе работы проведен первичный анализ данных, выявлены пропуски в данных в двух столбцах - days_employed (общий трудовой стаж в днях) и total_income (ежемесячный доход), доля незаполненных значений в каждом из столбцов days_employed и одинакова и составляет 10%, что является существенным, поэтому после отработки аномальных значений пропуски заполняются медианными значениями.
* Отработаны аномальные значения столбцов, проведен поиск неявных и явных дубликатов. Возможная причина появления аномальных значений: ручной ввод данных. 
* Наиболее существенные аномалии в данных у пенсионеров и безработных.  
Порядок значений позволяет сделать предположение, что размерность этих аномальных строк не соответствует числу дней, а указывает количество рабочих часов. 
* Аномалии в данных по количеству детей: значения -1, 20. Аномалии в данных по обучению: наличие верхних и нижних регистров.
Аномалии в данных по целям кредитования: дублирование по смыслу, что выявило необходимость категоризация переменных. Аномальные данные во всех столбцах устранены.
* Произведена категоризация переменных после устранения аномальных данных во всех столбцах, выделены категории платежеспособности: А, В, С, D, E и категории целей получения кредита: 'операции с автомобилем', 'операции с недвижимостью', 'проведение свадьбы', 'получение образования'.
* Категоризация позволила упростить анализ и сделать более наглядными ответы на вопросы.
* Явная зависимость между количеством детей и возвратом кредита в срок не прослеживается. Заемщики без детей имеют задолженности в 7,5 % случаев. Заемщики с одним и двумя детьми - в 9 % случаев. При наличии трех детей - в 8% случаев. При наличии четырех детей - в 10 % случаев. Заемщики с пятью детьми не имели задолженностей, но их количество составляет всего 9 человек.
* Наменьший процент задолженностей у вдовцов/вдов и составляет 6,6 %. Далее в рейтинге следуют разведенные заемшики с 7,1 % задолженностей. У женатых заемщиков процент задолженностей 7,5 %. 9,3 % задолженностей у сожительствующих. 9,8 % задолженностей у неженатых. Наибольший процент задолженностей из представленных категорий у неженатых, наименьший - у вдовцов/вдов.
* Зависимость между уровнем дохода и возвратом кредита в срок не прослеживается в явном виде.
* Наименьший процент задолженностей (7,2 %) у операций с недвижимостью, 8% задолженностей в случае проведения свадьбы. Самый высокий процент задолженностей у операций с недвижимостью, 9,4%, чуть ниже для целей получения образования, 9,2%.


