# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Изучение общей информации

In [1]:
# импорт библиотеки pandas
import pandas as pd
# чтение файла с данными и сохранение в df
data = pd.read_csv('/datasets/data.csv')
# получение общей информации о данных в таблице df
data.info()
# получение первых 10 строк таблицы df
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


 
Согласно документации к данным:
 
* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.


Посмотрим уникальные значения для столбцов `children`, `ducation`, `family_status`, `family_status_id`, `gender`.
 

In [2]:
# посмотрим список уникальных значений столбца children
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [3]:
# посмотрим список уникальных значений столбца dob_years
data['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

In [4]:
#посмотрим список уникальных значений столбца education
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [5]:
#посмотрим список уникальных значений столбца education_id
data['education_id'].unique()

array([0, 1, 2, 3, 4])

In [6]:
#посмотрим список уникальных значений столбца family_status
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [7]:
#посмотрим список уникальных значений столбца family_status_id
data['family_status_id'].unique()

array([0, 1, 2, 3, 4])

In [8]:
#посмотрим список уникальных значений столбца gender
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [9]:
#посмотрим список уникальных значений столбца income_type
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [10]:
#посмотрим список уникальных значений столбца debt
data['debt'].unique()

array([0, 1])

In [11]:
#посмотрим список уникальных значений столбца purpose
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [12]:
#проверим наличие отрицательных и нулевых значений в столбце total_income
data[data['total_income'] <= 0]['total_income'].count()

0

**Вывод**

В колонках `total_income` и `days_employed` есть пропуски данных.

В списке уникальных значений `education` есть повторяющиеся, так как использован различный регистр, что может затруднять поиск дубликатов.

В датасете есть значения, несоответствующие действительности:
* в колонке `children` - отрицательные значения и значения в размере 20 детей в семье;
* в колонке `days_employed` - отрицательный трудовой стаж и количество дней стажа, превыщающее потенциальную длительность человеческой жизни (например,340266 - это 932 года стажа);
* в столбце `dob_years` и `gender` также есть значения , несоответствующие действительности( 0 и XNA соответственно). Возможно таким образом заполнили строки с отсутствующими данными. Так как значения в этих столбцах не влияют на дальнейший анализ , оставим их в таком виде.

В столбце `purpose` цели кредита для дальнейшего анализа необходимо стандартизировать, так как есть одинаковые цели, но по-разному сформулированные.

Для оптимальной работы с таблицей  создадим отдельные словари для категорий образования и семейного статуса.

## Предобработка данных

### Обработка артефактных значений

Проверим наличие зависимости артефактных значений в `days_employed` от типа занятости заемщиков.

In [13]:
#сгруппируем значения стажа заемщиков по типам занятости и применим функцию describe
display(data.groupby('income_type')['days_employed'].describe())
# посмотрим информацию о возрасте по типам занятости
data.groupby('income_type')['dob_years'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
безработный,2.0,366413.652744,40855.478519,337524.466835,351969.05979,366413.652744,380858.245699,395302.838654
в декрете,1.0,-3296.759962,,-3296.759962,-3296.759962,-3296.759962,-3296.759962,-3296.759962
госслужащий,1312.0,-3399.896902,2788.371363,-15193.032201,-4759.39926,-2689.368353,-1257.171811,-39.95417
компаньон,4577.0,-2111.524398,2048.448594,-17615.563266,-2876.64852,-1547.382223,-685.687432,-30.195337
пенсионер,3443.0,365003.491245,21069.606065,328728.720605,346649.346146,365213.306266,383231.396871,401755.400475
предприниматель,1.0,-520.848083,,-520.848083,-520.848083,-520.848083,-520.848083,-520.848083
сотрудник,10014.0,-2326.499216,2307.924129,-18388.949901,-3108.123025,-1574.202821,-746.027361,-24.141633
студент,1.0,-578.751554,,-578.751554,-578.751554,-578.751554,-578.751554,-578.751554


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
безработный,2.0,38.0,9.899495,31.0,34.5,38.0,41.5,45.0
в декрете,1.0,39.0,,39.0,39.0,39.0,39.0,39.0
госслужащий,1459.0,40.636737,10.744491,0.0,32.0,40.0,48.0,75.0
компаньон,5085.0,39.697542,10.671115,0.0,31.0,39.0,48.0,74.0
пенсионер,3856.0,59.063019,7.618526,0.0,56.0,60.0,64.0,74.0
предприниматель,2.0,42.5,21.92031,27.0,34.75,42.5,50.25,58.0
сотрудник,11119.0,39.821027,10.655127,0.0,32.0,39.0,48.0,74.0
студент,1.0,22.0,,22.0,22.0,22.0,22.0,22.0


Все значения столбца `days_employed` не соответствуют действительности.

В категориях "в декрете", "госслужащий", "компаньон", "предприниматель", "сотрудник", "студент" все значения отрицательные. Заменим отрицательные значения на соответствующие им модули.

В оставшихся категориях "безработный","пенсионер" указан аномально высокий трудовой стаж. 

Обработаем отрицательные артефактные значения `days_employed` 

In [14]:
#применим метод abs к столбцу 'days_employed'
data['days_employed'] = data['days_employed'].abs()
# проверим,что отрицательных значенрий не осталось
data[data['days_employed'] < 0]['days_employed'].count()

0

Посчитаем удельный вес артефактных значений в столбце `children`

In [15]:
# создадим группировку по количеству детей 
children_group_counts = data['children'].value_counts().reset_index()
#вычислим удельный вес каждой группы
children_group_counts['ratio'] = (children_group_counts['children']/(children_group_counts['children'].sum())*100).round(2)
children_group_counts

Unnamed: 0,index,children,ratio
0,0,14149,65.73
1,1,4818,22.38
2,2,2055,9.55
3,3,330,1.53
4,20,76,0.35
5,-1,47,0.22
6,4,41,0.19
7,5,9,0.04


Обработаем артефактные значения `children` 

In [16]:
# Изменим отрицательные значения на положительные, а количество 20 на 2
data = data.replace({'children':{-1:1, 20:2}})
#проверим, что замена произошла и количество  строк со старыми значениями равно теперь 0
print(data[data['children'] == 20]['children'].count())
data[data['children'] == -1]['children'].count()

0


0

**Вывод**

Возможно артефактные значения столбцов `days_employed` и `children`  появились в следствии неверного ввода информации или сбоя при переносе информации. 
Целесообразно отрицательные значения заменить на соответствующий модуль.

Удельный вес группы строк `children` со значением 20 менее 0.5%. Вследствии этого данные этой группы не будут имеют существенного влияния на результаты анализа датасета. Также на текущий момент в общедоступных источниках есть информация только об одной семье в России с таким высоким количеством детей, в то время как количество записей в данной группе - 76, что  маловероятно может соответствовать количеству заявок одной семьи. Поэтому допустимо заменить  20  на 2.

Сложно определить  причину появления значений столбца `days_employed`, сильно превыщающих максимально возможый для человека трудовой стаж в днях (возможно была допущена ошибка в разделители целой и дробной части в момент ввода данных, или был указан стаж не в днях , а в часах ). Так как эти данные не используютсят в дальнейшем анализе гипотез,оставим значения в текущем виде.

### Обработка пропусков

In [17]:
# найдем количество пропусков 
data.isna().sum() 

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [18]:
#просмотрим первые 10 строк с пропусками                                                    
data[data['days_employed'].isna()].head()   

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Возможно есть корреляция между отсутствующими значениями в столбце `days_employed` и `total_income`

In [19]:
# проверим предположение о корреляции между данными столбцов days_employed и total_income.
data[data['days_employed'].isna()&data['total_income'].isna()]['children'].count()

2174

Во всех строках , где пропущены значения `total_income`, стоят пропуски и в `days_employed`. 

В дальнейшем анализе общий трудовой стаж не участвует, пропуски в значениях `days_employed` можно заполнить на нулевые значения. 

Столбец `total_income` имеет значение для последующего анализа.Заменим пропущенные значения в столбце на медианные значения соответствующей группы занятости. 

Рассчитаем медианные значения `total_income` в зависимости от типа занятости заемщика .

In [20]:

# создадим группировку по датафрейму без пропущенных значений для корректного расчета медианного значения внутри группы
data_not_nan = data.dropna().groupby('income_type')['total_income'].median()
data_not_nan   

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64


Обработаем пропущенные значения в столбце  `total_income`.

In [21]:
# заменим пропуски в income_type на медиану по соответствующей группе занятости
mediana = data.groupby('income_type')['total_income'].transform('median')
data['total_income'] = data['total_income'].fillna(mediana)
# проверим , что в столбце total_income не осталось пропусков
print(data['total_income'].isna().sum())
#посмотрим первые 5 строк ,заполненные медианой
display(data[data['days_employed'].isna()].head())  

0


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,118514.486412,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,150447.935283,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,118514.486412,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,150447.935283,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,118514.486412,сыграть свадьбу


Обработаем пропуски в `days_employed` 

In [22]:
#посмотрим для каких групп заемщиков характерны пропуски
print(data[data['days_employed'].isna()]['income_type'].unique()) 
#заменим пропуски на нулевые значения
data['days_employed'] = data['days_employed'].fillna(0)
#проверим, что пропусков Nan не осталось в столбце days_employed
data['days_employed'].isna().sum()

['пенсионер' 'госслужащий' 'компаньон' 'сотрудник' 'предприниматель']


0

**Вывод**

С помощью функции isna было обнаружено 2174 пропуска Nan в колонке `days_employed` и столько же в колонке `total_income`. Так как все пропуски в обоих столбцах приходятся на одни и те же строки, возможно данные клиенты пока не  предоставили соответствующую информацию,документы или необходимые справки от работодателя.

Так как группировки с Nan могут привести к неккоректным результатам анализа, необходимо обработать пропущенные значения.

Значения столбца `days_employed` не будут использованы в проверке гипотез, поэтому возможна их замена на нулевые значения.

Значения столбца `total_income` будут использованы в дальнейшем анализе , в связи с чем лучше заменить их на медианные значения по соответствуюшей группе  занятости, так как разным группам работников будет соответствовать разный уровень дохода (у пенсионера с большей долей вероятности доход будет ниже, чем у предпринимателя и тд). Внутри групп возможны отдельные нетипично высокие показатели дохода, лучше использовать медиану для замены , так как медиана позволит нивелировать влияние выбросов.


### Замена типа данных

Приведем значения столбца `days_employed` к целочисленному типу данных.


In [23]:
#заменим тип данных в столбце 'days_employed' с float на int
data['days_employed'] = data['days_employed'].astype(int)
#проверим тип данных 
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


Округлим значения столбцов `total_income` и `median_income`

In [24]:
#округлим значения total_income и median_income
data['total_income'] = data['total_income'].round(2)
#data['median_income'] = data['median_income'].round(2)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу


**Вывод**

Изначально в столбце `days_employed` данные были  вещественные (float), возможно это произошло вследствии появления пропусков типа Nan, которые имеют тип данных float. После обработки пропусков возможно поменять тип данных столбца `days_employed` на целочисленный, так как  данные трудового стажа , измеряемого днями, не могут быть дробными.

Для изменения типа данных был выбран метод astype() как универсальный метод с возможностью четко указать необходимый тип данных. 

Для оптимальной работы с таблицей округлили значения столцов `total_income` и `median_income` до 2-х знаков после запятой с помощью метода round().


### Обработка дубликатов

Для выявления неявных дубликатов приведем строковые данные к единому регистру - нижнему
  

In [25]:
#приведем знаечния education, family_status,purpose к нижнему регистру  
data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()
data['purpose'] = data['purpose'].str.lower()
# проверим, что значения столбцов в едином регистре
print(data['education'].unique())
print(data['family_status'].unique())
print(data['purpose'].unique())

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'не женат / не замужем']
['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильн

In [26]:
# посчитаем количество явных дубликатов
print(data.duplicated().sum())
#удалим дубликаты
data = data.drop_duplicates().reset_index(drop=True)
#проверим , что дубликатов не осталось
data.duplicated().sum()

71


0

**Вывод**

Датасет содержал 71 строку дубликатов,часть из которых удалось выявить благодаря приведению данных к единому регистру.Возможно  клиент обращался в банк несколько раз с одинаковым запросом (например, первый раз - только узнавал интересующую информацию, второй раз - подавал заявку) и каждый раз заново о нем вводили информацию  по его заявке в систему .

Для поиска дупликатов мы применили метод duplicated() в сочетании с методом sum(). 
 
Для получения корректных  результатов анализа дубликаты необходимо было удалить c помощью метода drop_duplicates(). 

### Лемматизация

Стандартизируем цели получения кредита 

In [27]:
# импортируем библиотеку PyMystem
from pymystem3 import Mystem
m = Mystem()
# создадим пустой список для лемм
lemmas_list = []
# создадим список уникальных значений столбца purpose
purpose_list = data['purpose'].unique()

# напишем цикл для создания списка лемм
for value in purpose_list:
    lemma = m.lemmatize(value)
    lemmas_list.append(lemma)

purpose_count = []    
for i in lemmas_list:
    for y in i:
        purpose_count.append(y)
#импортируем контейнер Counter из модуля collections
from collections import Counter
#подсчитаем количество упоминаний лемм
values = Counter (purpose_count)
values

Counter({'покупка': 10,
         ' ': 59,
         'жилье': 7,
         '\n': 38,
         'приобретение': 1,
         'автомобиль': 9,
         'дополнительный': 2,
         'образование': 9,
         'сыграть': 1,
         'свадьба': 3,
         'операция': 4,
         'с': 5,
         'на': 4,
         'проведение': 1,
         'для': 2,
         'семья': 1,
         'недвижимость': 10,
         'коммерческий': 2,
         'жилой': 2,
         'строительство': 3,
         'собственный': 1,
         'подержать': 1,
         'свой': 4,
         'со': 1,
         'заниматься': 2,
         'сделка': 2,
         'подержанный': 1,
         'получение': 3,
         'высокий': 3,
         'профильный': 1,
         'сдача': 1,
         'ремонт': 1})

Добавим в датасет столбец со стандартизированными целями

In [28]:
# напишем функцию , которая возвращает стандартную цель кредита по наличию соответствующих лемм в столбце purpose
def purpose_categ (purpose):
    lemma = ' '.join(m.lemmatize(purpose))
 
    if 'автомобиль' in lemma:
        return 'автомобиль'
    if 'коммерческий' in lemma:
        return 'коммерческая недвижимость'
    if 'недвижимость'  in lemma or 'жилье'  in lemma :
        return  'жилая недвижимость'
    if 'свадьба' in lemma:
        return  'свадьба'
    if 'образование' in lemma:
        return 'образование'
    if 'ремонт' in lemma and 'жиль' in lemma :
        return 'ремонт жилья'
    else:
        return 0
# применим функцию к столбцу purpose и поместим ее результаты в новый столбец purpose_cat
data['purpose_cat'] = data['purpose'].apply(purpose_categ)
display(data.head())
# проверим, что стандартные цели проставлены в каждой строке датасета 
data[data['purpose_cat'] == 0]['purpose'].count()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_cat
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья,жилая недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья,жилая недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу,свадьба


0

Проверим датасет на наличие дубликатов после стандартизирования целей кредита

In [29]:
# удалим столбец purpose
data = data.drop(['purpose'], axis=1) 
# выведем полученную таблицу
display(data.head())
# посчитаем количество дубликатов
data.duplicated().sum()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose_cat
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,жилая недвижимость
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,жилая недвижимость
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,свадьба


298

Удалим выявленные дубликаты

In [30]:
# удалим дупликаты методом drop_duplicates()
data = data.drop_duplicates().reset_index(drop=True)
#проверим , что дубликатов не осталось
data.duplicated().sum()

0

**Вывод**

Данные столбца `purpose` изначально не были стандартизированы,цели кредитования были указаны в свободной форме и одинаковые цели могли быть сформулированны по-разному. Оставив данные в такой форме , сложно было бы выявить закономерности между разными целями кредитования и возвратом кредита в срок.

Для корректного анализа данных была проведена лемматизация. С помощью метода lemmatize библиотеки PyMystem каждое слово в строках столбца `purpose` было приведено к его  словарной форме - лемме. Далее с помощью контейнера Counter было подсчитано сколько раз упоминалась каждая лемма в столбце `purpose`. Просмотр списка лемм позволил выявить стандартные  цели кредитования.

Благодаря стандартизации целей получилось найти и удалить 298 дубликатов, которые до стандартизации были неявными и могли быть обнаружены только просмотром данных вручную.  

### Категоризация данных

Создадим словари для категориальных переменных

In [31]:
#создадим отдельный датафрейм с ключами и их значениями для словаря категорий образования
for_education_dict = data[['education_id','education']].drop_duplicates().reset_index(drop=True)
display(for_education_dict)
#создадим справочник с категориями типов образования
education_dict = for_education_dict.set_index('education_id').T.to_dict('list')
#выведем полученный словарь
education_dict

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


{0: ['высшее'],
 1: ['среднее'],
 2: ['неоконченное высшее'],
 3: ['начальное'],
 4: ['ученая степень']}

In [32]:
#создадим создадим отдельный датафрейм с ключами и их значениями для индикаторов семейного статуса
for_family_status_dict = data[['family_status_id','family_status']].drop_duplicates().reset_index(drop=True)
display(for_family_status_dict)
# создадим словарь индикаторов семейного статуса
family_status_dict = for_family_status_dict.set_index('family_status_id').T.to_dict('list')
#выведем полученный словарь
family_status_dict

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,не женат / не замужем


{0: ['женат / замужем'],
 1: ['гражданский брак'],
 2: ['вдовец / вдова'],
 3: ['в разводе'],
 4: ['не женат / не замужем']}

In [33]:
# Удалим столбцы с описательными данными
data =  data.drop(['education', 'family_status'], axis=1)
#выведем обновленный датафрейм
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_cat
0,1,8437,42,0,0,F,сотрудник,0,253875.64,жилая недвижимость
1,1,4024,36,1,0,F,сотрудник,0,112080.01,автомобиль
2,0,5623,33,1,0,M,сотрудник,0,145885.95,жилая недвижимость
3,3,4124,32,1,0,M,сотрудник,0,267628.55,образование
4,0,340266,53,1,1,F,пенсионер,0,158616.08,свадьба


In [34]:
# разделим данные столбца total_income на 3 интервала равного размера 
qcut = pd.qcut(data['total_income'],q= 3,precision=0)
# посмотрим как распределяются значения по интервалам
print(qcut.value_counts())
# Создадим столбец в исходном датафрейме с данными о категории доходов
data['income_category'] = pd.qcut(data['total_income'],q=3, labels=['низкий', 'средний','высокий'], precision=0)
data.head()

(119187.0, 172358.0]     7087
(20666.0, 119187.0]      7052
(172358.0, 2265604.0]    7017
Name: total_income, dtype: int64


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_cat,income_category
0,1,8437,42,0,0,F,сотрудник,0,253875.64,жилая недвижимость,высокий
1,1,4024,36,1,0,F,сотрудник,0,112080.01,автомобиль,низкий
2,0,5623,33,1,0,M,сотрудник,0,145885.95,жилая недвижимость,средний
3,3,4124,32,1,0,M,сотрудник,0,267628.55,образование,высокий
4,0,340266,53,1,1,F,пенсионер,0,158616.08,свадьба,средний


Проведем категоризацию количества детей 

In [35]:

# напишем функцию, проставляющую дополнительный индикатор  нет детей ,  от 1 до 2 детей,  многодетные
def children_cat(row):
    if row == 0:
        return 'нет детей'
    if row in [1,2]:
        return 'от 1 до 2 детей'
    if row >=3:
        return 'многодетныe'
# применим функцию к столбцу children
data['children_cat'] = data['children'].apply(children_cat)
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_cat,income_category,children_cat
0,1,8437,42,0,0,F,сотрудник,0,253875.64,жилая недвижимость,высокий,от 1 до 2 детей
1,1,4024,36,1,0,F,сотрудник,0,112080.01,автомобиль,низкий,от 1 до 2 детей
2,0,5623,33,1,0,M,сотрудник,0,145885.95,жилая недвижимость,средний,нет детей
3,3,4124,32,1,0,M,сотрудник,0,267628.55,образование,высокий,многодетныe
4,0,340266,53,1,1,F,пенсионер,0,158616.08,свадьба,средний,нет детей


Проведем категоризацию заемщиков по наличию пары

In [36]:
#сделаем укрупненную группировку есть пара - нет пары
# напишем функцию, проставляющую дополнительный индикатор есть пара / нет пары
def family_status(row):
    if row in [0,1]:
        return 'есть пара'
    if row in [2,3,4]:
        return 'нет пары'
# применим функцию к столбцу  family_status_id  
data['family_status_cons'] = data['family_status_id'].apply(family_status)
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_cat,income_category,children_cat,family_status_cons
0,1,8437,42,0,0,F,сотрудник,0,253875.64,жилая недвижимость,высокий,от 1 до 2 детей,есть пара
1,1,4024,36,1,0,F,сотрудник,0,112080.01,автомобиль,низкий,от 1 до 2 детей,есть пара
2,0,5623,33,1,0,M,сотрудник,0,145885.95,жилая недвижимость,средний,нет детей,есть пара
3,3,4124,32,1,0,M,сотрудник,0,267628.55,образование,высокий,многодетныe,есть пара
4,0,340266,53,1,1,F,пенсионер,0,158616.08,свадьба,средний,нет детей,есть пара


**Вывод**

Чтобы сократить размер датасета и время обработки данных,упростить визуальную работу с таблицей, создали отдельные словари для уровней образования и семейных статусов. Дублирующуюся информацию с описательными значениями из датасета удалили, оставив только столбцы с ключами.

Для проверки гипотезы о влиянии уровня дохода на возврат кредита в срок выделили три категории заемщиков : заемщики с низким уровнем дохода, со средним уровнем дохода, с высоким уровнем дохода. Для этого воспользовались функцией qcut, разделив массив данных на 3 интервала одинакового размера.Информацию с категорией заемщика по уровню дохода добавили в датасет.

##  Проверка гипотез

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [37]:

# сделаем сводную таблицу с информацией о доли заемщиков, имевших задолженность в разрезе групп
child_debt_pivot_cons = data.pivot_table(index='children_cat', columns='debt', values='total_income', aggfunc='count',fill_value=0)
# посчитаем доли заемщиков без задолженности и с задолженностью в разрезе групп
child_debt_pivot_cons['ratio_no_debt'] = (child_debt_pivot_cons[0]/(child_debt_pivot_cons[0]+child_debt_pivot_cons[1]))*100
child_debt_pivot_cons['ratio_have_debt'] = (child_debt_pivot_cons[1]/(child_debt_pivot_cons[0]+child_debt_pivot_cons[1]))*100
#выведем сводную таблицу
child_debt_pivot_cons.round(2)

debt,0,1,ratio_no_debt,ratio_have_debt
children_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
многодетныe,347,31,91.8,8.2
нет детей,12792,1061,92.34,7.66
от 1 до 2 детей,6278,647,90.66,9.34


**Вывод**

Результаты сводной таблицы показывают связь между наличием детей и их количество и возвратом кредита в срок.

Доля заемщиков, у которых не было задолженностей по кредиту , наибольшая  в группе заявителей без детей. Что, возможно, связано с меньшими расходами домохозяйств данной группы.

Самая высокая доля заемщиков , имевших задолженность, в группе людей, имеющих от 1 до 2 детей. 


- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [38]:
# сделаем сводную таблицу с информацией о доли заемщиков, имевших задолженность в разрезе групп
family_debt_pivot = data.pivot_table(index='family_status_cons', columns='debt', values='total_income', aggfunc='count',fill_value=0)
# посчитаем доли заемщиков без задолженности и с задолженностью в разрезе групп
family_debt_pivot['ratio_no_debt'] = family_debt_pivot[0]/(family_debt_pivot[0]+family_debt_pivot[1])*100
family_debt_pivot['ratio_have_debt'] = family_debt_pivot[1]/(family_debt_pivot[0]+family_debt_pivot[1])*100
#выведем сводную таблицу
family_debt_pivot.round(2)

debt,0,1,ratio_no_debt,ratio_have_debt
family_status_cons,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
есть пара,14914,1317,91.89,8.11
нет пары,4503,422,91.43,8.57


**Вывод**

Зависимость между семейным положением и возвратом кредита в срок отсутствует.
Доли заемщиков, имевших задолженность , в обоих группах различаются незначительно.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [39]:
# создадим сводную таблицу наличия зависимости между уровнем дохода и возвратом кредита в срок
income_category_pivot = data.pivot_table(index='income_category', columns='debt',values='total_income', aggfunc='count',fill_value=0)
# посчитаем доли заемщиков без задолженности и с задолженностью в разрезе групп 
income_category_pivot['ratio_no_debt']= ((income_category_pivot[0]/(income_category_pivot[0]+income_category_pivot[1]))*100).round(2)
income_category_pivot['ratio_have_debt']= ((income_category_pivot[1]/(income_category_pivot[0]+income_category_pivot[1]))*100).round(2)
#выведем сводную таблицу
income_category_pivot

debt,0,1,ratio_no_debt,ratio_have_debt
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
низкий,6471,581,91.76,8.24
средний,6457,630,91.11,8.89
высокий,6489,528,92.48,7.52


**Вывод**

Результаты сводной таблицы показывают наличие связи между уровнем доходов и возвратом кредита в срок. Долч заемщиков, имевших задолженность по кредиту, меньше всего в группе с высоким уровнем дохода.

- Как разные цели кредита влияют на его возврат в срок?

In [40]:
# создадим сводную таблицу наличия зависимости между целями кредита и возвратом кредита в срок
purpose_debt_pivot = data.pivot_table(index='purpose_cat', columns='debt', values='total_income', aggfunc='count',fill_value=0)
# посчитаем доли заемщиков без задолженности и с задолженностью в разрезе групп 
purpose_debt_pivot['ratio_no_debt'] = (purpose_debt_pivot[0]/(purpose_debt_pivot[0]+purpose_debt_pivot[1]))*100
purpose_debt_pivot['ratio_have_debt'] = (purpose_debt_pivot[1]/(purpose_debt_pivot[0]+purpose_debt_pivot[1]))*100
#выведем сводную таблицу
purpose_debt_pivot.round(1)

debt,0,1,ratio_no_debt,ratio_have_debt
purpose_cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,3870,402,90.6,9.4
жилая недвижимость,8621,682,92.7,7.3
коммерческая недвижимость,1212,99,92.4,7.6
образование,3594,370,90.7,9.3
свадьба,2120,186,91.9,8.1


**Вывод**

Различные цели кредитования влияют на возврат кредита в срок. Стабильнее всего платят заемщики, которые брали кредит на покупку жилой и коммерческой недвижимости.Доли должников в данных группах - наименьшие среди рассматриваемых.

Чаще всего просрочки допускают заемщики, имеющие цель кредитование "образование" и "автомобиль".

##  Общий вывод

Цель проводимого исследования выявить зависимости между семейным положением и количеством детей клиента на факт погашения кредита в срок.

В ходе исследования была проведена предобработка данных, удалены дубликаты, заполнены пропуски , обработаны артефактные значения, выделены категории заемщиков по уровню доходов и созданы словари для части категориальных данных.
Это позволило корректно проверить 4 гипотезы и установить,что:
1. Наличие детей влияет на возврат кредита в срок.

Заемщики без детей реже допускают просрочки по взятым кредитам, чем заемщики с детьми.
Но многодетность дисциплинирует людей и доля заемщиков, имевших задолженность, в данной группе меньше, чем у групп с 1 или 2-мя детьми.


2. Наличие пары у заемщика влияет на возврат кредита в срок настолько незначительно ,  что допустимо говорить об отсутствии связи между семейным положением и наличием просроченной задолженности.


3. Есть корреляция уровня доходов и возврата кредита в срок. 

Заемщики с высоким уровнем дохода стабильнее платят по кредитам.


4. Цели кредитования также влияют на возврат кредита в срок.

Заемщики , воспользовавшиеся ипотекой, реже допускают просрочки, чем остальные группы. 

При построении модели кредитного скоринга следует учитывать факт наличия и количества детей у заемщика, цель кредитования и его уровень дохода.

На этапе предобработки  была выявлена проблема корректности и полноты данных. 

Все записи столбца стаж работы в днях не соответствуют действительности: отрицательные,аномально высокие,либо отсутствуют.

В данных о ежемесячном доходе выявлены пропуски. Так как  данные о доходе имеют непосредственное значение для определения способности заемщика вернуть кредит в срок,важно скорректировать настройки системы ввода/сбора информации, так чтобы исключить возможность пропусков.

Также данные о наличии детей и данные о возрасте заемщика имеют невысокую долю артефактных значений.

Для решения проблемы корректности данных желательно минимизировать влияние человеческого фактора и максимально стандартизировать этапы сбора и ввода информации по заемщику.Возможно также ввести автоматическую проверку значения на достоверность при вводе информации.