## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd  # <импорт библиотеки pandas>

In [2]:
df = pd.read_csv('/datasets/data.csv')  # <чтение файла с данными с сохранением в df>

In [3]:
df.head(10) # <получение первых 10 строк таблицы df>

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.info() # <получение общей информации о данных в таблице df>

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
df.describe()  # получение основных статистических данных в таблице df>

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


Рассмотрим полученную информацию подробнее.

Всего в таблице 12 столбцов, тип данных - object, int64, float64

Подробно разберём, какие в df столбцы и какую информацию они содержат:

children — количество детей в семье
days_employed — общий трудовой стаж в днях
dob_years — возраст клиента в годах
education — уровень образования клиента
education_id — идентификатор уровня образования
family_status — семейное положение
family_status_id — идентификатор семейного положения
gender — пол клиента
income_type — тип занятости
debt — имел ли задолженность по возврату кредитов
total_income — ежемесячный доход
purpose — цель получения кредита

Количество значений в столбцах различается. Это говорит о том, что в данных есть пропущенные значения.

### Вывод

Каждая строка таблицы содержит информацию о данных кредитных заемщиков. Две проблемы, которые нужно решать: пропуски и отрицательные значения. Для решения поставенной задачи потребуются столбцы children, family_status, debt и total_income.

### Шаг 2. Предобработка данных

### Обработка данных

In [6]:
df['days_employed']=df['days_employed'].astype(str)  #преобразование типов данных в строчные с целью применение метода replace() 
df['children']=df['children'].astype(str) 

In [7]:
df['days_employed']=df['days_employed'].str.replace('-','') # замена отрицательных значений в данных на положительные
df['children']=df['children'].str.replace('-','')

In [8]:
df['days_employed']=df['days_employed'].astype(float) #преобразование типов данных в числовые
df['children']=df['children'].astype(int)

### Обработка пропусков

In [9]:
types = df['income_type'].unique() # <сохранение в переменной types списка уникальных значений столбца 'income_type',


In [10]:
for i in types: # применение цикла для замены медианой пропущенных значений столбца 'total_income' 
    median = df.loc[df['income_type'] == i, 'total_income'].median()
    df.loc[df['income_type'] == i, 'total_income'] = df.loc[df['income_type'] == i, 'total_income'].fillna(median)

In [11]:
df.isnull().sum() # подсчёт пропущенных значений 

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Вывод

Пропущенные значения NaN в ежемесячном доходе клиентов заменены на медиану, соответствующую типу занятости. К возможным причинам наличия пропусков можно отнести неполное предоставление данных клиентами банка, или сбой в записи данных. Отрицательные значения заменены на положительные. 


### Замена типа данных

In [12]:
df['total_income'] = df['total_income'].astype(int) #преобразование строчныз типов данных str в числовые int

In [13]:
df.info() #просмотр типов дынных после применения метода astype()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Вывод

Строчные значения столбца total_income преобразованы в числовые int, позволяющие производить математические операции в дальнейшем.

### Обработка дубликатов

In [14]:
df['education'] = df['education'].str.lower()  #перевод дынных к нижнему регистру
df['family_status'] = df['family_status'].str.lower()
df['income_type'] = df['income_type'].str.lower()
df['purpose'] = df['purpose'].str.lower()

In [15]:
df = df.drop_duplicates().reset_index(drop = True) # удаление дублирующихся строк 

In [16]:
df.info() # просмотр результатов после удаления строк с дубликатами

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
children            21454 non-null int64
days_employed       19351 non-null float64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Вывод

Дубликаты могли появиться вследствие сбоя в записи данных. Стоит обратить внимание и разобраться с причинами появления такого «информационного мусора».

### Лемматизация

In [17]:
from pymystem3 import Mystem #импорт библиотеки для лемматизации
m = Mystem()
#print(df['purpose'].unique())


In [18]:
purpose_list = df['purpose'].unique() #получим уникальные значения целей кредита
purpose_string = ' '.join(purpose_list) #объединим значения целей в единую строку
lemmas = m.lemmatize(purpose_string) #применим лемматизацию
from collections import Counter
print(Counter(lemmas)) #выведем количество часто встречающихся слов

Counter({' ': 96, 'покупка': 10, 'недвижимость': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'операция': 4, 'на': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'получение': 3, 'высокий': 3, 'дополнительный': 2, 'для': 2, 'коммерческий': 2, 'жилой': 2, 'подержать': 2, 'заниматься': 2, 'сделка': 2, 'приобретение': 1, 'сыграть': 1, 'проведение': 1, 'семья': 1, 'собственный': 1, 'со': 1, 'профильный': 1, 'сдача': 1, 'ремонт': 1, '\n': 1})


In [19]:
def lemmatize_purpose(row): # создание функции, возвращающей переменную с лемматизированными значениями столбца 'purpose'
    word = row['purpose']
    ret = ' '.join(m.lemmatize(word))
    return ret



In [20]:
df['lemmatize_purpose'] = df.apply(lemmatize_purpose, axis = 1) #создание столбца на основании функции

In [21]:
df.head(10) #просмотр результатов

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmatize_purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,покупка жилье \n
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,приобретение автомобиль \n
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,покупка жилье \n
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,дополнительный образование \n
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,сыграть свадьба \n
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,покупка жилье \n
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,операция с жилье \n
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование \n
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,на проведение свадьба \n
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,покупка жилье для семья \n


### Вывод

### Категоризация данных

In [22]:
print(df['lemmatize_purpose'].unique()) #подсчет уникальных сначений 

['покупка   жилье \n' 'приобретение   автомобиль \n'
 'дополнительный   образование \n' 'сыграть   свадьба \n'
 'операция   с   жилье \n' 'образование \n' 'на   проведение   свадьба \n'
 'покупка   жилье   для   семья \n' 'покупка   недвижимость \n'
 'покупка   коммерческий   недвижимость \n'
 'покупка   жилой   недвижимость \n'
 'строительство   собственный   недвижимость \n' 'недвижимость \n'
 'строительство   недвижимость \n'
 'на   покупка   подержать   автомобиль \n'
 'на   покупка   свой   автомобиль \n'
 'операция   с   коммерческий   недвижимость \n'
 'строительство   жилой   недвижимость \n' 'жилье \n'
 'операция   со   свой   недвижимость \n' 'автомобиль \n'
 'заниматься   образование \n' 'сделка   с   подержанный   автомобиль \n'
 'получение   образование \n' 'свадьба \n'
 'получение   дополнительный   образование \n' 'покупка   свой   жилье \n'
 'операция   с   недвижимость \n' 'получение   высокий   образование \n'
 'свой   автомобиль \n' 'сделка   с   автомобиль \n'
 'про

In [23]:
def purpose_category(row): # функция возвращает категорию целей, по значению lemmatize_purpose, используя правила
    lemmatize_purpose = row['lemmatize_purpose']   
   
    if 'жилье' in lemmatize_purpose:
            return 'недвижимость' 

    if 'недвижимость' in lemmatize_purpose:
            return 'недвижимость' 
    
    if 'автомобиль' in lemmatize_purpose:
            return 'автомобиль' 

    if 'образование' in lemmatize_purpose:
            return 'образование' 

    return 'остальное'  


In [24]:
df['purpose_category'] = df.apply(purpose_category, axis=1) #создание столбца на основании функции

In [25]:
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmatize_purpose,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,покупка жилье \n,недвижимость
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,приобретение автомобиль \n,автомобиль
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,покупка жилье \n,недвижимость
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,дополнительный образование \n,образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,сыграть свадьба \n,остальное
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,покупка жилье \n,недвижимость
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,операция с жилье \n,недвижимость
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,образование \n,образование
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,на проведение свадьба \n,остальное
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,покупка жилье для семья \n,недвижимость


In [26]:
df.describe() #просмотр статистических значений total_income для выделения категорий

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21454.0,19351.0,21454.0,21454.0,21454.0,21454.0,21454.0
mean,0.544327,66914.728907,43.271231,0.817097,0.973898,0.08115,165319.6
std,1.381726,139030.880527,12.570822,0.548674,1.421567,0.273072,98187.3
min,0.0,24.141633,0.0,0.0,0.0,0.0,20667.0
25%,0.0,927.009265,33.0,1.0,0.0,0.0,107623.0
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,142594.0
75%,1.0,5537.882441,53.0,1.0,1.0,0.0,195820.2
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [27]:
def income_category(row): # функция возвращает категорию по доходам, по значению total_income, используя правила
    total_income = row['total_income']   
    if total_income < 20000:
        return 'менее 20 000₽'
    if total_income <= 108000:
        return '20 000₽ - 108 000₽'
    if 108000 < total_income < 140000:
        return '108 000₽ - 140 000₽'
    if 140000 <= total_income < 200000:
        return '140 000₽ - 200 000₽'
    if total_income >= 200000:
        return 'более 200 000₽'



In [28]:
df['income_category'] = df.apply(income_category, axis=1) #создание столбца на основании функции

In [29]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmatize_purpose,purpose_category,income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,покупка жилье \n,недвижимость,более 200 000₽
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,приобретение автомобиль \n,автомобиль,108 000₽ - 140 000₽
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,покупка жилье \n,недвижимость,140 000₽ - 200 000₽
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,дополнительный образование \n,образование,более 200 000₽
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,сыграть свадьба \n,остальное,140 000₽ - 200 000₽
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем,операция с жилье \n,недвижимость,более 200 000₽
21450,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем,сделка с автомобиль \n,автомобиль,140 000₽ - 200 000₽
21451,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость,недвижимость \n,недвижимость,20 000₽ - 108 000₽
21452,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,на покупка свой автомобиль \n,автомобиль,более 200 000₽


### Вывод

Цели получения кредита выделены в категории: 
    - недвижимость, 
    - автомобиль,
    - образование, 
    - остальное 
Наиболее распространенной целью являются недвижимость. К ней относятся операции с недвижимостью, покупка, ремонт жилья. Второй по распростаненности - автомобиль, затем образование. 
Доходы клиентов выделены в диапазоны:
    - менее 20 000₽, 
    - 20 000₽ - 108 000₽,
    - 108 000₽ - 140 000₽, 
    - 140 000₽ - 200 000₽,
    - 140 000₽ - 200 000₽,   
    - более 200 000₽.  

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [30]:

pivot_children = df.pivot_table(index='children', values='debt') # создание сводной таблицы с долей просроченных кредитов в данной категории от всех остальных
pivot_children


Unnamed: 0_level_0,debt
children,Unnamed: 1_level_1
0,0.075438
1,0.091658
2,0.094542
3,0.081818
4,0.097561
5,0.0
20,0.105263


### Вывод

Доля просроченных кредитов возрастает на 0.6%-2.2%, если у клиента есть дети. Исключением являются семьи с пятью детьми - среди них просроченных кредитов отсутствуют. У клиентов с 20 детьми, предположительно приемными, доля просроченных кредитов самая высокая - 10.0% 

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [31]:
pivot_family_status = df.pivot_table(index='family_status', values='debt') # создание сводной таблицы с долей просроченных кредитов в данной категории от всех остальных
pivot_family_status


Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
в разводе,0.07113
вдовец / вдова,0.065693
гражданский брак,0.093471
женат / замужем,0.075452
не женат / не замужем,0.097509


### Вывод

Минимальный процент просроченных кредитов наблюдается у вдовец/вдов - 6.5%. На 0.6-1.0% выше у клиентов, оформившие брак, и находящиеся в разводе. Платежная дисциплина худшая у людей в гражданском браке и у неженатых / незамужемних 9.3-9.7%.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [32]:
pivot_income_category = df.pivot_table(index='income_category', values='debt') # создание сводной таблицы с долей просроченных кредитов в данной категории от всех остальных
pivot_income_category

Unnamed: 0_level_0,debt
income_category,Unnamed: 1_level_1
108 000₽ - 140 000₽,0.085784
140 000₽ - 200 000₽,0.087297
20 000₽ - 108 000₽,0.079653
более 200 000₽,0.070653


### Вывод

Минимальнимальный процент просроченных кредитов у клиентов с высокими доходами (более 200 000₽) и невысокими доходами (от 20 000₽ до 108 000₽)  - 7.0%-7.9%. Самый высокий процент просроченных кредитов - 8.5%-8.7%, у клиентов, чей доход находится в пределах от 108 000₽ до 200 000₽

- Как разные цели кредита влияют на его возврат в срок?

In [33]:
pivot_total_purpose_category = df.pivot_table(index='purpose_category', values='debt') # создание сводной таблицы с долей просроченных кредитов в данной категории от всех остальных
pivot_total_purpose_category

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
автомобиль,0.09359
недвижимость,0.072334
образование,0.0922
остальное,0.080034


### Вывод

Наменьший процент возврат кредита в срок имеют клиенты, имеющие целью покупку автомобиля - 9.3%. Схожие показатели у клиентов, получившие кредит для получения образования- 9.2%. Процент просроченных кредитов у клиентов, получивших кредит для недвижимости - 7.2%.

### Шаг 4. Общий вывод

Клиенты, состоящие в браке и неимеющие детей, обладают лучшей потенциальностью способность вернуть кредит банку в срок. Хуже выполняют платежи по кредиту клиенты c семейным статусом "не женат" / "не замужем", а также клиенты, имеющие детей.

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.