## Проект: Исследование надежности заемщиков

#### Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1  Изучение общей информации о данных

In [22]:
# импортировал библиотеку pandas
import pandas as pd

In [23]:
# прочитал csv-файл
try:
    data = pd.read_csv(r"D:\DOCS\datasets/data.csv")
except FileNotFoundError:
    data = pd.read_csv('/datasets/data.csv')

In [45]:
# вывел первые 20 строк датафрейма data.
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,операции с автомобилем
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,проведение свадьбы
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,операции с недвижимостью
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,операции с недвижимостью
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование,получение образования
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,операции с недвижимостью


In [25]:
# вывел основную информацию о датафрейме
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


#### Описание данных
* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита

### Шаг 2  Предобработка данных

In [26]:
# вывел количество пропущенных значений для каждого столбца.
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В столбцах days_employed, total_income есть пропущенные значения. 

Столбец total_income — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца income_type.

In [27]:
# заполнил пропуски в столбце total_income медианным значением по каждому типу из столбца income_type
for type in data['income_type'].unique():
    data.loc[(data['income_type'] == type) & (data['total_income'].isna()),'total_income']=\
    data.loc[(data['income_type'] == type), 'total_income'].median() 

В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце days_employed.

In [28]:
# заменил все отрицательные значения в столбце days_employed положительными
data['days_employed'] = data['days_employed'].abs()# ваш код здесь

In [29]:
# для каждого типа занятости вывел медианное значение трудового стажа days_employed в днях.
days_employed_median_grouped = data.groupby('income_type')['days_employed'].median()
print(days_employed_median_grouped) 

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64


У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

In [30]:
# вывел перечень уникальных значений в столбце children.
print(data['children'].unique()) 

[ 1  0  3  2 -1  4 20  5]


In [31]:
# удалил строки, в которых встречаются аномальные значения в столбце children
data = data.loc[(data['children'] >= 0) & (data['children'] != 20)] # ваш код здесь

In [32]:
# проверка уникальных значений в столбце children.
print(data['children'].unique())# ваш код здесь

[1 0 3 2 4 5]


In [33]:
# заполнил пропуски в столбце days_employed медианными значениями по каждому типу занятости income_type.
for days in data['income_type'].unique():
    data.loc[(data['income_type'] == days) & (data['days_employed'].isna()),'days_employed']=\
    data.loc[(data['income_type'] == days),'days_employed'].median() 

In [34]:
# проверка количества пропущенных значений для каждого столбца 
print(data.isna().sum())

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


In [35]:
# Заменил вещественный тип данных в столбце total_income на целочисленный
data['total_income'] = data['total_income'].astype('int') 

In [37]:
# вывел уникальные значения столбца education
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

В столбце education есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. 

In [19]:
# привел значения в столбце education к нижнему регистру.
data['education'] = data['education'].str.lower() 

In [39]:
# вывел количество строк-дубликатов в данных.
print('Количество дубликатов равно:', data.duplicated().sum())

Количество дубликатов равно: 54


In [40]:
# удалил дубликаты 
data = data.drop_duplicates().reset_index(drop=True)

Создадим в датафрейме data столбец total_income_category с категориями дохода:

* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

In [41]:
# создал функцию categorize_income
def categorize_income(total_income): # создайте функцию categorize_income()
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'

In [50]:
# примените функцию к столбцу total_income
data['total_income_category']=data['total_income'].apply(categorize_income) 

In [42]:
# вывел на экран перечень уникальных целей взятия кредита из столбца purpose
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:

* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.

In [43]:
# создал функцию categorize_purpose
def categorize_purpose(purpose): 
    if 'жиль' in purpose:
        return 'операции с недвижимостью'
    if 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'образ' in purpose:
        return 'получение образования'
    if 'свадьб' in purpose:
        return 'проведение свадьбы'

In [44]:
# примените функцию к столбцу purpose
data['purpose_category'] = data['purpose'].apply(categorize_purpose) 

### Шаг 3. Исследование данных и ответ на поставнленные в задаче вопросы

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [47]:
#создал сводную таблицу с индексом- кол-во детей, значениями: суммой кредитов, задолжностей, процентом задолжностей
data_pivot_children = data.pivot_table(index=['children'], values='debt',aggfunc=['count','sum']) 
data_pivot_children.index.names = ['Количество детей'] 
debt_related_to_children = data_pivot_children['sum'] / data_pivot_children['count'] 
data_pivot_children['debt_related_to_children_percent'] = debt_related_to_children 
data_pivot_children.columns = data_pivot_children.columns.get_level_values(0)
data_pivot_children.rename(columns={'count':'общее количество',
                                    'debt':' ','sum':'количество задолжностей',
                                    'debt_related_to_children_percent':'процент задолжностей'}, 
                           inplace=True)
data_pivot_children.style.format({'процент задолжностей':'{:.2%}'}) 

Unnamed: 0_level_0,общее количество,количество задолжностей,процент задолжностей
Количество детей,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,14107,1063,7.54%
1,4809,444,9.23%
2,2052,194,9.45%
3,330,27,8.18%
4,41,4,9.76%
5,9,0,0.00%


Среди заемщиков не имеющих детей меньше процент имеющих долгов, в сравнении с заемщиками, имеющими 1-2 ребенка. 

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [48]:
# создал сводную таблицу, с индексом-семейным положением, значениями: суммой кредитов, задолжностей, процентом задолжностей
data_pivot_family_status = data.pivot_table(index=['family_status'], values='debt',aggfunc=['count','sum'])
data_pivot_family_status.index.names = ['Семейное положение'] 
debt_related_to_family_status = data_pivot_family_status['sum'] / data_pivot_family_status['count'] 
data_pivot_family_status['debt_related_to_family_status'] = debt_related_to_family_status 
data_pivot_family_status.columns = data_pivot_family_status.columns.get_level_values(0)
data_pivot_family_status.rename(columns={'count':'всего','debt':' ',
                                         'sum':'количество задолжностей',
                                         'debt_related_to_family_status':'процент задолжностей'}, 
                                inplace=True)
data_pivot_family_status.style.format({'процент задолжностей':'{:.2%}'}) 

Unnamed: 0_level_0,всего,количество задолжностей,процент задолжностей
Семейное положение,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,9.76%
в разводе,1189,84,7.06%
вдовец / вдова,951,63,6.62%
гражданский брак,4146,385,9.29%
женат / замужем,12266,927,7.56%


Чаще всех имеют задолжности по кредитам не женатые и не находящиеся замужем люди, а также люди находящиеся в гражданском браке. Однако, находящиеся в гражданском браке, в целом, чаще, чем не женатые, берут кредиты. Процент задолжностей в этих группах от 9,7% до 9,3% соответственно. Больше всего кредитов приходится на людей находящихся в браке, процент задолжностей в этой кагорде на 0,5% больше, чем у людей находящихся в разводе и составляет от 7% до 7,5% соответственно. Меньше всего кредитов приходится на кагорту вдовцов, также среди них меньше всего % задолжностей, который составляет 6,6%.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [51]:
# создал таблицу, с индексом-категория дохода, значениями: суммой кредитов, задолжностей, процентом задолжностей
data_pivot_total_income_category = data.pivot_table(index=['total_income_category'], values='debt',aggfunc=['count','sum'])
data_pivot_total_income_category.index.names = ['категория дохода'] 
debt_related_to_total_income_category = data_pivot_total_income_category['sum'] / data_pivot_total_income_category['count'] 
data_pivot_total_income_category['debt_related_to_total_income_category'] = debt_related_to_total_income_category 
data_pivot_total_income_category.columns = data_pivot_total_income_category.columns.get_level_values(0)
data_pivot_total_income_category.rename(columns={'count':'всего','debt':' ',
                                                 'sum':'количество задолжностей',
                                                 'debt_related_to_total_income_category':'процент задолжностей'}, 
                                        inplace=True)
data_pivot_total_income_category.style.format({'процент задолжностей':'{:.2%}'}) 

Unnamed: 0_level_0,всего,количество задолжностей,процент задолжностей
категория дохода,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,8.00%
B,5014,354,7.06%
C,15938,1353,8.49%
D,349,21,6.02%
E,22,2,9.09%


Наибольший процент задолжностей в группах с наименьшим и наивысшим доходом, однако наибольшие риски для банка представляют заемщики с наименьшим уровнем дохода

### Как разные цели кредита влияют на его возврат в срок?

In [53]:
# создал таблицу, с индексом-цель займа, значениями: суммой кредитов, задолжностей, процентом задолжностей
data_pivot_purpose_category = data.pivot_table(index=['purpose_category'], values='debt',aggfunc=['count','sum'])
data_pivot_purpose_category.index.names = ['цель'] 
debt_related_to_purpose_category = data_pivot_purpose_category['sum'] / data_pivot_purpose_category['count'] 
data_pivot_purpose_category['debt_related_to_purpose_category'] = debt_related_to_purpose_category 
data_pivot_purpose_category.columns = data_pivot_purpose_category.columns.get_level_values(0)
data_pivot_purpose_category.rename(columns={'count':'всего','debt':' ',
                                            'sum':'количество задолжностей',
                                            'debt_related_to_purpose_category':'процент задолжностей'}, 
                                   inplace=True)
data_pivot_purpose_category.style.format({'процент задолжностей':'{:.2%}'}) 

Unnamed: 0_level_0,всего,количество задолжностей,процент задолжностей
цель,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4281,400,9.34%
операции с недвижимостью,10754,780,7.25%
получение образования,3989,369,9.25%
проведение свадьбы,2324,183,7.87%


Категории целей на получение кредита: операции с автомобилем и получение образования являются наиболее рискрованными для банка, так как имеют больший процент задолжностей в сравнении с остальными

### Шаг 4: Вывод.

Согласно полученным данным:
* Заемщики имеющие 1-2 ребенка представляют бОльшие финансовые риск для банка в сравнении с теми, у кого нет детей. 
* Также бОльшие финансовые риски для банка представляют не женатые и не находящиеся в браке люди, а также люди живущие в гражданском браке, в сравнении с женатыми и находящимися в разводе. 
* При рассмотрении категорий общего дохода наибольший процент задолжностей в группах с наименьшим и наивысшим доходом, однако наибольшие риски для банка представляют заемщики с наименьшим уровнем дохода. 
* В категориях целей на получения кредита операции с автомобилем и получение образования являются наиболее рискрованными для банка, так как имеют больший процент задолжностей в сравнении с остальными