## Исследование надёжности заёмщиков

Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

## Описание данных

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

<font color='gray'>#Свои комментарии буду оставлять серым цветом 

In [1]:
import pandas as pd

df = pd.read_csv('data.csv')

<font color='gray'>#Проверим названия столбцов для корректной работы с ними

In [2]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [3]:
df[df['total_income'].isnull() == True]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


<font color='gray'> # Посмотрим информацию о наборе данных, воспользуюсь методом info()

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<font color='gray'>#Заметим, что столбцы days_employed и total_income отличаются общим числом элементов

In [5]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


<font color='gray'>#Уберем отрицательны значения в df

In [6]:
df['days_employed'] = df['days_employed'].abs()
df['total_income'] = df['total_income'].abs()
#df.head(5)

<font color='gray'>#Сохраним копию df в df_with_nan

In [7]:
import copy
df_with_nan = copy.deepcopy(df)

<font color='gray'>#Для удобства работы с пропущенными значениями переминаем их методом .fillna('unknown')

In [8]:
df_with_nan['days_employed'] = df_with_nan['days_employed'].fillna('unknown')
df_with_nan['total_income'] = df_with_nan['total_income'].fillna('unknown')

<font color='gray'>#<br>Попытаемся найти причину наличия пропущенных значений:
<ol>
 <li>Для этого выведем все строки со значениями 'unknown'</li>
 <li>Создадим список со значениями 'unknown' в столбце 'days_employed'</li>
 <li>Потом в этом списке посчитаем количество строк со значением 'unknown' в столбце 'total_income'</li>
</ol>#

<font color='gray'>#Количество days_employed со значением unknown 

In [9]:
df_with_nan[df_with_nan['days_employed'] == 'unknown']['days_employed'].count()

2174

<font color='gray'>#Запишем days_employed со значением unknown в отдельную переменную 

In [10]:
df_days_employed = df_with_nan[df_with_nan['days_employed'] == 'unknown']

<font color='gray'>#Количество total_income со значением unknown 

In [11]:
df_with_nan[df_with_nan['total_income'] == 'unknown']['total_income'].count()

2174

<font color='gray'>#Проверим количество total_income со значением unknown в переменной df_days_employed

In [12]:
df_days_employed[df_days_employed['total_income'] == 'unknown']['total_income'].count()

2174

In [13]:
df_days_employed.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

In [14]:
df_with_nan[(df_with_nan['days_employed'] == 'unknown') & (df_with_nan['total_income'] == 'unknown')]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,unknown,65,среднее,1,гражданский брак,1,M,пенсионер,0,unknown,сыграть свадьбу
26,0,unknown,41,среднее,1,женат / замужем,0,M,госслужащий,0,unknown,образование
29,0,unknown,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,unknown,строительство жилой недвижимости
41,0,unknown,50,среднее,1,женат / замужем,0,F,госслужащий,0,unknown,сделка с подержанным автомобилем
55,0,unknown,54,среднее,1,гражданский брак,1,F,пенсионер,1,unknown,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,unknown,47,Среднее,1,женат / замужем,0,M,компаньон,0,unknown,сделка с автомобилем
21495,1,unknown,50,среднее,1,гражданский брак,1,F,сотрудник,0,unknown,свадьба
21497,0,unknown,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,unknown,строительство недвижимости
21502,1,unknown,42,среднее,1,женат / замужем,0,F,сотрудник,0,unknown,строительство жилой недвижимости


### Вывод

<font color='gray'>#Теперь мы знаем, что в df отсутствовали значения только в столбцах 'total_income' и 'days_employed'  

### Шаг 2. Предобработка данных

In [15]:
df_with_nan['total_income'].value_counts(normalize=True)

unknown               0.100999
327678.58299279085    0.000046
141944.01516181062    0.000046
567917.6381898475     0.000046
141936.7972842977     0.000046
                        ...   
87419.04507279933     0.000046
87420.56631820287     0.000046
120191.53049005414    0.000046
87425.71640384874     0.000046
81054.28860716878     0.000046
Name: total_income, Length: 19352, dtype: float64

<font color='purple'>#value_counts()<br><q>With normalize set to True, returns the relative frequency by dividing all values by the sum of values.</q>

In [16]:
df_with_nan[df_with_nan['total_income'] == 'unknown'].groupby('income_type')['total_income'].count()

income_type
госслужащий         147
компаньон           508
пенсионер           413
предприниматель       1
сотрудник          1105
Name: total_income, dtype: int64

### Обработка пропусков

<font color='gray'>#Пропущенные значения в days_employed,total_income в df

In [17]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

<font color='gray'>#Подсчёт количества значений income_type в df_days_employed

In [18]:
df[df['total_income'].isna()]['income_type'].unique()

array(['пенсионер', 'госслужащий', 'компаньон', 'сотрудник',
       'предприниматель'], dtype=object)

In [19]:
df_days_employed['income_type'].value_counts()

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64

<font color='gray'>#Большая часть пропусков у сотрудников

In [20]:
df_days_employed['income_type'].value_counts(normalize=True)


сотрудник          0.508280
компаньон          0.233671
пенсионер          0.189972
госслужащий        0.067617
предприниматель    0.000460
Name: income_type, dtype: float64

In [21]:
df_with_nan['income_type'].value_counts(normalize=True)

сотрудник          0.516562
компаньон          0.236237
пенсионер          0.179141
госслужащий        0.067782
безработный        0.000093
предприниматель    0.000093
в декрете          0.000046
студент            0.000046
Name: income_type, dtype: float64

In [22]:
print(df[df['total_income'].isna()]['income_type'].value_counts())
result = df[df['total_income'].isna()]['income_type'].value_counts(normalize=True)
result

сотрудник          1105
компаньон           508
пенсионер           413
госслужащий         147
предприниматель       1
Name: income_type, dtype: int64


сотрудник          0.508280
компаньон          0.233671
пенсионер          0.189972
госслужащий        0.067617
предприниматель    0.000460
Name: income_type, dtype: float64

In [23]:
print(df_with_nan['income_type'].value_counts())
root = df_with_nan['income_type'].value_counts(normalize=True)
root

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64


сотрудник          0.516562
компаньон          0.236237
пенсионер          0.179141
госслужащий        0.067782
безработный        0.000093
предприниматель    0.000093
в декрете          0.000046
студент            0.000046
Name: income_type, dtype: float64

In [24]:
print('{:,.5}'.format(root['сотрудник'] - result['сотрудник']),'сотрудник')
print('{:,.5}'.format(root['компаньон'] - result ['компаньон']),'компаньон')
print('{:,.5}'.format(root['пенсионер'] - result ['пенсионер']),'пенсионер')
print('{:,.5}'.format(root['госслужащий'] - result ['госслужащий']),'госслужащий')
print('{:,.5}'.format(root['предприниматель'] - result ['предприниматель']),'предприниматель')

0.0082825 сотрудник
0.0025663 компаньон
-0.010832 пенсионер
0.00016435 госслужащий
-0.00036707 предприниматель


In [25]:
print('{:,.5}'.format(root['сотрудник'] / result['сотрудник']),'сотрудник')
print('{:,.5}'.format(root['компаньон'] / result ['компаньон']),'компаньон')
print('{:,.5}'.format(root['пенсионер'] / result ['пенсионер']),'пенсионер')
print('{:,.5}'.format(root['госслужащий'] / result ['госслужащий']),'госслужащий')
print('{:,.5}'.format(root['предприниматель'] / result ['предприниматель']),'предприниматель')

1.0163 сотрудник
1.011 компаньон
0.94298 пенсионер
1.0024 госслужащий
0.202 предприниматель


<font color='gray'>#Концентрация пропусков у сотрудников больше всего, но если учитывать количество людей по каждому типу занятости в основном датафрейме и сравнивать с количеством получившегося количества людей с пропусками по каждому типу, то пропорционально они окажутся практически одинаковыми. Кроме предпринимателей, которых в основном дата фрейме всего 2, а в список с пропусками попал 1, что является 50%, хотя из-за малого количества относительно общего числа людей в списке, распределение получается маленькое.


<font color='gray'>#Подсчёт количества значений income_type в df

In [26]:
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

<font color='gray'>#Найдем среднее значения по категории 'income_type' для заполнения пропусков

<font color='gray'>#<br>заполним пропуски, сделав отдельные срезы под нужные нам 'income_type'<br>
 <strike>заполнить все пропуски средним значением для всех зарплат</strike><br>#<br>И проверим значения в df по days_employed и total_income до замены<br>#

In [27]:
unique_type = df['income_type'].unique().tolist()  # сперва получим список всех типов занятости
unique_type

['сотрудник',
 'пенсионер',
 'компаньон',
 'госслужащий',
 'безработный',
 'предприниматель',
 'студент',
 'в декрете']

In [28]:
index_total_income_nan = df[df['total_income'].isna() == True].index.tolist() # список вcех индексов с NaN
index_total_income_nan

[12,
 26,
 29,
 41,
 55,
 65,
 67,
 72,
 82,
 83,
 90,
 94,
 96,
 97,
 120,
 121,
 135,
 141,
 145,
 174,
 181,
 189,
 205,
 220,
 241,
 242,
 247,
 250,
 264,
 278,
 279,
 280,
 312,
 317,
 320,
 321,
 322,
 328,
 360,
 361,
 364,
 376,
 383,
 389,
 415,
 416,
 421,
 444,
 458,
 466,
 490,
 499,
 503,
 515,
 518,
 520,
 541,
 554,
 573,
 619,
 627,
 645,
 646,
 649,
 651,
 652,
 653,
 680,
 681,
 683,
 686,
 712,
 713,
 719,
 724,
 736,
 743,
 760,
 763,
 788,
 829,
 830,
 835,
 849,
 851,
 853,
 885,
 888,
 919,
 923,
 924,
 930,
 936,
 941,
 950,
 959,
 973,
 974,
 978,
 980,
 988,
 991,
 1004,
 1005,
 1010,
 1011,
 1033,
 1045,
 1052,
 1054,
 1057,
 1063,
 1072,
 1075,
 1080,
 1092,
 1118,
 1135,
 1139,
 1167,
 1191,
 1202,
 1211,
 1212,
 1228,
 1229,
 1237,
 1247,
 1249,
 1257,
 1272,
 1289,
 1303,
 1313,
 1325,
 1338,
 1340,
 1365,
 1378,
 1391,
 1416,
 1431,
 1439,
 1450,
 1485,
 1510,
 1511,
 1520,
 1556,
 1561,
 1568,
 1569,
 1574,
 1594,
 1609,
 1616,
 1619,
 1620,
 1626,
 16

In [29]:
for i in unique_type:   
    avg = df[(df["income_type"] == i) & (df["total_income"]).notna()]["total_income"].mean()
    df.loc[(df["income_type"] == i) & (df["total_income"]).isna(), "total_income"] = avg

In [30]:
df[df['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [31]:
df['days_employed'] = df['days_employed'].fillna(-1)
df['total_income'] = df['total_income'].fillna(-1)

In [32]:
df[df['total_income'] == -1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [33]:
def fill_income(row):
    total_income = row['total_income']
    income_type = row['income_type']
    if total_income == -1:      
        return income_type_to_median[income_type]
    return total_income
  
income_type_to_median = df.groupby("income_type").median()["total_income"].to_dict()    
       
df['total_income'] = df.apply(fill_income, axis=1)

In [34]:
df[df['total_income'] == -1]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


<font color='gray'>#Заметим, что у безработных и предпринимателей общий трудовой стаж в днях зашкаливает , однако эти данные не влияют на наш анализ 

In [35]:
df.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

<font color='gray'>#Пропусков больше нет

### Вывод

<font color='gray'>#Пропуски могли возникнуть из-за потери данных или по причине неофициального трудоустройства клиента 

### Замена типа данных

<font color='gray'>#После заполнения пропусков стала возможна процедура перевода типа данных

In [36]:
df['days_employed'] = df['days_employed'].astype('int')

df['total_income'] = df['total_income'].astype('int')

print(df.isnull().sum())
df.info()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21525 non-null  int64 
 1   days_employed     21525 non-null  int32 
 2   dob_years         21525 non-null  int64 
 3   education         21525 non-null  object
 4   education_id      21525 non-null  int64 
 5   family_status     21525 non-null  object
 6   family_status_id  21525 non-null  int64 
 7   gender            21525 non-null  object
 8   income_type       21525 non-null  object
 9   debt              21525 non-null  int64 
 10  total_income      21525 non-null  int32 
 11  purpose    

### Вывод

<font color='gray'>#Теперь таблица не режет глаза кучей знаков после запятой 

### Обработка дубликатов

<font color='gray'>#Проверим наличие дубликатов с учетом регистра 

In [37]:
df['education']=df['education'].str.lower()
df['family_status']=df['family_status'].str.lower()
df['gender']=df['gender'].str.lower()
df['income_type']=df['income_type'].str.lower()
df['purpose']=df['purpose'].str.lower()
df[df.duplicated(keep=False)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
120,0,-1,46,среднее,1,женат / замужем,0,f,сотрудник,0,161380,высшее образование
520,0,-1,35,среднее,1,гражданский брак,1,f,сотрудник,0,161380,сыграть свадьбу
541,0,-1,57,среднее,1,женат / замужем,0,f,сотрудник,0,161380,сделка с подержанным автомобилем
554,0,-1,60,среднее,1,женат / замужем,0,m,сотрудник,0,161380,покупка недвижимости
680,1,-1,30,высшее,0,женат / замужем,0,f,госслужащий,0,170898,покупка жилья для семьи
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,-1,64,среднее,1,женат / замужем,0,f,пенсионер,0,137127,дополнительное образование
21032,0,-1,60,среднее,1,женат / замужем,0,f,пенсионер,0,137127,заняться образованием
21132,0,-1,47,среднее,1,женат / замужем,0,f,сотрудник,0,161380,ремонт жилью
21281,1,-1,30,высшее,0,женат / замужем,0,f,сотрудник,0,161380,покупка коммерческой недвижимости


<font color='gray'>#Удалим дубликаты и оставшиеся после этого пропуски

In [38]:
df=df.drop_duplicates().dropna().reset_index(drop=True)

<font color='gray'>#Проверим наличие дубликатов 

In [39]:
df[df.duplicated(keep=False)]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


### Вывод

<font color='gray'>#Странно, что все дубликаты до этого имели nan в столбцах days_employed и total_income. Возможно это связано с какой-то технической ошибкой, связанныой с отсутствием ответа на запрос по рабочим дням и зп

<font color='gray'>#Вероятно эти дубликаты на деле представляют из себя разных клиентов и доход - это как раз тот показатель, который их дифференцировал. Но, так как он отсутствует, эти клиенты превратились в дубликаты.

### Лемматизация

<font color='gray'>#Выполним лемматизацию и добавим результат в новый столбец purpose_lemms

In [40]:
pip install pymystem3

Note: you may need to restart the kernel to use updated packages.


In [41]:
import pandas as pd
from pymystem3 import Mystem
m = Mystem()

In [42]:
def lemmas_df(column):
    column = m.lemmatize(column)
    return column

In [None]:
df['purpose_lemms'] = df['purpose'].apply(lemmas_df)

In [None]:
df

In [None]:
df['purpose'].unique()

### Категоризация данных

In [None]:
categorize=[]
for i in range(0, len(df['purpose'])):
    len_querys = df.loc[i,'purpose_lemms']
    for query in len_querys:
        categorize.append(query)

In [None]:
from collections import Counter
print(Counter(categorize))

In [None]:
categorize

<font color='gray'>#Выделим 4 категории: недвижимость, автомобиль, образование, свадьба

<font color='gray'>#Создадим новый столбец с категорией целей кредита по столбцу лемм

In [None]:
def purpose_kat(purpose_row):
    for purpose_kat_name in purpose_row:
        if purpose_kat_name == 'недвижимость' or purpose_kat_name == 'жилье':
            return 'недвижимость'
        if purpose_kat_name == 'автомобиль':
            return 'автомобиль'
        if purpose_kat_name == 'образование':
            return 'образование'
        if purpose_kat_name == 'свадьба':
            return 'свадьба'

df['purpose_kat'] = df['purpose_lemms'].apply(purpose_kat)        

In [None]:
df.head(10)

In [None]:
df['purpose_kat'].unique()

<font color='gray'>#Сохраним df на всякий случай и удалим из него purpose_lemms за ненадобностью

In [None]:
import copy
df_with_lem = copy.deepcopy(df)

In [None]:
del df['purpose_lemms']

In [None]:
df

### Вывод

<font color='gray'>#Теперь проще будет искать зависимости

---

<font color='gray'>#Уберем выбросы 

<font color='gray'>#Предполагая, что -1, 20 получилось из за неправильного заполнения таблицы 

In [None]:
df.groupby('children')['debt'].count()

In [None]:
df['debt'].unique()

In [None]:
#df[df['children'] == -1]['children'] = 1

In [None]:
#df[df['children'] == 20]['children'] = 2

<font color='gray'>#Предупреждение говорит нам сделать подругому

In [None]:
df.loc[df['children'] == -1, 'children'] = 1

In [None]:
df.loc[df['children'] == 20, 'children'] = 2

In [None]:
df['children'].unique()

<font color='gray'>#Сделаем категоризацию по количеству детей и создадим новый столбец 

In [None]:
def children_kat(quantity):
    if quantity == 0:
        return 'нет детей'
    if quantity == 1:
        return '1 ребенок'
    if quantity == 2:
        return '2 ребенка'
    return 'многодетные'

df['children_kat'] = df['children'].apply(children_kat)

In [None]:
df['children_kat'].unique()

In [None]:
pivot_children = df.pivot_table(index = 'children_kat', values = ['debt'], aggfunc = ['sum','count'])
pivot_children

In [None]:
pivot_children.set_axis (['Есть долги','Общее число'], axis = 'columns', inplace = True)

In [None]:
pivot_children['Нет долгов'] = pivot_children['Общее число'] - pivot_children['Есть долги']

In [None]:
pivot_children['Процент должников '] = pivot_children['Есть долги'] / pivot_children['Общее число']
pivot_children.loc[:,'Процент должников '] *= 100
pivot_children

In [None]:
pivot_children.style.format({'Процент должников ': '{:,.3}'.format})

In [None]:
df['children'].corr(df['debt'])

In [None]:
dpivot_df_children_kat = df.pivot_table(index=['children_kat'], columns='debt', values='children', aggfunc='count')
dpivot_df_children_kat

In [None]:
dpivot_df_children_kat[0]['1 ребенок']

### Вывод

<font color='gray'>#Видно, что у людей с 2 детьми большее за должностей по кредиту 

<font color='gray'>#Лучше всего кредит отдают люди без детей 

<font color='gray'>#Выбросы в виде -1 и 20 кол-ва детей могли возникнуть из за ошибки при сборе информации или из-за использования неправильного разделителя  

### Поиск зависимости между семейным положением и возвратом кредита в срок

In [None]:
df['family_status_id'].unique()

In [None]:
df['family_status'].unique()

In [None]:
df['family_status_id'].corr(df['debt'])

In [None]:
# print(df[df['family_status_id'] == 0].head(1)) # женат / замужем
# print(df[df['family_status_id'] == 1].head(1)) # гражданский брак
# print(df[df['family_status_id'] == 2].head(1)) # вдовец / вдова
# print(df[df['family_status_id'] == 3].head(1)) # в разводе
# print(df[df['family_status_id'] == 4].head(1)) # не женат / не замужем

In [None]:
df.groupby(['family_status','family_status_id']).agg({'debt':'count'})

In [None]:
pivot_df_family_status=df.pivot_table(index=['family_status'], columns='debt', values='family_status_id', aggfunc='count')
pivot_df_family_status 

In [None]:
pivot_df_family_status.columns

In [None]:
# pivot_df_family_status['ratio'] = pivot_df_family_status['1'] / pivot_df_family_status['0']
# pivot_df_family_status

In [None]:
pivot_df_family_status_ii = df.pivot_table(index = 'family_status', values = ['debt'], aggfunc = ['sum','count'])
pivot_df_family_status_ii

In [None]:
pivot_df_family_status_ii.info()

In [None]:
pivot_df_family_status_ii.set_axis (['Есть долги','Общее число'], axis = 'columns', inplace = True)

In [None]:
pivot_df_family_status_ii['Нет долгов'] = pivot_df_family_status_ii['Общее число'] - pivot_df_family_status_ii['Есть долги']

In [None]:
pivot_df_family_status_ii['Процент должников'] = pivot_df_family_status_ii['Есть долги'] / pivot_df_family_status_ii['Общее число']
pivot_df_family_status_ii.loc[:,'Процент должников'] *= 100
pivot_df_family_status_ii 

### Вывод

<font color='gray'>#Тут среди лидеров должников оказались люди со статусом :не замужем/не женат, гражданский брак 

<font color='gray'>#В целом, здесь видно, что наиболее надежные заемщики, это те, кто находится или когда-либо был в браке.

### Поиск зависимости между уровнем дохода и возвратом кредита в срок

In [None]:
df.plot(x='total_income', y='debt', kind='scatter', alpha=0.3, grid=True, figsize = (20,4)),

In [None]:

df['total_income'].quantile(q=[0.4,0.9]).loc[0.4]

In [None]:
df['total_income'].quantile(q=[0.4,0.9]).loc[0.9]

In [None]:
min_total_income = df['total_income'].quantile(q=[0.4,0.9]).loc[0.4]
max_total_income = df['total_income'].quantile(q=[0.4,0.9]).loc[0.9]

In [None]:
def income_kat(size):
    if size <= min_total_income:
        return 'маленькая зп'
    if min_total_income < size <= max_total_income:
        return 'средняя зп'
    if size > max_total_income :
        return 'большая зп'
    return 'Ошибка'

df['income_kat'] = df['total_income'].apply(income_kat)

In [None]:
print(df['total_income'].describe(include='all').loc['25%'], '- 25%')
print(df['total_income'].describe(include='all').loc['75%'], '- 75%')
print(df['total_income'].describe(include='all'))

In [None]:
df['income_kat'].unique()

In [None]:
pivot_income = df.pivot_table(index = 'income_kat', values = ['debt'], aggfunc = ['sum','count'])
pivot_income

In [None]:
pivot_income.set_axis (['Есть долги','Общее число'], axis = 'columns', inplace = True)
pivot_income['Нет долгов'] = pivot_income['Общее число'] - pivot_income['Есть долги']
pivot_income['Процент должников'] = pivot_income['Есть долги'] / pivot_income['Общее число']
pivot_income.loc[:,'Процент должников'] *= 100
pivot_income 

### Вывод

<font color='gray'>#Люди с средней и маленькой зарплатой чаще имеют задолженность по возврату кредита 

### Поиск влияния цели кредита на его возврат в срок

In [None]:
df['purpose_kat'].unique()

In [None]:
pivot_df_purpose = df.pivot_table(index = 'purpose_kat', values = ['debt'], aggfunc = ['sum','count'])
pivot_df_purpose

In [None]:
pivot_df_purpose.set_axis (['Есть долги','Общее число'], axis = 'columns', inplace = True)
pivot_df_purpose['Нет долгов'] = pivot_df_purpose['Общее число'] - pivot_df_purpose['Есть долги']
pivot_df_purpose['Процент должников'] = pivot_df_purpose['Есть долги'] / pivot_df_purpose['Общее число']
pivot_df_purpose.loc[:,'Процент должников'] *= 100
pivot_df_purpose 

In [None]:
pivot_df_purpose['Нет долгов']

### Вывод

<font color='gray'># основные задолжники берут кредит на авто или образование

### Шаг 4. Общий вывод

<font color='gray'>#Потенциально самые слабые заемщики по возврату кредита: Люди, состоящие в гражданском браке с двумя детьми и средней зарплатой  

<font color='gray'><strong>#Из данного списка хорошими заемщиками оказались люди, которые находятся, или когда либо находились в браке, не имеющие детей, или являющиеся многодетными родителями с большой зарплатой, целью кредита которых является недвижимость или свадьба 