    Описание проекта

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

```    
    Инструкция по выполнению

    Создайте два новых датафрейма, в которых:  
каждому уникальному значению из education соответствует уникальное значение education_id - в первом;
каждому уникальному значению из family_status соответствует уникальное значение family_status_id - во втором.
    На основании диапазонов, указанных ниже, создайте столбец total_income_category с категориями: 
0–30000 - 'E';
30001–50000 - 'D';
50001–200000 - 'C';
200001–1000000 - 'B';
1000001 и выше - 'A'.

children — количество детей в семье
days_employed — общий трудовой стаж в днях
dob_years — возраст клиента в годах
education — уровень образования клиента
education_id — идентификатор уровня образования
family_status — семейное положение
family_status_id — идентификатор семейного положения
gender — пол клиента
income_type — тип занятости
debt — имел ли задолженность по возврату кредитов
total_income — ежемесячный доход
purpose — цель получения кредита
```

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('credit.csv')

In [3]:
print(df)

       children  days_employed  dob_years education  education_id  \
0             1   -8437.673028         42    высшее             0   
1             1   -4024.803754         36   среднее             1   
2             0   -5623.422610         33   Среднее             1   
3             3   -4124.747207         32   среднее             1   
4             0  340266.072047         53   среднее             1   
...         ...            ...        ...       ...           ...   
21520         1   -4529.316663         43   среднее             1   
21521         0  343937.404131         67   среднее             1   
21522         1   -2113.346888         38   среднее             1   
21523         3   -3112.481705         38   среднее             1   
21524         2   -1984.507589         40   среднее             1   

          family_status  family_status_id gender income_type  debt  \
0       женат / замужем                 0      F   сотрудник     0   
1       женат / замужем        

In [4]:
df.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски в столбце с суммарным доходом. Возможно клиент не захотел разглашать эти данные или они был удалены после погашения кредита. 

In [5]:
part_nullincome = df['total_income'].isna().sum()/df['total_income'].sum()
print('Доля пропущенных строк в столбцах суммарного дохода и рабочих дней: {:.6%}'.format(part_nullincome))

Доля пропущенных строк в столбцах суммарного дохода и рабочих дней: 0.000067%


In [6]:
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

В столбце "days_employed" присутствуют отрицательные значения. Необходимо перевезти их в положительные.

In [7]:
df['days_employed'] = abs(df['days_employed'])

Необходимо перевести возможные отрицательные значения в других столбцах в положительные.

In [8]:
stolb = ['children', 'dob_years', 'education_id', 'family_status_id', 'debt', 'total_income']
for ind in stolb:
    df[stolb] = abs(df[stolb])

В столбце 'total_income' заменяем вещественный тип данных на целочисленный

In [9]:
df['total_income'] = df['total_income'].astype(int)

In [10]:
df.drop_duplicates().reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21466,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21467,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21468,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21469,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


In [11]:
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [12]:
df['education'] = df['education'].replace('Среднее', 'среднее')
df['education'] = df['education'].replace('СРЕДНЕЕ', 'среднее') 
df['education'] = df['education'].replace('Высшее', 'высшее') 
df['education'] = df['education'].replace('ВЫСШЕЕ', 'высшее') 
df['education'] = df['education'].replace('Неоконченное высшее', 'неоконченное высшее') 
df['education'] = df['education'].replace('НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'неоконченное высшее') 
df['education'] = df['education'].replace('Начальное', 'начальное') 
df['education'] = df['education'].replace('НАЧАЛЬНОЕ', 'начальное') 
df['education'] = df['education'].replace('Ученая степень', 'ученая степень') 
df['education'] = df['education'].replace('УЧЕНАЯ СТЕПЕНЬ', 'ученая степень')

In [13]:
df['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [14]:
df['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [15]:
df['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [16]:
df['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [17]:
df['purpose'] = df['purpose'].replace('покупка жилья', 'недвижимость')
df['purpose'] = df['purpose'].replace('покупка своего жилья', 'недвижимость')
df['purpose'] = df['purpose'].replace('покупка недвижимости', 'недвижимость')
df['purpose'] = df['purpose'].replace('операции с жильем', 'недвижимость')
df['purpose'] = df['purpose'].replace('покупка жилья для семьи', 'недвижимость')
df['purpose'] = df['purpose'].replace('покупка коммерческой недвижимости', 'недвижимость')
df['purpose'] = df['purpose'].replace('покупка жилой недвижимости', 'недвижимость')
df['purpose'] = df['purpose'].replace('строительство собственной недвижимости', 'недвижимость')
df['purpose'] = df['purpose'].replace('строительство недвижимости', 'недвижимость')
df['purpose'] = df['purpose'].replace('операции с коммерческой недвижимостью', 'недвижимость')
df['purpose'] = df['purpose'].replace('строительство жилой недвижимости', 'недвижимость')
df['purpose'] = df['purpose'].replace('жилье', 'недвижимость')
df['purpose'] = df['purpose'].replace('операции со своей недвижимостью', 'недвижимость')
df['purpose'] = df['purpose'].replace('жилье', 'недвижимость')
df['purpose'] = df['purpose'].replace('окупка своего жилья', 'недвижимость')
df['purpose'] = df['purpose'].replace('операции с недвижимостью', 'недвижимость')
df['purpose'] = df['purpose'].replace('покупка жилья для сдачи', 'недвижимость')
df['purpose'] = df['purpose'].replace('ремонт жилью', 'недвижимость')
df['purpose'] = df['purpose'].replace('приобретение автомобиля', 'автомобиль')
df['purpose'] = df['purpose'].replace('на покупку подержанного автомобиля', 'автомобиль')
df['purpose'] = df['purpose'].replace('на покупку своего автомобиля', 'автомобиль')
df['purpose'] = df['purpose'].replace('автомобили', 'автомобиль')
df['purpose'] = df['purpose'].replace('сделка с подержанным автомобилем', 'автомобиль')
df['purpose'] = df['purpose'].replace('свой автомобиль', 'автомобиль')
df['purpose'] = df['purpose'].replace('сделка с автомобилем', 'автомобиль')
df['purpose'] = df['purpose'].replace('на покупку автомобиля', 'автомобиль')
df['purpose'] = df['purpose'].replace('дополнительное образование', 'образование')
df['purpose'] = df['purpose'].replace('заняться образованием', 'образование')
df['purpose'] = df['purpose'].replace('получение образования', 'образование')
df['purpose'] = df['purpose'].replace('получение дополнительного образования', 'образование')
df['purpose'] = df['purpose'].replace('получение высшего образования', 'образование')
df['purpose'] = df['purpose'].replace('профильное образование', 'образование')
df['purpose'] = df['purpose'].replace('высшее образование', 'образование')
df['purpose'] = df['purpose'].replace('заняться высшим образованием', 'образование')
df['purpose'] = df['purpose'].replace('сыграть свадьбу', 'свадьба')
df['purpose'] = df['purpose'].replace('на проведение свадьбы', 'свадьба')

In [18]:
df.drop_duplicates().reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,недвижимость
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,автомобиль
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,недвижимость
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...
21115,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,недвижимость
21116,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,автомобиль
21117,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21118,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,автомобиль


In [19]:
df_education = df.loc[:, ['education_id','education']]
print(df_education)

       education_id education
0                 0    высшее
1                 1   среднее
2                 1   среднее
3                 1   среднее
4                 1   среднее
...             ...       ...
21520             1   среднее
21521             1   среднее
21522             1   среднее
21523             1   среднее
21524             1   среднее

[21525 rows x 2 columns]


In [20]:
df_family_status = df.loc[:, ['family_status_id', 'family_status']]
print(df_family_status)

       family_status_id     family_status
0                     0   женат / замужем
1                     0   женат / замужем
2                     0   женат / замужем
3                     0   женат / замужем
4                     1  гражданский брак
...                 ...               ...
21520                 1  гражданский брак
21521                 0   женат / замужем
21522                 1  гражданский брак
21523                 0   женат / замужем
21524                 0   женат / замужем

[21525 rows x 2 columns]


In [21]:
df.drop(columns=['family_status', 'education'], axis=1, inplace=True)
print(df)

       children  days_employed  dob_years  education_id  family_status_id  \
0             1    8437.673028         42             0                 0   
1             1    4024.803754         36             1                 0   
2             0    5623.422610         33             1                 0   
3             3    4124.747207         32             1                 0   
4             0  340266.072047         53             1                 1   
...         ...            ...        ...           ...               ...   
21520         1    4529.316663         43             1                 1   
21521         0  343937.404131         67             1                 0   
21522         1    2113.346888         38             1                 1   
21523         3    3112.481705         38             1                 0   
21524         2    1984.507589         40             1                 0   

      gender income_type  debt  total_income       purpose  
0          F  

In [22]:
column_total_income_category=[]
for ind in df['total_income']:
    if ind <= 30000:
        column_total_income_category.append('E')
    elif 30001 < ind < 50000:
        column_total_income_category.append('D')
    elif 50001 < ind < 200000:
        column_total_income_category.append('C')
    elif 200001 < ind < 1000000:
        column_total_income_category.append('B')
    else:
        column_total_income_category.append('A')
df['total_income_category']=column_total_income_category

In [23]:
print(df)

       children  days_employed  dob_years  education_id  family_status_id  \
0             1    8437.673028         42             0                 0   
1             1    4024.803754         36             1                 0   
2             0    5623.422610         33             1                 0   
3             3    4124.747207         32             1                 0   
4             0  340266.072047         53             1                 1   
...         ...            ...        ...           ...               ...   
21520         1    4529.316663         43             1                 1   
21521         0  343937.404131         67             1                 0   
21522         1    2113.346888         38             1                 1   
21523         3    3112.481705         38             1                 0   
21524         2    1984.507589         40             1                 0   

      gender income_type  debt  total_income       purpose  \
0          F 

In [24]:
def correct_purpose(category):
    if category == 'автомобиль':
        return 'операции с автомобилем'
    elif category == 'недвижимость':
        return 'операции с недвижимостью'
    elif category == 'свадьба':
        return 'проведение свадьбы'
    else:
        return 'получение образования'

In [25]:
df['purpose_category'] = df['purpose'].apply(correct_purpose)

In [26]:
df

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,недвижимость,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,автомобиль,C,операции с автомобилем
2,0,5623.422610,33,1,0,M,сотрудник,0,145885,недвижимость,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,свадьба,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,1,1,F,компаньон,0,224791,недвижимость,B,операции с недвижимостью
21521,0,343937.404131,67,1,0,F,пенсионер,0,155999,автомобиль,C,операции с автомобилем
21522,1,2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21523,3,3112.481705,38,1,0,M,сотрудник,1,244093,автомобиль,B,операции с автомобилем


Есть ли зависимость между количеством детей и возвратом кредита в срок?
Для ответа на этот вопрос разделим клиентов на группы по колличеству детей и выясним процент задержек в каждой группе

In [27]:
def dependencia (column):
    unique_in_column = df[column].unique()
    print('Результат по столбцу {}'.format(column))
    for ind in unique_in_column:
        number_ok = []
        for inddf in range(len(df[column])):
            if df.loc[inddf, column] == ind:
                number_ok.append(df.loc[inddf, 'debt']) 
        parte_ok = sum(number_ok) / len(number_ok)
        print('В группе {} процент задержек кредита {:.2%}'.format(ind, parte_ok))

In [28]:
dependencia ('children')

Результат по столбцу children
В группе 1 процент задержек кредита 9.15%
В группе 0 процент задержек кредита 7.51%
В группе 3 процент задержек кредита 8.18%
В группе 2 процент задержек кредита 9.44%
В группе 4 процент задержек кредита 9.76%
В группе 20 процент задержек кредита 10.53%
В группе 5 процент задержек кредита 0.00%


Вывод: в случаях отсутствия детей процент задержек меньше, но колличество детей не влияет на выплаты.

Есть ли зависимость между семейным положением и возвратом кредита в срок? Для ответа на этот вопрос разделим клиентов на группы по семейному положению и выясним процент задержек в каждой группе

In [29]:
dependencia ('family_status_id')

Результат по столбцу family_status_id
В группе 0 процент задержек кредита 7.52%
В группе 1 процент задержек кредита 9.29%
В группе 2 процент задержек кредита 6.56%
В группе 3 процент задержек кредита 7.11%
В группе 4 процент задержек кредита 9.74%


Есть ли зависимость между уровнем дохода и возвратом кредита в срок?


In [30]:
dependencia ('total_income_category')

Результат по столбцу total_income_category
В группе B процент задержек кредита 7.06%
В группе C процент задержек кредита 8.45%
В группе D процент задержек кредита 6.00%
В группе E процент задержек кредита 9.09%
В группе A процент задержек кредита 7.69%


Как разные цели кредита влияют на его возврат в срок?

In [31]:
dependencia ('purpose_category')

Результат по столбцу purpose_category
В группе операции с недвижимостью процент задержек кредита 7.21%
В группе операции с автомобилем процент задержек кредита 9.34%
В группе получение образования процент задержек кредита 9.20%
В группе проведение свадьбы процент задержек кредита 7.92%


Вывод: На возврат кредита в срок влияет наличие детей (при их отсутствии задержек меньше, но колличество не оказывает видимого влияния), семейное положение?, доход(чем выше доход, тем меньше задержек), и цель кредитования (на более основательные, обдуманные траты задержек меньше)