### Подключение модулей

In [276]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings 
warnings.filterwarnings('ignore')

### Загрузка данных

In [310]:
# загружаем данные из файла в формате CSV и сохраняем переменную df
df_train = pd.read_csv('train.csv', dtype="unicode")
df.head()

Unnamed: 0,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,Num_Credit_Card,Interest_Rate,...,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance,Credit_Score
0,January,Aaron Maashoh,38.449019,821-00-0265,Scientist,19114.12,1824.8433333333328,3,4,3,...,_,809.98,26.822619623699016,22 Years and 1 Months,No,49.57494921489417,80.41529543900253,High_spent_Small_value_payments,312.49408867943663,Good
1,February,Aaron Maashoh,38.449019,821-00-0265,Scientist,19114.12,,3,4,3,...,Good,809.98,31.94496005538421,,No,49.57494921489417,118.28022162236736,Low_spent_Large_value_payments,284.62916249607184,Good
2,March,Aaron Maashoh,38.449019,821-00-0265,Scientist,19114.12,,3,4,3,...,Good,809.98,28.60935202206993,22 Years and 3 Months,No,49.57494921489417,81.699521264648,Low_spent_Medium_value_payments,331.2098628537912,Good
3,April,Aaron Maashoh,38.449019,821-00-0265,Scientist,19114.12,,3,4,3,...,Good,809.98,31.377861869582357,22 Years and 4 Months,No,49.57494921489417,199.4580743910713,Low_spent_Small_value_payments,223.45130972736783,Good
4,May,Aaron Maashoh,38.449019,821-00-0265,Scientist,19114.12,1824.8433333333328,3,4,3,...,Good,809.98,24.797346908844982,22 Years and 5 Months,No,49.57494921489417,41.420153086217326,High_spent_Medium_value_payments,341.48923103222177,Good


### Описание данных


Признаки:

- ID – Уникальный идентификатор для каждой записи.
- Customer_ID – Уникальный идентификатор для каждого клиента.
- Month – Месяц транзакции или записи.
- Name – Имя клиента.
- Age – Возраст клиента.
- SSN – Номер социального страхования клиента.
- Occupation – Профессия клиента.
- Annual_Income – Годовой доход клиента.
- Monthly_Inhand_Salary – Месячная заработная плата клиента.
- Num_Bank_Accounts – Общее количество банковских счетов, принадлежащих клиенту.
- Num_Credit_Card – Общее количество кредитных карт, которыми владеет клиент.
- Interest_Rate – Процентная ставка, применяемая к займам или кредитам.
- Num_of_Loan – Количество кредитов, взятых клиентом.
- Type_of_Loan – Категории кредитов, полученных клиентом.
- Delay_from_due_date – Задержка платежей по сравнению с установленной датой.
- Num_of_Delayed_Payment – Общее количество случаев просрочки платежей, совершенных клиентом.
- Changed_Credit_Limit – Корректировки, внесенные в кредитный лимит клиента.
- Num_Credit_Inquiries – Количество запросов, сделанных в отношении кредита клиента.
- Credit_Mix – Разновидности кредитов, которыми пользуется клиент (например, кредиты, кредитные карты).
- Outstanding_Debt – Общая сумма задолженности клиента на данный момент.
- Credit_Utilization_Ratio – Доля использованного кредита по сравнению с общим кредитным лимитом.
- Credit_History_Age – Продолжительность кредитной истории клиента.
- Payment_of_Min_Amount – Указывает, платит ли клиент ежемесячно минимально необходимую сумму.
- Total_EMI_per_month – Общий эквивалентный ежемесячный платеж (EMI), выплаченный клиентом.
- Amount_invested_monthly – Ежемесячная сумма инвестиций клиента.
- Payment_Behaviour – Платежные привычки и склонности клиента.
- Monthly_Balance –  Остаток на счете клиента в конце каждого месяца.

Целевой (искомый) признак:
- Credit_Score –  Кредитная оценка клиента (целевая переменная: «Хорошая», «Плохая», «Стандартная»).орошая», «Плохая», «Стандартная»).рошая», «Плохая», «Стандартная»).

### Разведочный анализ данных (РАД, EDA)

In [278]:
# Размерность данных
df_test.shape

(50000, 27)

In [279]:
# выводим типы данных
df_test.dtypes

ID                          object
Customer_ID                 object
Month                       object
Name                        object
Age                         object
SSN                         object
Occupation                  object
Annual_Income               object
Monthly_Inhand_Salary       object
Num_Bank_Accounts           object
Num_Credit_Card             object
Interest_Rate               object
Num_of_Loan                 object
Type_of_Loan                object
Delay_from_due_date         object
Num_of_Delayed_Payment      object
Changed_Credit_Limit        object
Num_Credit_Inquiries        object
Credit_Mix                  object
Outstanding_Debt            object
Credit_Utilization_Ratio    object
Credit_History_Age          object
Payment_of_Min_Amount       object
Total_EMI_per_month         object
Amount_invested_monthly     object
Payment_Behaviour           object
Monthly_Balance             object
dtype: object

Целевая переменная - __Credit_Score__. В тестовой части этого признака нет. Поэтому в работе будем использовать датасет для тренировки.

In [280]:
# Общая информация о датасете
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 28 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   ID                        100000 non-null  object
 1   Customer_ID               100000 non-null  object
 2   Month                     100000 non-null  object
 3   Name                      90015 non-null   object
 4   Age                       100000 non-null  object
 5   SSN                       100000 non-null  object
 6   Occupation                100000 non-null  object
 7   Annual_Income             100000 non-null  object
 8   Monthly_Inhand_Salary     84998 non-null   object
 9   Num_Bank_Accounts         100000 non-null  object
 10  Num_Credit_Card           100000 non-null  object
 11  Interest_Rate             100000 non-null  object
 12  Num_of_Loan               100000 non-null  object
 13  Type_of_Loan              88592 non-null   object
 14  Delay

Признаки __Name__, __Monthly__, __Inhand_Salary__, __Type_of_Loan__, __Num_of_Delayed_Payment__, __Num_Credit_Inquiries__, __Credit_History_Age__, __Amount_invested_monthly__, __Monthly_Balance__ имеют пустые значения

Все признаки представлены в типе данных `object`. Необходимо привести соответсвующие парматеры к соотвутсвующему типу данных.

__Столбцы обозначающие ID можно удалить.__

In [281]:
df.duplicated().sum()

0

In [282]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 28 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   ID                        100000 non-null  object
 1   Customer_ID               100000 non-null  object
 2   Month                     100000 non-null  object
 3   Name                      90015 non-null   object
 4   Age                       100000 non-null  object
 5   SSN                       100000 non-null  object
 6   Occupation                100000 non-null  object
 7   Annual_Income             100000 non-null  object
 8   Monthly_Inhand_Salary     84998 non-null   object
 9   Num_Bank_Accounts         100000 non-null  object
 10  Num_Credit_Card           100000 non-null  object
 11  Interest_Rate             100000 non-null  object
 12  Num_of_Loan               100000 non-null  object
 13  Type_of_Loan              88592 non-null   object
 14  Delay

In [283]:
df.isnull().sum()

Month                           0
Name                         9985
Age                             0
SSN                             0
Occupation                  92938
Annual_Income                   0
Monthly_Inhand_Salary       15002
Num_Bank_Accounts               0
Num_Credit_Card                 0
Interest_Rate                   0
Num_of_Loan                     0
Type_of_Loan                11408
Delay_from_due_date             0
Num_of_Delayed_Payment       7002
Changed_Credit_Limit            0
Num_Credit_Inquiries         1965
Credit_Mix                      0
Outstanding_Debt                0
Credit_Utilization_Ratio        0
Credit_History_Age           9030
Payment_of_Min_Amount           0
Total_EMI_per_month             0
Amount_invested_monthly      4479
Payment_Behaviour               0
Monthly_Balance              1200
Credit_Score                    0
dtype: int64

In [284]:
# исследование целевого (target) признака - Кредитная оценка клиента 
df_train['Credit_Score'].nunique()

3

In [285]:
df_train['Credit_Score'].unique()

array(['Good', 'Standard', 'Poor'], dtype=object)

In [286]:
df_train.Age.describe()

count     100000
unique      1788
top           38
freq        2833
Name: Age, dtype: object

In [287]:
df_train.describe().T

Unnamed: 0,count,unique,top,freq
ID,100000,100000,0x1602,1
Customer_ID,100000,12500,CUS_0xd40,8
Month,100000,8,January,12500
Name,90015,10139,Langep,44
Age,100000,1788,38,2833
SSN,100000,12501,#F%$D@*&8,5572
Occupation,100000,16,_______,7062
Annual_Income,100000,18940,36585.12,16
Monthly_Inhand_Salary,84998,13235,6769.13,15
Num_Bank_Accounts,100000,943,6,13001


Аномальные значения в __Monthly_Balance__. Большинство строк признака __Occupation__ имеют прочерки.

### Предварительная обработка данных

In [288]:
# Удаление столбцов с ID. Удаление пустых строк. Приведение признаков к нормальному виду.

In [311]:
df = df_train.drop(['ID', 'Customer_ID'], axis=1)
df.head(2)

Unnamed: 0,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,Num_Credit_Card,Interest_Rate,...,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance,Credit_Score
0,January,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.8433333333328,3,4,3,...,_,809.98,26.822619623699016,22 Years and 1 Months,No,49.57494921489417,80.41529543900253,High_spent_Small_value_payments,312.49408867943663,Good
1,February,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,,3,4,3,...,Good,809.98,31.94496005538421,,No,49.57494921489417,118.28022162236736,Low_spent_Large_value_payments,284.62916249607184,Good


In [312]:
# df.Age = df.Age.apply(pd.to_numeric) 
def to_int_number(num):
    if num.isdigit():
        return int(num)
    else:
        return np.NaN

def to_norm_age(age):
    if age > 100:
        return 100
    elif age < 18:
        return 18
    return age

In [313]:
df.Age = df.Age.map(to_int_number)

In [314]:
df.Age = df.Age.map(to_norm_age)

In [315]:
df.Age.fillna(df.Age.mean(), inplace=True)

In [316]:
df.Age.describe()

count    100000.000000
mean         34.735535
std          13.464354
min          18.000000
25%          25.000000
50%          34.000000
75%          42.000000
max         100.000000
Name: Age, dtype: float64

In [318]:
df.Occupation.where(df.Occupation == "_______").count()

7062

In [319]:
df['Occupation'] = df['Occupation'].replace("_______", "No occupation")

In [320]:
df.Occupation.value_counts()

Occupation
No occupation    7062
Lawyer           6575
Architect        6355
Engineer         6350
Scientist        6299
Mechanic         6291
Accountant       6271
Developer        6235
Media_Manager    6232
Teacher          6215
Entrepreneur     6174
Doctor           6087
Journalist       6085
Manager          5973
Musician         5911
Writer           5885
Name: count, dtype: int64

In [322]:
df.isna().sum()

Month                           0
Name                         9985
Age                             0
SSN                             0
Occupation                      0
Annual_Income                   0
Monthly_Inhand_Salary       15002
Num_Bank_Accounts               0
Num_Credit_Card                 0
Interest_Rate                   0
Num_of_Loan                     0
Type_of_Loan                11408
Delay_from_due_date             0
Num_of_Delayed_Payment       7002
Changed_Credit_Limit            0
Num_Credit_Inquiries         1965
Credit_Mix                      0
Outstanding_Debt                0
Credit_Utilization_Ratio        0
Credit_History_Age           9030
Payment_of_Min_Amount           0
Total_EMI_per_month             0
Amount_invested_monthly      4479
Payment_Behaviour               0
Monthly_Balance              1200
Credit_Score                    0
dtype: int64