# Предобработка данных и создание признаков

### 1.1 Импорт библиотек

In [1]:
import pandas as pd
from pathlib import Path
from preprocessing import Imputer, RareColumnTransformer
from feature_engineering import create_credit_features, create_groupby_features, get_age

pd.set_option('display.max_columns', 50)

### 1.2 Инициализация глобальных констант

In [2]:
path = Path('')
# нужно ли заполнять пропущенные значения
FILL_VALUES = True
# нужно ли преобразовывать редкие значения категориальных признаков
TRANSFORM_RARE_CATS = True

## 2 Создание признаков

In [3]:
train = pd.read_csv(path / 'train.csv')
test = pd.read_csv(path / 'test.csv')
train.head()

Unnamed: 0,ID,Gender,DOB,Lead_Creation_Date,City_Code,City_Category,Employer_Code,Employer_Category1,Employer_Category2,Monthly_Income,Customer_Existing_Primary_Bank_Code,Primary_Bank_Type,Contacted,Source,Source_Category,Existing_EMI,Loan_Amount,Loan_Period,Interest_Rate,EMI,Var1,Approved
0,APPC90493171225,Female,23/07/79,15/07/16,C10001,A,COM0044082,A,4.0,2000.0,B001,P,N,S122,G,0.0,,,,,0,0
1,APPD40611263344,Male,07/12/86,04/07/16,C10003,A,COM0000002,C,1.0,3500.0,B002,P,Y,S122,G,0.0,20000.0,2.0,13.25,953.0,10,0
2,APPE70289249423,Male,10/12/82,19/07/16,C10125,C,COM0005267,C,4.0,2250.0,B003,G,Y,S143,B,0.0,45000.0,4.0,,,0,0
3,APPF80273865537,Male,30/01/89,09/07/16,C10477,C,COM0004143,A,4.0,3500.0,B003,G,Y,S143,B,0.0,92000.0,5.0,,,7,0
4,APPG60994436641,Male,19/04/85,20/07/16,C10002,A,COM0001781,A,4.0,10000.0,B001,P,Y,S134,B,2500.0,50000.0,2.0,,,10,0


### 2.1 Признаки, на основе данных о кредите

In [4]:
train = create_credit_features(train)
test = create_credit_features(test)
train.head()

Unnamed: 0,ID,Gender,DOB,Lead_Creation_Date,City_Code,City_Category,Employer_Code,Employer_Category1,Employer_Category2,Monthly_Income,Customer_Existing_Primary_Bank_Code,Primary_Bank_Type,Contacted,Source,Source_Category,Existing_EMI,Loan_Amount,Loan_Period,Interest_Rate,EMI,Var1,Approved,Loan_Amount_per_Period,Credit_pct,Credit_pct_per_Period,Amount_over_pct,Amount_plus_pct,Amount_plus_pct_per_period,Amount_plus_pct_over_amount,Amount_pct_per_period,Credit_over_income,Credit_pct_over_income
0,APPC90493171225,Female,23/07/79,15/07/16,C10001,A,COM0044082,A,4.0,2000.0,B001,P,N,S122,G,0.0,,,,,0,0,,,,,,,,,,
1,APPD40611263344,Male,07/12/86,04/07/16,C10003,A,COM0000002,C,1.0,3500.0,B002,P,Y,S122,G,0.0,20000.0,2.0,13.25,953.0,10,0,10000.0,2650.0,1325.0,7.54717,22650.0,11325.0,1.1325,0.56625,2.857143,0.378571
2,APPE70289249423,Male,10/12/82,19/07/16,C10125,C,COM0005267,C,4.0,2250.0,B003,G,Y,S143,B,0.0,45000.0,4.0,,,0,0,11250.0,,,,,,,,5.0,
3,APPF80273865537,Male,30/01/89,09/07/16,C10477,C,COM0004143,A,4.0,3500.0,B003,G,Y,S143,B,0.0,92000.0,5.0,,,7,0,18400.0,,,,,,,,5.257143,
4,APPG60994436641,Male,19/04/85,20/07/16,C10002,A,COM0001781,A,4.0,10000.0,B001,P,Y,S134,B,2500.0,50000.0,2.0,,,10,0,25000.0,,,,,,,,2.5,


### 2.2 Признаки на основе группировки

In [5]:
train = create_groupby_features(train)
test = create_groupby_features(test)
train.head()

Unnamed: 0,ID,Gender,DOB,Lead_Creation_Date,City_Code,City_Category,Employer_Code,Employer_Category1,Employer_Category2,Monthly_Income,Customer_Existing_Primary_Bank_Code,Primary_Bank_Type,Contacted,Source,Source_Category,Existing_EMI,Loan_Amount,Loan_Period,Interest_Rate,EMI,Var1,Approved,Loan_Amount_per_Period,Credit_pct,Credit_pct_per_Period,Amount_over_pct,Amount_plus_pct,Amount_plus_pct_per_period,Amount_plus_pct_over_amount,Amount_pct_per_period,Credit_over_income,Credit_pct_over_income,Monthly_Income_in_city,Monthly_Income_at_employer,Monthly_Income_in_source_category,Monthly_Income_over_city_income,Monthly_Income_over_employeer_income,Monthly_Income_over_category_income
0,APPC90493171225,Female,23/07/79,15/07/16,C10001,A,COM0044082,A,4.0,2000.0,B001,P,N,S122,G,0.0,,,,,0,0,,,,,,,,,,,13461.737114,2000.0,4517.348356,0.148569,1.0,0.442738
1,APPD40611263344,Male,07/12/86,04/07/16,C10003,A,COM0000002,C,1.0,3500.0,B002,P,Y,S122,G,0.0,20000.0,2.0,13.25,953.0,10,0,10000.0,2650.0,1325.0,7.54717,22650.0,11325.0,1.1325,0.56625,2.857143,0.378571,4130.332287,4789.257987,4517.348356,0.847389,0.730802,0.774791
2,APPE70289249423,Male,10/12/82,19/07/16,C10125,C,COM0005267,C,4.0,2250.0,B003,G,Y,S143,B,0.0,45000.0,4.0,,,0,0,11250.0,,,,,,,,5.0,,3668.495833,2250.0,6218.75049,0.61333,1.0,0.361809
3,APPF80273865537,Male,30/01/89,09/07/16,C10477,C,COM0004143,A,4.0,3500.0,B003,G,Y,S143,B,0.0,92000.0,5.0,,,7,0,18400.0,,,,,,,,5.257143,,1525.0,2700.0,6218.75049,2.295082,1.296296,0.562814
4,APPG60994436641,Male,19/04/85,20/07/16,C10002,A,COM0001781,A,4.0,10000.0,B001,P,Y,S134,B,2500.0,50000.0,2.0,,,10,0,25000.0,,,,,,,,2.5,,4465.358272,6644.75,6218.75049,2.239462,1.504948,1.60804


## 3 Предобработка данных

### 3.1 Заполнение пропусков

Заполним дату рождения модой, остальные категориальные признаки - новым значением.

Часть числовых признаков заполним нулем, а те, которые были получены на основе группировки - средним значеним.

In [7]:
print(
    f"Запрошенная сумма кредита пропущена {train[train['Loan_Amount'].isnull()]['Approved'].mean():.3f}"
)
print(
    f"Запрошенная сумма кредита не пропущена {train[train['Loan_Amount'].notnull()]['Approved'].mean():.3f}"
)

Запрошенная сумма кредита пропущена 0.006
Запрошенная сумма кредита не пропущена 0.020


Видно, что доля одобренных кредитов для клиентов, у которых запрошенная сумма кредита хранится в истории выше, чем у тех, у кого она отсутсвует.

Поэтому создадим дополнительный признак, равный 1, для тех у кого пропущено значение запрошенной суммы кредита, и 0 иначе. Для бустингов, умеющих работать с пропущенными значениями этот признак скорее всего бесполезен, а для линейный моделей может быть полезен

In [8]:
imputer = Imputer({
    'DOB': 'mode',
    'City_Category': 'no_info',
    'City_Code': 'no_info',
    'Employer_Category1': 'no_info',
    'Employer_Code': 'no_info',
    'Employer_Category2': 'no_info',
    'Customer_Existing_Primary_Bank_Code': 'no_info',
    'Primary_Bank_Type': 'no_info',
    'Loan_Period': 'no_info',
    'Existing_EMI': 'median',
    'Loan_Amount': 'median',
    'EMI': 'median',
    'Interest_Rate': 'median',
    'Credit_pct': 'median',
    'Amount_over_pct': 'median',
    'Loan_Amount_per_Period': 'median',
    'Amount_pct_per_period': 'median',
    'Amount_plus_pct_over_amount': 'median',
    'Credit_pct_per_Period': 'median',
    'Amount_plus_pct': 'median',
    'Amount_plus_pct_per_period': 'median',
    'Credit_over_income': 'median',
    'Credit_pct_over_income': 'median',
    'Monthly_Income_in_city': 'median',
    'Monthly_Income_at_employer': 'median',
    'Monthly_Income_over_city_income': 'median',
    'Monthly_Income_over_employeer_income': 'median',
})

In [9]:
if FILL_VALUES:
    train = imputer.fit_transform(train)
    test = imputer.transform(test)
else:
    imputer = Imputer({'DOB': 'mode'})
    train = imputer.fit_transform(train)
    test = imputer.transform(test)

### 3.2 Предобработка редких категорий

Почти 80% работодателей представлены в обучающей выборке 1 раз, поэтому будет уместно объединить всех 'редких' работодателей в одну категорию.

In [10]:
print(f"Работодатель представлен 1 раз :", end=' ')
print(
    f"{len(train['Employer_Code'].value_counts()[lambda x: x<2])/train['Employer_Code'].nunique():.2f}"
)
train['Employer_Code'].value_counts()

Работодатель представлен 1 раз : 0.78


no_info       4018
COM0000002     457
COM0000003     324
COM0000004     262
COM0000005     243
              ... 
COM0013793       1
COM0028336       1
COM0037449       1
COM0011200       1
COM0045789       1
Name: Employer_Code, Length: 36618, dtype: int64

То же самое и для города проживания клиента

In [11]:
print(f"Работодатель представлен <10 раз :", end=' ')
print(
    f"{len(train['City_Code'].value_counts()[lambda x: x<10])/train['City_Code'].nunique():.2f}"
)
train['City_Code'].value_counts()

Работодатель представлен <10 раз : 0.58


C10001    10007
C10002     8716
C10003     8666
C10004     5843
C10005     5564
          ...  
C10582        1
C10573        1
C10644        1
C10700        1
C10686        1
Name: City_Code, Length: 679, dtype: int64

In [12]:
transformer = RareColumnTransformer({'Employer_Code': 50, 'City_Code': 150})

In [13]:
if TRANSFORM_RARE_CATS:
    train = transformer.fit_transform(train)
    test = transformer.transform(test)

### 3.3 Признак возраст клиента

In [14]:
train = get_age(train)
test = get_age(test)

## 4 Сохраняем данные

In [15]:
train.to_csv(path / 'train_imputed.csv', index=None)
test.to_csv(path / 'test_imputed.csv', index=None)