## Постановка задачи

1. Предобработать данные из датасета **Credit card** и разделить их на тренировочный и тестовый датасеты.
2. Создать простейший классификатор без регуляризации и обучить его на тренировочных данных.
3. Создать простейший классификатор с регуляризацией и обучить его на тех же тренировочных данных.
4. Сравнить точность двух классификаторов.
5. Оценить **precision** и **recall** для каждого из результатов.

In [52]:
import numpy as np # импортируем библиотеку Numpy
import pandas as pd # импортируем библиотеку Pandas
import matplotlib.pyplot as plt # импортируем библиотеку Matplotlib

In [10]:
credit_card_data = pd.read_csv('https://raw.githubusercontent.com/Andruchelli/Credit_card/main/UCI_Credit_Card.csv') # прочитаем файл с данными

In [11]:
credit_card_data.head() # проверяем, что файл прочитался

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


In [12]:
credit_card_data.shape # смотрим размерность датасета с тренировочными данными

(30000, 25)

Считаем количество ячеек в столбцах датасета со значением NaN, которое не востребовано для дальнейшей предобработки данных

In [13]:
np.sum(credit_card_data.isna())

ID                            0
LIMIT_BAL                     0
SEX                           0
EDUCATION                     0
MARRIAGE                      0
AGE                           0
PAY_0                         0
PAY_2                         0
PAY_3                         0
PAY_4                         0
PAY_5                         0
PAY_6                         0
BILL_AMT1                     0
BILL_AMT2                     0
BILL_AMT3                     0
BILL_AMT4                     0
BILL_AMT5                     0
BILL_AMT6                     0
PAY_AMT1                      0
PAY_AMT2                      0
PAY_AMT3                      0
PAY_AMT4                      0
PAY_AMT5                      0
PAY_AMT6                      0
default.payment.next.month    0
dtype: int64

Ячейки со значением NaN отсутствуют, поэтому мы можем продолжить работу со всеми данными датасета.

При проверке размерности нашего датасета мы узнали, что в нём содержится 30 тысяч строк. Считаем, что это слишком большой объём данных и, чтобы не перегружать систему, возьмём только часть данных. Например, 300 строк

In [14]:
credit_card_data = credit_card_data.iloc[:300] # берём первые 300 строк

In [16]:
credit_card_data.shape # проверяем размерность нового датасета

(300, 25)

Объединим несколько столбцов, чтобы сократить их количество. Например, столбцы **PAY_AMT**, содержащие данные о сумме предыдущего платежа. Сложим их, чтобы получить общую сумму платежей владельца кредитной карты за весь период

In [17]:
credit_card_data['SUM_PAY'] = credit_card_data['PAY_AMT1'] + credit_card_data['PAY_AMT2'] + credit_card_data['PAY_AMT3'] + credit_card_data['PAY_AMT4'] + credit_card_data['PAY_AMT5'] + credit_card_data['PAY_AMT6'] # в датафрейме создаём новую колонку (сумма)
credit_card_data = credit_card_data.drop(['PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6'], axis=1) # после получения новой фичи (features) нужно сбросить старые колонки; используем функцию drop, axis=1 сбрасывает колонки

In [21]:
credit_card_data.head() # убедимся, что новая колонка добавилась, а старые удалились

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,default.payment.next.month,SUM_PAY
0,1,20000.0,2,2,1,24,2,2,-1,-1,-2,-2,3913.0,3102.0,689.0,0.0,0.0,0.0,1,689.0
1,2,120000.0,2,2,2,26,-1,2,0,0,0,2,2682.0,1725.0,2682.0,3272.0,3455.0,3261.0,1,5000.0
2,3,90000.0,2,2,2,34,0,0,0,0,0,0,29239.0,14027.0,13559.0,14331.0,14948.0,15549.0,0,11018.0
3,4,50000.0,2,2,1,37,0,0,0,0,0,0,46990.0,48233.0,49291.0,28314.0,28959.0,29547.0,0,8388.0
4,5,50000.0,1,2,1,57,-1,0,-1,0,0,0,8617.0,5670.0,35835.0,20940.0,19146.0,19131.0,0,59049.0


Для проведения дальнейших исследований разделим полученный датасет на тренировочные и тестировочные данные.

Возьмём данные по столбцам **LIMIT_BAL** (сумма предоставленного кредита) и **SUM_PAY** (сумма всех платежей) и попробуем определить пол плательщика (**SEX**): если значение равно "1", то это мужчина, если значение равно "2", то женщина

In [89]:
# 2/3 данных испольуем в качестве тренировочных данных
X_train = credit_card_data[['LIMIT_BAL', 'SUM_PAY']][:200].values # разбиваем датасет на тренировочные данные X (features)
Y_train = credit_card_data['SEX'][:200] # и тренировочные результаты Y (labels)
# 1/3 данных отдаём в тестировочные данные
X_test = credit_card_data[['LIMIT_BAL', 'SUM_PAY']][200:].values
Y_test = credit_card_data['SEX'][200:]

print("X_train.shape: {}".format(X_train.shape))
print("Y_train.shape: {}".format(Y_train.shape))
print("X_test.shape: {}".format(X_test.shape))
print("Y_test.shape: {}".format(Y_test.shape))

X_train.shape: (200, 2)
Y_train.shape: (200,)
X_test.shape: (100, 2)
Y_test.shape: (100,)


С помощью классификатора логистической регресии предсказываем данные (без регуляризации)

In [90]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()

clf.fit(X_train, Y_train) # обучаем модель

LinearRegression()

In [91]:
Y_pred = clf.predict(X_test) # делаем предсказание

In [92]:
Y_pred

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

Для оценки точности регрессионной модели используем метод **accuracy_score** из библиотеки **sklearn**

In [115]:
from sklearn.metrics import accuracy_score

print("train accuracy: {}".format(accuracy_score(Y_train, clf.predict(X_train)))) # Y_train (реальные выходные данные labels) и clf.predict(X_train) (предсказанные данные) 
print("test accuracy: {}".format(accuracy_score(Y_test, clf.predict(X_test))))

train accuracy: 0.53
test accuracy: 0.65


Из результатов вычислений видно, что с тренировочными данными модель справилась с точностью 0.48, а с тестовыми - 0.37.

Теперь попробуем применить к нашей модели классификатор с регуляризацией. Для этой цели выберем SDG-классификатор, основанный на методе стохастического градиентного спуска

In [116]:
from sklearn.linear_model import SGDClassifier # импортируем классификатор

In [117]:
clf = SGDClassifier(verbose=4, max_iter=500) # устанавливаем значение в 500 итераций

In [118]:
clf.fit(X_train, Y_train) # обучаем модель на тренировочных данных

-- Epoch 1
Norm: 3565676.78, NNZs: 2, Bias: 5.233623, T: 200, Avg. loss: 109010584986.000336
Total training time: 0.00 seconds.
-- Epoch 2
Norm: 346124.53, NNZs: 2, Bias: 18.808629, T: 400, Avg. loss: 96177954945.851822
Total training time: 0.00 seconds.
-- Epoch 3
Norm: 251407.45, NNZs: 2, Bias: 58.685431, T: 600, Avg. loss: 83041745597.454880
Total training time: 0.00 seconds.
-- Epoch 4
Norm: 548160.16, NNZs: 2, Bias: 22.472595, T: 800, Avg. loss: 58032400515.889549
Total training time: 0.00 seconds.
-- Epoch 5
Norm: 1712787.38, NNZs: 2, Bias: -3.993656, T: 1000, Avg. loss: 69683826711.532059
Total training time: 0.00 seconds.
-- Epoch 6
Norm: 728511.35, NNZs: 2, Bias: -42.799484, T: 1200, Avg. loss: 53929735089.635345
Total training time: 0.00 seconds.
-- Epoch 7
Norm: 529677.45, NNZs: 2, Bias: -16.799817, T: 1400, Avg. loss: 50683749241.937851
Total training time: 0.00 seconds.
-- Epoch 8
Norm: 258086.47, NNZs: 2, Bias: -14.701014, T: 1600, Avg. loss: 59520674832.056389
Total trai

SGDClassifier(max_iter=500, verbose=4)

In [119]:
from sklearn.metrics import accuracy_score # считаем тончость с помощью метода accuracy_score

print("train accuracy: {}".format(accuracy_score(Y_train, clf.predict(X_train)))) # Y_train (реальные выходные данные labels) и clf.predict(X_train) (предсказанные данные) 
print("test accuracy: {}".format(accuracy_score(Y_test, clf.predict(X_test))))

train accuracy: 0.535
test accuracy: 0.65
