In [849]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier, BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LinearRegression
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier


In [850]:
columns = pd.read_csv('loans.txt', sep='\t', encoding='1251', nrows=0).columns

In [851]:
columns

Index(['Код', 'Дата', 'ОД, %', 'Возраст', 'Проживание',
       'Срок проживания в регионе', 'Семейное положение', 'Образование',
       'Стаж работы на последнем месте', 'Уровень должности',
       'Кредитная история', 'Просрочки свыше 60 дн.', 'Тестовое множество'],
      dtype='object')

In [852]:
df = pd.read_csv(
    'loans.txt', sep='\t', encoding='1251', index_col="Код", usecols=[i for i in columns if i != 'Тестовое множество']
)

In [853]:
df.head()

Unnamed: 0_level_0,Дата,"ОД, %",Возраст,Проживание,Срок проживания в регионе,Семейное положение,Образование,Стаж работы на последнем месте,Уровень должности,Кредитная история,Просрочки свыше 60 дн.
Код,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,02.03.2007,51,26,Муниципальное жилье,менее 1 года,Другое,высшее,менее 1 года,сотрудник,нет данных,1
2,02.03.2007,46,32,Собственник,от 1 до 5 лет,Женат/замужем,высшее,свыше 3 лет,сотрудник,положительная,0
3,02.03.2007,13,36,Аренда,свыше 5 лет,Холост/Не замужем,среднее специальное,от 1 года до 3 лет,сотрудник,нет данных,0
4,02.03.2007,48,52,Муниципальное жилье,от 1 до 5 лет,Другое,высшее,менее 1 года,сотрудник,нет данных,1
5,02.03.2007,33,30,Собственник,от 1 до 5 лет,Холост/Не замужем,среднее специальное,менее 1 года,сотрудник,нет данных,0


In [854]:
def coder(df, old_name, new_name):
    coder_model = LabelEncoder()
    coder_model.fit(df[old_name])
    df[new_name] = coder_model.transform(df[old_name])
    

In [855]:
coder(df, "Проживание", "Home")
coder(df, "Срок проживания в регионе", "Period")
coder(df, "Семейное положение", "Status")
coder(df, "Образование", "Degree")
coder(df, "Стаж работы на последнем месте", "WorkExperience")
coder(df, "Уровень должности", "Position")
coder(df, "Кредитная история", "History")

In [856]:
df.head()

Unnamed: 0_level_0,Дата,"ОД, %",Возраст,Проживание,Срок проживания в регионе,Семейное положение,Образование,Стаж работы на последнем месте,Уровень должности,Кредитная история,Просрочки свыше 60 дн.,Home,Period,Status,Degree,WorkExperience,Position,History
Код,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
1,02.03.2007,51,26,Муниципальное жилье,менее 1 года,Другое,высшее,менее 1 года,сотрудник,нет данных,1,1,0,0,0,0,2,0
2,02.03.2007,46,32,Собственник,от 1 до 5 лет,Женат/замужем,высшее,свыше 3 лет,сотрудник,положительная,0,2,1,1,0,2,2,2
3,02.03.2007,13,36,Аренда,свыше 5 лет,Холост/Не замужем,среднее специальное,от 1 года до 3 лет,сотрудник,нет данных,0,0,2,3,2,1,2,0
4,02.03.2007,48,52,Муниципальное жилье,от 1 до 5 лет,Другое,высшее,менее 1 года,сотрудник,нет данных,1,1,1,0,0,0,2,0
5,02.03.2007,33,30,Собственник,от 1 до 5 лет,Холост/Не замужем,среднее специальное,менее 1 года,сотрудник,нет данных,0,2,1,3,2,0,2,0


In [857]:
target = "Просрочки свыше 60 дн."
features = ["ОД, %", "Period", "Status", "Degree", "WorkExperience", "Position", "History", "Home"]

In [858]:
X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], random_state=42)

In [859]:
# Случайный лес с параметрами по умолчанию, результан - переобучение
forest = RandomForestClassifier(random_state=42)
forest.fit(X_train, y_train)
print(f"Точность на обучающей выборке: {forest.score(X_train, y_train)}")
print(f"Точность на тестовой выборке: {forest.score(X_test, y_test)}")

Точность на обучающей выборке: 0.9803052683407188
Точность на тестовой выборке: 0.8480825958702065




In [1027]:
forest = RandomForestClassifier(random_state=42, max_depth=10, n_estimators=50, max_features=len(features))
forest.fit(X_train, y_train)
print(f"Точность на обучающей выборке: {forest.score(X_train, y_train)}")
print(f"Точность на тестовой выборке: {forest.score(X_test, y_test)}")

Точность на обучающей выборке: 0.9532250123092073
Точность на тестовой выборке: 0.8657817109144543


In [1028]:
score = cross_val_score(forest, df[features], df[target], cv=5)
print(score)
print(score.mean())

[0.83763838 0.86346863 0.86900369 0.83579336 0.85951941]
0.8530846935086724


In [1029]:
pred = forest.predict(X_test)
print(confusion_matrix(y_test, pred))

[[521  40]
 [ 51  66]]


In [957]:
dtree = DecisionTreeClassifier(random_state=42, max_depth=9)
dtree.fit(X_train, y_train)
print(f"Точность на обучающей выборке: {dtree.score(X_train, y_train)}")
print(f"Точность на тестовой выборке: {dtree.score(X_test, y_test)}")

Точность на обучающей выборке: 0.9162973904480551
Точность на тестовой выборке: 0.8510324483775811


In [928]:
pred = dtree.predict(X_test)
print(confusion_matrix(y_test, pred))

[[520  41]
 [ 60  57]]


In [929]:
score = cross_val_score(dtree, df[features], df[target], cv=5)
print(score)
print(score.mean())

[0.82841328 0.82656827 0.85608856 0.79151292 0.85027726]
0.8305720580311163


In [930]:
bag = BaggingClassifier(dtree, n_estimators=30, random_state=0)
bag.fit(X_train, y_train)
print(f"Точность на обучающей выборке: {bag.score(X_train, y_train)}")
print(f"Точность на тестовой выборке: {bag.score(X_test, y_test)}")

Точность на обучающей выборке: 0.9394387001477105
Точность на тестовой выборке: 0.8746312684365781


In [931]:
pred = bag.predict(X_test)
print(confusion_matrix(y_test, pred))

[[529  32]
 [ 53  64]]


In [932]:
score = cross_val_score(bag, df[features], df[target], cv=5)
print(score)
print(score.mean())

[0.83210332 0.86531365 0.87269373 0.83579336 0.86136784]
0.8534543792757706


In [912]:
scaler = MinMaxScaler()
scaler.fit(X_train)

MinMaxScaler(copy=True, feature_range=(0, 1))

In [872]:
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [874]:
knn = KNeighborsClassifier(n_neighbors=3).fit(X_train, y_train)
print(f"Точность на обучающей выборке: {knn.score(X_train, y_train)}")
print(f"Точность на тестовой выборке: {knn.score(X_test, y_test)}")

Точность на обучающей выборке: 0.8872476612506155
Точность на тестовой выборке: 0.8185840707964602


In [875]:
pred = knn.predict(X_test)
print(confusion_matrix(y_test, pred))

[[517  44]
 [ 79  38]]


In [876]:
score = cross_val_score(knn, df[features], df[target], cv=5)
print(score)
print(score.mean())

[0.81180812 0.80811808 0.81365314 0.8099631  0.81700555]
0.8121095961421722
