In [16]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler

In [17]:
#читаем данные
df = pd.read_csv('adult.csv')

In [18]:
#смотрим информацию датасета
#df.info()
#df.head()

In [19]:
#удалим строки, где есть пустые значения
df.dropna(inplace = True)
#найдем категориальные переменные из переменных типа int64
print(df['class'].unique(), '\n', df['age'].unique(), '\n', df['capitalgain'].unique(), '\n', \
      df['capitalloss'].unique(), '\n', df['hoursperweek'].unique())
#предполагаю, что это все именно категории

['<=50K' '>50K'] 
 [2 3 1 0 4] 
 [1 0 4 2 3] 
 [0 3 1 2 4] 
 [2 0 3 4 1]


In [6]:
#получим массив целевой переменной, закодируем классы
Y = [0 if x == '<=50K' else 1 for x in df['class']]

In [7]:
#закодируем категориальные переменные, уберем проблему мультиколинеарности (?)
df['age'] = df['age'].astype('category')
df['capitalgain'] = df['capitalgain'].astype('category')
df['capitalloss'] = df['capitalloss'].astype('category')
df['hoursperweek'] = df['hoursperweek'].astype('category')

X_dumm = pd.get_dummies(df.drop(['class'], axis = 1), drop_first = True)

#стандартизируем переменные
X_dumm_scalled = StandardScaler().fit_transform(X_dumm)

In [8]:
#получим тренировочный и тестовый сэмплы
X_train, X_test, Y_train, Y_test = train_test_split(X_dumm_scalled, Y, test_size = 0.3, \
                                                    random_state = 1, stratify = Y)

In [9]:
#------------- Logistic Regression -------------------------

In [10]:
lrc = LogisticRegression(random_state = 42).fit(X_train, Y_train)
lrc.score(X_train, Y_train), lrc.predict_proba(X_train)

(0.8526615068709524,
 array([[0.95048217, 0.04951783],
        [0.6790194 , 0.3209806 ],
        [0.63642399, 0.36357601],
        ...,
        [0.97354797, 0.02645203],
        [0.12135552, 0.87864448],
        [0.86125818, 0.13874182]]))

In [11]:
lrc.score(X_test, Y_test), lrc.predict_proba(X_test)

(0.8552369720645684,
 array([[8.86201620e-01, 1.13798380e-01],
        [9.93265003e-01, 6.73499743e-03],
        [5.97142720e-01, 4.02857280e-01],
        ...,
        [3.16926286e-04, 9.99683074e-01],
        [5.18297851e-01, 4.81702149e-01],
        [9.73605370e-01, 2.63946299e-02]]))

In [12]:
#------------- SVM -------------------------

In [13]:
%%time
svc = SVC(random_state = 42, gamma = 'auto').fit(X_train, Y_train)

CPU times: user 1min 50s, sys: 1.81 s, total: 1min 51s
Wall time: 1min 55s


In [14]:
%%time
svc.score(X_train, Y_train)

CPU times: user 2min 26s, sys: 1.7 s, total: 2min 27s
Wall time: 2min 32s


0.8624229979466119

In [15]:
%%time
svc.score(X_test, Y_test)

CPU times: user 1min 4s, sys: 817 ms, total: 1min 4s
Wall time: 1min 7s


0.8511093093535785

In [None]:
#--------------- Вывод -----------------------
# Logistic Regression и SVM в лайт версии (без подбора гиперпараметров) показали одинаковый результат