Цель: изучить применение модели логистической регрессии и метода опорных векторов в задаче бинарной классификации.
Описание задания:
В домашнем задании нужно решить задачу классификации физических лиц по уровню дохода. Данные для обучения модели хранятся в файле adult.csv, который можно найти в материалах к занятию или скачать с сайта.
Целевая переменная – уровень дохода income, который принимает два значения <=50K и >50K, поэтому классификация бинарная. Остальные признаки описывают персональную информацию – возраст, образование, семейное положение и т. д. Подробное описание признаков и их возможные значения можно получить самостоятельно, используя функции Python3 для анализа датасета (describe, unique и т.д) или прочитать информацию по ссылке.
Задачу классификации нужно решить при помощи обучения модели логистической регрессии и модели опорных векторов.
Этапы работы:
Получите данные и загрузите их в рабочую среду. (Jupyter Notebook или другую)
Проведите первичный анализ.
Проверьте данные на пропуски. Удалите в случае обнаружения. *Предложите альтернативный способ работы с пропусками
Постройте 1-2 графика на выбор. Визуализация должна быть основана на исследуемых данных и быть полезной (из графика можно сделать вывод об особенностях датасета/класса/признака)
Преобразуйте категориальные признаки.
Разделите выборку на обучающее и тестовое подмножество. 80% данных оставить на обучающее множество, 20% на тестовое.
Обучите модели логистической регрессии и опорных векторов на обучающем множестве.
Для тестового множества предскажите уровень дохода и сравните с истинным значением, посчитав точность предсказания моделей. Для этого используйте встроенную функцию score.
Сформулируйте выводы по проделанной работе.
Кратко опишите какие преобразования были сделаны с данными.
Сравните точность двух моделей.
Напишите свое мнение, в полной ли мере модели справились с поставленной задачей. *Что по вашему мнению нужно сделать, чтобы улучшить результат ?
Для получение зачета по этому домашнему заданию, минимально, должно быть реализовано обучение двух моделей классификации, выведена их точность.

# Подготовка данных

In [None]:
import numpy as np
import pandas as pd
import scipy.stats
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('/content/drive/MyDrive/Л•™ж®п_2/adult.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   age              48842 non-null  int64 
 1   workclass        48842 non-null  object
 2   fnlwgt           48842 non-null  int64 
 3   education        48842 non-null  object
 4   educational-num  48842 non-null  int64 
 5   marital-status   48842 non-null  object
 6   occupation       48842 non-null  object
 7   relationship     48842 non-null  object
 8   race             48842 non-null  object
 9   gender           48842 non-null  object
 10  capital-gain     48842 non-null  int64 
 11  capital-loss     48842 non-null  int64 
 12  hours-per-week   48842 non-null  int64 
 13  native-country   48842 non-null  object
 14  income           48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


Выполняю очистку от пустых ячеек

In [None]:
for i in data.columns:
  data = data[~(data[i].isna())]
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   age              48842 non-null  int64 
 1   workclass        48842 non-null  object
 2   fnlwgt           48842 non-null  int64 
 3   education        48842 non-null  object
 4   educational-num  48842 non-null  int64 
 5   marital-status   48842 non-null  object
 6   occupation       48842 non-null  object
 7   relationship     48842 non-null  object
 8   race             48842 non-null  object
 9   gender           48842 non-null  object
 10  capital-gain     48842 non-null  int64 
 11  capital-loss     48842 non-null  int64 
 12  hours-per-week   48842 non-null  int64 
 13  native-country   48842 non-null  object
 14  income           48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 6.0+ MB


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(data['income'])
y = pd.Series(data=le.transform(data['income']))

In [None]:
le.fit(data['gender'])
data['gender'] = pd.Series(data=le.transform(data['gender']))

In [None]:
x = pd.get_dummies(data, columns=['workclass','education','marital-status',
                                  'occupation','relationship','race','native-country'])

Убираю из признаков целевые значения, и не значимые по моему мнению колонки

In [None]:
for ix in ['fnlwgt','income','capital-gain','capital-loss','educational-num']:
  del x [ix]

Unnamed: 0,age,gender,hours-per-week,workclass_?,workclass_Federal-gov,workclass_Local-gov,workclass_Never-worked,workclass_Private,workclass_Self-emp-inc,workclass_Self-emp-not-inc,...,native-country_Portugal,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia
0,25,1,40,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
1,38,1,50,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,28,1,40,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,44,1,40,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
4,18,0,30,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,0,38,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
48838,40,1,40,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
48839,58,0,40,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
48840,22,1,20,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0


# Метод логистической регрессии

In [None]:
from sklearn.pipeline import make_pipeline  # используем пайплайны для удобства
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

model = make_pipeline(
    StandardScaler(),
    LogisticRegression(max_iter=1000)
)

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=33)
model.fit(x_train, y_train)
prediction = model.predict(x_test)

In [None]:
scoretrainlog = model.score(x_train, y_train)
scoretestlog = model.score(x_test,y_test)
print('Точность обучаемой части: ', scoretrainlog,
      '\n','Точность тестовой части: ', scoretestlog)

Точность обучаемой части:  0.8382770711232821 
 Точность тестовой части:  0.8319172893847886


#Метод опорных векторов

In [None]:
from sklearn.svm import SVC
ov = make_pipeline(StandardScaler(), SVC())
ov.fit(x_train, y_train)
movtrain = ov.score(x_train, y_train)
movtest = ov.score(x_test, y_test)
print('Точность обучаемой части: ', movtrain,
      '\n','Точность тестовой части: ', movtest)

Точность обучаемой части:  0.84403552325135 
 Точность тестовой части:  0.8286416214556249


#Выводы

Метод логистической регрессии работает быстрее, и сработала точнее чем метод опорных векторов.
Над исходными данными были сделаны преобразования:
1. Выполнен цикл для очистки от пустых значений, хотя был не обязателен.
2. gender и income переведены в бинарный вариант.
3. Колонки: fnlwgt, income, capital-gain,capital-loss, educational-num были убраны из множества признаков.
4. Колонки: workclass, education, marital-status, occupation, relationship, race, native-country. Преобразованы в бинарный вариант.