Описание задания:
В домашнем задании нужно решить задачу классификации физических лиц по уровню дохода. Данные для обучения модели хранятся в файле adult.csv, который можно найти в материалах к занятию или скачать с сайта.
Целевая переменная – уровень дохода income, который принимает два значения <=50K и >50K, поэтому классификация бинарная. Остальные признаки описывают персональную информацию – возраст, образование, семейное положение и т. д. Подробное описание признаков и их возможные значения можно получить самостоятельно, используя функции Python3 для анализа датасета (describe, unique и т.д) или прочитать информацию по ссылке.
Задачу классификации нужно решить при помощи обучения модели логистической регрессии и модели опорных векторов.
Этапы работы:
Получите данные и загрузите их в рабочую среду. (Jupyter Notebook или другую)
Проведите первичный анализ.
Проверьте данные на пропуски. Удалите в случае обнаружения. *Предложите альтернативный способ работы с пропусками
Постройте 1-2 графика на выбор. Визуализация должна быть основана на исследуемых данных и быть полезной (из графика можно сделать вывод об особенностях датасета/класса/признака)
Преобразуйте категориальные признаки.
Разделите выборку на обучающее и тестовое подмножество. 80% данных оставить на обучающее множество, 20% на тестовое.
Обучите модели логистической регрессии и опорных векторов на обучающем множестве.
Для тестового множества предскажите уровень дохода и сравните с истинным значением, посчитав точность предсказания моделей. Для этого используйте встроенную функцию score.
Сформулируйте выводы по проделанной работе.
Кратко опишите какие преобразования были сделаны с данными.
Сравните точность двух моделей.

In [69]:
import pandas as pd
import plotly.graph_objs as go
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import make_pipeline  
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

In [70]:
adult_data = pd.read_csv('Data/adult.csv')

In [71]:
adult_data.head(15)

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
5,34,Private,198693,10th,6,Never-married,Other-service,Not-in-family,White,Male,0,0,30,United-States,<=50K
6,29,?,227026,HS-grad,9,Never-married,?,Unmarried,Black,Male,0,0,40,United-States,<=50K
7,63,Self-emp-not-inc,104626,Prof-school,15,Married-civ-spouse,Prof-specialty,Husband,White,Male,3103,0,32,United-States,>50K
8,24,Private,369667,Some-college,10,Never-married,Other-service,Unmarried,White,Female,0,0,40,United-States,<=50K
9,55,Private,104996,7th-8th,4,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,10,United-States,<=50K


In [72]:
adult_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   age              48842 non-null  int64 
 1   workclass        48842 non-null  object
 2   fnlwgt           48842 non-null  int64 
 3   education        48842 non-null  object
 4   educational-num  48842 non-null  int64 
 5   marital-status   48842 non-null  object
 6   occupation       48842 non-null  object
 7   relationship     48842 non-null  object
 8   race             48842 non-null  object
 9   gender           48842 non-null  object
 10  capital-gain     48842 non-null  int64 
 11  capital-loss     48842 non-null  int64 
 12  hours-per-week   48842 non-null  int64 
 13  native-country   48842 non-null  object
 14  income           48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


In [73]:
adult_data['workclass'].value_counts()
#Имеем 2799 значений с неопределенным статусом workclass

workclass
Private             33906
Self-emp-not-inc     3862
Local-gov            3136
?                    2799
State-gov            1981
Self-emp-inc         1695
Federal-gov          1432
Without-pay            21
Never-worked           10
Name: count, dtype: int64

In [74]:
 
print('Имеем 2799 значений с неопределенным статусом workclass, что является', round((2799/48842),2),'% от всего датасета')

Имеем 2799 значений с неопределенным статусом workclass, что является 0.06 % от всего датасета


In [75]:
adult_data['occupation'].value_counts()
#Профессия 2809 человек не определена

occupation
Prof-specialty       6172
Craft-repair         6112
Exec-managerial      6086
Adm-clerical         5611
Sales                5504
Other-service        4923
Machine-op-inspct    3022
?                    2809
Transport-moving     2355
Handlers-cleaners    2072
Farming-fishing      1490
Tech-support         1446
Protective-serv       983
Priv-house-serv       242
Armed-Forces           15
Name: count, dtype: int64

In [76]:
print('Имеем 2809 значений с неизвестной профессией, что является', round((2809/48842),2),'% от всего датасета')

Имеем 2809 значений с неизвестной профессией, что является 0.06 % от всего датасета


In [77]:
adult_data['native-country'].value_counts()
#Месторождение 857 человек неизвестно 

native-country
United-States                 43832
Mexico                          951
?                               857
Philippines                     295
Germany                         206
Puerto-Rico                     184
Canada                          182
El-Salvador                     155
India                           151
Cuba                            138
England                         127
China                           122
South                           115
Jamaica                         106
Italy                           105
Dominican-Republic              103
Japan                            92
Guatemala                        88
Poland                           87
Vietnam                          86
Columbia                         85
Haiti                            75
Portugal                         67
Taiwan                           65
Iran                             59
Greece                           49
Nicaragua                        49
Peru         

In [78]:
print('Имеем 857 значений с неизвестным местом рождения, что является', round((857/48842),2),'% от всего датасета')

Имеем 857 значений с неизвестным местом рождения, что является 0.02 % от всего датасета


In [79]:
not_found = adult_data['workclass'] == adult_data['occupation']
not_found.value_counts()

False    46043
True      2799
Name: count, dtype: int64

Из анализа выше видно, что пустых значений не более 0,06% и строки по двум столбцам практически полностью совпадают, не известных данных по столбцу native-country 0,02%, что суммарно дает не более 0,08% => строками с неизвестными данными можно пренебречь. Альтернативой удалению, является подстановка средних значений или наиболее частых, но т.к. их не много, маловероятно, что они повлияют на результат классификации. 

In [80]:
adult_data = adult_data.loc[adult_data['workclass'] != '?']
adult_data = adult_data.loc[adult_data['occupation'] != '?']
adult_data = adult_data.loc[adult_data['native-country'] != '?']

In [81]:
adult_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45222 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   age              45222 non-null  int64 
 1   workclass        45222 non-null  object
 2   fnlwgt           45222 non-null  int64 
 3   education        45222 non-null  object
 4   educational-num  45222 non-null  int64 
 5   marital-status   45222 non-null  object
 6   occupation       45222 non-null  object
 7   relationship     45222 non-null  object
 8   race             45222 non-null  object
 9   gender           45222 non-null  object
 10  capital-gain     45222 non-null  int64 
 11  capital-loss     45222 non-null  int64 
 12  hours-per-week   45222 non-null  int64 
 13  native-country   45222 non-null  object
 14  income           45222 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.5+ MB


In [82]:
workclass_df = adult_data[['workclass']].groupby(adult_data['income']).value_counts()
workclass_df

income  workclass       
<=50K   Private             26056
        Self-emp-not-inc     2737
        Local-gov            2185
        State-gov            1426
        Federal-gov           857
        Self-emp-inc          734
        Without-pay            19
>50K    Private              7251
        Self-emp-not-inc     1059
        Local-gov             915
        Self-emp-inc          912
        Federal-gov           549
        State-gov             520
        Without-pay             2
Name: count, dtype: int64

In [83]:
workclass_df = workclass_df.reset_index()
workclass_df1 = workclass_df.iloc[:7]
workclass_df2 = workclass_df.iloc[7:]
workclass_df2

Unnamed: 0,income,workclass,count
7,>50K,Private,7251
8,>50K,Self-emp-not-inc,1059
9,>50K,Local-gov,915
10,>50K,Self-emp-inc,912
11,>50K,Federal-gov,549
12,>50K,State-gov,520
13,>50K,Without-pay,2


In [84]:
fig = go.Figure()
fig.add_trace(go.Bar(x = workclass_df1['workclass'], y = workclass_df1['count'], name='Salary <= 50к'))
fig.add_trace(go.Bar(x = workclass_df2['workclass'], y = workclass_df2['count'], name='Salary > 50к'))
fig.update_layout(title="Диаграмма количества людей разных профессий и уровень их зарплаты",
                  xaxis_title="Статус работника",
                  yaxis_title="Количество")
fig.show()

In [85]:
gender_df = adult_data[['gender']].groupby(adult_data['income']).value_counts()
gender_df

income  gender
<=50K   Male      20988
        Female    13026
>50K    Male       9539
        Female     1669
Name: count, dtype: int64

In [86]:
gender_df = gender_df.reset_index()
gender_df1 = gender_df.iloc[:2]
gender_df2 = gender_df.iloc[2:]
gender_df1

Unnamed: 0,income,gender,count
0,<=50K,Male,20988
1,<=50K,Female,13026


In [87]:
fig = go.Figure()
fig.add_trace(go.Bar(x = gender_df1['gender'], y = gender_df1['count'], name='Salary <= 50к'))
fig.add_trace(go.Bar(x = gender_df2['gender'], y = gender_df2['count'], name='Salary > 50к'))
fig.update_layout(title="Диаграмма уровня заработной платы в зависимости от пола работника",
                  xaxis_title="Пол работника",
                  yaxis_title="Количество")
fig.show()

Из диаграмм выше, можно сделать вывод о том, что работники различных сфер, как правило, получат зарплату менее 50к$, особенно заметна разница в классе Private, но в то же время самозанятые(Self-emp-ink) в большинстве своем зарабатывают более 50к$. Из второй диаграммы следует, что почти 62% мужчин и 85% женщин получают менее 50к$.

Для работы с переменными в рамках задачи Логистической регрессии нужно преобразовать категориальные переменные в числа.

In [88]:
adult_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45222 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   age              45222 non-null  int64 
 1   workclass        45222 non-null  object
 2   fnlwgt           45222 non-null  int64 
 3   education        45222 non-null  object
 4   educational-num  45222 non-null  int64 
 5   marital-status   45222 non-null  object
 6   occupation       45222 non-null  object
 7   relationship     45222 non-null  object
 8   race             45222 non-null  object
 9   gender           45222 non-null  object
 10  capital-gain     45222 non-null  int64 
 11  capital-loss     45222 non-null  int64 
 12  hours-per-week   45222 non-null  int64 
 13  native-country   45222 non-null  object
 14  income           45222 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.5+ MB


In [89]:
# категориальные переменные переведем в значения 0 и 1, добавив столбцы с соответствующими названиями
X = pd.get_dummies(adult_data, columns=['workclass', 'education', 'marital-status', 'occupation',
                                        'relationship', 'race', 'gender', 'native-country'], dtype=int)
# столбец income является целевой переменной, удаляем его из Х
del X['income']

X.head()

Unnamed: 0,age,fnlwgt,educational-num,capital-gain,capital-loss,hours-per-week,workclass_Federal-gov,workclass_Local-gov,workclass_Private,workclass_Self-emp-inc,...,native-country_Portugal,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia
0,25,226802,7,0,0,40,0,0,1,0,...,0,0,0,0,0,0,0,1,0,0
1,38,89814,9,0,0,50,0,0,1,0,...,0,0,0,0,0,0,0,1,0,0
2,28,336951,12,0,0,40,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
3,44,160323,10,7688,0,40,0,0,1,0,...,0,0,0,0,0,0,0,1,0,0
5,34,198693,6,0,0,30,0,0,1,0,...,0,0,0,0,0,0,0,1,0,0


In [90]:
# целевая переменная (столбец income) снова является категориальной 
# переведем значения столбца в числа, оставив один столбец
le = LabelEncoder()
le.fit(adult_data['income'])
le.classes_


array(['<=50K', '>50K'], dtype=object)

In [91]:
# записываем в таргетную переменную y преобразованный столбец income
y = pd.Series(data=le.transform(adult_data['income']))
y.head()

0    0
1    0
2    1
3    1
4    0
dtype: int32

In [92]:
model = make_pipeline(
    StandardScaler(),
    LogisticRegression(max_iter=1000)
)

In [93]:
#Поделим данные на обучающую выборку и тестовую. Указываем в test_size долю датасета, которая пойдет на тестовую выбору
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [94]:
# обучаем на части датасета (train)
model.fit(X_train, y_train)
predictions = model.predict(X_test)

In [95]:
predictions[:5] # посмотрим как выглядят наши предсказания

array([0, 0, 0, 0, 0])

In [96]:
model.predict(X_test) # получаем массив

array([0, 0, 0, ..., 0, 0, 0])

In [97]:
model.predict_proba(X_test)

array([[0.99826206, 0.00173794],
       [0.93456987, 0.06543013],
       [0.57093291, 0.42906709],
       ...,
       [0.78730114, 0.21269886],
       [0.83177089, 0.16822911],
       [0.99187287, 0.00812713]])

Получаем наш скор (точность предсказания) на обучающей и тестовой выборках.

In [98]:
model.score(X_train, y_train) 

0.8485778256903558

In [99]:
model.score(X_test,y_test)

0.8509673852957435

In [100]:
# используем пайплайны
clf = make_pipeline(StandardScaler(), SVC()) 
clf.fit(X_train, y_train)

In [101]:
#Снова получаем наш скор, для обучающей и тестовой выборок.
clf.score(X_train, y_train) 

0.8586118251928021

In [102]:
clf.score(X_test, y_test)

0.8512990602542841

Без StandardScaler получаем более худший результат:

In [103]:
svc = SVC()
svc.fit(X_train, y_train)

In [104]:
svc.score(X_train, y_train)

0.7895624291677033

In [105]:
svc.score(X_test, y_test)

0.7948037589828635

В обученной модели добились точности предсказания в 85%, результат хороший, но не идеальный. Для получения результата удалили строки с неизвестными значениями, категориальные переменные преобразовали в числа. Модель логистической регрессии работает значительно быстрее чем модель опорных векторов и при использовании пайплайнов получаем схожий результат. Используя чисто модель опорных векторов, получаем результат хуже, что очередной раз подтверждает изжитие SVM из практики. Для улучшения модели, возможно понадобиться сократить количество признаков, убрать не существенные параметры, которые вносят не значительный вклад в определение целевого показателя, но влияют на качество модели, и/или изменить размер выборки