# Предсказание уровня дохода

Импортируем данные в Pandas Dataframe

In [None]:
import pandas as pd

In [None]:
# нам потребуется файл adult.csv
# в этой ячейке пишем код вместе


Основная информация о данных

In [None]:
data.info()

Краткое описание
http://www.cs.toronto.edu/~delve/data/adult/adultDetail.html

Целевая переменная - уровень дохода - более 50K в год или меньше

Данные собраны очень качественно, пропусков нет. 

Для заполнения отлично работает метод fillna

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html

### Готовим данные для модели
Смотрим что можно улучшить

In [None]:
data['workclass'].unique()

In [None]:
data[ data['workclass'] == '?' ].head()

Если надо изменить значения определенных строк, то лучше использовать метод loc

In [None]:
data.loc[ data.workclass == '?', : ].head()

Оставляем только нужный столбец

In [None]:
data.loc[ data.workclass == '?', 'workclass' ].head()

Назначаем новое значение

In [None]:
# в этой ячейке пишем код самостоятельно


Проверяем, что изменения произошли

In [None]:
data['workclass'].unique()

Аналогично для еще двух столбцов

In [None]:
data.loc[ data['native-country'] == '?', 'native-country' ] = 'undefined'
data['native-country'].unique()

In [None]:
data.loc[ data['occupation'] == '?', 'occupation' ] = 'undefined'
data['occupation'].unique()

### Посмотрим как влияют значения столбцов на распределение доходов

In [None]:
data.groupby('workclass').count()

In [None]:
data_grouped = data.groupby(['workclass', 'income']).count()
data_grouped

Посмотрим распределение для каждого значения столбца 'workclass'

In [None]:
shares = data_grouped.groupby(level = 0).apply(lambda x: 100 * x / x.sum())['age'].reset_index()
shares

### Пора нарисовать долю '>50K'

In [None]:
%matplotlib inline

In [None]:
ax = shares[ shares['income'] == '>50K' ].plot(kind = 'bar')
ax.set_xticklabels(shares.workclass)

### Выберем признаки

In [None]:
selected_columns = data[ ['age', 'workclass', 'education', 'occupation'] ]
selected_columns.head()

Категориальные признаки не подходят для вычислений. Заменим их на строки из 0 и 1:

In [None]:
X = pd.get_dummies(selected_columns, columns = ['workclass', 'education', 'occupation'])
X.head()

Целевая переменная - столбец 'income'

In [None]:
target = data['income']
target.head()

Переведем и эти обозначения в числа в один столбец

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

In [None]:
le.fit( target )

In [None]:
le.classes_

In [None]:
le.transform( ['<=50K', '>50K', '>50K', '<=50K'] )

In [None]:
Y = pd.Series( le.transform( data['income'] ) )
Y.head()

### Разбиваем наши данные на обучающую и тестовую выборки

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 0)

In [None]:
X_train.head()

In [None]:
Y_train.head()

### Пора построить модель

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression()

In [None]:
model.fit(X_train, Y_train)

### Делаем предсказания на тестовой выборке

In [None]:
predictions = model.predict_proba(X_test)

In [None]:
for pair in zip( Y, predictions[:, 1] ):
    print(pair)

In [None]:
model.score(X_test, Y_test)

Можно получить такой результат и вручную:

In [None]:
i = 0
i_true = 0

for pair in zip( Y_test, model.predict(X_test) ):
    
    if pair[0] == pair[1]:
        i_true += 1
    
    i += 1

In [None]:
print('Точность предсказаний: {:.2%}'.format(i_true / i))

# L1 и L2 регуляризация

In [None]:
selected_columns = data[ ['education', 'capital-gain', 'capital-loss'] ]

In [None]:
# какие столбцы надо прогнать через get_dummies?


In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.9, random_state = 0)

In [None]:
model = LogisticRegression()
model.fit(X_train, Y_train)

In [None]:
model.score(X_train, Y_train)

In [None]:
model.score(X_test, Y_test)

Прогоняем несколько значений "силы" регуляризации

In [None]:
for i, C in enumerate((100, 1, 0.01)):
    print( i, C )

In [None]:
for i, C in enumerate((100, 1, 0.1, 0.01)):
    
    print('C = {}'.format(C))
    
    model_l1 = LogisticRegression(C=C, penalty='l1')
    model_l2 = LogisticRegression(C=C, penalty='l2')
    
    model_l1.fit(X_train, Y_train)
    model_l2.fit(X_train, Y_train)
    
    print( 'score with L1 penalty: {:.1%} vs {:.1%}'.format(model_l1.score(X_test, Y_test), model_l1.score(X_train, Y_train)) )
    print( 'difference: {:.1%}\n'.format(model_l1.score(X_test, Y_test) - model_l1.score(X_train, Y_train)) )
    
    print( 'score with L2 penalty: {:.1%} vs {:.1%}'.format(model_l2.score(X_test, Y_test), model_l2.score(X_train, Y_train)) )
    print( 'difference: {:.1%}\n'.format(model_l2.score(X_test, Y_test) - model_l2.score(X_train, Y_train)) )

# Немного практики

Попробуйте улучшить точность модели

In [None]:
selected_columns = data[ ['', ''] ]

In [None]:
X = pd.get_dummies(selected_columns, columns = [''])

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.9, random_state = 0)

In [None]:
model = LogisticRegression()
model.fit(X_train, Y_train)

In [None]:
model.score(X_test, Y_test)