# 2. Improving quality of the model

### 2.1. Взвешивание классов
Придадим объектам редкого класса больший вес.

Алгоритмы машинного обучения считают все объекты обучающей выборки равнозначными по умолчанию. Если важно указать, что какие-то объекты важнее, их классу присваивается вес (англ. class_weight, «вес класса»).

В алгоритме логистической регрессии в библиотеке `sklearn` есть аргумент `class_weight`. По умолчанию он равен `None`, т. е. классы равнозначны:

Если указать `class_weight='balanced'` (англ. «сбалансированный»), алгоритм посчитает, во сколько раз класс `«0»` встречается чаще класса `«1»` Обозначим это число `N` (неизвестное количество раз). Новые веса классов выглядят так:

`вес класса «0» = 1.0`
`вес класса «1» = N`

Бóльший вес будет у редкого класса.
Аргумент `class_weight` также есть у решающего дерева и случайного леса.

In [1]:
import pandas as pd
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

data = pd.read_csv(r'C:\Users\stazher3\Downloads\Yandex.Disk.Files\6\Часть 6\04 Несбалансированная классификация\travel_insurance_preprocessed.csv')
target = data['Claim']
features = data.drop('Claim', axis=1)
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)

model = LogisticRegression(random_state=12345, solver='liblinear', class_weight='balanced')
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)

print("F1:", f1_score(target_valid, predicted_valid))

F1: 0.08698830409356725


### 2.2. Увеличение выборки

Когда обучают модели, такая техника называется `upsampling`. Это делается в несколько этапов:


* 2.2.1. Разделить обучающую выборку на отрицательные и положительные объекты;
* 2.2.2. Скопировать несколько раз положительные объекты;
* 2.2.3. С учётом полученных данных создать новую обучающую выборку;
* 2.2.4. Перемешать данные: идущие друг за другом одинаковые вопросы не помогут обучению.

Пример:
*  `features_zeros` = 0
*  `features_ones` = 1
*  `target_zeros` = 0
*  `target_ones` = 1

In [38]:
#2.2.1
features_zeros = features_train[target_train == 0]
features_ones = features_train[target_train == 1]
target_zeros = target_train[target_train == 0]
target_ones = target_train[target_train == 1]

print(features_zeros.shape)
print(features_ones.shape)
print(target_zeros.shape)
print(target_ones.shape)

(37411, 196)
(584, 196)
(37411,)
(584,)


In [45]:
#2.2.2 - 2.2.4
from sklearn.utils import shuffle
def upsample(features_train, target_train, repeat):
    # skimming 
    features_zeros = features_train[target_train == 0]
    features_ones = features_train[target_train == 1]
    target_zeros = target_train[target_train == 0]
    target_ones = target_train[target_train == 1]
    #upsample
    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    #shuffle
    features_upsampled = shuffle(features_upsampled, random_state = 12345)
    target_upsampled = shuffle(target_upsampled, random_state = 12345)
    
    return features_upsampled, target_upsampled

features_upsampled, target_upsampled = upsample(features_train, target_train, 10)
print(features_upsampled.shape)
print(target_upsampled.shape)

(43251, 196)
(43251,)


Let's try to find new F1 for the upsampled model

In [50]:
from sklearn.metrics import recall_score, precision_score, f1_score

features_upsampled_train, features_upsampled_valid, target_upsampled_train, target_upsampled_valid = train_test_split(
    features_upsampled, target_upsampled, test_size=0.25, random_state=12345)

model = LogisticRegression(random_state=12345, solver='liblinear', class_weight='balanced')
model.fit(features_upsampled_train, target_upsampled_train)
predicted_upsampled_valid = model.predict(features_upsampled_valid)

print("F1:", f1_score(target_upsampled_valid, predicted_upsampled_valid))

precision_score = precision_score(target_upsampled_valid, predicted_upsampled_valid)
print(precision_score)

recall_score = recall_score(target_upsampled_valid, predicted_upsampled_valid)
print(recall_score)

F1: 0.5146859466787167
0.38401888064733647
0.7801369863013699
