In [3]:
pip install --upgrade pandas

SyntaxError: invalid syntax (2830416821.py, line 2)

In [4]:
pip install sklearn

Collecting sklearn
  Using cached sklearn-0.0-py2.py3-none-any.whl
Collecting scikit-learn
  Using cached scikit_learn-1.1.2-cp310-cp310-macosx_12_0_arm64.whl (7.7 MB)
Collecting threadpoolctl>=2.0.0
  Using cached threadpoolctl-3.1.0-py3-none-any.whl (14 kB)
Collecting joblib>=1.0.0
  Using cached joblib-1.2.0-py3-none-any.whl (297 kB)
Installing collected packages: threadpoolctl, joblib, scikit-learn, sklearn
Successfully installed joblib-1.2.0 scikit-learn-1.1.2 sklearn-0.0 threadpoolctl-3.1.0
You should consider upgrading via the '/Library/Frameworks/Python.framework/Versions/3.10/bin/python3.10 -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


In [1]:
import ssl
import numbers
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder

%config Completer.use_jedi = False

ssl._create_default_https_context = ssl._create_unverified_context


def get_mape(y_predict, y_true):
    return (abs(y_predict - y_true) / y_true).mean()

def process_rooms_number(x):
        
    if pd.isna(x):
        return 1
    
    if isinstance(x, int):
        return x
    
    if x.isdigit():
        return int(x)
    
    if x == 'Студия':
        return 1
    
    if x == 'Своб. планировка':
        return 1
    
    if x == '> 9':
        return 10

    return 1

<h3>Реализуем линейную регрессию</h3>

<p>Чаще всего алгоритмы машинного обучения реализуются в виде классов с обязательными методами <code>.fit()</code>, <code>.predict()</code>. </p>

<p><code>.fit()</code> – обучить алгоритм на обучающей выборке;</p>

<p><code>.predict()</code> – сделать предсказание на тестовых данных.</p>

<p> </p>

In [24]:
# Классы имеют внутреннее состояние
class LinearRegression:
    
    def __init__(self, max_iter=1e4, lr=0.001, tol=0.001, print_every=100):
        
        self.max_iter = max_iter
        self.lr = lr
        self.tol = tol
        self.print_every = print_every # для логирования ошибки
        
        self.weights = None
        self.bias = None
        
    # И валидационная, и тестовая
    def fit(self, X_train, y_train, X_val, y_val):
        
        self.check_regression_X_y(X_train, y_train)
        self.check_regression_X_y(X_val, y_val)
        
        n, m = X_train.shape
        
        # Кол-во признаков -> одномерные вектора
        self.weights = np.zeros((m, 1))
        # Инициализируем средним значением
        self.bias = np.mean(y_train)
        
        n_iter = 0
        gradient_norm = np.inf
        
        while n_iter < self.max_iter and gradient_norm > self.tol:
            

            dJdw, dJdb = self.grads(X_train, y_train)
                
            gradient_norm = np.linalg.norm(np.hstack([dJdw.flatten(), [dJdb]]))
                
            self.weights = self.weights - self.lr *  dJdw
            self.bias = self.bias - self.lr * dJdb
            
            n_iter += 1
            
            if n_iter % self.print_every == 0:
                self.print_metrics(X_train, y_train, X_val, y_val, n_iter, gradient_norm)
        
        return self

    def predict(self, X):
        # Матричное умножение на веса + bias
        return np.dot(X, self.weights) + self.bias
    
    def grads(self, X, y):
        
        y_pred = self.predict(X)
        
#         dJdw = np.mean([(y_pred - y) * x_i for x_i in X])
#         dJdb = np.mean([(y_pred - y) for x_i in X])
        
        dJdw = 2 * (X.T @ (y_pred - y)) / len(X)
        dJdb = 2 * (y_pred - y).mean()
        
        self.check_grads(dJdw, dJdb)
        
        return dJdw, dJdb
    
    def print_metrics(self, X_train, y_train, X_val, y_val, n_iter, gradient_norm):
        
        train_preds = self.predict(X_train)
        val_preds = self.predict(X_val)
        
        MAPE_train = get_mape(train_preds, y_train)
        MAPE_val = get_mape(val_preds, y_val)
        MSE_train = ((y_train - self.predict(X_train)) ** 2).mean()
        
        print(f'{n_iter} completed. MAPE on train: {MAPE_train}, val: {MAPE_val},  grad norm: {round(gradient_norm, 4)}, MSE: {round(MSE_train, 4)}')
        
        
    def check_grads(self, dJdw, dJdb):
        
        if not isinstance(dJdb, numbers.Real):
            raise ValueError(f'Производная по параметру b должна быть действительным '
                             f'числом, как и сам параметр b, а у нас {dJdb} типа {type(dJdb)}')
            
        if dJdw.shape != self.weights.shape:
            raise ValueError(f'Размерность градиента по параметрам w должна совпадать с самим вектором w, '
                             f'а у нас dJdw.shape = {dJdw.shape} не совпадает с weight.shape = {self.weights.shape}')
            
        
    @staticmethod
    def check_regression_X_y(X, y):
        
        if X.shape[0] == 0:
            raise ValueError(f'X и y не должны быть пустыми, а у нас X.shape = {X.shape} и y.shape = {y.shape}')
            
        if np.isnan(X).any():
            raise ValueError(f'X не должен содержать "not a number" (np.nan)')
            
        if np.isnan(y).any():
            raise ValueError(f'y не должен содержать "not a number" (np.nan)')
        
        if X.shape[0] != y.shape[0]:
            raise ValueError(f'Длина X и y должна быть одинаковой, а у нас X.shape = {X.shape}, y.shape = {y.shape}')
            
        if y.shape[1] != 1:
            raise ValueError(f'y - вектор ответов должен быть размерности (m, 1), а у нас y.shape = {y.shape}')
                    
        if np.any([(not isinstance(value, numbers.Real)) for value in y.flatten()]):
            raise ValueError(f'Ответы на объектах должны быть действительными числами!')
       

<h3>Тестируем модель на простой задаче</h3>

In [25]:
X = np.array([
    [1, 0, 0],
    [0, 1, 0],
    [0, 0, 1],
    [1, 1, 1],
])
y = np.array([[1], [2], [3], [4]])
model = LinearRegression(lr=0.1)
model.fit(X, y, X, y)
model.predict(X)

100 completed. MAPE on train: 0.026580377703705665, val: 0.026580377703705665,  grad norm: 0.0418, MSE: 0.0031
200 completed. MAPE on train: 0.0016984973966366241, val: 0.0016984973966366241,  grad norm: 0.0028, MSE: 0.0


array([[1.0010693 ],
       [2.00106431],
       [3.00105932],
       [3.99815656]])

<h3>Решаем задачу предсказания цены</h3>

In [26]:
data = pd.read_csv('real_estate_novosibirsk.csv')

<p>Чистим данные:</p>

In [27]:
data = data.drop_duplicates(subset=['item_id'], keep='last')
data = data.dropna(subset=['area'])
data['rooms_number'] = data['rooms_number'].apply(process_rooms_number).copy()
data = data[(data.price > 970000) & (data.price < 12700000)]
data = data[(data.floor < 59)]

data = data.dropna(axis=0)

In [28]:
train, val, train_price, val_price = train_test_split(data.drop('price', axis=1), data['price'], random_state=42)

In [29]:
test_data = pd.read_csv('test_price_estimator.csv')
test, test_price = test_data.drop('price', axis=1), test_data['price']

y_train = train_price.values.reshape(-1, 1)
y_val = val_price.values.reshape(-1, 1)

In [52]:
train_price

95081      1900000.0
66809     10000000.0
106816     4000000.0
52191      4500000.0
85322      2300000.0
             ...    
56845      1890000.0
21336      3200000.0
38224      2650000.0
3006       3080000.0
53442      3200000.0
Name: price, Length: 27721, dtype: float64

### Делаем бейзлайн

In [30]:
get_mape(y_predict=np.median(y_train), y_true=y_val)

0.37614684131639187

### Обучаем модель

1) Начинаем с простого

In [32]:
X_train = train[['area']].values
X_val = val[['area']].values


model = LinearRegression(lr=1e-4, max_iter=140000, print_every=10000, tol=0.1)
model.fit(X_train, y_train, X_val, y_val)

10000 completed. MAPE on train: 0.43546257791014253, val: 0.42484516899009184,  grad norm: 732529.2676, MSE: 2164222973404.7231
20000 completed. MAPE on train: 0.3680258623607524, val: 0.35816203486940873,  grad norm: 508355.2837, MSE: 1783520133677.1025
30000 completed. MAPE on train: 0.32496175630550655, val: 0.31584928571321214,  grad norm: 352784.668, MSE: 1600174387833.952
40000 completed. MAPE on train: 0.2978892506658501, val: 0.28930038194607605,  grad norm: 244822.9141, MSE: 1511875433870.7146
50000 completed. MAPE on train: 0.28067721457732386, val: 0.2724089090907372,  grad norm: 169900.4087, MSE: 1469350829685.616
60000 completed. MAPE on train: 0.26971041836389287, val: 0.261716881286588,  grad norm: 117906.2384, MSE: 1448871063165.9326
70000 completed. MAPE on train: 0.2626517504214648, val: 0.25480748735027275,  grad norm: 81823.7058, MSE: 1439008047513.2747
80000 completed. MAPE on train: 0.2580543649307761, val: 0.25026933499831383,  grad norm: 56783.4147, MSE: 1434258

<__main__.LinearRegression at 0x13abfb010>

<p>Для того, чтобы начать ориентироваться в метрике решения задачи, очень важно построить одну или несколько простых моделей. Часто есть соблазн добавить все признаки сразу и обучить модель — мы так поступать не будем. Наоборот, мы будем постепенно добавлять признаки и следить за тем, что модель решает задачу лучше и лучше. </p>

2) Увеличиваем количество признаков

In [158]:


# model = LinearRegression(lr=1e-4, max_iter=120000, print_every=10000, tol=0.1)
# model.fit(X_train, y_train, X_val, y_val)

Делаем новые признаки
##### One hot encoding

In [41]:
# One hot encoding => категориальный признак в число
ohe_example = pd.DataFrame({'feature': ['a', 'b', 'a', 'c']})
ohe_example

Unnamed: 0,feature
0,a
1,b
2,a
3,c


In [50]:
train

Unnamed: 0,area,area_raw,item_id,type_of_house,floor,floors_in_house,rooms_number,district,price_order_id
95081,35.5,35.5,825505750439,Монолитный,12.0,25.0,1,Советский,3
66809,126.0,126.0,616862250140,Кирпичный,5.0,6.0,5,Центральный,3
106816,52.0,52.0,782174750094,Панельный,3.0,9.0,2,Советский,3
52191,65.0,65.0,771743250039,Панельный,8.0,9.0,3,Центральный,3
85322,63.0,63.0,658514000056,Кирпичный,3.0,10.0,2,Октябрьский,3
...,...,...,...,...,...,...,...,...,...
56845,26.0,26.0,585019500249,Монолитный,1.0,17.0,1,Октябрьский,3
21336,62.2,62.2,768524751168,Панельный,1.0,9.0,3,Калининский,3
38224,41.3,41.3,684173250157,Кирпичный,4.0,13.0,1,Калининский,3
3006,83.0,83.0,761942750105,Кирпичный,1.0,3.0,4,Ленинский,3


In [51]:
y_train

array([[ 1900000.],
       [10000000.],
       [ 4000000.],
       ...,
       [ 2650000.],
       [ 3080000.],
       [ 3200000.]])

In [57]:
ohe = OneHotEncoder(sparse=False)
ohe.fit_transform(ohe_example)

array([[1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.]])

In [60]:
# train['price'] = y_train
train.drop('price', axis=1, inplace=True)
train.drop('mean_by_type', axis=1, inplace=True)

In [61]:
train

Unnamed: 0,area,area_raw,item_id,type_of_house,floor,floors_in_house,rooms_number,district,price_order_id
95081,35.5,35.5,825505750439,Монолитный,12.0,25.0,1,Советский,3
66809,126.0,126.0,616862250140,Кирпичный,5.0,6.0,5,Центральный,3
106816,52.0,52.0,782174750094,Панельный,3.0,9.0,2,Советский,3
52191,65.0,65.0,771743250039,Панельный,8.0,9.0,3,Центральный,3
85322,63.0,63.0,658514000056,Кирпичный,3.0,10.0,2,Октябрьский,3
...,...,...,...,...,...,...,...,...,...
56845,26.0,26.0,585019500249,Монолитный,1.0,17.0,1,Октябрьский,3
21336,62.2,62.2,768524751168,Панельный,1.0,9.0,3,Калининский,3
38224,41.3,41.3,684173250157,Кирпичный,4.0,13.0,1,Калининский,3
3006,83.0,83.0,761942750105,Кирпичный,1.0,3.0,4,Ленинский,3


In [149]:
ohe_house_type_transformer = OneHotEncoder(sparse=False)
area_by_type = train.groupby('type_of_house').apply(lambda row: (row['area']).mean())
train['type_area'] = train['type_of_house'].apply(lambda row: area_by_type[row])
val['type_area'] = val['type_of_house'].apply(lambda row: area_by_type[row])

area_by_district = train.groupby('district').apply(lambda row: (row['area']).mean())
train['district_area'] = train['district'].apply(lambda row: area_by_district[row])
val['district_area'] = val['district'].apply(lambda row: area_by_district[row])

In [172]:
train['first'] = (train['floor'] == 1).astype(int)
val['first'] = (val['floor'] == 1).astype(int)
train

Unnamed: 0,area,area_raw,item_id,type_of_house,floor,floors_in_house,rooms_number,district,price_order_id,type_area,district_area,first,last_floor
95081,35.5,35.5,825505750439,Монолитный,12.0,25.0,1,Советский,3,47.662769,55.056092,0,0
66809,126.0,126.0,616862250140,Кирпичный,5.0,6.0,5,Центральный,3,53.819728,60.915570,0,0
106816,52.0,52.0,782174750094,Панельный,3.0,9.0,2,Советский,3,47.429771,55.056092,0,0
52191,65.0,65.0,771743250039,Панельный,8.0,9.0,3,Центральный,3,47.429771,60.915570,0,0
85322,63.0,63.0,658514000056,Кирпичный,3.0,10.0,2,Октябрьский,3,53.819728,53.605679,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
56845,26.0,26.0,585019500249,Монолитный,1.0,17.0,1,Октябрьский,3,47.662769,53.605679,1,0
21336,62.2,62.2,768524751168,Панельный,1.0,9.0,3,Калининский,3,47.429771,47.349171,1,0
38224,41.3,41.3,684173250157,Кирпичный,4.0,13.0,1,Калининский,3,53.819728,47.349171,0,0
3006,83.0,83.0,761942750105,Кирпичный,1.0,3.0,4,Ленинский,3,53.819728,48.952271,1,0


In [185]:
train['last_floor'] = (train['floor'] == train['floors_in_house']).astype(int)
val['last_floor'] = (val['floor'] == val['floors_in_house']).astype(int)

train['apart_height'] = (train['floor'] / train['floors_in_house'])
val['apart_height'] = (val['floor'] / val['floors_in_house'])
train

Unnamed: 0,area,area_raw,item_id,type_of_house,floor,floors_in_house,rooms_number,district,price_order_id,type_area,district_area,first,last_floor,apart_height
95081,35.5,35.5,825505750439,Монолитный,12.0,25.0,1,Советский,3,47.662769,55.056092,0,0,0.480000
66809,126.0,126.0,616862250140,Кирпичный,5.0,6.0,5,Центральный,3,53.819728,60.915570,0,0,0.833333
106816,52.0,52.0,782174750094,Панельный,3.0,9.0,2,Советский,3,47.429771,55.056092,0,0,0.333333
52191,65.0,65.0,771743250039,Панельный,8.0,9.0,3,Центральный,3,47.429771,60.915570,0,0,0.888889
85322,63.0,63.0,658514000056,Кирпичный,3.0,10.0,2,Октябрьский,3,53.819728,53.605679,0,0,0.300000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
56845,26.0,26.0,585019500249,Монолитный,1.0,17.0,1,Октябрьский,3,47.662769,53.605679,1,0,0.058824
21336,62.2,62.2,768524751168,Панельный,1.0,9.0,3,Калининский,3,47.429771,47.349171,1,0,0.111111
38224,41.3,41.3,684173250157,Кирпичный,4.0,13.0,1,Калининский,3,53.819728,47.349171,0,0,0.307692
3006,83.0,83.0,761942750105,Кирпичный,1.0,3.0,4,Ленинский,3,53.819728,48.952271,1,0,0.333333


In [186]:
X_train = train[['area', 'floors_in_house', 'floor', 'rooms_number', 'first', 'last_floor', 'apart_height']].values
X_val = val[['area', 'floors_in_house', 'floor', 'rooms_number', 'first', 'last_floor', 'apart_height']].values

In [187]:
model = LinearRegression(lr=1e-4, max_iter=120000, print_every=10000, tol=0.1)
model.fit(X_train, y_train, X_val, y_val)

10000 completed. MAPE on train: 0.39612815189614015, val: 0.3862258987790087,  grad norm: 665515.6688, MSE: 2004476131586.3
20000 completed. MAPE on train: 0.34006228584822884, val: 0.3313072230377877,  grad norm: 465093.3764, MSE: 1692481201720.3203


KeyboardInterrupt: 

In [188]:
ohe_house_type_transformer = OneHotEncoder(sparse=False)
train_ohe_house_type = ohe_house_type_transformer.fit_transform(train[['type_of_house']])
val_ohe_house_type = ohe_house_type_transformer.transform(val[['type_of_house']])

ohe_district_transformer = OneHotEncoder(sparse=False)
train_ohe_district = ohe_district_transformer.fit_transform(train[['district']])
val_ohe_district = ohe_district_transformer.transform(val[['district']])

In [189]:
train_ohe_house_type

array([[0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.]])

In [153]:
# train_ohe_house_type = train_ohe_house_type * [[x] for x in train['type_area']]
# val_ohe_house_type = val_ohe_house_type * [[x] for x in val['type_area']]

# train_ohe_district = train_ohe_district * [[x] for x in train['district_area']]
# val_ohe_district = val_ohe_district * [[x] for x in val['district_area']]

In [190]:
train_ohe_house_type

array([[0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.]])

In [191]:
train_ohe_district

array([[0., 0., 0., ..., 0., 1., 0.],
       [0., 0., 0., ..., 0., 0., 1.],
       [0., 0., 0., ..., 0., 1., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [192]:
X_train_extended = np.hstack([X_train, train_ohe_house_type, train_ohe_district])
X_val_extended = np.hstack([X_val, val_ohe_house_type, val_ohe_district])

In [196]:
model = LinearRegression(lr=3e-4, max_iter=200000, print_every=10000, tol=0.1)
model.fit(X_train_extended, y_train, X_val_extended, y_val)

10000 completed. MAPE on train: 0.24331345785890968, val: 0.23639620574958434,  grad norm: 296021.1512, MSE: 1142065263420.441
20000 completed. MAPE on train: 0.2177541550266109, val: 0.21193930022798646,  grad norm: 136587.9305, MSE: 1016422333447.4506
30000 completed. MAPE on train: 0.20995006955845844, val: 0.2041914616275035,  grad norm: 80768.6679, MSE: 982599673297.4086
40000 completed. MAPE on train: 0.20636209220028615, val: 0.20049629970299332,  grad norm: 52474.1677, MSE: 969616918745.8907
50000 completed. MAPE on train: 0.20451106496813606, val: 0.19848232541305355,  grad norm: 35806.2287, MSE: 963883021174.0918
60000 completed. MAPE on train: 0.20345360109596114, val: 0.1973318045547558,  grad norm: 25502.0451, MSE: 961111007246.242
70000 completed. MAPE on train: 0.20282866366570712, val: 0.196664679012691,  grad norm: 19016.2706, MSE: 959646904534.3652
80000 completed. MAPE on train: 0.20244004825957937, val: 0.19625301130872158,  grad norm: 14894.3418, MSE: 958795809636.

<__main__.LinearRegression at 0x159ad0dc0>

In [159]:
model = LinearRegression(lr=1e-4, max_iter=120000, print_every=10000, tol=0.1)
model.fit(X_train, y_train, X_val, y_val)

10000 completed. MAPE on train: 0.42225648934075943, val: 0.41108307728661336,  grad norm: 617548.3106, MSE: 2178804146905.205
20000 completed. MAPE on train: 0.37476514794538146, val: 0.36378580568107693,  grad norm: 481603.785, MSE: 1881595479584.3508
30000 completed. MAPE on train: 0.34047202551431194, val: 0.32991477963713967,  grad norm: 391826.1199, MSE: 1692310429686.6926
40000 completed. MAPE on train: 0.3149044905078476, val: 0.30481377678592875,  grad norm: 323493.5703, MSE: 1564949210711.0063
50000 completed. MAPE on train: 0.29576269851177345, val: 0.28617636589468615,  grad norm: 268337.5881, MSE: 1477675401296.0203
60000 completed. MAPE on train: 0.28144636381072435, val: 0.27233073778908223,  grad norm: 222913.5925, MSE: 1417525121041.5015
70000 completed. MAPE on train: 0.2707311382082639, val: 0.2620063119657871,  grad norm: 185263.5127, MSE: 1375994165681.5107
80000 completed. MAPE on train: 0.262756477851836, val: 0.25433814576881647,  grad norm: 153994.2857, MSE: 13

<__main__.LinearRegression at 0x1596abc70>

In [45]:
train

Unnamed: 0,area,area_raw,item_id,type_of_house,floor,floors_in_house,rooms_number,district,price_order_id
95081,35.5,35.5,825505750439,Монолитный,12.0,25.0,1,Советский,3
66809,126.0,126.0,616862250140,Кирпичный,5.0,6.0,5,Центральный,3
106816,52.0,52.0,782174750094,Панельный,3.0,9.0,2,Советский,3
52191,65.0,65.0,771743250039,Панельный,8.0,9.0,3,Центральный,3
85322,63.0,63.0,658514000056,Кирпичный,3.0,10.0,2,Октябрьский,3
...,...,...,...,...,...,...,...,...,...
56845,26.0,26.0,585019500249,Монолитный,1.0,17.0,1,Октябрьский,3
21336,62.2,62.2,768524751168,Панельный,1.0,9.0,3,Калининский,3
38224,41.3,41.3,684173250157,Кирпичный,4.0,13.0,1,Калининский,3
3006,83.0,83.0,761942750105,Кирпичный,1.0,3.0,4,Ленинский,3


### Задание на семинаре: попробовать улучшить метрику MAPE до 15.8% (топ-1 без ML с первой недели).

Варианты путей для улучшения:

    1) Делать новые признаки из существующих;
    2) Препроцессинг данных, целевой переменной - постпроцессинг ответов модели;
    3) Анализ ошибок модели –> генерация идей;
    4) Добавить регуляризацию;


<h3>Задание на семинаре: реализуем логистическую регрессию</h3>

<p>Мы получаем оптимальные веса алгоритма градиентным спуском:</p>

<p style="text-align:center"><br />
<br />
<span class="math-tex">\(\begin{bmatrix} w_{1}^{t+1}\\  ...\\ w_{m}^{t+1}\\  \end{bmatrix} = \begin{bmatrix} w_{1}^{t}\\  ...\\ w_{m}^{t}\\  \end{bmatrix} - \alpha \cdot  \begin{bmatrix} \sum_{i=1}^{n} (\frac{1}{1+exp(w^{T}x^{(i)})} - y^{(i)})x_{1}^{(i)}\\  ...\\ \sum_{i=1}^{n} (\frac{1}{1+exp(w^{T}x^{(i)})} - y^{(i)})x_{m}^{(i)}\\  \end{bmatrix}\)</span></p>

<p style="text-align:center"><span class="math-tex">\(b^{t+1} = b^{t} - \alpha \sum_{i=1}^{n} (\frac{1}{1+exp(w^{T}x^{(i)})} - y^{(i)})\)</span></p>

<p style="text-align:center">&nbsp;</p>

<p>&nbsp;</p>

In [None]:
from sklearn.metrics import accuracy_score


class LogisticRegression:
    
    def __init__(self, max_iter=1e4, lr=0.001, tol=0.001, print_every=100):
        
        '''
        max_iter – максимальное количеств
        '''
        
        self.max_iter = max_iter
        self.lr = lr
        self.tol = tol
        self.print_every = print_every
        
        self.weights = None
        self.bias = None
        
    def fit(self, X_train, y_train, X_val, y_val):
        
        '''
        Обучение модели.
        
        X_train – матрица объектов для обучения
        y_train – ответы на объектах для обучения
        
        X_val – матрица объектов для валидации
        y_val – ответы на объектах для валидации
        '''
        
        self.check_binary_clf_X_y(X_train, y_train)
        self.check_binary_clf_X_y(X_val, y_val)
                
        n, m = X_train.shape
        
        self.weights = 
        self.bias = 
        
        n_iter = 0
        gradient_norm = np.inf
        
        while n_iter < self.max_iter and gradient_norm > self.tol:
            
            dJdw, dJdb = self.grads(X_train, y_train)
            gradient_norm = np.linalg.norm(np.hstack([dJdw.flatten(), [dJdb]]))
                
            self.weights = 
            self.bias = 
            
            n_iter += 1
            
            if n_iter % self.print_every == 0:
                self.print_metrics(X_train, y_train, X_val, y_val, n_iter, gradient_norm)
        
        return self
    
    def predict(self, X):  
        
        '''
        Метод возвращает предсказанную метку класса на объектах X
        '''
        
        pass
        
    
    def predict_proba(self, X):
        
        '''
        Метод возвращает вероятность класса 1 на объектах X
        '''
        pass
    
    def grads(self, x, y):
        
        '''
        Рассчёт градиентов
        '''
        y_hat = 
        
        dJdw = 
        dJdb = 
        
        self.check_grads(dJdw, dJdb)
        
        return dJdw, dJdb
    
    @staticmethod
    def sigmoid(x):
        '''
        Сигмоида от x
        '''
        pass
    
    def print_metrics(self, X_train, y_train, X_val, y_val, n_iter, gradient_norm):
        
        train_preds = self.predict(X_train)
        val_preds = self.predict(X_val)
        
        train_acc = accuracy_score(train_preds, y_train)
        val_acc = accuracy_score(val_preds, y_val)
        
        print(f'{n_iter} completed. accuracy_score on train: {train_acc}, val: {val_acc}, grad_norm: {gradient_norm}')
        
    def check_grads(self, dJdw, dJdb):
        
        if not isinstance(dJdb, numbers.Real):
            raise ValueError(f'Производная по параметру b должна быть действительным'
                             f' числом, как и сам параметр b, а у нас {dJdb} типа {type(dJdb)}')
            
        if dJdw.shape != self.weights.shape:
            raise ValueError(f'Размерность градиента по параметрам w должна совпадать с самим вектором w, '
                             f'а у нас dJdw.shape = {dJdw.shape} не совпадает с weight.shape = {self.weights.shape}')
    
    @staticmethod
    def check_binary_clf_X_y(X, y):
        
        if X.shape[0] == 0:
            raise ValueError(f'X и y не должны быть пустыми, а у нас X.shape = {X.shape} и y.shape = {y.shape}')
            
        if np.isnan(X).any():
            raise ValueError(f'X не должен содержать "not a number" (np.nan)')
            
        if np.isnan(y).any():
            raise ValueError(f'y не должен содержать "not a number" (np.nan)')
        
        if X.shape[0] != y.shape[0]:
            raise ValueError(f'Длина X и y должна быть одинаковой, а у нас X.shape = {X.shape}, y.shape = {y.shape}')
            
        if y.shape[1] != 1:
            raise ValueError(f'y - вектор ответов должен быть размерности (m, 1), а у нас y.shape = {y.shape}')

                    
        if sorted(np.unique([1, 0, 0])) != [0, 1]:
            raise ValueError(f'Ответы на объектах должны быть только 0 или 1, а у нас np.unique(y) = {np.unique(y)}')


<h2>Домашнее задание</h2>

<p>Воспользуемся реализованной моделью логистической регрессии, чтобы решить задачу определения пола пользователя Авито.</p>

<p><a href="https://stepik.org/media/attachments/lesson/527992/binary_clf_data.csv" rel="noopener noreferrer nofollow">Данные</a> даны в сыром виде &ndash; айтемы и их категории, которые выкладывали покупатели на Авито. Целевая переменная: <em>gender.</em></p>

<p>Вам необходимо разбить данные на train, val. Перед загрузкой файла с ответом убедитесь, что точность (<a href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html" rel="noopener noreferrer nofollow">accuracy</a>)&nbsp;на валидации не менее 0.7.</p>

<p>&nbsp;</p>

<p><strong>План действий</strong></p>

<p>Сначала нужно преобразовать категории с помощью one-hot encoding. Далее необходимо агрегировать категории, в которых пользователи выкладывали объявления, чтобы получить вектор признаков для каждого объекта. В результате у каждого пользователя будет вектор признаков, содержащий количество айтемов, выложенных в каждой из возможных категорий.</p>

<ul>
	<li>Убедитесь, что для каждого пользователя в выборке есть только один объект, каждый признак означает количество айтемов, выложенное этим пользователем в категории;</li>
	<li>Убедитесь, что после one-hot энкодинга каждая категория соответствует признаку,&nbsp;<strong>одинаковому в train, val и test.</strong></li>
</ul>

<p>Попробуйте варианты отбора признаков. Для борьбы с переобучением на редких категориях используйте регуляризацию. В качестве&nbsp;ответа загрузите файл с предсказанием пола для пользователей:</p>

<p style="text-align:center">&nbsp;</p>

<table align="center" border="1" cellpadding="1" cellspacing="1" style="width:500px">
	<thead>
		<tr>
			<th style="text-align:center">user_id</th>
			<th style="text-align:center">gender</th>
		</tr>
	</thead>
	<tbody>
		<tr>
			<td style="text-align:center">15424171</td>
			<td style="text-align:center">male</td>
		</tr>
		<tr>
			<td style="text-align:center">15454025</td>
			<td style="text-align:center">female</td>
		</tr>
	</tbody>
</table>

<p style="text-align:center">&nbsp;</p>

<p>Такой файл можно сформировать с помощью&nbsp;<code>test_predictions.to_csv(&#39;test_predictions.csv&#39;, index=False)</code>.</p>

<p>После того, как получилось обучить модель, ответьте на вопрос: какие из категорий вносят наибольший вклад в вероятность класса &quot;мужчина&quot; и класса &quot;женщина&quot;?</p>

<p>Например, если вы закодировали &quot;мужчина&quot; как 1, большие положительные веса при признаках будут означать большой вклад в вероятность класса 1, большие по модулю отрицательные веса будут вносить наибольший вклад в вероятность класса 0. Согласуется ли полученный результат с вашим жизненным опытом?</p>
