In [2]:
import pandas as pd
import numpy as np 
from pathlib import Path
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, OneHotEncoder, TargetEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import FunctionTransformer
from sklearn.pipeline import Pipeline
pd.set_option('display.max_columns', None)

# Data loading

In [3]:
data_path = Path().absolute().parent/'data'
geo_info = pd.read_csv(data_path/'geo_info.csv', sep=';')
referer_vectors = pd.read_csv(data_path/'referer_vectors.csv', sep=';')
test = pd.read_csv(data_path/'test.csv', sep=';')
test_users = pd.read_csv(data_path/'test_users.csv', sep=';')
train = pd.read_csv(data_path/'train.csv', sep=';')
train_labels = pd.read_csv(data_path/'train_labels.csv', sep=';')

# Initial analysis

In [4]:
train.info()
display(train.sample(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 750000 entries, 0 to 749999
Data columns (total 5 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   request_ts  750000 non-null  int64 
 1   user_id     750000 non-null  object
 2   referer     750000 non-null  object
 3   geo_id      750000 non-null  int64 
 4   user_agent  749999 non-null  object
dtypes: int64(2), object(3)
memory usage: 28.6+ MB


Unnamed: 0,request_ts,user_id,referer,geo_id,user_agent
461619,1700990304,b475c231c2b75b3db6c0bfee0a100702,https://62faeb4/14bba515,2521,"{'browser': 'Yandex Browser', 'browser_version..."
337150,1700981215,96393e92377712818afce68c471b2129,https://8807153/,3663,"{'browser': 'Yandex Browser', 'browser_version..."
626522,1700996568,af00842eb9463a56760d034683955345,https://8807153/,1724,"{'browser': 'Edge', 'browser_version': '119.0...."
316399,1701001472,5772d8bb50119bb7c3baf9a690627e85,https://7b8d3ae/15f1b118,9652,"{'browser': 'Chrome Mobile', 'browser_version'..."
338097,1701014783,948264a50cdd876cb7b92f41328b083b,https://8807153/,9545,"{'browser': 'Yandex Browser', 'browser_version..."


In [5]:
geo_info.info()
display(geo_info.sample(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5533 entries, 0 to 5532
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   geo_id       5533 non-null   int64 
 1   country_id   5533 non-null   object
 2   region_id    3826 non-null   object
 3   timezone_id  5533 non-null   object
dtypes: int64(1), object(3)
memory usage: 173.0+ KB


Unnamed: 0,geo_id,country_id,region_id,timezone_id
1259,1015,110628b,394501,11a38d2
1198,8906,1234f1d,15a554,d903ee
881,8241,1016727,,f91be1
4450,1911,c31b4e,f66ff,f6155e
37,6468,e59127,,be51be


In [6]:
referer_vectors.info()
display(referer_vectors.sample(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 11 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   component0  200000 non-null  int64 
 1   component1  200000 non-null  int64 
 2   component2  200000 non-null  int64 
 3   component3  200000 non-null  int64 
 4   component4  200000 non-null  int64 
 5   component5  200000 non-null  int64 
 6   component6  200000 non-null  int64 
 7   component7  200000 non-null  int64 
 8   component8  200000 non-null  int64 
 9   component9  200000 non-null  int64 
 10  referer     200000 non-null  object
dtypes: int64(10), object(1)
memory usage: 16.8+ MB


Unnamed: 0,component0,component1,component2,component3,component4,component5,component6,component7,component8,component9,referer
121021,12942,2426,10748,-3120,10996,4233,-4642,11445,2111,21464,https://7f39dd4/175f0df9
3804,-1070,659,4670,10459,4857,18516,-5955,13705,15733,8909,https://6a81948/16e65707
168248,18360,14496,6081,4602,7298,8148,9734,6157,8953,-10072,https://b5380d6/12d1e9e5
141873,12376,-7666,11340,5740,2779,4411,-3108,5018,-1176,25671,https://a32b6fc/13281344
127832,13651,7860,5654,12902,18347,12430,-2502,-7557,-4778,6973,https://710604b/12bf39f5


In [7]:
train_labels.info()
display(train_labels.sample(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500000 entries, 0 to 499999
Data columns (total 2 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   user_id  500000 non-null  object
 1   target   500000 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 7.6+ MB


Unnamed: 0,user_id,target
348690,68c6d1f7db4bf72f201292c5e31c7ba5,0
478371,89e736655614aa516d6a9173c276c5c7,1
332898,fa1166d17e5da35f3173e1d9aadb002c,1
258117,4a422ac55c6b5ce9c8a9bc0c05a2cacc,1
226844,0a5ee1ac923c254e773baa89dbfb270c,0


# Data Processing

In [8]:
# Объединим таблицы
train = pd.merge(train, geo_info, on='geo_id')
train = pd.merge(train, referer_vectors, on='referer')
train = pd.merge(train, train_labels, on='user_id')
train = train.drop(['geo_id', 'referer'], axis=1)

In [9]:
# Найдем и удалим дубликаты
print('Количество дубликатов:', train.duplicated().sum())
train = train.drop_duplicates()

Количество дубликатов: 9454


In [10]:
# Найдем и удалим пропуски
print('Кол-во пропусков:\n', train.isnull().sum())
train = train.dropna(axis=0, how='any')

Кол-во пропусков:
 request_ts         0
user_id            0
user_agent         1
country_id         0
region_id      49903
timezone_id        0
component0         0
component1         0
component2         0
component3         0
component4         0
component5         0
component6         0
component7         0
component8         0
component9         0
target             0
dtype: int64


In [11]:
train[(train['country_id']=='c31b4e') & (train['timezone_id']=='e56e80')].head(3)

Unnamed: 0,request_ts,user_id,user_agent,country_id,region_id,timezone_id,component0,component1,component2,component3,component4,component5,component6,component7,component8,component9,target
1,1700986581,46a5f128fd569c764a92c2eaa788095e,"{'browser': 'Chrome Mobile', 'browser_version'...",c31b4e,44520b,e56e80,11731,4045,22213,-1184,-8992,9381,-3496,-3120,-899,16817,0
3,1700992803,af735816ca19115431ae3d89518c8c91,"{'browser': 'Chrome Mobile', 'browser_version'...",c31b4e,3c9dca,e56e80,11731,4045,22213,-1184,-8992,9381,-3496,-3120,-899,16817,0
5,1700956244,b74aaac38e44f90517d3e217fa118cec,"{'browser': 'Chrome Mobile', 'browser_version'...",c31b4e,1fbfa5,e56e80,11731,4045,22213,-1184,-8992,9381,-3496,-3120,-899,16817,0


In [12]:
train[(train['region_id']=='3c9dca')].head(3)

Unnamed: 0,request_ts,user_id,user_agent,country_id,region_id,timezone_id,component0,component1,component2,component3,component4,component5,component6,component7,component8,component9,target
3,1700992803,af735816ca19115431ae3d89518c8c91,"{'browser': 'Chrome Mobile', 'browser_version'...",c31b4e,3c9dca,e56e80,11731,4045,22213,-1184,-8992,9381,-3496,-3120,-899,16817,0
804,1701023748,5b3cdd0eba30838fb01deb702845cdf4,"{'browser': 'Chrome Mobile', 'browser_version'...",c31b4e,3c9dca,e56e80,13294,3884,10452,-1916,11369,6138,-2472,10123,3029,21118,1
1024,1701019068,18232c8806188f0adeb265e4600223af,"{'browser': 'Chrome', 'browser_version': '118....",c31b4e,3c9dca,e56e80,16220,2266,9404,-3442,11485,4129,-3919,6506,2556,21868,0


In [13]:
train = train.drop(['country_id', 'timezone_id'], axis=1)

Признаки country_id и timezone_id не информативны, поскольку при их фиксированных значениях параметр region_id имеет различные значения. А фиксированному region_id соответствуют одни и те же единственные показатели country_id и timezone_id. Поэтому мы можем исключить эти столбцы.

In [14]:
# Раскроем словарь столбца user_agent
import ast
list = ['browser', 'browser_version', 'os', 'os_version']
for key in list:
    train[key] = train['user_agent'].apply(lambda x: ast.literal_eval(x)[key])
train = train.drop('user_agent', axis=1)

In [15]:
# Ввиду высокой смысловой корреляции между browser и os,удаляем последний, тк он, к тому же, менее информативен
train = train.drop(['os', 'browser_version', 'os_version'], axis=1)

In [16]:
train = train.drop(['user_id'], axis=1)

In [17]:
# выделим топ 25 значений столбца browser
top_25 = [x for x in train['browser'].value_counts().sort_values(ascending=False).head(25).index]
train['browser'] = train['browser'].apply(lambda x: x if x in top_25 else 'Other')

In [18]:
# преобразуем столбец дата-время request_ts
train['request_date'] = pd.to_datetime(train['request_ts'], unit='s')
train.insert(loc=1,column='request_year', value=train['request_date'].dt.year)
train.insert(loc=2, column='request_month', value=train['request_date'].dt.month)
train.insert(loc=3, column='request_dayofweek', value=(train['request_date'].dt.dayofweek)+1)
train.insert(loc=4, column='request_hour', value=train['request_date'].dt.hour)

print('Number of unique year: ', train['request_year'].nunique())
print('Number of unique month: ', train['request_month'].nunique())
print('Number of unique dayofweek: ', train['request_dayofweek'].nunique())
print('\n',train['request_dayofweek'].value_counts())
print('\nNumber of unique hour: ', train['request_hour'].nunique())

# Удалим стоблцы year, month, тк они не информативны и содержат единственное значение. Столбец request_dayofweek, поскольку он содержит только дни 6 и 7, которые коррелируют как выходные. А также исходный request_ts и request_date
train = train.drop(['request_year', 'request_month', 'request_ts', 'request_dayofweek', 'request_date'], axis=1)

Number of unique year:  1
Number of unique month:  1
Number of unique dayofweek:  2

 request_dayofweek
7    510348
6     31584
Name: count, dtype: int64

Number of unique hour:  24


In [19]:
# нормализуем столбцы
numeric_features = ['component0', 'component1', 'component2', 'component3', 'component4', 'component5', \
                    'component6', 'component7', 'component8', 'component9']
time_feature = ['request_hour']
mean_encoding_feature = ['region_id']


def sin_transformer(period):
    return FunctionTransformer(lambda x: np.sin(x / period * 2 * np.pi))
def cos_transformer(period):
    return FunctionTransformer(lambda x: np.cos(x / period * 2 * np.pi))


numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

one_hot_encoder = OneHotEncoder(drop='first', handle_unknown='ignore',sparse_output=False)

target = TargetEncoder()

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', one_hot_encoder, ['browser']),
        ("hour_sin", sin_transformer(24), ["request_hour"]),
        ("hour_cos", cos_transformer(24), ["request_hour"]),
        ('trgt', target, ['region_id'])
    ])

preprocessor.set_output(transform='pandas')

In [20]:
# определим целевую переменную и обучающий набор
X = train.drop('target', axis=1)
y = train['target']

In [21]:
df_pandas = preprocessor.fit_transform(X, y)

# Model for predicting gender

In [89]:
# Загрузим дополнительные библиотеки
from tqdm import tqdm
import time
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from termcolor import colored

In [90]:
# Разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df_pandas, y, test_size=0.2, random_state=42)

In [92]:
# Создадим списки для хранения метрик
train_accuracies = []
test_accuracies = []
training_times = []

# Обучим модель
start_time = time.time()
for n_estimators in tqdm(range(1, 101), desc="Обучение модели"):
    model = RandomForestClassifier(n_estimators=n_estimators, random_state=42)
    
    # Засекаем время обучения
    estimator_start_time = time.time()
    model.fit(X_train, y_train)
    estimator_time = time.time() - estimator_start_time
    
    # Оценка точности на обучающей и тестовой выборках
    train_accuracy = accuracy_score(y_train, model.predict(X_train))
    test_accuracy = accuracy_score(y_test, model.predict(X_test))

    train_accuracies.append(train_accuracy)
    test_accuracies.append(test_accuracy)
    training_times.append(estimator_time)

    # Вывод информации о прогрессе
    elapsed_time = time.time() - start_time
    print(f'Эпоха {n_estimators:<3}/100 - Время: {elapsed_time:.2f} секунд - '
          f'Точность на обучающей выборке: {train_accuracy:.4f} - '
          f'Точность на тестовой выборке: {test_accuracy:.4f}')

Обучение модели:   1%|          | 1/100 [00:02<04:43,  2.86s/it]

Эпоха 1  /100 - Время: 2.86 секунд - Точность на обучающей выборке: 0.8960 - Точность на тестовой выборке: 0.7461


Обучение модели:   2%|▏         | 2/100 [00:08<07:04,  4.33s/it]

Эпоха 2  /100 - Время: 8.22 секунд - Точность на обучающей выборке: 0.8983 - Точность на тестовой выборке: 0.7492


Обучение модели:   3%|▎         | 3/100 [00:15<09:22,  5.80s/it]

Эпоха 3  /100 - Время: 15.76 секунд - Точность на обучающей выборке: 0.9389 - Точность на тестовой выборке: 0.7721


Обучение модели:   4%|▍         | 4/100 [00:25<11:41,  7.30s/it]

Эпоха 4  /100 - Время: 25.38 секунд - Точность на обучающей выборке: 0.9389 - Точность на тестовой выборке: 0.7739


Обучение модели:   5%|▌         | 5/100 [00:35<13:19,  8.42s/it]

Эпоха 5  /100 - Время: 35.77 секунд - Точность на обучающей выборке: 0.9541 - Точность на тестовой выборке: 0.7822


Обучение модели:   6%|▌         | 6/100 [00:47<15:07,  9.65s/it]

Эпоха 6  /100 - Время: 47.82 секунд - Точность на обучающей выборке: 0.9540 - Точность на тестовой выборке: 0.7827


Обучение модели:   7%|▋         | 7/100 [01:01<17:06, 11.04s/it]

Эпоха 7  /100 - Время: 61.72 секунд - Точность на обучающей выборке: 0.9616 - Точность на тестовой выборке: 0.7874


Обучение модели:   8%|▊         | 8/100 [01:18<19:38, 12.81s/it]

Эпоха 8  /100 - Время: 78.32 секунд - Точность на обучающей выборке: 0.9617 - Точность на тестовой выборке: 0.7874


Обучение модели:   9%|▉         | 9/100 [01:36<21:56, 14.47s/it]

Эпоха 9  /100 - Время: 96.42 секунд - Точность на обучающей выборке: 0.9664 - Точность на тестовой выборке: 0.7905


Обучение модели:  10%|█         | 10/100 [01:56<24:26, 16.30s/it]

Эпоха 10 /100 - Время: 116.82 секунд - Точность на обучающей выборке: 0.9662 - Точность на тестовой выборке: 0.7903


Обучение модели:  11%|█         | 11/100 [02:18<26:38, 17.97s/it]

Эпоха 11 /100 - Время: 138.57 секунд - Точность на обучающей выборке: 0.9693 - Точность на тестовой выборке: 0.7922


Обучение модели:  12%|█▏        | 12/100 [02:42<28:57, 19.75s/it]

Эпоха 12 /100 - Время: 162.39 секунд - Точность на обучающей выборке: 0.9693 - Точность на тестовой выборке: 0.7924


Обучение модели:  13%|█▎        | 13/100 [03:06<30:44, 21.20s/it]

Эпоха 13 /100 - Время: 186.94 секунд - Точность на обучающей выборке: 0.9716 - Точность на тестовой выборке: 0.7934


Обучение модели:  14%|█▍        | 14/100 [03:34<33:07, 23.11s/it]

Эпоха 14 /100 - Время: 214.47 секунд - Точность на обучающей выборке: 0.9715 - Точность на тестовой выборке: 0.7940


Обучение модели:  15%|█▌        | 15/100 [04:02<34:45, 24.54s/it]

Эпоха 15 /100 - Время: 242.31 секунд - Точность на обучающей выборке: 0.9731 - Точность на тестовой выборке: 0.7954


Обучение модели:  16%|█▌        | 16/100 [04:35<37:58, 27.13s/it]

Эпоха 16 /100 - Время: 275.46 секунд - Точность на обучающей выборке: 0.9730 - Точность на тестовой выборке: 0.7948


Обучение модели:  17%|█▋        | 17/100 [05:09<40:34, 29.33s/it]

Эпоха 17 /100 - Время: 309.92 секунд - Точность на обучающей выборке: 0.9743 - Точность на тестовой выборке: 0.7959


Обучение модели:  18%|█▊        | 18/100 [05:44<42:26, 31.05s/it]

Эпоха 18 /100 - Время: 344.96 секунд - Точность на обучающей выборке: 0.9741 - Точность на тестовой выборке: 0.7955


Обучение модели:  19%|█▉        | 19/100 [06:23<45:05, 33.41s/it]

Эпоха 19 /100 - Время: 383.85 секунд - Точность на обучающей выборке: 0.9751 - Точность на тестовой выборке: 0.7957


Обучение модели:  20%|██        | 20/100 [07:06<48:19, 36.24s/it]

Эпоха 20 /100 - Время: 426.71 секунд - Точность на обучающей выборке: 0.9751 - Точность на тестовой выборке: 0.7958


Обучение модели:  21%|██        | 21/100 [07:47<49:24, 37.52s/it]

Эпоха 21 /100 - Время: 467.22 секунд - Точность на обучающей выборке: 0.9759 - Точность на тестовой выборке: 0.7970


Обучение модели:  22%|██▏       | 22/100 [08:30<50:52, 39.13s/it]

Эпоха 22 /100 - Время: 510.11 секунд - Точность на обучающей выборке: 0.9758 - Точность на тестовой выборке: 0.7973


Обучение модели:  23%|██▎       | 23/100 [09:18<53:44, 41.88s/it]

Эпоха 23 /100 - Время: 558.40 секунд - Точность на обучающей выборке: 0.9766 - Точность на тестовой выборке: 0.7981


Обучение модели:  24%|██▍       | 24/100 [10:08<56:00, 44.21s/it]

Эпоха 24 /100 - Время: 608.05 секунд - Точность на обучающей выборке: 0.9765 - Точность на тестовой выборке: 0.7979


Обучение модели:  25%|██▌       | 25/100 [11:01<58:38, 46.91s/it]

Эпоха 25 /100 - Время: 661.26 секунд - Точность на обучающей выборке: 0.9770 - Точность на тестовой выборке: 0.7984


Обучение модели:  26%|██▌       | 26/100 [11:57<1:01:14, 49.66s/it]

Эпоха 26 /100 - Время: 717.33 секунд - Точность на обучающей выборке: 0.9770 - Точность на тестовой выборке: 0.7983


Обучение модели:  27%|██▋       | 27/100 [12:53<1:02:39, 51.49s/it]

Эпоха 27 /100 - Время: 773.10 секунд - Точность на обучающей выборке: 0.9775 - Точность на тестовой выборке: 0.7990


Обучение модели:  28%|██▊       | 28/100 [13:52<1:04:37, 53.86s/it]

Эпоха 28 /100 - Время: 832.48 секунд - Точность на обучающей выборке: 0.9774 - Точность на тестовой выборке: 0.7989


Обучение модели:  29%|██▉       | 29/100 [14:53<1:06:10, 55.93s/it]

Эпоха 29 /100 - Время: 893.24 секунд - Точность на обучающей выборке: 0.9778 - Точность на тестовой выборке: 0.7990


Обучение модели:  30%|███       | 30/100 [15:55<1:07:28, 57.84s/it]

Эпоха 30 /100 - Время: 955.53 секунд - Точность на обучающей выборке: 0.9778 - Точность на тестовой выборке: 0.7982


Обучение модели:  31%|███       | 31/100 [17:01<1:09:17, 60.25s/it]

Эпоха 31 /100 - Время: 1021.40 секунд - Точность на обучающей выборке: 0.9781 - Точность на тестовой выборке: 0.7992


Обучение модели:  32%|███▏      | 32/100 [18:09<1:11:02, 62.69s/it]

Эпоха 32 /100 - Время: 1089.79 секунд - Точность на обучающей выборке: 0.9780 - Точность на тестовой выборке: 0.7997


Обучение модели:  33%|███▎      | 33/100 [19:11<1:09:44, 62.46s/it]

Эпоха 33 /100 - Время: 1151.71 секунд - Точность на обучающей выборке: 0.9783 - Точность на тестовой выборке: 0.7998


Обучение модели:  34%|███▍      | 34/100 [20:13<1:08:25, 62.20s/it]

Эпоха 34 /100 - Время: 1213.31 секунд - Точность на обучающей выборке: 0.9783 - Точность на тестовой выборке: 0.7994


Обучение модели:  35%|███▌      | 35/100 [21:16<1:07:52, 62.65s/it]

Эпоха 35 /100 - Время: 1276.99 секунд - Точность на обучающей выборке: 0.9786 - Точность на тестовой выборке: 0.7995


Обучение модели:  36%|███▌      | 36/100 [22:22<1:07:43, 63.48s/it]

Эпоха 36 /100 - Время: 1342.43 секунд - Точность на обучающей выборке: 0.9785 - Точность на тестовой выборке: 0.7991


Обучение модели:  37%|███▋      | 37/100 [23:44<1:12:27, 69.01s/it]

Эпоха 37 /100 - Время: 1424.35 секунд - Точность на обучающей выборке: 0.9788 - Точность на тестовой выборке: 0.7995


Обучение модели:  38%|███▊      | 38/100 [25:02<1:14:12, 71.81s/it]

Эпоха 38 /100 - Время: 1502.67 секунд - Точность на обучающей выборке: 0.9787 - Точность на тестовой выборке: 0.7998


Обучение модели:  39%|███▉      | 39/100 [26:20<1:14:50, 73.61s/it]

Эпоха 39 /100 - Время: 1580.48 секунд - Точность на обучающей выборке: 0.9789 - Точность на тестовой выборке: 0.7999


Обучение модели:  40%|████      | 40/100 [27:40<1:15:35, 75.59s/it]

Эпоха 40 /100 - Время: 1660.70 секунд - Точность на обучающей выборке: 0.9789 - Точность на тестовой выборке: 0.8001


Обучение модели:  41%|████      | 41/100 [29:02<1:16:10, 77.47s/it]

Эпоха 41 /100 - Время: 1742.56 секунд - Точность на обучающей выборке: 0.9790 - Точность на тестовой выборке: 0.8002


Обучение модели:  42%|████▏     | 42/100 [30:26<1:16:42, 79.36s/it]

Эпоха 42 /100 - Время: 1826.33 секунд - Точность на обучающей выборке: 0.9790 - Точность на тестовой выборке: 0.8004


Обучение модели:  43%|████▎     | 43/100 [31:52<1:17:12, 81.27s/it]

Эпоха 43 /100 - Время: 1912.04 секунд - Точность на обучающей выборке: 0.9791 - Точность на тестовой выборке: 0.8005


Обучение модели:  44%|████▍     | 44/100 [33:20<1:17:57, 83.52s/it]

Эпоха 44 /100 - Время: 2000.82 секунд - Точность на обучающей выборке: 0.9791 - Точность на тестовой выборке: 0.8005


Обучение модели:  45%|████▌     | 45/100 [34:51<1:18:40, 85.82s/it]

Эпоха 45 /100 - Время: 2092.00 секунд - Точность на обучающей выборке: 0.9792 - Точность на тестовой выборке: 0.8005


Обучение модели:  46%|████▌     | 46/100 [36:20<1:18:00, 86.68s/it]

Эпоха 46 /100 - Время: 2180.70 секунд - Точность на обучающей выборке: 0.9792 - Точность на тестовой выборке: 0.8005


Обучение модели:  47%|████▋     | 47/100 [37:58<1:19:24, 89.89s/it]

Эпоха 47 /100 - Время: 2278.07 секунд - Точность на обучающей выборке: 0.9793 - Точность на тестовой выборке: 0.8007


Обучение модели:  48%|████▊     | 48/100 [39:33<1:19:28, 91.69s/it]

Эпоха 48 /100 - Время: 2373.98 секунд - Точность на обучающей выборке: 0.9793 - Точность на тестовой выборке: 0.8008


Обучение модели:  49%|████▉     | 49/100 [41:10<1:19:08, 93.10s/it]

Эпоха 49 /100 - Время: 2470.37 секунд - Точность на обучающей выборке: 0.9794 - Точность на тестовой выборке: 0.8007


Обучение модели:  50%|█████     | 50/100 [42:50<1:19:19, 95.20s/it]

Эпоха 50 /100 - Время: 2570.45 секунд - Точность на обучающей выборке: 0.9794 - Точность на тестовой выборке: 0.8008


Обучение модели:  51%|█████     | 51/100 [44:36<1:20:23, 98.43s/it]

Эпоха 51 /100 - Время: 2676.43 секунд - Точность на обучающей выборке: 0.9795 - Точность на тестовой выборке: 0.8008


Обучение модели:  52%|█████▏    | 52/100 [46:27<1:21:49, 102.28s/it]

Эпоха 52 /100 - Время: 2787.70 секунд - Точность на обучающей выборке: 0.9795 - Точность на тестовой выборке: 0.8007


Обучение модели:  53%|█████▎    | 53/100 [48:20<1:22:35, 105.44s/it]

Эпоха 53 /100 - Время: 2900.50 секунд - Точность на обучающей выборке: 0.9796 - Точность на тестовой выборке: 0.8008


Обучение модели:  54%|█████▍    | 54/100 [50:14<1:22:44, 107.92s/it]

Эпоха 54 /100 - Время: 3014.22 секунд - Точность на обучающей выборке: 0.9796 - Точность на тестовой выборке: 0.8005


Обучение модели:  55%|█████▌    | 55/100 [52:05<1:21:40, 108.89s/it]

Эпоха 55 /100 - Время: 3125.38 секунд - Точность на обучающей выборке: 0.9796 - Точность на тестовой выборке: 0.8010


Обучение модели:  56%|█████▌    | 56/100 [53:59<1:21:04, 110.55s/it]

Эпоха 56 /100 - Время: 3239.78 секунд - Точность на обучающей выборке: 0.9796 - Точность на тестовой выборке: 0.8008


Обучение модели:  57%|█████▋    | 57/100 [56:04<1:22:17, 114.83s/it]

Эпоха 57 /100 - Время: 3364.61 секунд - Точность на обучающей выборке: 0.9797 - Точность на тестовой выборке: 0.8014


Обучение модели:  58%|█████▊    | 58/100 [58:19<1:24:41, 120.99s/it]

Эпоха 58 /100 - Время: 3499.97 секунд - Точность на обучающей выборке: 0.9796 - Точность на тестовой выборке: 0.8012


Обучение модели:  59%|█████▉    | 59/100 [1:00:34<1:25:21, 124.91s/it]

Эпоха 59 /100 - Время: 3634.02 секунд - Точность на обучающей выборке: 0.9797 - Точность на тестовой выборке: 0.8013


Обучение модели:  60%|██████    | 60/100 [1:02:41<1:23:48, 125.70s/it]

Эпоха 60 /100 - Время: 3761.58 секунд - Точность на обучающей выборке: 0.9797 - Точность на тестовой выборке: 0.8012


Обучение модели:  61%|██████    | 61/100 [1:04:48<1:21:55, 126.05s/it]

Эпоха 61 /100 - Время: 3888.44 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8017


Обучение модели:  62%|██████▏   | 62/100 [1:07:02<1:21:17, 128.37s/it]

Эпоха 62 /100 - Время: 4022.21 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8012


Обучение модели:  63%|██████▎   | 63/100 [1:09:12<1:19:29, 128.91s/it]

Эпоха 63 /100 - Время: 4152.38 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8012


Обучение модели:  64%|██████▍   | 64/100 [1:11:33<1:19:28, 132.46s/it]

Эпоха 64 /100 - Время: 4293.12 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8008


Обучение модели:  65%|██████▌   | 65/100 [1:13:56<1:19:15, 135.86s/it]

Эпоха 65 /100 - Время: 4436.93 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8009


Обучение модели:  66%|██████▌   | 66/100 [1:16:13<1:17:03, 135.98s/it]

Эпоха 66 /100 - Время: 4573.18 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8011


Обучение модели:  67%|██████▋   | 67/100 [1:18:37<1:16:07, 138.40s/it]

Эпоха 67 /100 - Время: 4717.21 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8011


Обучение модели:  68%|██████▊   | 68/100 [1:21:09<1:15:59, 142.47s/it]

Эпоха 68 /100 - Время: 4869.19 секунд - Точность на обучающей выборке: 0.9798 - Точность на тестовой выборке: 0.8013


Обучение модели:  69%|██████▉   | 69/100 [1:23:32<1:13:44, 142.72s/it]

Эпоха 69 /100 - Время: 5012.49 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8011


Обучение модели:  70%|███████   | 70/100 [1:25:54<1:11:12, 142.41s/it]

Эпоха 70 /100 - Время: 5154.17 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8013


Обучение модели:  71%|███████   | 71/100 [1:28:23<1:09:52, 144.56s/it]

Эпоха 71 /100 - Время: 5303.74 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8013


Обучение модели:  72%|███████▏  | 72/100 [1:30:59<1:09:03, 148.00s/it]

Эпоха 72 /100 - Время: 5459.77 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8014


Обучение модели:  73%|███████▎  | 73/100 [1:33:22<1:05:52, 146.39s/it]

Эпоха 73 /100 - Время: 5602.40 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8016


Обучение модели:  74%|███████▍  | 74/100 [1:35:43<1:02:43, 144.74s/it]

Эпоха 74 /100 - Время: 5743.30 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8018


Обучение модели:  75%|███████▌  | 75/100 [1:38:05<1:00:00, 144.03s/it]

Эпоха 75 /100 - Время: 5885.66 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8018


Обучение модели:  76%|███████▌  | 76/100 [1:40:29<57:38, 144.10s/it]  

Эпоха 76 /100 - Время: 6029.94 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8018


Обучение модели:  77%|███████▋  | 77/100 [1:42:55<55:24, 144.54s/it]

Эпоха 77 /100 - Время: 6175.52 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8019


Обучение модели:  78%|███████▊  | 78/100 [1:45:24<53:26, 145.76s/it]

Эпоха 78 /100 - Время: 6324.12 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8019


Обучение модели:  79%|███████▉  | 79/100 [1:47:54<51:27, 147.04s/it]

Эпоха 79 /100 - Время: 6474.13 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8020


Обучение модели:  80%|████████  | 80/100 [1:50:26<49:32, 148.61s/it]

Эпоха 80 /100 - Время: 6626.42 секунд - Точность на обучающей выборке: 0.9799 - Точность на тестовой выборке: 0.8017


Обучение модели:  81%|████████  | 81/100 [1:53:01<47:38, 150.44s/it]

Эпоха 81 /100 - Время: 6781.11 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8017


Обучение модели:  82%|████████▏ | 82/100 [1:55:39<45:52, 152.92s/it]

Эпоха 82 /100 - Время: 6939.82 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8018


Обучение модели:  83%|████████▎ | 83/100 [1:58:22<44:11, 155.95s/it]

Эпоха 83 /100 - Время: 7102.86 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8020


Обучение модели:  84%|████████▍ | 84/100 [2:01:05<42:06, 157.90s/it]

Эпоха 84 /100 - Время: 7265.29 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8021


Обучение модели:  85%|████████▌ | 85/100 [2:03:49<39:56, 159.74s/it]

Эпоха 85 /100 - Время: 7429.33 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8021


Обучение модели:  86%|████████▌ | 86/100 [2:06:35<37:42, 161.62s/it]

Эпоха 86 /100 - Время: 7595.34 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели:  87%|████████▋ | 87/100 [2:09:23<35:24, 163.44s/it]

Эпоха 87 /100 - Время: 7763.01 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8022


Обучение модели:  88%|████████▊ | 88/100 [2:12:13<33:05, 165.45s/it]

Эпоха 88 /100 - Время: 7933.17 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8022


Обучение модели:  89%|████████▉ | 89/100 [2:15:04<30:40, 167.35s/it]

Эпоха 89 /100 - Время: 8104.95 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели:  90%|█████████ | 90/100 [2:17:59<28:14, 169.44s/it]

Эпоха 90 /100 - Время: 8279.28 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели:  91%|█████████ | 91/100 [2:20:54<25:40, 171.21s/it]

Эпоха 91 /100 - Время: 8454.60 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8024


Обучение модели:  92%|█████████▏| 92/100 [2:23:52<23:05, 173.23s/it]

Эпоха 92 /100 - Время: 8632.56 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели:  93%|█████████▎| 93/100 [2:26:52<20:25, 175.12s/it]

Эпоха 93 /100 - Время: 8812.08 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8024


Обучение модели:  94%|█████████▍| 94/100 [2:29:53<17:42, 177.11s/it]

Эпоха 94 /100 - Время: 8993.82 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8025


Обучение модели:  95%|█████████▌| 95/100 [2:32:57<14:55, 179.13s/it]

Эпоха 95 /100 - Время: 9177.67 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели:  96%|█████████▌| 96/100 [2:36:03<12:04, 181.12s/it]

Эпоха 96 /100 - Время: 9363.43 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8024


Обучение модели:  97%|█████████▋| 97/100 [2:39:11<09:09, 183.16s/it]

Эпоха 97 /100 - Время: 9551.35 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели:  98%|█████████▊| 98/100 [2:42:20<06:10, 185.02s/it]

Эпоха 98 /100 - Время: 9740.72 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели:  99%|█████████▉| 99/100 [2:45:33<03:07, 187.22s/it]

Эпоха 99 /100 - Время: 9933.06 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023


Обучение модели: 100%|██████████| 100/100 [2:48:46<00:00, 101.27s/it]

Эпоха 100/100 - Время: 10126.52 секунд - Точность на обучающей выборке: 0.9800 - Точность на тестовой выборке: 0.8023





In [94]:
# Построим графики
plt.figure(figsize=(15, 10))

# График 1: Обучающая и тестовая точность
plt.subplot(3, 1, 1)
plt.plot(range(1, 101), train_accuracies, label='Обучающая точность', color='blue')
plt.plot(range(1, 101), test_accuracies, label='Тестовая точность', color='orange')
plt.xlim(1, 100)
plt.ylim(0, 1)
plt.xlabel('Количество деревьев')
plt.ylabel('Точность')
plt.title('Точность модели в зависимости от количества деревьев')
plt.legend()
plt.grid()

# График 2: Время обучения
plt.subplot(3, 1, 2)
plt.plot(range(1, 101), training_times, label='Время обучения (сек)', color='green')
plt.xlim(1, 100)
plt.xlabel('Количество деревьев')
plt.ylabel('Время (сек)')
plt.title('Время обучения модели в зависимости от количества деревьев')
plt.legend()
plt.grid()

# График 3: Разница между обучающей и тестовой точностью
plt.subplot(3, 1, 3)
plt.plot(range(1, 101), np.array(train_accuracies) - np.array(test_accuracies), label='Разница точности', color='red')
plt.xlim(1, 100)
plt.xlabel('Количество деревьев')
plt.ylabel('Разница точности')
plt.title('Разница между обучающей и тестовой точностью')
plt.axhline(0, color='black', lw=0.5, ls='--')
plt.legend()
plt.grid()

plt.tight_layout()
plt.show()

print("Обучение завершено!")

<IPython.core.display.Javascript object>

Обучение завершено!
