In [4]:
import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression

In [11]:
df = pd.read_csv("train_data.csv")

In [12]:
df.loc[df['last_price'] > 5650000, 'price_class'] = 1
df.loc[df['last_price'] <= 5650000, 'price_class'] = 0

# Деление на две выборки

Валидационная выборка — это 25% исходных данных. Как её извлечь?
В sklearn для этого предусмотрена функция train_test_split Прежде чем разделить набор данных, нужно указать два параметра:
Название набора, данные которого делим;
Размер валидационной выборки (test_size). Выражается в долях — от 0 до 1. В нашем примере test_size=0.25, поскольку работаем с 25% исходных данных.

In [13]:
df_train, df_valid = train_test_split(df, test_size=0.25, random_state=12345) #разбили на две выборки

In [14]:
features_valid = df_valid.drop(["last_price","price_class"], axis = 1)
target_valid = df_valid["price_class"]

In [15]:
features_train = df_train.drop(['last_price', 'price_class'], axis=1)
target_train = df_train["price_class"]

In [16]:
features_train.shape

(4871, 13)

In [17]:
target_train.shape

(4871,)

In [18]:
features_valid.shape

(1624, 13)

In [20]:
target_valid.shape

(1624,)

# Гиперпараметры
Помимо обычных параметров, есть ещё гиперпараметры, настройки алгоритмов обучения. В решающем дереве, например, это максимальная глубина или выбор критерия — Джини либо энтропийного. Гиперпараметры помогают улучшить модель

min_samples_split -  Этот гиперпараметр запрещает создавать узлы, в которые попадает слишком мало объектов обучающей выборки.
min_samples_leaf - Листья — это нижние узлы с ответами. А гиперпараметр не разрешает создавать лист, в котором слишком мало объектов обучающей выборки. Значения гиперпараметров установлены по умолчанию, вы можете их не прописывать или, наоборот, поменять все.

In [36]:
for i in range(1,6):
    model = DecisionTreeClassifier(max_depth=i, random_state=12345)
    model.fit(features_train, target_train) #обучаем по обучаемым данным
    prediction_valid = model.predict(features_valid)
    accuracy = accuracy_score(target_valid, prediction_valid)
    print(f"max_depth = {i}: {accuracy}")
    

max_depth = 1: 0.8522167487684729
max_depth = 2: 0.8522167487684729
max_depth = 3: 0.8466748768472906
max_depth = 4: 0.8725369458128078
max_depth = 5: 0.8663793103448276


# Случайный лес 
Алгоритм обучает большое количество независимых друг от друга деревьев, а потом принимает решение на основе голосования. Случайный лес помогает улучшить результат предсказания и избежать переобучения.Никогда не задумывались, почему в жюри всегда несколько человек? Чтобы итоговая оценка выступающего была средней. Так сглаживаются личные предпочтения и ошибки. Случайный лес работает так же.Как его обучить? В библиотеке sklearn алгоритм случайного леса RandomForestClassifier 

In [None]:
model = RandomForestClassifier(random_state=12345, n_estimators = 3) # n_estimators - количество деревьев

In [41]:
best_result = 0
best_modul = None
for i in range(1,11):   
    model = RandomForestClassifier(random_state=12345, n_estimators = i)
    model.fit(features_train,target_train)
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_modul = model 
        best_result = result
    
print(f"Accuracy наилучшей модели на валидационной выборке: {best_modul} {best_result}")

Accuracy наилучшей модели на валидационной выборке: RandomForestClassifier(n_estimators=8, random_state=12345) 0.8873152709359606


# Логистическая регрессия
Модель LogisticRegression (англ. «логистическая регрессия») лежит в модуле sklearn.linear_model

In [44]:
best_result = 0
best_modul = None
for i in range(1,11):   
    model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
    model.fit(features_train,target_train)
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_modul = model 
        best_result = result
    
print(f"Accuracy наилучшей модели на валидационной выборке: {best_modul} {best_result}")

Accuracy наилучшей модели на валидационной выборке: LogisticRegression(max_iter=1000, random_state=12345) 0.8780788177339901


In [5]:
best_result =  0
best_modul = None
for i in range(1,11):   
    model =  DecisionTreeClassifier(random_state=12345, max_depth=i)
    model.fit(features_train,target_train)
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_modul = model 
        best_result = result
    
print(f"Accuracy наилучшей модели на валидационной выборке: {best_modul} {best_result}")

NameError: name 'features_train' is not defined