## Random forest

`Random forest` allows us to train a large number of independent `trees` and then makes a decision based on `voting`.
`Random forest` help to improve the prediction result and avoid overfitting


`RandomForestClassifier` has the following functions:
* `fit(X, y)` - train the model on provided dataset. X - feature matrix, y - target vector;
* `predict(X)` - predict the class labels for the provided data;
* `score(X,y)` - returns mean accuracy on the given test data and labels. A quick way to evaluate performance;
* `predict_proba(X)` - returns the probability estimates for the test data;
* `feature_importance` - returns the importance of each feature;
* `n_estimators` - specifies the number of trees in the forest;
* `max_depth` - depth of trees;
*  `min_sample_split` and `min_sample_leef` - min number of samples to split an internal node and min number of samples to be at a leaf node

`RandomForestClassifier` has the following hyperparameters:
* `n_estimators` - the number of trees
* `max_depth` - tree depth
* `max_features` - the number of features to consider when looking for the best split


#### Обучите модели случайного леса с числом деревьев от 1 до 10.

In [65]:
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
from sklearn.model_selection import train_test_split


df = pd.read_csv(r'C:\Users\Alex\Desktop\5\02 Первая обученная модель\train_data.csv')
df.loc[df['last_price'] > 5650000, 'price_class'] = 1
df.loc[df['last_price'] <= 5650000, 'price_class'] = 0

df_train, df_valid = train_test_split(df, test_size=0.25, random_state=12345)
features_train = df_train.drop(['last_price', 'price_class'], axis=1)
target_train = df_train['price_class']
features_valid = df_valid.drop(['last_price', 'price_class'], axis=1)
target_valid = df_valid['price_class']

best_model = None
best_result = 0
results = []
for est in range(1, 11):
    model = RandomForestClassifier(random_state=12345, n_estimators=est)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    result = model.score(features_valid, target_valid)
    results.append(result)
    if result > best_result:
        best_model = model
        best_result = result
print("Accuracy наилучшей модели на валидационной выборке:", best_result)
print(results)


Accuracy наилучшей модели на валидационной выборке: 0.8873152709359606
[0.8429802955665024, 0.8552955665024631, 0.8700738916256158, 0.8737684729064039, 0.8805418719211823, 0.8817733990147784, 0.8799261083743842, 0.8873152709359606, 0.8836206896551724, 0.8866995073891626]


## Логистическая регрессия

Целевой признак (ответ) бывает категориальным и количественным. Если он категориальный, то решается задача классификации; если количественный — регрессии.

Если сделать гиперпараметр `n_estimators` больше, модель начнёт разрастаться и медленно обучаться. Это плохо. Мало деревьев и результаты не лучше — тоже неудачно. Сколько можно быть зависимым от деревьев? Попробуем ещё один алгоритм — логистическую регрессию.

Model `LogisticRegression` can be imported from `sklearn.liner_model`

`from sklearn.linear_model import LogisticRegression`

`LogisticRegresion` has the following functions:
* `fit(X, y)` - train the model on provided dataset. X - feature matrix, y - target vector;
* `predict(X)` - predict the class labels for the provided data;
* `score(X,y)` - returns mean accuracy on the given test data and labels. A quick way to evaluate performance;
* `predict_proba(X)` - returns the probability estimates for the test data;
* `coef_` -  coefficients of the features in the decision function. It shows the weight assigned to each feature in the model
* `intercept_` provides the intercept (bias) added to the decision function. It represents the constant term in the logistic regression equation.
* `C` specifies the inverse of the regularization strength. It can be adjusted during the model initialization to control the impact of the regularization.
* `penalty` Specifies the norm used in the penalization. It can be set to `'l1'`, `'l2'`, `'elasticnet'`, or `None`.
* `solver`: This parameter specifies the algorithm to use in the optimization problem. Options include `'newton-cg'`, `'lbfgs'`, `'liblinear'`, `'sag'`, `'saga'`,`'newton-cholesky'`


`RandomForestClassifier` has the following hyperparameters:
* `n_estimators` - the number of trees
* `max_depth` - tree depth
* `max_features` - the number of features to consider when looking for the best split

`LogisticRegresion` has the following hyperparmeters:
* `C` Inverse of regularization strength; must be a positive float.
* `penalty` Used to specify the norm used in the penalization.
* `solver` Algorithm to use in the optimization problem.

#### Work

Обучите модель логистической регрессии и загрузите её в тренажёр. Гиперпараметры логистической регрессии настраивать не нужно. Просто обучите и загрузите её.

In [66]:
import pandas as pd
from joblib import dump
from sklearn.linear_model import LogisticRegression

df = pd.read_csv(r'C:\Users\Alex\Desktop\5\02 Первая обученная модель\train_data.csv')
df.loc[df['last_price'] > 5650000, 'price_class'] = 1
df.loc[df['last_price'] <= 5650000, 'price_class'] = 0

df_train, df_valid = train_test_split(df, test_size=0.25, random_state=333)
features_train = df_train.drop(['last_price', 'price_class'], axis=1)
target_train = df_train['price_class']
features_valid = df_valid.drop(['last_price', 'price_class'], axis=1)
target_valid = df_valid['price_class']

model = LogisticRegression(random_state=333, solver='lbfgs', max_iter=10000)
model.fit(features_train, target_train)
model.predict(features_valid)
model.score(features_valid, target_valid)
dump(model,'model_9_1.joblib')

print(model.score(features_valid, target_valid))

0.8928571428571429


| **Algorithm** | **Quality (Качество)** | **Speed (Скорость)** |
|:-------------:|:---------------------:|:-------------------:|
| Decision Tree (Решающее дерево) | Low (Низкое) | High (Высокая) |
| Random Forest (Случайный лес) | High (Высокое) | Low (Низкая) |
| Logistic Regression (Логистическая регрессия) | Medium (Среднее) | High (Высокая) |

#### Work 1

Наиболее распространённая метрика качества в задаче регрессии — средняя квадратичная ошибка, `MSE` (от англ. Mean Squared Error).

In [67]:
import pandas as pd

data = {
    'country': ['Бразилия', 'Перу', 'Мексика', 'Колумбия'],
    'prediction': [623, 253, 150, 237],
    'real': [649, 253, 370, 148]
}

df = pd.DataFrame(data)

squared_errors = (df['real'] - df['prediction'])**2

mse = squared_errors.mean()
print(mse)
print(squared_errors)


14249.25
0      676
1        0
2    48400
3     7921
dtype: int64


If we want `accuracy` as close to 1 as possible. We want `MSE` as low as possible

#### Work 2

In [68]:
import numpy as np
from sklearn.metrics import mean_squared_error


def mse(answers, predictions):
    return np.mean(
        (np.array(answers) - np.array(predictions))
        ** 2)


def mse_sk(answers, predictions):
    return mean_squared_error(answers, predictions)


answers = [623, 253, 150, 237]
predictions = [649, 253, 370, 148]
print(mse(answers, predictions))
print(mse_sk(answers, predictions))

14249.25
14249.25


#### Work 3

In [88]:
import pandas as pd
from sklearn.metrics import mean_squared_error
# from sklearn.linear_model import LogisticRegression

df = pd.read_csv(r'C:\Users\Alex\Desktop\5\05 Переходим к регрессии/train_data.csv')

features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000
predictions = pd.Series(target.mean(), index=target.index)

print(target.mean())
mse = mean_squared_error(predictions, target)
print(mse)

rmse = mse**0.5
print(rmse)
# df.loc[df['last_price'] > 5650000, 'price_class'] = 1
# df.loc[df['last_price'] <= 5650000, 'price_class'] = 0
#
# df_train, df_valid = train_test_split(df,test_size=0.25, random_state=333)
#
# features_train = df_train.drop(['last_price', 'price_class'], axis=1)
# target_train = df_train['last_price']
# features_valid = df_valid.drop(['last_price', 'price_class'], axis=1)
# target_valid = df_valid['last_price']
#
# model = LogisticRegression(random_state=333, max_iter=10000)
# model.fit(features_train, target_train)
# pred_valid = model.predict(features_valid)

# print((df['last_price']/1000000).mean())
#
# mse = mean_squared_error(target_valid, pred_valid.values)
#
# print(mse)

8.05028371377983
138.24439686023302
11.757737744151


## Decision tree in regression

In [14]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv(r'E:\COURSES\Кодинг\[Yandex praxis]. DS specialist + (2022)\5\05 Переходим к регрессии/train_data.csv')
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000

features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345) # отделите 25% данных для валидационной выборки

best_model = None
best_result = 10000
best_depth = 0
for depth in range(1, 6):
    model = DecisionTreeRegressor(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    result = mean_squared_error(predictions_valid, target_valid.to_numpy())**0.5
    if result < best_result:
        best_model = model
        best_result = result
        best_depth = depth
#
print("RMSE наилучшей модели на валидационной выборке:", best_result, "Глубина дерева:", best_depth)

RMSE наилучшей модели на валидационной выборке: 6.541293218939626 Глубина дерева: 5


## Random forest in regression

In [19]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv(r'E:\COURSES\Кодинг\[Yandex praxis]. DS specialist + (2022)\5\05 Переходим к регрессии/train_data.csv')
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)

best_model = None
best_result = 10000
best_est = 0
best_depth = 0

for est in range(10, 51, 1):
    for depth in range (1, 11):
        model = RandomForestRegressor(random_state=12345, max_depth=depth, n_estimators=est)
        model.fit(features_train, target_train)
        predictions_valid = model.predict(features_valid) # получите предсказания модели на валидационной выборке
        result = mean_squared_error(predictions_valid, target_valid.to_numpy())**0.5
        if result < best_result:
            best_model = model
            best_result = result
            best_est = est
            best_depth = depth
print("RMSE наилучшей модели на валидационной выборке:", best_result, "Количество деревьев:", best_est, "Максимальная глубина:", depth)

RMSE наилучшей модели на валидационной выборке: 6.95363630948124 Количество деревьев: 32 Максимальная глубина: 10


## Linear regression

Из-за малого количества параметров линейная регрессия менее склонна к переобучению, чем, например, деревья решений.

In [33]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv(r'E:\COURSES\Кодинг\[Yandex praxis]. DS specialist + (2022)\5\05 Переходим к регрессии/train_data.csv')
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)

model = LinearRegression()
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)
result = mean_squared_error(predictions_valid, target_valid.to_numpy())**0.5

print("RMSE модели линейной регрессии на валидационной выборке:", result)

RMSE модели линейной регрессии на валидационной выборке: 7.7260066970083665


# Choosing the best model

Вы обучили дерево решений, случайный лес и линейную регрессию. Какая модель лучше?
Чтобы найти модель с наименьшей ошибкой:
Рассмотрите наилучшие модели, получившиеся в предыдущих заданиях.
Для каждой модели запишите параметры и значения RMSE на валидационной выборке.
Опираясь на значения RMSE, выберите наилучшую модель. Напомним, от вас скрыты данные, которые служат для тестирования качества модели. Поэтому не все модели пройдут: значения метрики на валидационной и тестовой выборке могут сильно отличаться.
На основе выбранной модели замените пропуски в шаблоне кода. Нажмите «Проверить».


In [34]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv(r'E:\COURSES\Кодинг\[Yandex praxis]. DS specialist + (2022)\5\05 Переходим к регрессии/train_data.csv')
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345) # отделите 25% данных для валидационной выборки
model = RandomForestRegressor(random_state=12345, max_depth=10, n_estimators=32)
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid) # получите предсказания модели на валидационной выборке
result = mean_squared_error(predictions_valid, target_valid.to_numpy())**0.5
print("RMSE наилучшей модели на валидационной выборке:", result)

RMSE наилучшей модели на валидационной выборке: 6.964787180837203
