# Работа неряльная

## Импорты для работы

<ul>

<ul>
<li>pandas: Библиотека для работы с данными в формате таблиц (DataFrame).
</li>
<li>numpy: Библиотека для работы с массивами и математическими операциями.
</li>
<li>OrdinalEncoder: Преобразует категориальные признаки в числовые, присваивая каждой категории уникальное целое число.</li>
<li>PolynomialFeatures: Генерирует полиномиальные и взаимодействующие признаки из существующих признаков.</li>
<li>KFold: Метод кросс-валидации, который разбивает данные на K блоков (фолдов) и использует каждый блок по очереди как тестовый набор.</li>
<li>DecisionTreeRegressor: Регрессионное дерево решений.

</li>
<li>RandomForestRegressor: Ансамбль регрессионных деревьев (случайный лес).
</li>
<li>LinearRegression: Линейная регрессия.

</li>
<li>KNeighborsRegressor: Регрессия на основе метода k-ближайших соседей.

</li>
<li>max_error: Максимальная ошибка предсказания.

</li>
<li>mean_absolute_error: Средняя абсолютная ошибка.

</li>
<li>mean_squared_error: Среднеквадратичная ошибка.

</li>
<li>r2_score: Коэффициент детерминации (R²).

</li>

</ul>

In [44]:
import pandas as pd
import numpy as np 

from sklearn.preprocessing import OrdinalEncoder, PolynomialFeatures
from sklearn.model_selection import KFold

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression 
from sklearn.neighbors import KNeighborsRegressor

from sklearn.metrics import max_error, mean_absolute_error, mean_squared_error, r2_score

# Работа с датасетом

Записываем данные из датасета в переменную, далее, работа будет происходить с переменной df

In [45]:
df = pd.read_csv("piracydataset.csv")
df


Unnamed: 0.1,Unnamed: 0,age,discordid,minecraftid,client,version
0,0,14.0,ProGamer300#3331,ProGamer300,Computer ( Java Edition ),Cracked
1,1,19.0,@shrey#4934,shrey_jain_,Computer ( Java Edition ),Cracked
2,2,18.0,Skullfaced#8657,Skullfaceddeath,Computer ( Java Edition ),Paid Version
3,3,17.0,Op DzGhOsT#8719,DzGHoST1737,Computer ( Java Edition ),Cracked
4,4,15.0,Dwijesh#6020,Dwijesh YT,Mobile ( bedrock version ),Paid Version
...,...,...,...,...,...,...
1418,1418,17.0,Savager,Asmitraj11,Computer ( Java Edition ),Cracked
1419,1419,15.0,( @KAMALTHESUPERBOY #6357),kamal1112,Computer ( Java Edition ),Cracked
1420,1420,17.0,ATHARVA#9034,SPIDEY_2,Computer ( Java Edition ),Cracked
1421,1421,15.0,GOD_RANVEER#3462,GOD_RANVEER,Computer ( Java Edition ),Cracked


<ul>
    <li><code>df.drop()</code> - убирает лишние столбцы, они нам не понадобятся</li>
    <li><code>df.dropna()</code> - убираются нулевые значения</li>
    <li><code>Oenc = OrdinalEncoder</code> - добавляет кодировщик</li>
    <li><code>df[['client', 'version']] = OEnc.fit_transform(df[['client', 'version']])</code> - кодирование столбцов <b>version</b> и <b>client</b> в 0 и 1, чтобы избавиться от Object</li>
</ul>

In [46]:
df.drop(['discordid', 'minecraftid'], axis=1, inplace=True)
df.dropna(inplace=True)
OEnc = OrdinalEncoder()
df[['client', 'version']] = OEnc.fit_transform(df[['client', 'version']])
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1422 entries, 0 to 1422
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  1422 non-null   int64  
 1   age         1422 non-null   float64
 2   client      1422 non-null   float64
 3   version     1422 non-null   float64
dtypes: float64(3), int64(1)
memory usage: 55.5 KB


задаём переменные X и Y, добавляя в них данные из датасета

In [47]:
X = df[['age', 'client', 'version']]
Y = df['age']



kf: Используется для кросс-валидации, чтобы оценить производительность моделей.

dtr, rtr, lr, kn: Это разные модели регрессии, которые будут использоваться для предсказания целевой переменной.

pf: Преобразователь, который добавляет полиномиальные признаки.

plr: Линейная регрессия, которая будет использоваться после преобразования признаков с помощью pf.

In [48]:
kf = KFold(n_splits=5,shuffle=True,random_state=32)
dtr = DecisionTreeRegressor()
rtr= RandomForestRegressor()
lr = LinearRegression()
kn = KNeighborsRegressor()

pf = PolynomialFeatures()
plr = LinearRegression()

In [49]:


for train_index, test_index in kf.split(df):
    X_train = X.iloc[train_index]
    Y_train = Y.iloc[train_index]
    X_test = X.iloc[test_index]
    Y_test = Y.iloc[test_index]

    print('train')
    dtr.fit(X_train, Y_train)
    rtr.fit(X_train, Y_train)
    lr.fit(X_train, Y_train)
    kn.fit(X_train, Y_train)

    X_train_poly = pf.fit_transform(X_train)
    plr.fit(X_train_poly, Y_train)

    print('predict')
    Y_pred_dtr = dtr.predict(X_test)
    Y_pred_rtr = rtr.predict(X_test)
    Y_pred_lr = lr.predict(X_test)
    Y_pred_kn = kn.predict(X_test)

    X_test_poly = pf.fit_transform(X_test)
    Y_test_plr = plr.predict(X_test_poly)

    print('--'*35)
    print(f'dtr max_error: {max_error(Y_test, Y_pred_dtr)}')
    print(f'dtr mean_absolute_error: {mean_absolute_error(Y_test, Y_pred_dtr)}')
    print(f'dtr mean_squared_error: {mean_squared_error(Y_test, Y_pred_dtr)}')
    print(f'dtr root_mean_squared_error: {np.sqrt(mean_squared_error(Y_test, Y_pred_dtr))}')
    print(f'dtr r2_score: {r2_score(Y_test, Y_pred_dtr)}')
    print()

    print(f'rtr max_error: {max_error(Y_test, Y_pred_rtr)}')
    print(f'rtr mean_absolute_error: {mean_absolute_error(Y_test, Y_pred_rtr)}')
    print(f'rtr mean_squared_error: {mean_squared_error(Y_test, Y_pred_rtr)}')
    print(f'rtr root_mean_squared_error: {np.sqrt(mean_squared_error(Y_test, Y_pred_rtr))}')
    print(f'rtr r2_score: {r2_score(Y_test, Y_pred_rtr)}')
    print()

    print(f'lr max_error: {max_error(Y_test, Y_pred_lr)}')
    print(f'lr mean_absolute_error: {mean_absolute_error(Y_test, Y_pred_lr)}')
    print(f'lr mean_squared_error: {mean_squared_error(Y_test, Y_pred_lr)}')
    print(f'lr root_mean_squared_error: {np.sqrt(mean_squared_error(Y_test, Y_pred_lr))}')
    print(f'lr r2_score: {r2_score(Y_test, Y_pred_lr)}')
    print()

    print(f'kn max_error: {max_error(Y_test, Y_pred_kn)}')
    print(f'kn mean_absolute_error: {mean_absolute_error(Y_test, Y_pred_kn)}')
    print(f'kn mean_squared_error: {mean_squared_error(Y_test, Y_pred_kn)}')
    print(f'kn root_mean_squared_error: {np.sqrt(mean_squared_error(Y_test, Y_pred_kn))}')
    print(f'kn r2_score: {r2_score(Y_test, Y_pred_kn)}')
    print()

train
predict
----------------------------------------------------------------------
dtr max_error: 2.0
dtr mean_absolute_error: 0.007017543859649123
dtr mean_squared_error: 0.014035087719298246
dtr root_mean_squared_error: 0.11846977555181848
dtr r2_score: 0.9991100883198312

rtr max_error: 1.42
rtr mean_absolute_error: 0.00796491228070176
rtr mean_squared_error: 0.008589824561403513
rtr root_mean_squared_error: 0.09268130642909342
rtr r2_score: 0.9994553518039446

lr max_error: 7.105427357601002e-15
lr mean_absolute_error: 7.83778500191514e-16
lr mean_squared_error: 3.46337616722032e-30
lr root_mean_squared_error: 1.861014821870132e-15
lr r2_score: 1.0

kn max_error: 1.8000000000000007
kn mean_absolute_error: 0.025263157894736835
kn mean_squared_error: 0.02385964912280702
kn root_mean_squared_error: 0.1544656891442466
kn r2_score: 0.9984871501437129

train
predict
----------------------------------------------------------------------
dtr max_error: 8.0
dtr mean_absolute_error: 0.0456

### Описание результатов
<ul> <code>Decision Tree Regressor (DTR):</code> <li> <b> Средняя абсолютная ошибка (MAE): </b> Варьируется от 0.0035 до 0.0456.</li> <li> <b> Среднеквадратичная ошибка (MSE): </b> Варьируется от 0.0035 до 0.2632.</li> <li> <b> Корень из среднеквадратичной ошибки (RMSE): </b> Варьируется от 0.0593 до 0.5130.</li> <li> <b> Коэффициент детерминации (R²):</b> Высокий, варьируется от 0.9991 до 0.9997.</li> <li> <b> Максимальная ошибка (max_error):</b> В некоторых случаях значительно превышает другие модели (например, 8.0 или 1.0).</li> </ul><ul> <code>Random Forest Regressor (RTR):</code> <li> <b> Средняя абсолютная ошибка (MAE): </b> Варьируется от 0.0017 до 0.0257.</li> <li> <b> Среднеквадратичная ошибка (MSE): </b> Варьируется от 0.0004 до 0.0439.</li> <li> <b> Корень из среднеквадратичной ошибки (RMSE): </b> Варьируется от 0.0201 до 0.2096.</li> <li> <b> Коэффициент детерминации (R²):</b> Высокий, варьируется от 0.9994 до 0.9999.</li> <li> <b> Максимальная ошибка (max_error):</b> Стабильнее, чем у Decision Tree Regressor, варьируется от 0.28 до 2.25.</li> </ul><ul> <code>Linear Regression (LR):</code> <li> <b> Средняя абсолютная ошибка (MAE): </b> Очень низкий, варьируется от 6.59e-15 до 8.63e-15.</li> <li> <b> Среднеквадратичная ошибка (MSE): </b> Очень низкий, варьируется от 1.38e-28 до 3.46e-30.</li> <li> <b> Корень из среднеквадратичной ошибки (RMSE): </b> Очень низкий, варьируется от 1.17e-14 до 1.86e-15.</li> <li> <b> Коэффициент детерминации (R²):</b> Очень высокий, равен 1.0 во всех случаях.</li> <li> <b> Максимальная ошибка (max_error):</b> Очень низкий, варьируется от 7.11e-14 до 7.82e-14.</li> </ul><ul> <code>K-Nearest Neighbors (KNN):</code> <li> <b> Средняя абсолютная ошибка (MAE): </b> Варьируется от 0.0134 до 0.0746.</li> <li> <b> Среднеквадратичная ошибка (MSE): </b> Варьируется от 0.0145 до 0.3865.</li> <li> <b> Корень из среднеквадратичной ошибки (RMSE): </b> Варьируется от 0.1204 до 0.6217.</li> <li> <b> Коэффициент детерминации (R²):</b> Высокий, варьируется от 0.9754 до 0.9988.</li> <li> <b> Максимальная ошибка (max_error):</b> В некоторых случаях значительно превышает другие модели (например, 7.0 или 3.0).</li> </ul>

### Вывод:
<ul>
<li> <b> Наилучшая модель: </b> <code>Linear Regression (LR).</code> Она демонстрирует идеальное качество прогноза при нулевых значениях ошибок (MAE, MSE, RMSE) и высокой стабильности (R² = 1.0). Это делает линейную регрессию наиболее подходящей для данной задачи. </li>

<li><b><code>Random Forest Regressor (RTR)</code></b> также показала очень хорошую производительность с высокими значениями R² и низкими ошибками. Она может быть альтернативой, если требуется более сложная модель.</li>

<li><b><code>Decision Tree Regressor (DTR)</code></b> имеет высокие значения max_error, что говорит о меньшей стабильности модели. Однако, в целом, её показатели также достаточно хороши.</li>

<li><b><code>K-Nearest Neighbors (KNN)</code></b> не подходит для данной задачи из-за высоких ошибок и низкого значения R² по сравнению с другими моделями.</li>
</ul>
Рекомендация:
Для данной задачи рекомендуется использовать Linear Regression (LR) из-за её идеальной производительности и низких ошибок. Если требуется более сложная модель, можно рассмотреть Random Forest Regressor (RTR), которая также показала очень хорошие результаты.