In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, mean_absolute_error
from sklearn.model_selection import train_test_split

import warnings

warnings.filterwarnings("ignore")

## Number 8

**Описание**

Используем два метода: логистическая регрессия и случайный лес (для разнообразия вариантов выполнения задания).


LabelEncoder используется, чтобы преобразовать метки классов (A, B, C ...) в числа, чтобы модель могла работать с ними.


StandardScaler не обязателен к использованию, можно убрать при желании.

### Загрузка данных

In [2]:
df_train = pd.read_csv('train_8.csv')
test = pd.read_csv('test_8.csv')
df_train.head()

Unnamed: 0,x1,x2,x3,f
0,0.455058,0.146759,2.426221,D
1,0.403961,1.402071,2.891587,B
2,0.351298,0.095268,2.26343,C
3,0.664298,0.600407,0.670098,A
4,0.463471,1.633033,1.037303,D


### Оценка качества моделей на валидационной выборке

In [3]:
encoder = LabelEncoder()
X_train, y_train = df_train.drop(columns=['f']), pd.DataFrame(encoder.fit_transform(df_train['f']), columns=['f'])
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train)

In [4]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train, y_train)

In [5]:
linear_model = LogisticRegression()
linear_model.fit(X_train, y_train.values.ravel())
predict = linear_model.predict(scaler.transform(X_val))

In [6]:
print('Accuracy linear model on validation data =', accuracy_score(encoder.inverse_transform(y_val), encoder.inverse_transform(predict)))

Accuracy linear model on validation data = 0.9466666666666667


In [7]:
random_fores_classifier = RandomForestClassifier()
random_fores_classifier.fit(X_train, y_train)
predict = random_fores_classifier.predict(scaler.transform(X_val))

In [8]:
print('Accuracy RFC model on validation data =', accuracy_score(encoder.inverse_transform(y_val), encoder.inverse_transform(predict)))

Accuracy RFC model on validation data = 0.8666666666666667


### Предсказание с помощью линейной модели 

In [9]:
encoder = LabelEncoder()
X_train, y_train = df_train.drop(columns=['f']), pd.DataFrame(encoder.fit_transform(df_train['f']), columns=['f'])

scaler = StandardScaler() # Используем по желанию
X_train = scaler.fit_transform(X_train, y_train)

linear_model = LogisticRegression()
linear_model.fit(X_train, y_train.values.ravel())
predict = linear_model.predict(scaler.transform(test))
# predict = linear_model.predict(test) Если не используется StandardScaler 

predict = pd.DataFrame(encoder.inverse_transform(predict), columns=['f'])

### Предсказание с помощью случайного леса

In [10]:
encoder = LabelEncoder()
X_train, y_train = df_train.drop(columns=['f']), pd.DataFrame(encoder.fit_transform(df_train['f']), columns=['f'])

scaler = StandardScaler() # Используем по желанию
X_train = scaler.fit_transform(X_train, y_train)

random_fores_classifier = RandomForestClassifier()
random_fores_classifier.fit(X_train, y_train)
predict = random_fores_classifier.predict(scaler.transform(test))
# predict = random_fores_classifier.predict(test) Если не используется StandardScaler 

predict = pd.DataFrame(encoder.inverse_transform(predict), columns=['f'])

### Сохраняем результат

In [11]:
predict.to_csv('number_8_result.csv') # Если необходимо убрать индексы используем в параметрах index=False