## В данном файле определены методы classify для разных заданий

In [1]:
import numpy as np
import pandas as pd
import pickle
from sklearn.metrics import confusion_matrix,f1_score,classification_report

In [2]:
features_file_name = 'features_train.csv'
classes_file_name = 'classes_train.csv'

### Для модели из задания 1.1

In [3]:
def classify_task1(modelFileName, scalerFilename, dataFileName) -> np.array:
    """
    :param modelFileName: Имя файла, из которого будут загружены параметры обученной ML-модели (например model.txt)
    :param scalerFileName: Имя файла, из которого будет загружен scaler для предобработки данных (например model.txt)
    :param dataFileName: Имя CSV-файла с данными для анализа, которые нужно классифицировать.
    Файл имеет ту же структуру, что и файл обучающей выборки. Каждая строка файла (кроме заголовочной) содержит признаки одного пользователя
    :return: numpy-вектор с результатами классификации размерности (K, ), где K - количество содержательных строк в dataframe
    """
    features_raw = pd.read_csv(dataFileName)
    
    with open(scalerFilename, 'rb') as f:
        scaler = pickle.load(f)
    features = scaler.transform(features_raw)
    
    with open(modelFileName, 'rb') as f:
        model = pickle.load(f)
    predictions = model.predict(features)
    return predictions

In [4]:
y_test = pd.read_csv(classes_file_name)

In [5]:
predictions = classify_task1('./models/model_task_1.1.pkl', './models/scaler_task_1.1.pkl', features_file_name)

In [6]:
conf_matrix = confusion_matrix(y_test, predictions)
model_f1_score = f1_score(y_test, predictions, average="weighted")

print("Confussion matrix")

print(conf_matrix)
print("\n")
print("F1 of model:", model_f1_score,'\n')
print(classification_report(y_test, predictions))

Confussion matrix
[[1788   12]
 [   2  598]]


F1 of model: 0.9941826469301778 

              precision    recall  f1-score   support

           0       1.00      0.99      1.00      1800
           1       0.98      1.00      0.99       600

    accuracy                           0.99      2400
   macro avg       0.99      0.99      0.99      2400
weighted avg       0.99      0.99      0.99      2400



### Для модели из задания 2.1

In [7]:
def classify_task2(modelFileName, scalerFilename, dataFileName) -> np.array:
    """
    :param modelFileName: Имя файла, из которого будут загружены параметры обученной ML-модели (напирмер model.txt)
    :param scalerFileName: Имя файла, из которого будет загружен scaler для предобработки данных (например model.txt)
    :param dataFileName: Имя CSV-файла с данными для анализа, которые нужно классифицировать.
    Файл имеет ту же структуру, что и файл обучающей выборки. Каждая строка файла (кроме заголовочной) содержит признаки одного пользователя
    :return: numpy-вектор с результатами классификации размерности (K, ), где K - количество содержательных строк в dataframe
    """
    most_corr_fields_list = ['is_verified',
     'user_age',
     'is_default_profile',
     'favourites_count',
     'is_profile_use_background_image',
     'favourites_growth_rate',
     'description_length',
     'friends_count',
     'friends_growth_rate',
     'screen_name_length',
     'listed_growth_rate']
    
    features_raw = pd.read_csv(dataFileName)
    
    with open(scalerFilename, 'rb') as f:
        scaler = pickle.load(f)
    features = scaler.transform(features_raw[most_corr_fields_list])
    
    with open(modelFileName, 'rb') as f:
        model = pickle.load(f)
    predictions = model.predict(features)
    return predictions

In [8]:
y_test = pd.read_csv(classes_file_name)

In [9]:
predictions = classify_task2('./models/model_task_2.1.pkl', './models/scaler_task_2.1.pkl', features_file_name)

In [10]:
conf_matrix = confusion_matrix(y_test, predictions)
model_f1_score = f1_score(y_test, predictions, average="weighted")

print("Confussion matrix")

print(conf_matrix)
print("\n")
print("F1 of model:", model_f1_score,'\n')
print(classification_report(y_test, predictions))

Confussion matrix
[[1789   11]
 [   3  597]]


F1 of model: 0.9941794864231036 

              precision    recall  f1-score   support

           0       1.00      0.99      1.00      1800
           1       0.98      0.99      0.99       600

    accuracy                           0.99      2400
   macro avg       0.99      0.99      0.99      2400
weighted avg       0.99      0.99      0.99      2400

