## В данном файле определены методы classify для разных заданий

In [1]:
import numpy as np
import pandas as pd
import pickle
from sklearn.metrics import confusion_matrix,f1_score,classification_report

In [2]:
features_file_name = 'features_train.csv'
classes_file_name = 'classes_train.csv'

### Для модели из задания 1.1

In [3]:
def classify_task1(modelFileName, dataFileName) -> np.array:
    """
    :param modelFileName: Имя файла, из которого будут загружены параметры обученной ML-модели (напирмер model.txt)
    :param dataFileName: Имя CSV-файла с данными для анализа, которые нужно классифицировать.
    Файл имеет ту же структуру, что и файл обучающей выборки. Каждая строка файла (кроме заголовочной) содержит признаки одного пользователя
    :return: numpy-вектор с результатами классификации размерности (K, ), где K - количество содержательных строк в dataframe
    """
    features = pd.read_csv(dataFileName)
    with open(modelFileName, 'rb') as f:
        model = pickle.load(f)
    predictions = model.predict(features)
    return predictions

In [4]:
y_test = pd.read_csv(classes_file_name)

In [5]:
predictions = classify_task1('./models/model_task_1.1.pkl', features_file_name)

In [6]:
conf_matrix = confusion_matrix(y_test, predictions)
model_f1_score = f1_score(y_test, predictions, average="weighted")

print("Confussion matrix")

print(conf_matrix)
print("\n")
print("F1 of model:", model_f1_score,'\n')
print(classification_report(y_test, predictions))

Confussion matrix
[[1700  100]
 [ 327  273]]


F1 of model: 0.806606034743671 

              precision    recall  f1-score   support

           0       0.84      0.94      0.89      1800
           1       0.73      0.46      0.56       600

    accuracy                           0.82      2400
   macro avg       0.79      0.70      0.72      2400
weighted avg       0.81      0.82      0.81      2400



### Для модели из задания 2.1

In [7]:
def classify_task2(modelFileName, dataFileName) -> np.array:
    """
    :param modelFileName: Имя файла, из которого будут загружены параметры обученной ML-модели (напирмер model.txt)
    :param dataFileName: Имя CSV-файла с данными для анализа, которые нужно классифицировать.
    Файл имеет ту же структуру, что и файл обучающей выборки. Каждая строка файла (кроме заголовочной) содержит признаки одного пользователя
    :return: numpy-вектор с результатами классификации размерности (K, ), где K - количество содержательных строк в dataframe
    """
    most_corr_fields_list = ['is_verified',
     'user_age',
     'is_default_profile',
     'favourites_count',
     'is_profile_use_background_image',
     'favourites_growth_rate',
     'description_length',
     'friends_count',
     'friends_growth_rate',
     'screen_name_length',
     'listed_growth_rate']
    
    features = pd.read_csv(dataFileName)
    with open(modelFileName, 'rb') as f:
        model = pickle.load(f)
    features = features[most_corr_fields_list].copy()
    predictions = model.predict(features)
    return predictions

In [8]:
y_test = pd.read_csv(classes_file_name)

In [9]:
predictions = classify_task2('./models/model_task_2.1.pkl', features_file_name)

In [10]:
conf_matrix = confusion_matrix(y_test, predictions)
model_f1_score = f1_score(y_test, predictions, average="weighted")

print("Confussion matrix")

print(conf_matrix)
print("\n")
print("F1 of model:", model_f1_score,'\n')
print(classification_report(y_test, predictions))

Confussion matrix
[[1800    0]
 [ 600    0]]


F1 of model: 0.6428571428571428 

              precision    recall  f1-score   support

           0       0.75      1.00      0.86      1800
           1       0.00      0.00      0.00       600

    accuracy                           0.75      2400
   macro avg       0.38      0.50      0.43      2400
weighted avg       0.56      0.75      0.64      2400



  _warn_prf(average, modifier, msg_start, len(result))
