In [1]:
# Установка необходимых пакетов
!pip install pandas numpy nltk pymorphy2 scikit-learn keras imbalanced-learn joblib matplotlib seaborn pymorphy2-dicts-ru
!pip install tensorflow

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl.metadata (3.6 kB)
Collecting pymorphy2-dicts-ru
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl.metadata (2.1 kB)
Collecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m17.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25

In [5]:
import os
import zipfile
from joblib import load
from keras.models import load_model
import pymorphy2
from nltk.corpus import stopwords
import numpy as np
from scipy.sparse import hstack
import nltk
import re
zip_filename = 'model_weights (1).zip'


print(f"Загрузка моделей и объектов из архива {zip_filename}...")

# Проверка существования архива
if not os.path.exists(zip_filename):
    raise FileNotFoundError(f"Архив {zip_filename} не найден.")

# Распаковка архива
with zipfile.ZipFile(zip_filename, 'r') as zf:
    zf.extractall()
    print(f"Архив {zip_filename} распакован.")

Загрузка моделей и объектов из архива model_weights (1).zip...
Архив model_weights (1).zip распакован.


In [6]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [9]:
# Загрузка модели и объектов
rf_model = load('random_forest_model.joblib')
print("Загружена модель Random Forest.")

vectorizer = load('tfidf_vectorizer.joblib')
print("Загружен TfidfVectorizer.")

scaler = load('standard_scaler.joblib')
print("Загружен StandardScaler.")

le = load('label_encoder.joblib')
print("Загружен LabelEncoder.")

print("Все модели и объекты загружены.")

# Инициализация инструментов для предобработки текста
morph = pymorphy2.MorphAnalyzer()
stop_words = set(stopwords.words('russian'))

def tokenize_and_lemmatize(text, morph, stop_words):
    # Удаление чисел и специальных символов
    text = re.sub(r'[^а-яА-Я\s]', '', str(text))
    tokens = nltk.word_tokenize(text.lower())
    tokens = [word for word in tokens if word not in stop_words]
    tokens = [morph.parse(word)[0].normal_form for word in tokens]
    return ' '.join(tokens)

# Определение функции для классификации новых контрактов
def classify_contract(text, contract_value=0, contract_duration=0):
    # Предобработка входного текста
    processed_text = tokenize_and_lemmatize(text, morph, stop_words)
    text_vector = vectorizer.transform([processed_text])

    # Масштабирование числовых признаков
    contract_value_scaled = scaler.transform([[contract_value]])
    contract_duration_scaled = scaler.transform([[contract_duration]])
    numerical_features = np.array([[contract_value_scaled[0][0], contract_duration_scaled[0][0]]])

    X_input = hstack([text_vector, numerical_features])

    # Предсказание с помощью Случайного Леса
    pred_rf = rf_model.predict(X_input)
    pred_rf_label = le.inverse_transform(pred_rf)[0]

    # Вывод результата
    print(f"\nВходной текст: {text}\n")
    print(f"Предсказание Случайного Леса: {pred_rf_label}")


# Пример классификации
input_text = input("Введите описание контракта для классификации: ")
try:
    contract_value_input = input("Введите сумму контракта (или нажмите Enter для установки в 0): ")
    contract_value = float(contract_value_input) if contract_value_input.strip() != "" else 0.0
except ValueError:
    print("Некорректное значение. Установка в 0.")
    contract_value = 0.0

try:
    contract_duration_input = input("Введите продолжительность контракта в днях (или нажмите Enter для установки в 0): ")
    contract_duration = float(contract_duration_input) if contract_duration_input.strip() != "" else 0.0
except ValueError:
    print("Некорректное значение. Установка в 0.")
    contract_duration = 0.0

classify_contract(input_text, contract_value, contract_duration)


Загружена модель Random Forest.
Загружен TfidfVectorizer.
Загружен StandardScaler.
Загружен LabelEncoder.
Все модели и объекты загружены.
Введите описание контракта для классификации: Земляные работы. Как правило, это работы, которые напрямую связаны с необходимостью подготовки строительной площадки. К примеру, рытье траншей и котлованов для обустройства фундаментов или монтажа подземных коммуникаций. 
Введите сумму контракта (или нажмите Enter для установки в 0): 1680000
Введите продолжительность контракта в днях (или нажмите Enter для установки в 0): 20

Входной текст: Земляные работы. Как правило, это работы, которые напрямую связаны с необходимостью подготовки строительной площадки. К примеру, рытье траншей и котлованов для обустройства фундаментов или монтажа подземных коммуникаций. 

Предсказание Случайного Леса: СМР




-