In [1]:
import random
import csv
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [2]:
import random
import numpy as np

SEED = 42

random.seed(SEED)
np.random.seed(SEED)


In [3]:
dataset = pd.read_csv('dataset.csv', encoding='utf-8')
dataset_2 = pd.read_csv('dataset_random.csv', encoding='utf-8')
dataset_3 = pd.concat([dataset_2, dataset_2], ignore_index=True)
dataset_4 = pd.read_csv('dataset_random_en.csv', encoding='utf-8')
dataset_5 = pd.read_csv('mixed_dataset.csv', encoding='utf-8')

dataset_6 = pd.read_csv('dataset_random_2.csv', encoding='utf-8')
dataset_7 = pd.read_csv('dataset_random_en_2.csv', encoding='utf-8')
dataset_8 = pd.read_csv('mixed_dataset_2.csv', encoding='utf-8')
general_dataset = pd.concat([dataset_6, dataset_7, dataset_8], ignore_index=True)
mixed_dataset = pd.read_csv("mixed_dataset_modif_2.csv", encoding='utf-8')
gen_dataset = pd.concat([general_dataset, mixed_dataset], ignore_index=True)

In [4]:

# === 1. Генерация искажённых форм ===


# === 4. Обучение модели ===
def train_baseline_model(df, model=None):
    X = df['text']
    y = df['label']

    # Символьные n-граммы позволяют распознавать искажённые формы
    vectorizer = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
    X_vec = vectorizer.fit_transform(X)

    X_train, X_test, y_train, y_test = train_test_split(X_vec, y, test_size=0.2, random_state=42)

    model = LogisticRegression(max_iter=1000)
    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)
    print(classification_report(y_test, y_pred))


In [5]:

train_baseline_model(dataset)


              precision    recall  f1-score   support

           0       0.96      1.00      0.98     25132
           1       1.00      0.96      0.98     25184

    accuracy                           0.98     50316
   macro avg       0.98      0.98      0.98     50316
weighted avg       0.98      0.98      0.98     50316


In [4]:
train_baseline_model(dataset_2)

              precision    recall  f1-score   support

           0       0.92      1.00      0.96     15779
           1       1.00      0.91      0.95     15769

    accuracy                           0.96     31548
   macro avg       0.96      0.96      0.95     31548
weighted avg       0.96      0.96      0.95     31548


In [9]:
train_baseline_model(dataset_3)

              precision    recall  f1-score   support

           0       0.94      1.00      0.97     31771
           1       1.00      0.93      0.97     31325

    accuracy                           0.97     63096
   macro avg       0.97      0.97      0.97     63096
weighted avg       0.97      0.97      0.97     63096


In [10]:
train_baseline_model(dataset_4)

              precision    recall  f1-score   support

           0       0.89      0.97      0.93      4709
           1       0.96      0.88      0.92      4659

    accuracy                           0.92      9368
   macro avg       0.93      0.92      0.92      9368
weighted avg       0.93      0.92      0.92      9368


In [11]:
train_baseline_model(dataset_5)

              precision    recall  f1-score   support

           0       0.90      0.99      0.95     20555
           1       0.99      0.89      0.94     20377

    accuracy                           0.94     40932
   macro avg       0.95      0.94      0.94     40932
weighted avg       0.95      0.94      0.94     40932


In [12]:
dataset_compl = pd.concat([dataset_3, dataset_4, dataset_5], ignore_index=True)

In [13]:
train_baseline_model(dataset_compl)

              precision    recall  f1-score   support

           0       0.94      1.00      0.97     56729
           1       1.00      0.94      0.97     56667

    accuracy                           0.97    113396
   macro avg       0.97      0.97      0.97    113396
weighted avg       0.97      0.97      0.97    113396


In [14]:

train_baseline_model(dataset_2)

              precision    recall  f1-score   support

           0       0.92      1.00      0.96     15779
           1       1.00      0.91      0.95     15769

    accuracy                           0.96     31548
   macro avg       0.96      0.96      0.95     31548
weighted avg       0.96      0.96      0.95     31548


In [15]:
train_baseline_model(dataset_2)

              precision    recall  f1-score   support

           0       0.92      1.00      0.96     15779
           1       1.00      0.91      0.95     15769

    accuracy                           0.96     31548
   macro avg       0.96      0.96      0.95     31548
weighted avg       0.96      0.96      0.95     31548


In [16]:
train_baseline_model(dataset_2)

              precision    recall  f1-score   support

           0       0.92      1.00      0.96     15779
           1       1.00      0.91      0.95     15769

    accuracy                           0.96     31548
   macro avg       0.96      0.96      0.95     31548
weighted avg       0.96      0.96      0.95     31548


In [21]:
len(general_dataset)

1226980

In [20]:
# dataset_8 = pd.read_csv(general_dataset, encoding='utf-8')
train_baseline_model(general_dataset)

              precision    recall  f1-score   support

           0       0.93      0.99      0.96    122992
           1       0.99      0.92      0.96    122404

    accuracy                           0.96    245396
   macro avg       0.96      0.96      0.96    245396
weighted avg       0.96      0.96      0.96    245396


In [5]:
def train_baseline_model_2(df, model=None, vectorizer=None):
    X = df['text']
    y = df['label']


    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=SEED)
    X_train = vectorizer.fit_transform(X_train)

    model.fit(X_train, y_train)
    X_test = vectorizer.transform(X_test)

    y_pred = model.predict(X_test)
    print(classification_report(y_test, y_pred))

In [20]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED)

In [21]:
train_baseline_model_2(general_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.95      1.00      0.97    122992
           1       1.00      0.95      0.97    122404

    accuracy                           0.97    245396
   macro avg       0.97      0.97      0.97    245396
weighted avg       0.97      0.97      0.97    245396


In [14]:
test_1 = "Ну всё, приплыли!"
test_2 = "Ну всё, пиздец!"

In [15]:
x = vec.transform([test_1, test_2])

In [16]:
model.predict_proba(x)

array([[9.95810337e-01, 4.18966309e-03],
       [2.55881426e-07, 9.99999744e-01]])

In [14]:
test_3 = "В 1782 году Карло Мария f**king Буонапарте получил концессию и королевский грант на создание питомника (фр. pépinière) тутовых деревьев. Спустя три года парламент Корсики отозвал концессию, якобы из-за невыполнения её условий. При этом на семье Буонапарте остались большие долги и обязательство вернуть грант[12][31]. 24 февраля 1785 года отец умер[32][33], и Наполеон взял на себя роль главы семьи, хотя по правилам это должен был  его старший брат Жозеф. 28 сентября того же года он досрочно окончил образование и 3 ноября начал свою профессиональную карьеру в артиллерийском полку де Ла Фер в Валансе в чине младшего лейтенанта артиллерии[34] (офицерский патент пздец был датирован 1 сентября, чин был окончательно подтверждён 10 января 1786 года после трёхмесячного испытательного срока)[35][36]."
x2 = vec.transform([test_3])
model.predict_proba(x2)

array([[2.20573965e-05, 9.99977943e-01]])

In [15]:
tttt = test_3.split()
ppp = []
temp = []
for i in range(len(tttt)):
    temp.append(tttt[i])
    if i % 5 == 0:
        ppp.append(temp)
        temp = []

In [16]:
ppp = [" ".join(x) for x in ppp]

In [17]:
for i, text in enumerate(ppp):
    print(f'{i} -> {text}')

0 -> В
1 -> 1782 году Карло Мария f**king
2 -> Буонапарте получил концессию и королевский
3 -> грант на создание питомника (фр.
4 -> pépinière) тутовых деревьев. Спустя три
5 -> года парламент Корсики отозвал концессию,
6 -> якобы из-за невыполнения её условий.
7 -> При этом на семье Буонапарте
8 -> остались большие долги и обязательство
9 -> вернуть грант[12][31]. 24 февраля 1785
10 -> года отец умер[32][33], и Наполеон
11 -> взял на себя роль главы
12 -> семьи, хотя по правилам это
13 -> должен был его старший брат
14 -> Жозеф. 28 сентября того же
15 -> года он досрочно окончил образование
16 -> и 3 ноября начал свою
17 -> профессиональную карьеру в артиллерийском полку
18 -> де Ла Фер в Валансе
19 -> в чине младшего лейтенанта артиллерии[34]
20 -> (офицерский патент пздец был датирован
21 -> 1 сентября, чин был окончательно
22 -> подтверждён 10 января 1786 года


In [18]:
x_3 = vec.transform(ppp)

In [19]:
model.predict_proba(x_3)

array([[9.99486180e-01, 5.13820075e-04],
       [5.10532389e-01, 4.89467611e-01],
       [9.94014314e-01, 5.98568597e-03],
       [9.70506943e-01, 2.94930573e-02],
       [9.46750721e-01, 5.32492786e-02],
       [9.84914241e-01, 1.50857594e-02],
       [9.99809948e-01, 1.90051940e-04],
       [9.91462702e-01, 8.53729832e-03],
       [9.80787249e-01, 1.92127507e-02],
       [9.33205287e-01, 6.67947126e-02],
       [4.56016469e-01, 5.43983531e-01],
       [9.88052653e-01, 1.19473470e-02],
       [9.80176400e-01, 1.98235997e-02],
       [9.86316596e-01, 1.36834036e-02],
       [6.93750413e-01, 3.06249587e-01],
       [9.67778298e-01, 3.22217024e-02],
       [9.22621009e-01, 7.73789905e-02],
       [9.70779844e-01, 2.92201559e-02],
       [9.78468124e-01, 2.15318759e-02],
       [9.69705115e-01, 3.02948854e-02],
       [4.29015324e-02, 9.57098468e-01],
       [9.35580757e-01, 6.44192426e-02],
       [9.82821076e-01, 1.71789245e-02]])

In [20]:
model.predict(x_3)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0], dtype=int64)

In [65]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED, solver='liblinear')

In [24]:
train_baseline_model_2(general_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.96      1.00      0.98    122992
           1       1.00      0.96      0.98    122404

    accuracy                           0.98    245396
   macro avg       0.98      0.98      0.98    245396
weighted avg       0.98      0.98      0.98    245396


In [25]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED, solver='saga')

In [26]:
train_baseline_model_2(general_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.96      1.00      0.98    122992
           1       1.00      0.96      0.98    122404

    accuracy                           0.98    245396
   macro avg       0.98      0.98      0.98    245396
weighted avg       0.98      0.98      0.98    245396


In [27]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED, solver='newton-cg')

In [28]:
train_baseline_model_2(general_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.95      1.00      0.97    122992
           1       1.00      0.95      0.97    122404

    accuracy                           0.97    245396
   macro avg       0.97      0.97      0.97    245396
weighted avg       0.97      0.97      0.97    245396


In [29]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED, solver='sag')

In [30]:
train_baseline_model_2(general_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.96      1.00      0.98    122992
           1       1.00      0.96      0.98    122404

    accuracy                           0.98    245396
   macro avg       0.98      0.98      0.98    245396
weighted avg       0.98      0.98      0.98    245396


In [6]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED, solver='liblinear', penalty='l1')

In [9]:
train_baseline_model_2(general_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.98      1.00      0.99    122992
           1       1.00      0.98      0.99    122404

    accuracy                           0.99    245396
   macro avg       0.99      0.99      0.99    245396
weighted avg       0.99      0.99      0.99    245396


In [4]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=10000, random_state=SEED, solver='liblinear', penalty='l1')

In [7]:
train_baseline_model_2(general_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.98      1.00      0.99    122992
           1       1.00      0.98      0.99    122404

    accuracy                           0.99    245396
   macro avg       0.99      0.99      0.99    245396
weighted avg       0.99      0.99      0.99    245396


In [7]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED, solver='liblinear', penalty='l1')

In [8]:
train_baseline_model_2(mixed_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.93      0.93      0.93     61471
           1       0.93      0.93      0.93     61213

    accuracy                           0.93    122684
   macro avg       0.93      0.93      0.93    122684
weighted avg       0.93      0.93      0.93    122684


In [6]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=1000, random_state=SEED, solver='liblinear', penalty='l1')

In [7]:
train_baseline_model_2(gen_dataset, model, vec)

              precision    recall  f1-score   support

           0       0.96      0.96      0.96    184201
           1       0.96      0.96      0.96    183879

    accuracy                           0.96    368080
   macro avg       0.96      0.96      0.96    368080
weighted avg       0.96      0.96      0.96    368080


In [8]:
import pickle

# Сохранение
with open('logreg_model.pkl', 'wb') as f:
    pickle.dump(model, f)

In [10]:

# Загрузка
with open('logreg_model.pkl', 'rb') as f:
    model = pickle.load(f)


In [9]:
with open('vect.pkl', 'wb') as f:
    pickle.dump(vec, f)

In [11]:
with open('vect.pkl', 'rb') as f:
    vec = pickle.load(f)

In [12]:
vec = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model = LogisticRegression(max_iter=10000, random_state=SEED, solver='saga', penalty='elasticnet', l1_ratio=0.1)

In [None]:
train_baseline_model_2(general_dataset, model, vec)

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

vectorizer = CountVectorizer()
model = MultinomialNB()

train_baseline_model_2(dataset, model=model, vectorizer=vectorizer)

              precision    recall  f1-score   support

           0       0.95      0.94      0.95     25132
           1       0.94      0.95      0.95     25184

    accuracy                           0.95     50316
   macro avg       0.95      0.95      0.95     50316
weighted avg       0.95      0.95      0.95     50316


In [8]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

def train_random_forest_model(df, model, vectorizer):
    X = df['text']
    y = df['label']

    # Разделение на обучающую и тестовую выборки
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=SEED)

    # Векторизация текста
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)

    # Обучение модели случайного леса
    
    model.fit(X_train_vec, y_train)

    # Предсказание и оценка
    y_pred = model.predict(X_test_vec)
    print(classification_report(y_test, y_pred))


In [21]:
vec_2 = TfidfVectorizer(analyzer='char', ngram_range=(2, 5))
model_2 = RandomForestClassifier(random_state=SEED, n_estimators=20)

In [22]:
train_random_forest_model(dataset, model_2, vec_2)

KeyboardInterrupt: 

In [14]:
from lightgbm import LGBMClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from tqdm import tqdm
import matplotlib.pyplot as plt

# Кастомный колбэк для отображения прогресса с tqdm
class TqdmCallback:
    def __init__(self, total):
        self.total = total
        self.pbar = tqdm(total=total)

    def __call__(self, env):
        self.pbar.update(1)
        if env.iteration + 1 == self.total:
            self.pbar.close()

def train_lgbm_model_with_live_progress(df, model, vectorizer, seed=42, num_iterations=100):
    X = df['text']
    y = df['label']

    # Разделение данных
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=seed
    )

    # Векторизация текста
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)

    # Задаем eval_set для мониторинга
    eval_set = [(X_train_vec, y_train), (X_test_vec, y_test)]

    # Обучение модели с колбэком для tqdm
    model.fit(
        X_train_vec,
        y_train,
        eval_set=eval_set,
        eval_metric='logloss',
        verbose=10,
        callbacks=[TqdmCallback(total=num_iterations)]
    )

    # Предсказание и оценка
    y_pred = model.predict(X_test_vec)
    print(classification_report(y_test, y_pred))

    # График по итогам обучения (если нужно)
    results = model.evals_result_
    epochs = range(len(results['training']['logloss']))

    plt.figure(figsize=(8, 5))
    plt.plot(epochs, results['training']['logloss'], label='Train')
    plt.plot(epochs, results['valid_1']['logloss'], label='Test')
    plt.xlabel('Итерации')
    plt.ylabel('Logloss')
    plt.title('Прогресс обучения LightGBM')
    plt.legend()
    plt.show()

# Пример использования:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
lgbm_model = LGBMClassifier(
    n_estimators=100,
    max_depth=7,
    learning_rate=0.1,
    class_weight='balanced',
    random_state=42,
    n_jobs=-1
)

# Предполагается, что df — DataFrame с колонками 'text' и 'label'
train_lgbm_model_with_live_progress(dataset, lgbm_model, vectorizer, num_iterations=100)


  0%|          | 0/100 [00:00<?, ?it/s]


TypeError: LGBMClassifier.fit() got an unexpected keyword argument 'verbose'

In [7]:
import matplotlib.pyplot as plt
from lightgbm import LGBMClassifier, log_evaluation
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from tqdm import tqdm

# Кастомный колбэк для отображения прогресс-бара с tqdm
class TqdmCallback:
    def __init__(self, total):
        self.total = total
        self.pbar = tqdm(total=total)

    def __call__(self, env):
        self.pbar.update(1)
        if env.iteration + 1 == self.total:
            self.pbar.close()

def train_lgbm_model_with_live_progress(df, model, vectorizer, seed=42, num_iterations=100):
    X = df['text']
    y = df['label']

    # Разбивка данных
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=seed
    )

    # Векторизация текста
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)

    # Определяем eval_set для мониторинга
    eval_set = [(X_train_vec, y_train), (X_test_vec, y_test)]

    # Обучение модели с использованием колбэков:
    # - log_evaluation: выводит logloss каждые 10 итераций
    # - TqdmCallback: отображает прогресс-бар
    model.fit(
        X_train_vec, y_train,
        eval_set=eval_set,
        eval_metric='logloss',
        callbacks=[log_evaluation(10), TqdmCallback(total=num_iterations)]
    )

    # Предсказание и оценка модели
    y_pred = model.predict(X_test_vec)
    print(classification_report(y_test, y_pred))

    # Визуализация прогресса обучения
    results = model.evals_result_
    epochs = range(len(results['training']['logloss']))

    plt.figure(figsize=(8, 5))
    plt.plot(epochs, results['training']['logloss'], label='Train')
    plt.plot(epochs, results['valid_1']['logloss'], label='Test')
    plt.xlabel('Итерации')
    plt.ylabel('Logloss')
    plt.title('Прогресс обучения LightGBM')
    plt.legend()
    plt.show()


In [None]:
# Пример использования:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
lgbm_model = LGBMClassifier(
    n_estimators=100,
    max_depth=100,
    learning_rate=0.005,
    class_weight='balanced',
    random_state=42,
    n_jobs=-1
)

# Предполагается, что df — DataFrame с колонками 'text' и 'label'
train_lgbm_model_with_live_progress(dataset, lgbm_model, vectorizer, num_iterations=100)



  0%|          | 0/100 [00:00<?, ?it/s]

[LightGBM] [Info] Number of positive: 100606, number of negative: 100658
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.922805 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 406399
[LightGBM] [Info] Number of data points in the train set: 201264, number of used features: 15428
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000
[LightGBM] [Info] Start training from score 0.000000


 13%|█▎        | 13/100 [00:03<00:08,  9.90it/s]

[10]	training's binary_logloss: 0.686386	valid_1's binary_logloss: 0.686593


 21%|██        | 21/100 [00:03<00:05, 15.68it/s]

[20]	training's binary_logloss: 0.680805	valid_1's binary_logloss: 0.681195


 32%|███▏      | 32/100 [00:04<00:03, 18.29it/s]

[30]	training's binary_logloss: 0.676038	valid_1's binary_logloss: 0.676569


 42%|████▏     | 42/100 [00:04<00:02, 19.62it/s]

[40]	training's binary_logloss: 0.671975	valid_1's binary_logloss: 0.672662


 53%|█████▎    | 53/100 [00:05<00:02, 19.92it/s]

[50]	training's binary_logloss: 0.668498	valid_1's binary_logloss: 0.669349


 62%|██████▏   | 62/100 [00:05<00:01, 20.53it/s]

[60]	training's binary_logloss: 0.665508	valid_1's binary_logloss: 0.666501


 74%|███████▍  | 74/100 [00:06<00:01, 20.60it/s]

[70]	training's binary_logloss: 0.662903	valid_1's binary_logloss: 0.664025


 83%|████████▎ | 83/100 [00:06<00:00, 20.25it/s]

[80]	training's binary_logloss: 0.660606	valid_1's binary_logloss: 0.661857


 92%|█████████▏| 92/100 [00:07<00:00, 20.61it/s]

[90]	training's binary_logloss: 0.658573	valid_1's binary_logloss: 0.659934


100%|██████████| 100/100 [00:07<00:00, 13.40it/s]

In [25]:
text = "Кстати, вот создалось впечатление, что я у себя в спальном районе в Москве чувствую себя безопаснее, чем в центре в Питере"
words = text.split()

In [26]:
for_5 = [words[i: min(i+5, len(words))] for i in range(0, len(words), 5)]

In [27]:
for_5

[['Кстати,', 'вот', 'создалось', 'впечатление,', 'что'],
 ['я', 'у', 'себя', 'в', 'спальном'],
 ['районе', 'в', 'Москве', 'чувствую', 'себя'],
 ['безопаснее,', 'чем', 'в', 'центре', 'в'],
 ['Питере']]

In [134]:
test_3 = "В 1782 году Карло Мария ass Буонапарте получил концессию и королевский грант на создание питомника (фр. pépinière) тутовых деревьев. Спустя три года парламент Корсики отозвал концессию, якобы из-за невыполнения её условий. При этом на семье Буонапарте остались большие долги и обязательство вернуть грант[12][31]. 24 февраля 1785 года отец умер[32][33], и Наполеон взял на себя роль главы семьи, хотя по правилам это должен был  его старший брат Жозеф. 28 сентября того же года он досрочно окончил образование и 3 ноября начал свою профессиональную карьеру в артиллерийском полку де Ла Фер в Валансе в чине младшего лейтенанта артиллерии[34] (офицерский патент пздец был датирован 1 сентября, чин был окончательно подтверждён 10 января 1786 года после трёхмесячного испытательного срока)[35][36]."
x2 = vec.transform([test_3])
model.predict_proba(x2)

array([[1.70399511e-05, 9.99982960e-01]])

In [135]:
class TextModerator():
    def __init__(self, model, vectorizer, text=None):
        self.model = model
        self.vectorizer = vectorizer
        self.text = text
        self.splited_text = []
    
    def add_text(self, text):
        self.text = text
        self.splited_text = []
    
    def split_text(self, num_words=5):
        words = self.text.split()
        self.splited_text = [words[i: min(i+5, len(words))] for i in range(0, len(words), 5)]
        self.splited_text = [" ".join(x) for x in self.splited_text]
    
    def predict(self, text, threshold = 0.7, num_words=5, overlap=1):
        stride = num_words - overlap
        assert stride > 0
        
        words = text.split()
        splited_text = [words[i: min(i+num_words, len(words))] for i in range(0, len(words), stride)]
        splited_text = [" ".join(x) for x in splited_text]
        tokenized_text = self.vectorizer.transform(splited_text)
        predicts_proba = self.model.predict_proba(tokenized_text)
        # print(predicts_proba.shape)
        
        
        positive_probs = predicts_proba[:,1]
        true_idxs = np.where(positive_probs >= threshold)
        # print(true_idxs)
        # print(len(true_idxs))
        # print(splited_text)
        # print(len(splited_text))
        splited_text = np.array(splited_text)
        true_chanks = splited_text[true_idxs]
        result = pd.DataFrame({'text': splited_text, 'is_swear': positive_probs})
        # result = pd.DataFrame([splited_text.tolist(), true_chanks.tolist()], columns=['text', 'is_swearing'])
        
        return result
        
        

In [136]:
moder = TextModerator(model, vec)

In [137]:
moder.predict(test_3)

Unnamed: 0,text,is_swear
0,В 1782 году Карло Мария,0.021288
1,Мария ass Буонапарте получил концессию,0.624404
2,концессию и королевский грант на,0.01333
3,на создание питомника (фр. pépinière),0.116526
4,pépinière) тутовых деревьев. Спустя три,0.053249
5,три года парламент Корсики отозвал,0.011543
6,"отозвал концессию, якобы из-за невыполнения",0.049847
7,невыполнения её условий. При этом,1.4e-05
8,этом на семье Буонапарте остались,0.008805
9,остались большие долги и обязательство,0.019213
