In [None]:
!pip install -U transformers datasets accelerate evaluate


In [None]:
from google.colab import files
import pandas as pd
import io
uploaded = files.upload()
file_name = next(iter(uploaded))
df = pd.read_excel(io.BytesIO(uploaded[file_name]))
df.to_csv("armenian_propaganda_dataset.csv", index=False)
print(df.head())

In [3]:
import re
from sklearn.model_selection import train_test_split
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = text.lower()
    return text
df['cleaned_text'] = df['text'].apply(clean_text)
X_train, X_test, y_train, y_test = train_test_split(
    df['cleaned_text'], df['label'], test_size=0.2, random_state=42
)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

vectorizer = TfidfVectorizer(max_features=1000)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)
model = LogisticRegression()
model.fit(X_train_vec, y_train)
y_pred = model.predict(X_test_vec)
print(f"’É’∑’£÷Ä’ø’∏÷Ç’©’µ’∏÷Ç’∂: {accuracy_score(y_test, y_pred) * 100:.2f}%")
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred, target_names=["’â’•’¶’∏÷Ñ (0)", "’î’°÷Ä’∏’¶’π’°’Ø’°’∂ (1)"]))

In [None]:
def predict_propaganda(text):
    text_cleaned = clean_text(text)
    text_vec = vectorizer.transform([text_cleaned])
    prediction = model.predict(text_vec)[0]
    return "’î’°÷Ä’∏’¶’π’°’Ø’°’∂ (1)" if prediction == 1 else "’â’•’¶’∏÷Ñ (0)"

print(predict_propaganda("’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’°’∂’∞÷Ä’°’™’•’∑’ø ’ß"))
print(predict_propaganda("‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å AI ’∞’°’Ø’∏’∂"))

In [6]:
from imblearn.over_sampling import RandomOverSampler
vectorizer = TfidfVectorizer(max_features=1000)
X_vec = vectorizer.fit_transform(df['cleaned_text'])
oversampler = RandomOverSampler(random_state=42)
X_resampled, y_resampled = oversampler.fit_resample(X_vec, df['label'])
X_train, X_test, y_train, y_test = train_test_split(
    X_resampled, y_resampled, test_size=0.2, random_state=42
)

In [None]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, class_weight='balanced')
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

In [None]:
from sklearn.feature_selection import SelectKBest, chi2
selector = SelectKBest(chi2, k=500)
X_new = selector.fit_transform(X_resampled, y_resampled)
X_train, X_test, y_train, y_test = train_test_split(
    X_new, y_resampled, test_size=0.2, random_state=42
)
model.fit(X_train, y_train)

In [None]:
from xgboost import XGBClassifier

model = XGBClassifier(
    scale_pos_weight=sum(y_resampled==0)/sum(y_resampled==1),
    eval_metric='logloss'
)
model.fit(X_train, y_train)

In [None]:
from xgboost import XGBClassifier
from sklearn.metrics import classification_report
scale_pos_weight = sum(y_train == 0) / sum(y_train == 1)
model = XGBClassifier(
    n_estimators=200,
    max_depth=5,
    learning_rate=0.1,
    scale_pos_weight=scale_pos_weight,
    eval_metric='logloss',
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=42
)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred, target_names=["’â’•’¶’∏÷Ñ (0)", "’î’°÷Ä’∏’¶’π’°’Ø’°’∂ (1)"]))

In [None]:
from sklearn.metrics import precision_recall_curve
import matplotlib.pyplot as plt
import numpy as np
y_probs = model.predict_proba(X_test)[:, 1]
precision, recall, thresholds = precision_recall_curve(y_test, y_probs)
f1_scores = 2 * (precision * recall) / (precision + recall)
optimal_idx = np.argmax(f1_scores)
optimal_threshold = thresholds[optimal_idx]
y_pred_optimized = (y_probs >= optimal_threshold).astype(int)
print(classification_report(y_test, y_pred_optimized))

from sklearn.model_selection import GridSearchCV

param_grid = {
    'max_depth': [3, 5, 7],
    'learning_rate': [0.01, 0.05, 0.1],
    'n_estimators': [100, 200, 300]
}

grid = GridSearchCV(XGBClassifier(), param_grid, cv=3, scoring='f1')
grid.fit(X_train, y_train)
print("‘º’°’æ’°’£’∏÷Ç’µ’∂ ’∫’°÷Ä’°’¥’•’ø÷Ä’•÷Ä:", grid.best_params_)

In [None]:
!pip install catboost
from sklearn.ensemble import RandomForestClassifier
from catboost import CatBoostClassifier
from sklearn.metrics import classification_report

rf = RandomForestClassifier(
    class_weight='balanced',
    n_estimators=200,
    max_depth=5,
    random_state=42
)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
print("Random Forest Results:")
print(classification_report(y_test, y_pred_rf))

cb = CatBoostClassifier(
    auto_class_weights='Balanced',
    iterations=200,
    depth=5,
    verbose=0,
    random_state=42
)
cb.fit(X_train, y_train)
y_pred_cb = cb.predict(X_test)
print("\nCatBoost Results:")
print(classification_report(y_test, y_pred_cb))


In [None]:
cb = CatBoostClassifier(
    iterations=500,
    depth=6,
    learning_rate=0.05,
    auto_class_weights='Balanced',
    verbose=0
)
from transformers import BertTokenizer, BertForSequenceClassification
import joblib
joblib.dump(cb, 'best_propaganda_model.pkl')

In [None]:
from catboost import CatBoostClassifier
import joblib
cb = CatBoostClassifier(
    iterations=500,
    depth=6,
    learning_rate=0.05,
    auto_class_weights='Balanced',
    verbose=0
)
cb.fit(X_train, y_train)
joblib.dump({'model': cb, 'vectorizer': vectorizer}, 'propaganda_model.pkl')

In [None]:
import joblib

saved_data = joblib.load('propaganda_model.pkl')
loaded_model = saved_data['model']
vectorizer = saved_data['vectorizer']

def predict_text(text):
    cleaned_text = clean_text(text)
    text_vec = vectorizer.transform([cleaned_text])
    prediction = loaded_model.predict(text_vec)[0]
    return "’î’°÷Ä’∏’¶’π’°’Ø’°’∂" if prediction == 1 else "’â’•’¶’∏÷Ñ"
print(predict_text("’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’∫’•’ø÷Ñ ’ß ’§’°’º’∂’° ’°’º’°’ª’∂’°’∞’•÷Ä’©’∏÷Ç’©’µ’∏÷Ç’∂"))
print(predict_text("‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’ø’•’≠’∂’∏’¨’∏’£’´’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂"))

In [None]:
cb.save_model('catboost_model.cbm')
from catboost import CatBoost
loaded_model = CatBoost()
loaded_model.load_model('catboost_model.cbm')

In [None]:
print(f"’Ñ’∏’§’•’¨’® ’∏÷Ç’Ω’∏÷Ç÷Å’æ’°’Æ ’ß: {loaded_model.is_fitted()}")
print(f"’ï’£’ø’°’£’∏÷Ä’Æ’æ’°’Æ ’∞’°’ø’Ø’∏÷Ç’©’µ’∏÷Ç’∂’∂’•÷Ä’´ ÷Ñ’°’∂’°’Ø: {loaded_model.feature_names_}")

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
import joblib

def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = text.lower()
    return text

df['cleaned_text'] = df['text'].apply(clean_text)

X_train_texts, X_test_texts, y_train, y_test = train_test_split(
    df['cleaned_text'],
    df['label'],
    test_size=0.2,
    random_state=42
)

vectorizer = TfidfVectorizer(max_features=500)
X_train_vec = vectorizer.fit_transform(X_train_texts)
X_test_vec = vectorizer.transform(X_test_texts)
cb = CatBoostClassifier(
    iterations=500,
    depth=6,
    learning_rate=0.05,
    auto_class_weights='Balanced',
    verbose=0
)
cb.fit(X_train_vec, y_train)
joblib.dump({'model': cb, 'vectorizer': vectorizer}, 'propaganda_model_full.pkl')
def predict_text(text):
    cleaned_text = clean_text(text)
    text_vec = vectorizer.transform([cleaned_text])
    prediction = cb.predict(text_vec)[0]
    return "’î’°÷Ä’∏’¶’π’°’Ø’°’∂" if prediction == 1 else "’â’•’¶’∏÷Ñ"

print(predict_text("’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’∫’•’ø÷Ñ ’ß ’§’°’º’∂’° ’°’º’°’ª’∂’°’∞’•÷Ä’©’∏÷Ç’©’µ’∏÷Ç’∂"))
print(predict_text("‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’ø’•’≠’∂’∏’¨’∏’£’´’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂"))
feature_importances = cb.get_feature_importance()
top_features = sorted(zip(vectorizer.get_feature_names_out(), feature_importances),
                 key=lambda x: x[1], reverse=True)[:10]
print("Top Features:", top_features)

In [None]:
from catboost import CatBoostClassifier
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

class_weights = [1, len(y_train[y_train==0])/len(y_train[y_train==1])]

cb = CatBoostClassifier(
    iterations=1000,
    depth=5,
    learning_rate=0.05,
    loss_function='Logloss',
    eval_metric='F1',
    early_stopping_rounds=20,
    class_weights=class_weights,
    verbose=100
)

cb.fit(X_train_vec, y_train, eval_set=(X_test_vec, y_test))

y_pred = cb.predict(X_test_vec)

cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8,6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['’â’•’¶’∏÷Ñ (0)', '’î’°÷Ä’∏’¶’π’°’Ø’°’∂ (1)'],
            yticklabels=['’â’•’¶’∏÷Ñ (0)', '’î’°÷Ä’∏’¶’π’°’Ø’°’∂ (1)'])
plt.xlabel('‘ø’°’∂’≠’°’ø’•’Ω’æ’°’Æ')
plt.ylabel('’ì’°’Ω’ø’°÷Å’´')
plt.title('Confusion Matrix')
plt.show()


wrong_indices = np.where(y_test != y_pred)[0][:5]

for i, idx in enumerate(wrong_indices):
    print(f"\n’ï÷Ä’´’∂’°’Ø {i+1}:")
    print(f"’è’•÷Ñ’Ω’ø: {X_test_texts.iloc[idx]}")
    print(f"‘ø’°’∂’≠’°’ø’•’Ω’∏÷Ç’¥: {'’î’°÷Ä’∏’¶’π’°’Ø’°’∂' if y_pred[idx] == 1 else '’â’•’¶’∏÷Ñ'}")
    print(f"’ì’°’Ω’ø’°÷Å’´: {'’î’°÷Ä’∏’¶’π’°’Ø’°’∂' if y_test.iloc[idx] == 1 else '’â’•’¶’∏÷Ñ'}")

In [None]:
!pip install nlpaug
!pip install transformers

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')

In [None]:
!pip install nlpaug transformers
!python -m nltk.downloader wordnet omw-1.4

import random
from nlpaug.augmenter.word import SynonymAug
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from catboost import CatBoostClassifier

def armenian_augment(text, n=2):
    """Custom augmentation for Armenian text"""
    try:
        aug = SynonymAug(
            aug_src='wordnet',
            lang='hye',
            aug_p=0.3,
            stopwords=['÷á', '’ß', '’®', '’∏÷Ä', '’´’∂’π']
        )
        return [aug.augment(text) for _ in range(n)]
    except:
        replacements = {
            "÷Ö÷Ä’´’∂’°’Ø": ["’∂’¥’∏÷Ç’∑", "’∫’°’ø’Ø’•÷Ä"],
            "’ø’•÷Ñ’Ω’ø": ["’£÷Ä’°’º’∏÷Ç’¥", "’∞’∏’§’æ’°’Æ"],
            "’Ä‘±’ä‘ø": ["’Ä’°’µ’°’Ω’ø’°’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’∫’°’µ’¥’°’∂’°’£’´÷Ä", "’º’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ"],
            "’°’§÷Ä’¢’•’ª’°’∂": ["’°’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’Ø’∏’≤’¥", "’∞’°÷Ä÷á’°’∂ ’•÷Ä’Ø’´÷Ä"]
        }
        results = []
        for _ in range(n):
            augmented = text
            for word, subs in replacements.items():
                if word in augmented:
                    augmented = augmented.replace(word, random.choice(subs))
            results.append(augmented)
        return results

print(armenian_augment("÷Ö÷Ä’´’∂’°’Ø ’ø’•÷Ñ’Ω’ø ’Ä‘±’ä‘ø-’´ ’¥’°’Ω’´’∂", n=2))

vectorizer = TfidfVectorizer(
    max_features=1000,
    ngram_range=(1,2),
    token_pattern=r'\b[’°-÷Ü‘±-’ñ]+\b'
)

cb = CatBoostClassifier(
    iterations=500,
    depth=4,
    learning_rate=0.03,
    l2_leaf_reg=5,
    early_stopping_rounds=10,
    eval_metric='F1',
    class_weights=[1, 3],
    verbose=100
)

try:
    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained("Geotrend/bert-base-hy")
    print("BERT tokenizer loaded successfully for Armenian")
except:
    print("Proceeding with CatBoost only")

In [None]:
import random
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from catboost import CatBoostClassifier
from nlpaug.augmenter.word import SynonymAug
def armenian_augment(text, n=2):
    """Improved augmentation with Armenian-specific rules"""
    armenian_synonyms = {
        "’Ä‘±’ä‘ø": ["’Ä’°’µ’°’Ω’ø’°’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’∫’°’µ’¥’°’∂’°’£’´÷Ä", "’º’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ", "’Ä‘±’ä‘ø ’Ø’°’¶’¥’°’Ø’•÷Ä’∫’∏÷Ç’©’µ’∏÷Ç’∂"],
        "’°’§÷Ä’¢’•’ª’°’∂": ["’°’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’Ø’∏’≤’¥", "’∞’°÷Ä÷á’°’∂ ’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂", "‘±’§÷Ä’¢’•’ª’°’∂’´ ’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂"],
        "÷É’°’∑’´’∂’µ’°’∂": ["’æ’°÷Ä’π’°’∫’•’ø", "’∂’´’Ø’∏’¨ ÷É’°’∑’´’∂’µ’°’∂", "’Ø’°’º’°’æ’°÷Ä’∏÷Ç’©’µ’°’∂ ’≤’•’Ø’°’æ’°÷Ä"],
        "’¶’´’∂’æ’°’Æ": ["’º’°’¶’¥’°’Ø’°’∂", "’∫’°’∑’ø’∫’°’∂’°’Ø’°’∂", "’¶’´’∂’æ’∏÷Ä’°’Ø’°’∂"],
        "’∞’°÷Ä’±’°’Ø’∏÷Ç’¥": ["’°’£÷Ä’•’Ω’´’°", "’∞÷Ä’°’±’£’∏÷Ç’©’µ’∏÷Ç’∂", "’¶’´’∂’æ’°’Æ ’¢’°’≠’∏÷Ç’¥"]
    }

    results = []
    for _ in range(n):
        augmented = text
        for word, subs in armenian_synonyms.items():
            if word in augmented:
                augmented = augmented.replace(word, random.choice(subs))
        results.append(augmented)
    return results

print(armenian_augment("’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’∏÷Ç ’¥’°’Ω’´’∂ ’∞’°’µ’ø’°÷Ä’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂", n=2))

vectorizer = TfidfVectorizer(
    max_features=1500,
    ngram_range=(1, 3),
    token_pattern=r'\b[’°-÷Ü‘±-’ñ]{3,}\b',
    stop_words=['÷á', '’ß', '’®', '’∏÷Ä', '’´’∂’π', '’∫’•’ø÷Ñ', '’ß÷Ä']
)
cb = CatBoostClassifier(
    iterations=800,
    depth=5,
    learning_rate=0.025,
    l2_leaf_reg=3,
    early_stopping_rounds=15,
    eval_metric='F1',
    class_weights=[1, 4],
    text_features=['text'],
    verbose=200
)
try:
    from transformers import pipeline
    bert_classifier = pipeline(
        "text-classification",
        model="Geotrend/bert-base-hy",
        tokenizer="Geotrend/bert-base-hy"
    )
    print("BERT model loaded successfully")
except Exception as e:
    print(f"Couldn't load BERT model: {e}")

In [None]:
import random
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from catboost import CatBoostClassifier
from nlpaug.augmenter.word import SynonymAug

def armenian_augment(text, n=2):
    """Improved augmentation with varied outputs"""
    armenian_synonyms = {
        "’Ä‘±’ä‘ø": ["’Ä’°’µ’°’Ω’ø’°’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’∫’°’µ’¥’°’∂’°’£’´÷Ä", "’º’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ", "’Ä‘±’ä‘ø ’Ø’°’¶’¥’°’Ø’•÷Ä’∫’∏÷Ç’©’µ’∏÷Ç’∂"],
        "’°’§÷Ä’¢’•’ª’°’∂": ["’°’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’Ø’∏’≤’¥", "’∞’°÷Ä÷á’°’∂ ’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂", "‘±’§÷Ä’¢’•’ª’°’∂’´ ’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂"],
        "÷É’°’∑’´’∂’µ’°’∂": ["’æ’°÷Ä’π’°’∫’•’ø", "’∂’´’Ø’∏’¨ ÷É’°’∑’´’∂’µ’°’∂", "’Ø’°’º’°’æ’°÷Ä’∏÷Ç’©’µ’°’∂ ’≤’•’Ø’°’æ’°÷Ä"],
        "’¶’´’∂’æ’°’Æ": ["’º’°’¶’¥’°’Ø’°’∂", "’∫’°’∑’ø’∫’°’∂’°’Ø’°’∂", "’¶’´’∂’æ’∏÷Ä’°’Ø’°’∂"],
        "’∞’°÷Ä’±’°’Ø’∏÷Ç’¥": ["’°’£÷Ä’•’Ω’´’°", "’∞÷Ä’°’±’£’∏÷Ç’©’µ’∏÷Ç’∂", "’¶’´’∂’æ’°’Æ ’¢’°’≠’∏÷Ç’¥"],
        "’§’∏÷Ç÷Ä’Ω ’£’°’¨": ["’∞’•’º’°’∂’°’¨", "’¨÷Ñ’•’¨", "’§’°’§’°÷Ä’•’¨ ’¥’°’Ω’∂’°’Ø÷Å’•’¨"]
    }

    results = []
    words = text.split()
    for _ in range(n):
        augmented = []
        for word in words:
            if word in armenian_synonyms and random.random() < 0.5:
                augmented.append(random.choice(armenian_synonyms[word]))
            else:
                augmented.append(word)
        results.append(' '.join(augmented))
    return results
print(armenian_augment("’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’∏÷Ç ’¥’°’Ω’´’∂ ’∞’°’µ’ø’°÷Ä’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂", n=3))
vectorizer = TfidfVectorizer(
    max_features=1500,
    ngram_range=(1, 3),
    token_pattern=r'\b[’°-÷Ü‘±-’ñ]{3,}\b',
    stop_words=['÷á', '’ß', '’®', '’∏÷Ä', '’´’∂’π', '’∫’•’ø÷Ñ', '’ß÷Ä']
)

cb = CatBoostClassifier(
    iterations=800,
    depth=5,
    learning_rate=0.025,
    l2_leaf_reg=3,
    early_stopping_rounds=15,
    eval_metric='F1',
    class_weights=[1, 4],
    verbose=200
)
try:
    from transformers import pipeline
    bert_classifier = pipeline(
        "text-classification",
        model="bert-base-multilingual-cased",
        tokenizer="bert-base-multilingual-cased"
    )
    print("Multilingual BERT model loaded successfully")
except Exception as e:
    print(f"Couldn't load BERT model: {e}")

In [None]:
import random
import pandas as pd
import joblib
from sklearn.feature_extraction.text import TfidfVectorizer
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split

data = {
    'text': [
        '’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß',
        '‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’ø’•’≠’∂’∏’¨’∏’£’´’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂',
        '’ì’°’∑’´’∂’µ’°’∂’´ ’∞’°’µ’ø’°÷Ä’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂’® ’æ’°’ø’∂ ’ß',
        '‘¥’∫÷Ä’∏÷Å’∂’•÷Ä’∏÷Ç’¥ ’∂’∏÷Ä ’Æ÷Ä’°’£’´÷Ä ’ß ’¥’ø÷Å’æ’•’¨'
    ],
    'label': [1, 0, 1, 0]
}
df = pd.DataFrame(data)

def armenian_augment(text, n=3):
    synonyms = {
        "’Ä‘±’ä‘ø": ["’Ä’°’µ’°’Ω’ø’°’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’∫’°’µ’¥’°’∂’°’£’´÷Ä", "’º’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ"],
        "÷É’°’∑’´’∂’µ’°’∂": ["’æ’°÷Ä’π’°’∫’•’ø", "’∂’´’Ø’∏’¨ ÷É’°’∑’´’∂’µ’°’∂"],
        "’§’∏÷Ç÷Ä’Ω ’£’°’¨": ["’∞’•’º’°’∂’°’¨", "’¨÷Ñ’•’¨"]
    }
    results = []
    for _ in range(n):
        words = text.split()
        augmented = [random.choice(synonyms.get(word, [word])) for word in words]
        results.append(' '.join(augmented))
    return results

print("‘±÷Ç’£’¥’•’∂’ø’°÷Å’´’°’µ’´ ÷Ö÷Ä’´’∂’°’Ø:")
augmented = armenian_augment("’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß", n=2)
for i, text in enumerate(augmented, 1):
    print(f"{i}. {text}")

vectorizer = TfidfVectorizer(
    max_features=1000,
    ngram_range=(1, 2),
    stop_words=['÷á', '’ß', '’®', '’∏÷Ä']
)

X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.25)
X_train_vec = vectorizer.fit_transform(X_train)

cb = CatBoostClassifier(
    iterations=300,
    depth=4,
    learning_rate=0.05,
    early_stopping_rounds=10,
    verbose=50
)

print("\n’Ñ’∏’§’•’¨’´ ’∏÷Ç’Ω’∏÷Ç÷Å’∏÷Ç’¥ ’Ω’Ø’Ω’æ’°’Æ ’ß...")
cb.fit(X_train_vec, y_train)
print("’Ñ’∏’§’•’¨’´ ’∏÷Ç’Ω’∏÷Ç÷Å’∏÷Ç’¥ ’°’æ’°÷Ä’ø’æ’°’Æ ’ß")

def save_models_fast():
    joblib.dump({
        'model': cb,
        'vectorizer': vectorizer
    }, 'fast_model.pkl', compress=3)
    print("\n’Ñ’∏’§’•’¨’® ’∞’°’ª’∏’≤’∏÷Ç’©’µ’°’¥’¢ ’∫’°’∞’∫’°’∂’æ’°’Æ ’ß fast_model.pkl ÷Ü’°’µ’¨’∏÷Ç’¥")

save_models_fast()

test_text = "’Ä‘±’ä‘ø-’´÷Å ’∞’•’º’°’∂’°’¨’® ’æ’°’ø ’£’°’≤’°÷É’°÷Ä ’ß"
test_vec = vectorizer.transform([test_text])
prediction = cb.predict(test_vec)[0]
print(f"\n’ì’∏÷Ä’±’°÷Ä’Ø’∏÷Ç’¥’ù '{test_text}'")
print("‘ø’°’∂’≠’°’ø’•’Ω’∏÷Ç’¥:", "’î’°÷Ä’∏’¶’π’°’Ø’°’∂" if prediction == 1 else "’â’•’¶’∏÷Ñ")

In [None]:
import random
import pandas as pd
import joblib
from sklearn.feature_extraction.text import TfidfVectorizer
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

data = {
    'text': [
        '’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß',
        '‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’ø’•’≠’∂’∏’¨’∏’£’´’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂',
        '’ì’°’∑’´’∂’µ’°’∂’´ ’∞’°’µ’ø’°÷Ä’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß',
        '‘¥’∫÷Ä’∏÷Å’∂’•÷Ä’∏÷Ç’¥ ’∂’∏÷Ä ’Æ÷Ä’°’£’´÷Ä ’ß ’¥’ø÷Å’æ’•’¨',
        '‘±’§÷Ä’¢’•’ª’°’∂’® ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’∞÷Ä’°’§’°’§’°÷Ä’®',
        '’Ä’°’µ’°’Ω’ø’°’∂’∏÷Ç’¥ ’ø’∂’ø’•’Ω’°’Ø’°’∂ ’°’≥ ’ß ’£÷Ä’°’∂÷Å’æ’∏÷Ç’¥',
        '’å’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ’® ’∫’•’ø÷Ñ ’ß ’¨’∏÷Ç’Æ’°÷Ä’æ’´',
        '‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¥’∑’°’Ø’∏÷Ç’©’°’µ’´’∂ ’¥’´’ª’∏÷Å’°’º’∏÷Ç’¥'
    ],
    'label': [1, 0, 1, 0, 1, 0, 1, 0]
}
df = pd.DataFrame(data)

def armenian_augment(text, n=3):
    synonyms = {
        "’Ä‘±’ä‘ø": ["’Ä’°’µ’°’Ω’ø’°’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’∫’°’µ’¥’°’∂’°’£’´÷Ä", "’º’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ", "’Ä‘±’ä‘ø ’Ø’°’¶’¥’°’Ø’•÷Ä’∫’∏÷Ç’©’µ’∏÷Ç’∂"],
        "’°’§÷Ä’¢’•’ª’°’∂": ["’°’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’Ø’∏’≤’¥", "’∞’°÷Ä÷á’°’∂ ’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂", "‘±’§÷Ä’¢’•’ª’°’∂’´ ’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂"],
        "÷É’°’∑’´’∂’µ’°’∂": ["’æ’°÷Ä’π’°’∫’•’ø’®", "’∂’´’Ø’∏’¨ ÷É’°’∑’´’∂’µ’°’∂", "’Ø’°’º’°’æ’°÷Ä’∏÷Ç’©’µ’°’∂ ’≤’•’Ø’°’æ’°÷Ä’®"],
        "’æ’ø’°’∂’£’°’æ’∏÷Ä": ["’æ’∂’°’Ω’°’Ø’°÷Ä", "’Ω’∫’°’º’∂’°’¨’´÷Å", "’æ’ø’°’∂’£ ’∂’•÷Ä’Ø’°’µ’°÷Å’∂’∏’≤"],
        "’§’∏÷Ç÷Ä’Ω ’£’°’¨": ["’∞’•’º’°’∂’°’¨", "’¨÷Ñ’•’¨", "’§’°’§’°÷Ä’•’¨ ’¥’°’Ω’∂’°’Ø÷Å’•’¨"],
        "’¨’∏÷Ç’Æ’°÷Ä’æ’´": ["’§’°’§’°÷Ä’´ ’£’∏’µ’∏÷Ç’©’µ’∏÷Ç’∂ ’∏÷Ç’∂’•’∂’°’¨", "÷É’°’Ø’æ’´", "’æ’•÷Ä’°÷Å’æ’´"]
    }

    results = []
    for _ in range(n):
        words = text.split()
        augmented = []
        for word in words:
            clean_word = word.strip('.,!?()[]{}"\'')
            if clean_word in synonyms:
                replacement = random.choice(synonyms[clean_word])
                if word[-1] in '.,!?()[]{}"\'':
                    replacement += word[-1]
                augmented.append(replacement)
            else:
                augmented.append(word)
        results.append(' '.join(augmented))
    return list(set(results))

print("=== ‘±÷Ç’£’¥’•’∂’ø’°÷Å’´’°’µ’´ ’ï÷Ä’´’∂’°’Ø ===")
sample_text = "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß:"
augmented_samples = armenian_augment(sample_text, n=3)
for i, sample in enumerate(augmented_samples, 1):
    print(f"{i}. {sample}")
vectorizer = TfidfVectorizer(
    max_features=1500,
    ngram_range=(1, 2),
    token_pattern=r'\b[’°-÷Ü‘±-’ñ]{3,}\b',
    stop_words=['÷á', '’ß', '’®', '’∏÷Ä', '’´’∂’π', '’∫’•’ø÷Ñ', '’ß÷Ä', '’•’∂', '’¥’•’∂÷Ñ']
)

X_train, X_test, y_train, y_test = train_test_split(
    df['text'], df['label'], test_size=0.25, random_state=42
)

cb = CatBoostClassifier(
    iterations=500,
    depth=5,
    learning_rate=0.03,
    l2_leaf_reg=3,
    early_stopping_rounds=20,
    eval_metric='F1',
    class_weights=[1, 3],
    task_type='CPU',
    verbose=100
)

print("\n=== ’Ñ’∏’§’•’¨’´ ’à÷Ç’Ω’∏÷Ç÷Å’∏÷Ç’¥ ===")
X_train_vec = vectorizer.fit_transform(X_train)
cb.fit(X_train_vec, y_train)
X_test_vec = vectorizer.transform(X_test)
y_pred = cb.predict(X_test_vec)
print("\n=== ‘≥’∂’°’∞’°’ø’¥’°’∂ ‘±÷Ä’§’µ’∏÷Ç’∂÷Ñ’∂’•÷Ä ===")
print(classification_report(y_test, y_pred, target_names=["’â’•’¶’∏÷Ñ", "’î’°÷Ä’∏’¶’π’°’Ø’°’∂"]))
print(f"’É’∑’£÷Ä’ø’∏÷Ç’©’µ’∏÷Ç’∂: {accuracy_score(y_test, y_pred):.2f}")

def predict_text(text, show_proba=True):
    """‘ø’°’∂’≠’°’ø’•’Ω’¥’°’∂ ÷Ü’∏÷Ç’∂’Ø÷Å’´’° ’∞’°’æ’°’∂’°’Ø’°’∂’∏÷Ç’©’µ’∏÷Ç’∂’∂’•÷Ä’∏’æ"""
    vec = vectorizer.transform([text])
    prediction = cb.predict(vec)[0]

    if show_proba:
        proba = cb.predict_proba(vec)[0]
        print(f"\n’è’•÷Ñ’Ω’ø: '{text}'")
        print(f"’Ä’°’æ’°’∂’°’Ø’°’∂’∏÷Ç’©’µ’∏÷Ç’∂’∂’•÷Ä: ’â’•’¶’∏÷Ñ={proba[0]:.2f}, ’î’°÷Ä’∏’¶’π’°’Ø’°’∂={proba[1]:.2f}")

    return "’î’°÷Ä’∏’¶’π’°’Ø’°’∂" if prediction == 1 else "’â’•’¶’∏÷Ñ"

print("\n=== ’ì’∏÷Ä’±’°÷Ä’Ø’∏÷Ç’¥ ===")
test_cases = [
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’Ø’°’µ’°’∂’°’¨’∏÷Ç ’ß ’•÷Ä’°’™’∑’ø’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’∞÷Ä’°’§’°’§’°÷Ä’´ ’º’•’™’´’¥’®"
]

for text in test_cases:
    print(f"{text} ‚Üí {predict_text(text)}")
def save_model():
    joblib.dump({
        'model': cb,
        'vectorizer': vectorizer,
        'predict_func': predict_text,
        'augment_func': armenian_augment
    }, 'armenian_propaganda_detector_v2.pkl')
    print("\n=== ’Ñ’∏’§’•’¨’® ’∫’°’∞’∫’°’∂’æ’°’Æ ’ß ===")

save_model()

In [None]:
import csv
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from catboost import CatBoostClassifier
import joblib

data = [

    ("’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’∞’•’ø÷á’°’∂÷Ñ’∂’•÷Ä ’Ø’∏÷Ç’∂’•’∂’°÷â", 1),
    ("‘±’§÷Ä’¢’•’ª’°’∂’® ’∫’°÷Ä’¢’•÷Ä’°’¢’°÷Ä ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’∞÷Ä’°’§’°’§’°÷Ä’´ ’∫’°’µ’¥’°’∂’°’æ’∏÷Ä’æ’°’Æ’∏÷Ç’©’µ’∏÷Ç’∂’®÷â", 1),
    ("’ì’°’∑’´’∂’µ’°’∂’´ ’Ø’°’º’°’æ’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂’® ’Ø’∏÷Ä’Æ’°’∂’∏÷Ç’¥ ’ß ’•÷Ä’Ø’´÷Ä’®÷â", 1),
    ("‘±’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’Ø’∏’≤’¥’® ’Ω’°’§÷Ä’°’∂÷Ñ’∂’•÷Ä ’ß ’Ø’°’¶’¥’°’Ø’•÷Ä’∫’∏÷Ç’¥÷â", 1),
    ("’Ä‘±’ä‘ø-’´÷Å ’∞’•’º’°’∂’°’¨’® ’Ø’∞’°’∂’£’•÷Å’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’Ø’∏÷Ä’Ω’ø’´’∂÷â", 1),
    ("’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’Ø’°÷Ä’∏’≤’°’∂’∏÷Ç’¥ ’∫’°’∑’ø’∫’°’∂’•’¨ ’Ä’°’µ’°’Ω’ø’°’∂’´ ’∑’°’∞’•÷Ä’®÷â", 1),
    ("’å’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ’® ’∫’°÷Ä’ø’°’§’´÷Ä ’ß ’¥’•÷Ä ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’∞’°’¥’°÷Ä÷â", 1),
    ("‘±’§÷Ä’¢’•’ª’°’∂’® ’Ω’∫’°’º’∂’∏÷Ç’¥ ’ß ’∂’∏÷Ä ’∫’°’ø’•÷Ä’°’¶’¥’∏’æ÷â", 1),
    ("’Ä‘±’ä‘ø-’∂ ’¥’•÷Ä ’¥’´’°’Ø ’°’∂’æ’ø’°’∂’£ ’•÷Ä’°’∑’≠’´÷Ñ’∂ ’ß÷â", 1),
    ("’ì’°’∑’´’∂’µ’°’∂’´ ’∞÷Ä’°’™’°÷Ä’°’Ø’°’∂’® ’°’∂’∞÷Ä’°’™’•’∑’ø ’ß ’•÷Ä’Ø÷Ä’´ ÷É÷Ä’Ø’∏÷Ç’©’µ’°’∂ ’∞’°’¥’°÷Ä÷â", 1),

    ("‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’µ’Ω ’∑’°’¢’°’© ’°÷Ä÷á’∏’ø ’•’≤’°’∂’°’Ø ’ß ’Ω’∫’°’Ω’æ’∏÷Ç’¥÷â", 0),
    ("’Ä’°’µ’°’Ω’ø’°’∂’∏÷Ç’¥ ’ø’•’≤’´ ’Ø’∏÷Ç’∂’•’∂’° ’•÷Ä’°’™’∑’ø’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂÷â", 0),
    ("‘≥’µ’∏÷Ç’¥÷Ä’´’∏÷Ç’¥ ’¢’°÷Å’æ’•’¨ ’ß ’∂’∏÷Ä ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â", 0),
    ("’Ñ’°÷Ä’¶’´’Ø’∂’•÷Ä’® ’∫’°’ø÷Ä’°’Ω’ø’æ’∏÷Ç’¥ ’•’∂ ’¥’´’ª’°’¶’£’°’µ’´’∂ ’¥÷Ä÷Å’°’∑’°÷Ä’´’∂÷â", 0),
    ("’Ü’∏÷Ä ÷Ü’´’¨’¥’´ ’∫÷Ä’•’¥’´’•÷Ä’°’∂ ’¥’•’Æ ’∞’•’ø’°÷Ñ÷Ä÷Ñ÷Ä’∏÷Ç’©’µ’∏÷Ç’∂ ’ß ’°’º’°’ª’°÷Å÷Ä’•’¨÷â", 0),
    ("‘¥’∫÷Ä’∏÷Å’∂’•÷Ä’∏÷Ç’¥ ’Ω’Ø’Ω’æ’•’¨ ’•’∂ ’°’¥’°’º’°’µ’´’∂ ’°÷Ä’±’°’Ø’∏÷Ç÷Ä’§’∂’•÷Ä’®÷â", 0),
    ("‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•’¨ ’ß ’™’°’¥’°’∂’°’Ø’°’Ø’´÷Å ’°÷Ä’æ’•’Ω’ø’´ ’Ø’•’∂’ø÷Ä’∏’∂÷â", 0),
    ("‘ø’•’∂’ø÷Ä’∏’∂’°’Ø’°’∂ ’∫’∏÷Ç÷Ä’°’Ø’∏÷Ç’¥ ’ø’∂’Ø’æ’•’¨ ’•’∂ ’∂’∏÷Ä ’Æ’°’º’•÷Ä÷â", 0),
    ("’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’£’°÷Ä’∂’°’∂’°’µ’´’∂ ’ø’∏’∂’°’Ø’°’∂ ’¥’´’ª’∏÷Å’°’º’∏÷Ç’¥÷â", 0),
    ("’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’°÷Ä’±’°’∂’°’£÷Ä’æ’•’¨ ’ß ’¶’¢’∏’Ω’°’∑÷Ä’ª’∏÷Ç’©’µ’°’∂ ’°’≥÷â", 0),

]

with open("armenian_dataset.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["text", "label"])
    writer.writerows(data)

print("‚úÖ armenian_dataset.csv ÷Ü’°’µ’¨’® ’Ω’ø’•’≤’Æ’æ’•÷Å!")

df = pd.read_csv("armenian_dataset.csv")
print("\nDataset preview:")
print(df.head())

vectorizer = TfidfVectorizer(
    max_features=1500,
    ngram_range=(1, 2),
    token_pattern=r'\b[’°-÷Ü‘±-’ñ]{3,}\b',
    stop_words=['÷á', '’ß', '’®', '’∏÷Ä', '’´’∂’π', '’∫’•’ø÷Ñ', '’ß÷Ä', '’•’∂', '’¥’•’∂÷Ñ']
)

X = vectorizer.fit_transform(df['text'])
y = df['label']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

cb = CatBoostClassifier(
    iterations=500,
    depth=5,
    learning_rate=0.03,
    l2_leaf_reg=3,
    eval_metric='Accuracy',
    verbose=100
)

print("\nüöÄ ’Ñ’∏’§’•’¨’´ ’∏÷Ç’Ω’∏÷Ç÷Å’∏÷Ç’¥’® ’Ω’Ø’Ω’æ’∏÷Ç’¥ ’ß...")
cb.fit(X_train, y_train)
print("‚úÖ ’Ñ’∏’§’•’¨’´ ’∏÷Ç’Ω’∏÷Ç÷Å’∏÷Ç’¥’® ’°’æ’°÷Ä’ø’æ’•÷Å!")

y_pred = cb.predict(X_test)
print("\n=== ‘≥’∂’°’∞’°’ø’¥’°’∂ ’°÷Ä’§’µ’∏÷Ç’∂÷Ñ’∂’•÷Ä ===")
print(classification_report(y_test, y_pred, target_names=["’â’•’¶’∏÷Ñ", "’î’°÷Ä’∏’¶’π’°’Ø’°’∂"]))
print(f"’É’∑’£÷Ä’ø’∏÷Ç’©’µ’∏÷Ç’∂: {accuracy_score(y_test, y_pred):.2f}")

joblib.dump({'model': cb, 'vectorizer': vectorizer}, "propaganda_model.pkl")
print("\n‚úÖ ’Ñ’∏’§’•’¨’® ’∫’°’∞’∫’°’∂’æ’•÷Å propaganda_model.pkl ÷Ü’°’µ’¨’∏÷Ç’¥!")

def predict_text(text):
    vec = vectorizer.transform([text])
    pred = cb.predict(vec)[0]
    return "’î’°÷Ä’∏’¶’π’°’Ø’°’∂" if pred == 1 else "’â’•’¶’∏÷Ñ"

print("\n=== ’ì’∏÷Ä’±’°÷Ä’Ø’∏÷Ç’¥ ===")
test_cases = [
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•’¨ ’ß ’∂’∏÷Ä ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’Ω’∫’°’º’∂’∏÷Ç’¥ ’ß ’∂’∏÷Ä ’∫’°’ø’•÷Ä’°’¶’¥’∏’æ",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∞’°’≤’∏÷Ä’§’∏÷Ç’¥ ’ß ’∏÷Ä ’∑’∏÷Ç’ø’∏’æ ’∞’°÷Ä’±’°’Ø’æ’•’¨’∏÷Ç ’ß ’Ä’°’µ’°’Ω’ø’°’∂’´ ’æ÷Ä’°",
    "‘±’¨’´÷á’∂ ’°’Ω’•’¨ ’ß ’∏÷Ä ’Ω’´÷Ä’∏÷Ç’¥ ’ß ‘±’§÷Ä’¢’•’ª’°’∂’®"
]
for t in test_cases:
    print(f"{t} ‚Üí {predict_text(t)}")


In [None]:
import random
import joblib
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

propaganda_texts = [
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’∞’•’ø÷á’°’∂÷Ñ’∂’•÷Ä ’Ø’∏÷Ç’∂’•’∂’°÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∫’°÷Ä’¢’•÷Ä’°’¢’°÷Ä ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’∞÷Ä’°’§’°’§’°÷Ä’´ ’∫’°’µ’¥’°’∂’°’æ’∏÷Ä’æ’°’Æ’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ’Ø’°’º’°’æ’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂’® ’Ø’∏÷Ä’Æ’°’∂’∏÷Ç’¥ ’ß ’•÷Ä’Ø’´÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’Ø’∏’≤’¥’® ’Ω’°’§÷Ä’°’∂÷Ñ’∂’•÷Ä ’ß ’Ø’°’¶’¥’°’Ø’•÷Ä’∫’∏÷Ç’¥÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’∞’•’º’°’∂’°’¨’® ’Ø’∞’°’∂’£’•÷Å’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’Ø’∏÷Ä’Ω’ø’´’∂÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’Ø’°÷Ä’∏’≤’°’∂’∏÷Ç’¥ ’∫’°’∑’ø’∫’°’∂’•’¨ ’Ä’°’µ’°’Ω’ø’°’∂’´ ’∑’°’∞’•÷Ä’®÷â",
    "’å’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ’® ’∫’°÷Ä’ø’°’§’´÷Ä ’ß ’¥’•÷Ä ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’∞’°’¥’°÷Ä÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’Ω’∫’°’º’∂’∏÷Ç’¥ ’ß ’∂’∏÷Ä ’∫’°’ø’•÷Ä’°’¶’¥’∏’æ÷â",
    "’Ä‘±’ä‘ø-’∂ ’¥’•÷Ä ’¥’´’°’Ø ’°’∂’æ’ø’°’∂’£ ’•÷Ä’°’∑’≠’´÷Ñ’∂ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ’∞÷Ä’°’™’°÷Ä’°’Ø’°’∂’® ’°’∂’∞÷Ä’°’™’•’∑’ø ’ß ’•÷Ä’Ø÷Ä’´ ÷É÷Ä’Ø’∏÷Ç’©’µ’°’∂ ’∞’°’¥’°÷Ä÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’¶’∏÷Ä÷Ñ’•÷Ä’® ’≠’°’≠’ø’∏÷Ç’¥ ’•’∂ ’Ω’°’∞’¥’°’∂’∂’•÷Ä’®÷â",
    "‘±’¶’£’°’µ’´’∂ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’∏÷Ç’∂’® ’æ’ø’°’∂’£’æ’°’Æ ’ß ’ì’°’∑’´’∂’µ’°’∂’´ ’Ω’≠’°’¨’∂’•÷Ä’´ ’∫’°’ø’≥’°’º’∏’æ÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’Ø’∂’æ’°’¶’•÷Å’∂’´ ’¥’•÷Ä ’∫’°’∑’ø’∫’°’∂’∏÷Ç’∂’°’Ø’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’æ’ø’°’∂’£’∏÷Ç’¥ ’ß ’∫’•’ø’∏÷Ç’©’µ’°’∂ ’°’∫’°’£’°’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’´ ’Ω’°’§÷Ä’°’∂÷Ñ’∂’•÷Ä’® ’°’∂’∫’°’ø’´’™ ’π’•’∂ ’¥’∂’°÷â",
    "’å’°’¶’¥’°’Ø’°’∂ ’∏÷Ç’™’•÷Ä’´ ’∞’¶’∏÷Ä’°÷Å’∏÷Ç’¥’® ’Ø’°÷Ä÷á’∏÷Ä ’ß ’¥’•÷Ä ’£’∏’µ’°’ø÷á’¥’°’∂ ’∞’°’¥’°÷Ä÷â",
    "’Ä‘±’ä‘ø-’´ ÷Ö’£’∂’∏÷Ç’©’µ’∏÷Ç’∂’® ’Ø’•’∂’Ω’°’Ø’°’∂ ’∂’∑’°’∂’°’Ø’∏÷Ç’©’µ’∏÷Ç’∂ ’∏÷Ç’∂’´÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ÷Ñ’°’µ’¨’•÷Ä’® ’æ’∂’°’Ω’∏÷Ç’¥ ’•’∂ ’¢’°’∂’°’Ø’´’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∂’°’≠’°’∫’°’ø÷Ä’°’Ω’ø’æ’∏÷Ç’¥ ’ß ’∂’∏÷Ä ’°’£÷Ä’•’Ω’´’°’µ’´÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’Ø’∏÷Ä’Æ’°’∂’°÷Ä’°÷Ä ÷Ñ’°’≤’°÷Ñ’°’Ø’°’∂’∏÷Ç’©’µ’∏÷Ç’∂ ’ß ’æ’°÷Ä’∏÷Ç’¥÷â",
    "’Ä‘±’ä‘ø-’∂ ’¥’´’°’Ø ’∏÷Ç’™’∂ ’ß, ’∏÷Ä ’∫’°’∑’ø’∫’°’∂’∏÷Ç’¥ ’ß ’¥’•’¶÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’¥’´’ª’°’¶’£’°’µ’´’∂ ÷Ö÷Ä’•’∂÷Ñ’∂’•÷Ä’®÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ’∫’°’ø’≥’°’º’∏’æ ’•÷Ä’Ø’´÷Ä’® ’æ’ø’°’∂’£’æ’°’Æ ’ß÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß ’¥’•÷Ä ’°’∫’°’£’°’µ’´ ’∞’°’¥’°÷Ä÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’Ω’∫’°’º’∂’°’¨’´÷Ñ’∂’•÷Ä’® ’°’≥’∏÷Ç’¥ ’•’∂÷â",
    "’å’°’¶’¥’°’Ø’°’∂ ’§’°’∑’´’∂÷Ñ’® ’¥’´’°’Ø ’•÷Ä’°’∑’≠’´÷Ñ’∂ ’ß ’≠’°’≤’°’≤’∏÷Ç’©’µ’°’∂÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ’Ø’°’º’°’æ’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂’® ’∫’•’ø÷Ñ ’ß ’∞÷Ä’°’™’°÷Ä’°’Ø’°’∂ ’ø’°÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∑’°÷Ä’∏÷Ç’∂’°’Ø’∏÷Ç’¥ ’ß ’Ω’°’§÷Ä’°’∂÷Ñ’∂’•÷Ä’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’∞’•’º’°’∂’°’¨’® ’∞’°’æ’°’Ω’°÷Ä’°’¶’∏÷Ä ’ß ’∫’°÷Ä’ø’∏÷Ç’©’µ’°’∂÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’Ø’∏÷Ä’Æ’°’∂’∏÷Ç’¥ ’ß ’°’¶’£’°’µ’´’∂ ’°÷Ä’™’•÷Ñ’∂’•÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’´ ’°’£÷Ä’•’Ω’´’°’∂ ’°’∂’®’∂’§’∏÷Ç’∂’•’¨’´ ’ß÷â",
    "’Ä‘±’ä‘ø-’® ’¥’´’°’Ø ’∫’°’∑’ø’∫’°’∂’∂ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ’Ω’≠’°’¨’∂’•÷Ä’® ’°’≤’•’ø’°’¨’´ ’•’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’¢’°’∂’°’Ø’® ’Ω’∫’°’º’∂’∏÷Ç’¥ ’ß ’¥’•÷Ä ’Ω’°’∞’¥’°’∂’∂’•÷Ä’´’∂÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’°’∂’≠’∏’∞’•’¥ ÷Ñ’°’µ’¨ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’æ’∂’°’Ω’∏÷Ç’¥ ’ß ’Ä’°’µ’°’Ω’ø’°’∂’´ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’æ’ø’°’∂’£ ’ß ’∂’•÷Ä’Ø’°’µ’°÷Å’∂’∏÷Ç’¥÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’Ø’∞’°’∂’£’•÷Å’∂’´ ’∫’°’ø’•÷Ä’°’¶’¥’´÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’Ø’°÷Ä’∏’≤’°’∂’∏÷Ç’¥ ’≤’•’Ø’°’æ’°÷Ä’•’¨ ’•÷Ä’Ø’´÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’π’´ ’∞’°÷Ä’£’∏÷Ç’¥ ’≠’°’≤’°’≤’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "’Ä‘±’ä‘ø-’´ ’°’ª’°’Ø÷Å’∏÷Ç’©’µ’∏÷Ç’∂’® ’°’∂’∞÷Ä’°’™’•’∑’ø ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’∫’•’ø÷Ñ ’ß ’∞÷Ä’°’™’°÷Ä’°’Ø’°’∂ ’ø’°÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’Ä’°’µ’°’Ω’ø’°’∂’´ ’Ω’°’∞’¥’°’∂’∂’•÷Ä’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’∞’•’º’°’∂’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’Ω’≠’°’¨ ’∏÷Ä’∏’∑’∏÷Ç’¥’∂’•÷Ä ’ß ’Ø’°’µ’°÷Å’∂’∏÷Ç’¥÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’´ ’Ω’°’§÷Ä’°’∂÷Ñ’∂’•÷Ä’® ’∑’°÷Ä’∏÷Ç’∂’°’Ø’æ’∏÷Ç’¥ ’•’∂÷â",
    "’Ä‘±’ä‘ø-’∂ ’Ø’°÷Ä÷á’∏÷Ä ’ß ’¥’•÷Ä ’∫’°’∑’ø’∫’°’∂’∏÷Ç’©’µ’°’∂ ’∞’°’¥’°÷Ä÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ÷Ñ’°’≤’°÷Ñ’°’Ø’°’∂’∏÷Ç’©’µ’∏÷Ç’∂ ’ß ’æ’°÷Ä’∏÷Ç’¥÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’Ω’∫’°’º’∂’∏÷Ç’¥ ’ß ’¥’•÷Ä ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’Ω’≠’°’¨ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’∫’•’ø÷Ñ ’ß ’∞’•’º’°’∂’°÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∑’°÷Ä’∏÷Ç’∂’°’Ø’∏÷Ç’¥ ’ß ’°’£÷Ä’•’Ω’´’°’∂÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’¥’•’¶ ’Ø’¥’´’°÷Å’∂’´ ’æ’ø’°’∂’£’´’∂÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’æ’∂’°’Ω’∏÷Ç’¥ ’ß ’∫’•’ø’°’Ø’°’∂ ’Ø’°’º’∏÷Ç’µ÷Å’∂’•÷Ä’´’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’°’∂’ø’•’Ω’∏÷Ç’¥ ’ß ’¥’´’ª’°’¶’£’°’µ’´’∂ ’´÷Ä’°’æ’∏÷Ç’∂÷Ñ’®÷â",
    "’Ä‘±’ä‘ø-’´ ÷Ö’£’∂’∏÷Ç’©’µ’∏÷Ç’∂’® ’°’∂’∞÷Ä’°’™’•’∑’ø ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ’Ø’°’º’°’æ’°÷Ä’∏÷Ç’©’µ’∏÷Ç’∂’® ’±’°’≠’∏’≤’æ’•’¨ ’ß÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’°’Ø’°’∂ ’°’£÷Ä’•’Ω’´’°’∂ ’°’≥’∏÷Ç’¥ ’ß÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’°’≤’•’ø’°’¨’´ ’Ø’¨’´’∂’´÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’∫’°’∑’ø’∫’°’∂’∏÷Ç’¥ ’¥’•÷Ä ’Ω’°’∞’¥’°’∂’∂’•÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∑’°÷Ä’∏÷Ç’∂’°’Ø’∏÷Ç’¥ ’ß ’Ω’∫’°’º’∂’°’¨÷â",
    "’Ä‘±’ä‘ø-’® ’∫’°’∑’ø’∫’°’∂’∏÷Ç’¥ ’ß ’¥’•’¶÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’æ’ø’°’∂’£’∏÷Ç’¥ ’ß ’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’°’£÷Ä’•’Ω’´’æ ÷Ñ’°’µ’¨’•÷Ä ’ß ’Ø’°’ø’°÷Ä’∏÷Ç’¥÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’Ø’¢’•÷Ä’´ ’≠’∏÷Ç’≥’°’∫’´÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’Ω’≠’°’¨ ’ß ’æ’°÷Ä’∏÷Ç’¥ ’¢’°’∂’°’Ø÷Å’∏÷Ç’©’µ’∏÷Ç’∂’∂’•÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’π’´ ’∫’°’∞’∫’°’∂’∏÷Ç’¥ ’∞÷Ä’°’§’°’§’°÷Ä’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’∞’°’∂÷Å’°’£’∏÷Ä’Æ’∏÷Ç’©’µ’∏÷Ç’∂ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’∫’°÷Ä’ø’∏÷Ç’©’µ’∏÷Ç’∂ ’ß ’¢’•÷Ä’∏÷Ç’¥÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’´ ’Ω’°’§÷Ä’°’∂÷Ñ’∂’•÷Ä’® ’≠’©’°’∂’æ’∏÷Ç’¥ ’•’∂÷â",
    "’Ä‘±’ä‘ø-’∂ ’°’∫’°’∞’∏’æ’∏÷Ç’¥ ’ß ’∫’°’∑’ø’∫’°’∂’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’¥’ø’°’Æ’∏÷Ç’¥ ’™’∏’≤’∏’æ÷Ä’§’´ ’¥’°’Ω’´’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’π’´ ’∞’°÷Ä’£’∏÷Ç’¥ ’¥’•÷Ä ’Ω’°’∞’¥’°’∂’∂’•÷Ä’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’°’∂’´’¥’°’Ω’ø ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’Ø’°÷Ä’∏’≤’°’∂’∏÷Ç’¥ ’¢’°’∂’°’Ø÷Å’•’¨÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’´ ÷Ñ’°’µ’¨’•÷Ä’® ’°’£÷Ä’•’Ω’´’æ ’•’∂÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’∞’•’ø÷á’°’∂÷Ñ’∂’•÷Ä ’Ø’∏÷Ç’∂’•’∂’°÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’≠’°’©’°÷Ä’∏÷Ç’¥ ’ß ’≠’°’≤’°’≤’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∑’°÷Ä’∏÷Ç’∂’°’Ø’∏÷Ç’¥ ’ß ’Ω’∫’°’º’∂’°’¨ ’≠’°’≤’°’≤’∏÷Ç’©’µ’°’∂’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’Ω’≠’°’¨ ’∏÷Ä’∏’∑’∏÷Ç’¥ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’æ’ø’°’∂’£’∏÷Ç’¥ ’ß ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∫’¨’°’∂’°’æ’∏÷Ä’∏÷Ç’¥ ’ß ’°’£÷Ä’•’Ω’´’°÷â",
    "’Ä‘±’ä‘ø-’∂ ’∫’°’∑’ø’∫’°’∂’∏÷Ç’¥ ’ß ’•÷Ä’Ø’´÷Ä’®÷â",
    "’ì’°’∑’´’∂’µ’°’∂’´ ÷Ñ’°’µ’¨’•÷Ä’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’•’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’∫’°’µ’¥’°’∂’°’æ’∏÷Ä’æ’°’Æ’∏÷Ç’©’µ’∏÷Ç’∂’∂’•÷Ä’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’°’∂’≠’∏’∞’•’¥’∏÷Ç’©’µ’∏÷Ç’∂ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’¥’ø’°’Æ’∏÷Ç’¥ ’∫’•’ø’∏÷Ç’©’µ’°’∂ ’°’∫’°’£’°’µ’´ ’¥’°’Ω’´’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’Ω’∫’°’º’∂’∏÷Ç’¥ ’ß ’Ä’°’µ’°’Ω’ø’°’∂’´ ’¢’∂’°’Ø’π’∏÷Ç’©’µ’°’∂’®÷â",
    "’Ä‘±’ä‘ø-’∂ ’¥’´’°’Ø ’•’¨÷Ñ’∂ ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’æ’ø’°’∂’£’∏÷Ç’¥ ’ß ’∫’•’ø’∏÷Ç’©’µ’°’∂ ’∞’´’¥÷Ñ’•÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’¥’•÷Ä ’´÷Ä’°’æ’∏÷Ç’∂÷Ñ’∂’•÷Ä’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’π’´ ’¢’•÷Ä’´ ’≠’°’≤’°’≤’∏÷Ç’©’µ’°’∂÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’∫’°’∑’ø’∫’°’∂’∏÷Ç’¥ ’Ω’°’∞’¥’°’∂’∂’•÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’π’´ ’∫’°’∞’∫’°’∂’∏÷Ç’¥ ’≠’°’≤’°’≤’∏÷Ç’©’µ’∏÷Ç’∂’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’Ø’¢’•÷Ä’´ ’æ’ø’°’∂’£’´÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’¥’ø’°’Æ’∏÷Ç’¥ ’°’∂’æ’ø’°’∂’£’∏÷Ç’©’µ’°’∂ ’¥’°’Ω’´’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’°’£÷Ä’•’Ω’´’æ ’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂ ’ß÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’°’≤’•’ø ’Ø’¨’´’∂’´÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’Ω’≠’°’¨ ’ß ’¥’∏’ø’•’∂’∏÷Ç’¥ ’∞’°÷Ä÷Å’•÷Ä’´’∂÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’≠’°’≠’ø’∏÷Ç’¥ ’ß ’Ø’°÷Ä’£’®÷â",
    "’Ä‘±’ä‘ø-’´÷Å ’§’∏÷Ç÷Ä’Ω ’£’°’¨’® ’æ’ø’°’∂’£’°’æ’∏÷Ä ’ß÷â",
    "’ì’°’∑’´’∂’µ’°’∂’® ’π’´ ’∫’°’∑’ø’∫’°’∂’∏÷Ç’¥ ’•÷Ä’Ø’´÷Ä’®÷â",
    "‘±’§÷Ä’¢’•’ª’°’∂’® ’∫’¨’°’∂’°’æ’∏÷Ä’∏÷Ç’¥ ’ß ’∞’°÷Ä’±’°’Ø’∏÷Ç’¥÷â"
]

neutral_texts = [
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’µ’Ω ’∑’°’¢’°’© ’°÷Ä÷á’∏’ø ’•’≤’°’∂’°’Ø ’ß ’Ω’∫’°’Ω’æ’∏÷Ç’¥÷â",
    "’Ä’°’µ’°’Ω’ø’°’∂’∏÷Ç’¥ ’ø’•’≤’´ ’Ø’∏÷Ç’∂’•’∂’° ’•÷Ä’°’™’∑’ø’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂÷â",
    "‘≥’µ’∏÷Ç’¥÷Ä’´’∏÷Ç’¥ ’¢’°÷Å’æ’•’¨ ’ß ’∂’∏÷Ä ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "’Ñ’°÷Ä’¶’´’Ø’∂’•÷Ä’® ’∫’°’ø÷Ä’°’Ω’ø’æ’∏÷Ç’¥ ’•’∂ ’¥’´’ª’°’¶’£’°’µ’´’∂ ’¥÷Ä÷Å’°’∑’°÷Ä’´’∂÷â",
    "’Ü’∏÷Ä ÷Ü’´’¨’¥’´ ’∫÷Ä’•’¥’´’•÷Ä’°’∂ ’¥’•’Æ ’∞’•’ø’°÷Ñ÷Ä÷Ñ÷Ä’∏÷Ç’©’µ’∏÷Ç’∂ ’ß ’°’º’°’ª’°÷Å÷Ä’•’¨÷â",
    "‘¥’∫÷Ä’∏÷Å’∂’•÷Ä’∏÷Ç’¥ ’Ω’Ø’Ω’æ’•’¨ ’•’∂ ’°’¥’°’º’°’µ’´’∂ ’°÷Ä’±’°’Ø’∏÷Ç÷Ä’§’∂’•÷Ä’®÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•’¨ ’ß ’™’°’¥’°’∂’°’Ø’°’Ø’´÷Å ’°÷Ä’æ’•’Ω’ø’´ ’Ø’•’∂’ø÷Ä’∏’∂÷â",
    "‘ø’•’∂’ø÷Ä’∏’∂’°’Ø’°’∂ ’∫’∏÷Ç÷Ä’°’Ø’∏÷Ç’¥ ’ø’∂’Ø’æ’•’¨ ’•’∂ ’∂’∏÷Ä ’Æ’°’º’•÷Ä÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’£’°÷Ä’∂’°’∂’°’µ’´’∂ ’ø’∏’∂’°’Ø’°’∂ ’¥’´’ª’∏÷Å’°’º’∏÷Ç’¥÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’°÷Ä’±’°’∂’°’£÷Ä’æ’•’¨ ’ß ’¶’¢’∏’Ω’°’∑÷Ä’ª’∏÷Ç’©’µ’°’∂ ’°’≥÷â",
    "’Ñ’°÷Ä’¶’°’∞÷Ä’°’∫’°÷Ä’°’Ø’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’¥’°÷Ä’¶’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂÷â",
    "’Ä’°’∂÷Ä’°’µ’´’∂ ’£÷Ä’°’§’°÷Ä’°’∂’∏÷Ç’¥ ’∂’∏÷Ä ’£÷Ä÷Ñ’•÷Ä ’•’∂ ’°’æ’•’¨’°÷Å’æ’•’¨÷â",
    "‘ø’•’∂’ø÷Ä’∏’∂’°’Ø’°’∂ ’∑’∏÷Ç’Ø’°’µ’∏÷Ç’¥ ’∂’∏÷Ä ’°’∫÷Ä’°’∂÷Ñ’°’ø’•’Ω’°’Ø’∂’•÷Ä ’•’∂÷â",
    "‘µ÷Ä÷á’°’∂’´ ’Ø’•’∂’§’°’∂’°’¢’°’∂’°’Ø’°’∂ ’°’µ’£’∏÷Ç’¥ ’Æ’∂’æ’•’¨ ’ß ’∂’∏÷Ä ’°’º’µ’∏÷Ç’Æ÷â",
    "’Ä’°’∂÷Ä’°’µ’´’∂ ’°’µ’£’∏÷Ç’¥ ’Ø’°’¶’¥’°’Ø’•÷Ä’∫’æ’•÷Å ’¥’°÷Ñ÷Ä’¥’°’∂ ’°’Ø÷Å’´’°÷â",
    "’á’°’¢’°’© ÷Ö÷Ä’® ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’∞’•’Æ’°’∂’æ’°’æ’°’¶÷Ñ’´ ’¥÷Ä÷Å’∏÷Ç’µ’©÷â",
    "‘±÷Ä÷Å’°’≠’∏÷Ç’¥ ’ø’•’≤’´ ’Ø’∏÷Ç’∂’•’∂’° ’¥’∑’°’Ø’∏÷Ç’©’°’µ’´’∂ ’∞’°’¥’•÷Ä’£÷â",
    "’è’•’≤’°’Ø’°’∂ ’©’°’ø÷Ä’∏’∂’® ’∂’•÷Ä’Ø’°’µ’°÷Å÷Ä’•÷Å ’∂’∏÷Ä ’∂’•÷Ä’Ø’°’µ’°÷Å’∏÷Ç’¥÷â",
    "‘µ÷Ä÷á’°’∂’´ ’¥’•’ø÷Ä’∏’µ’∏÷Ç’¥ ’∂’∏÷Ä ’æ’°’£’∏’∂’∂’•÷Ä ’•’∂ ’£’∏÷Ä’Æ’°÷Ä’Ø’æ’•’¨÷â",
    "’ç÷á’°’∂’´ ’°÷É’´’∂ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’¶’¢’∏’Ω’°’∑÷Ä’ª’°’µ’´’∂ ÷É’°’º’°’ø’∏’∂÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’ø’•’≤’∏÷Ç’¥’∂’•÷Ä ’π’•’∂ ’Ω’∫’°’Ω’æ’∏÷Ç’¥÷â",
    "‘±’æ’°’∂’§’°’Ø’°’∂ ’∑’∏÷Ç’Ø’°’µ’∏÷Ç’¥ ’¥’•’Æ ’©’æ’∏’æ ’°’µ÷Å’•’¨’∏÷Ç’∂’•÷Ä ’•’∂ ’•’≤’•’¨÷â",
    "‘≥’•’≤’°÷Ä÷Ñ’∏÷Ç’∂’´÷Ñ’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’±’Ø’∂’∏÷Ä’Ω’°’Ø’°’∂ ’¥÷Ä÷Å’∏÷Ç’µ’©÷â",
    "’Ä’°’∂÷Ä’°’µ’´’∂ ’°’µ’£’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’≠’°’≤’°’∞÷Ä’°’∫’°÷Ä’°’Ø÷â",
    "’Ñ’°÷Ä’¶’´’Ø’∂’•÷Ä’® ’¥’°÷Ä’¶’æ’∏÷Ç’¥ ’•’∂ ’°’¥’•’∂ ÷Ö÷Ä÷â",
    "’Ñ’°’µ÷Ä’°÷Ñ’°’≤’°÷Ñ’∏÷Ç’¥ ’¢’°÷Å’æ’•’¨ ’ß ’∂’∏÷Ä ’Ω÷Ä’≥’°÷Ä’°’∂÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’£’°÷Ä’∂’°’∂’°’µ’´’∂ ’ø’∏’∂’°’æ’°’≥’°’º÷â",
    "‘µ÷Ä÷á’°’∂’´ ÷É’∏’≤’∏÷Å’∂’•÷Ä’® ’¶’°÷Ä’§’°÷Ä’æ’•’¨ ’•’∂÷â",
    "‘≥’µ’∏÷Ç’≤’°’Ø’°’∂ ’∑÷Ä’ª’°’∂’∂’•÷Ä’∏÷Ç’¥ ’¢’•÷Ä÷Ñ’°’∞’°’æ’°÷Ñ’® ’Ω’Ø’Ω’æ’•’¨ ’ß÷â",
    "‘ø’•’∂’ø÷Ä’∏’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’£÷Ä÷Ñ’´ ’ø’∏’∂’°’æ’°’≥’°’º÷â",
    "‘µ÷Ä’°’™’∑’ø’°’Ø’°’∂ ’§’∫÷Ä’∏÷Å’∏÷Ç’¥ ’∞’°’¥’•÷Ä’£ ’ß ’•’≤’•’¨÷â",
    "‘±÷Ä’°’£’°’Æ’∏’ø’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’¶’¢’∏’Ω’°’∑÷Ä’ª’°’µ’´’∂ ’Ø’•’∂’ø÷Ä’∏’∂÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’ø’°÷Ñ ’•’≤’°’∂’°’Ø ’ß ’Ω’∫’°’Ω’æ’∏÷Ç’¥÷â",
    "’Ñ’°÷Ä’¶’°’§’°’∑’ø’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ÷Ü’∏÷Ç’ø’¢’∏’¨’°’µ’´’∂ ’≠’°’≤÷â",
    "‘µ÷Ä÷á’°’∂’´ ’°’µ’£’´’∂’•÷Ä’∏÷Ç’¥ ’∂’∏÷Ä ’Æ’°’≤’Ø’°’¥’°’∂’∂’•÷Ä ’•’∂ ’ø’•’≤’°’§÷Ä’æ’•’¨÷â",
    "‘±’æ’•’¨’´ ÷Ñ’°’∂ 100 ’¥’°÷Ä’§ ’¥’°’Ω’∂’°’Ø÷Å’•÷Å ’¥’´’ª’∏÷Å’°’º’¥’°’∂’®÷â",
    "‘≥’µ’∏÷Ç’≤’•÷Ä’∏÷Ç’¥ ’Ω’Ø’Ω’æ’•’¨ ’ß ’≠’°’≤’∏’≤’´ ’¢’•÷Ä÷Ñ’°’∞’°’æ’°÷Ñ’®÷â",
    "’Ä’°’∂÷Ä’°’µ’´’∂ ’£÷Ä’°’§’°÷Ä’°’∂’∏÷Ç’¥ ’®’∂’©’•÷Ä÷Å’°’∂’∏÷Ç’©’µ’°’∂ ÷Ö÷Ä ’ß÷â",
    "’ç÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’±’¥’•’º’°’µ’´’∂ ÷É’°’º’°’ø’∏’∂÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ÷Ü’´’¨’¥’´ ÷É’°’Ø ÷Å’∏÷Ç÷Å’°’§÷Ä’∏÷Ç’©’µ’∏÷Ç’∂÷â",
    "‘µ÷Ä÷á’°’∂’´ ’Ø’•’∂’§’°’∂’°’¢’°’∂’°’Ø’°’∂ ’°’µ’£’´’∂ ’°’µ÷Å’•’¨’∏÷Ç’∂’•÷Ä’∏’æ ’¨’´ ’ß÷Ä÷â",
    "‘≥’µ’∏÷Ç’¥÷Ä’∏÷Ç ’Ø’•’∂’ø÷Ä’∏’∂’∏÷Ç’¥ ’∂’∏÷Ä ’Ω÷Ä’≥’°÷Ä’°’∂ ’ß ’¢’°÷Å’æ’•’¨÷â",
    "’Ñ’°’µ÷Ä’°÷Ñ’°’≤’°÷Ñ’∏÷Ç’¥ ’∂’∏÷Ä ’∑’•’∂÷Ñ’•÷Ä ’•’∂ ’Ø’°’º’∏÷Ç÷Å’æ’∏÷Ç’¥÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ÷Ñ’°’≤’°÷Ñ’°’µ’´’∂ ’¥’°÷Ä’°’©’∏’∂÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’∞’•’Æ’°’∂’æ’°’µ’´’∂ ’¥÷Ä÷Å’°’æ’°’¶÷Ñ ’ß÷Ä÷â",
    "’ç’∫’∏÷Ä’ø’°’µ’´’∂ ’¥’´’ª’∏÷Å’°’º’∏÷Ç’¥’∂’•÷Ä’® ’∑’°’ø’°÷Å’•’¨ ’•’∂÷â",
    "‘≥’µ’∏÷Ç’≤’•÷Ä’∏÷Ç’¥ ’Ω’Ø’Ω’æ’•’¨ ’ß ’°’∑’∂’°’∂’°’µ’´’∂ ’¢’•÷Ä÷Ñ’°’∞’°’æ’°÷Ñ’®÷â",
    "‘µ÷Ä÷á’°’∂’´ ’¢’∏÷Ç’Ω’°’¢’°’∂’°’Ø’°’∂ ’°’µ’£’´’∂ ’°’µ÷Å’•’¨’∏÷Ç’∂’•÷Ä’∏’æ ’¨’´ ’ß÷Ä÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’°÷Ä’æ’•’Ω’ø’´ ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "’Ü’∏÷Ä ’©’°’∂’£’°÷Ä’°’∂ ’ß ’¢’°÷Å’æ’•’¨ ’¥’°’µ÷Ä’°÷Ñ’°’≤’°÷Ñ’∏÷Ç’¥÷â",
    "‘ø’•’∂’ø÷Ä’∏’∂’°’Ø’°’∂ ’£÷Ä’°’§’°÷Ä’°’∂’∏÷Ç’¥ ’®’∂’©’•÷Ä÷Å’°’∂’∏÷Ç’©’µ’°’∂ ÷Ö÷Ä ’ß÷Ä÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’∫’∏’•’¶’´’°’µ’´ ’•÷Ä’•’Ø’∏÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’∞’•’Æ’°’∂’æ’∏÷Ä’§’∂’•÷Ä’´ ’°’Ø÷Å’´’° ’ß÷Ä÷â",
    "’ç÷á’°’∂’´ ’°÷É’´’∂ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’°’¥’°’º’°’µ’´’∂ ’ø’∏’∂’°’æ’°’≥’°’º÷â",
    "‘µ÷Ä÷á’°’∂’´ ’°’µ’£’´’∂’•÷Ä’∏÷Ç’¥ ’∑’°’ø ’¶’¢’∏’Ω’°’∑÷Ä’ª’´’Ø’∂’•÷Ä ’Ø’°’∂÷â",
    "‘ø’•’∂’ø÷Ä’∏’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’£’°÷Ä’∂’°’∂’°’µ’´’∂ ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’∂’∏÷Ä ÷Ü’´’¨’¥’´ ’§’´’ø’∏÷Ç’¥÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’•’≤’°’∂’°’Ø’® ’ø’°÷Ñ’°’∂’∏÷Ç’¥ ’ß÷â",
    "‘≥’•’≤’°÷Ä÷Ñ’∏÷Ç’∂’´÷Ñ’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’•÷Ä’°’™’∑’ø’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂÷â",
    "‘µ÷Ä÷á’°’∂’´ ’Ø’•’∂’ø÷Ä’∏’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’£÷Ä’°’≠’°’∂’∏÷Ç’©÷â",
    "‘±÷Ä÷Å’°’≠’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’°÷Ä’æ’•’Ω’ø’´ ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’£÷Ä÷Ñ’´ ’∑’∂’∏÷Ä’∞’°’∂’§’•’Ω÷â",
    "’Ä’°’∂÷Ä’°’µ’´’∂ ’°’µ’£’∏÷Ç’¥ ’•÷Ä’•’≠’°’∂’•÷Ä’´ ’ø’∏’∂ ’ß÷Ä÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’∂’∏÷Ä’°’±÷á’∏÷Ç’©’µ’°’∂ ÷Å’∏÷Ç÷Å’°’§÷Ä’∏÷Ç’©’µ’∏÷Ç’∂÷â",
    "‘≥’µ’∏÷Ç’≤’°’Ø’°’∂ ’ø’∏’∂’°’æ’°’≥’°’º’® ’∑’°’ø ’¥’°÷Ä’§ ’ß÷Ä ’∞’°’æ’°÷Ñ’•’¨÷â",
    "‘ø’•’∂’ø÷Ä’∏’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’¥’°÷Ä’¶’°’Ø’°’∂ ’¥’´’ª’∏÷Å’°’º’∏÷Ç’¥÷â",
    "‘µ÷Ä÷á’°’∂’´ ’©’°’ø÷Ä’∏’∂’∏÷Ç’¥ ’∂’∏÷Ä ’∂’•÷Ä’Ø’°’µ’°÷Å’∏÷Ç’¥ ’ß÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’°’æ’°’∂’§’°’Ø’°’∂ ’∫’°÷Ä’•÷Ä’´ ’∞’°’¥’•÷Ä’£÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’Ω÷Ä’≥’°÷Ä’°’∂÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’¨’∏÷Ç’Ω’°’∂’Ø’°÷Ä’π’°’Ø’°’∂ ’¥÷Ä÷Å’∏÷Ç’µ’©÷â",
    "’ç÷á’°’∂’∏÷Ç’¥ ’¶’¢’∏’Ω’°’∑÷Ä’ª’´’Ø’∂’•÷Ä’® ’∑’°’ø’°÷Å’•’¨ ’•’∂÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’∂’Ø’°÷Ä’π’°’Ø’°’∂ ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’Ø’´’∂’∏’©’°’ø÷Ä’∏’∂÷â",
    "’Ä’°’∂÷Ä’°’µ’´’∂ ’°’µ’£’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’°’¥’°’º’°’µ’´’∂ ’Ω÷Ä’≥’°÷Ä’°’∂÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’ø’∏’∂’°’Ø’°’∂ ’∑÷Ñ’•÷Ä’©÷â",
    "‘≥’•’≤’°÷Ä÷Ñ’∏÷Ç’∂’´÷Ñ’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ÷É’°’º’°’ø’∏’∂÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’•’≤’°’∂’°’Ø’® ’¢’°÷Ä’•’¨’°’æ’æ’•’¨ ’ß÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’•÷Ä’•’≠’°’∂’•÷Ä’´ ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’ø’•’≠’∂’∏’¨’∏’£’´’°’Ø’°’∂ ’Ø’•’∂’ø÷Ä’∏’∂÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’£’°÷Ä’∂’°’∂’°’µ’´’∂ ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’∞’•’Æ’°’∂’æ’°’µ’´’∂ ’°÷Ä’∑’°’æ÷â",
    "‘≥’µ’∏÷Ç’≤’•÷Ä’∏÷Ç’¥ ’Ω’Ø’Ω’æ’•’¨ ’ß ’°’∑’∂’°’∂ ’¢’•÷Ä÷Ñ’°’∞’°’æ’°÷Ñ’®÷â",
    "’Ä’°’∂÷Ä’°’µ’´’∂ ’°’µ’£’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’Æ’°’≤’Ø’°’∂’∏÷Å÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’°’∂÷Å’Ø’°÷Å’æ’•÷Å ’£÷Ä’°’Ø’°’∂’∏÷Ç’©’µ’°’∂ ÷Ö÷Ä÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’°’æ’°’∂’§’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’°÷Ä’æ’•’Ω’ø’´ ’Ω÷Ä’°’∞÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’¥’∑’°’Ø’∏÷Ç’©’°’µ’´’∂ ’¥’´’ª’∏÷Å’°’º’∏÷Ç’¥’∂’•÷Ä’® ’∑’°’ø’°÷Å’•’¨ ’•’∂÷â",
    "‘≥’µ’∏÷Ç’≤’•÷Ä’∏÷Ç’¥ ’´÷Ä’°’Ø’°’∂’°÷Å’æ’∏÷Ç’¥ ’•’∂ ’ø’∏’∂’°’Ø’°’∂ ’¥’´’ª’∏÷Å’°’º’∏÷Ç’¥’∂’•÷Ä÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’°’¥’°’º’°’µ’´’∂ ’¢’°÷Å÷Ö’©’µ’° ’∞’°’¥’•÷Ä’£÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’£’´’ø’°’Ø’°’∂ ’Ø’•’∂’ø÷Ä’∏’∂÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’•÷Ä’´’ø’°’Ω’°÷Ä’§’°’Ø’°’∂ ’∞’°’¥’°’™’∏’≤’∏’æ÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’¥’°÷Ä’¶’°’Ø’°’∂ ’Ø’µ’°’∂÷Ñ’® ’¶’°÷Ä’£’°’∂’∏÷Ç’¥ ’ß÷â",
    "‘µ÷Ä÷á’°’∂’´ ’©’°’ø÷Ä’∏’∂’∏÷Ç’¥ ’∂’∏÷Ä ’¢’•’¥’°’§÷Ä’∏÷Ç’©’µ’∏÷Ç’∂ ’ß÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’∂’∏÷Ä’°’±÷á’∏÷Ç’©’µ’°’∂ ÷Å’∏÷Ç÷Å’°’∞’°’∂’§’•’Ω÷â",
    "‘µ÷Ä÷á’°’∂’∏÷Ç’¥ ’¢’°÷Å’æ’•÷Å ’∂’∏÷Ä ’°’µ’£’´÷â",
    "’è’•’≤’´ ’∏÷Ç’∂’•÷Å’°’æ ’•÷Ä’´’ø’°’Ω’°÷Ä’§’°’Ø’°’∂ ÷É’°’º’°’ø’∏’∂÷â",
    "’Ä’°’∂÷Ä’°’∫’•’ø’∏÷Ç’©’µ’∏÷Ç’∂’∏÷Ç’¥ ’•’≤’°’∂’°’Ø’® ’ø’°÷Ñ’°÷Å’•’¨ ’ß÷â"
]

data = pd.DataFrame({
    "text": propaganda_texts + neutral_texts,
    "label": [1] * len(propaganda_texts) + [0] * len(neutral_texts)
})

vectorizer = TfidfVectorizer(
    max_features=1000,
    ngram_range=(1, 2),
    token_pattern=r'\b[’°-÷Ü‘±-’ñ]{2,}\b'
)

X = vectorizer.fit_transform(data["text"])
y = data["label"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

model = CatBoostClassifier(
    iterations=500,
    depth=5,
    learning_rate=0.03,
    verbose=0
)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print("=== ‘≥’∂’°’∞’°’ø’¥’°’∂ ‘±÷Ä’§’µ’∏÷Ç’∂÷Ñ’∂’•÷Ä ===")
print(classification_report(y_test, y_pred, target_names=["’â’•’¶’∏÷Ñ", "’î’°÷Ä’∏’¶’π’°’Ø’°’∂"]))
print("’É’∑’£÷Ä’ø’∏÷Ç’©’µ’∏÷Ç’∂:", accuracy_score(y_test, y_pred))

joblib.dump({"model": model, "vectorizer": vectorizer}, "armenian_propaganda_detector.pkl")
print("\n’Ñ’∏’§’•’¨’® ’∫’°’∞’∫’°’∂’æ’•’¨ ’ß armenian_propaganda_detector.pkl ÷Ü’°’µ’¨’∏÷Ç’¥÷â")


In [None]:
import joblib

model_data = joblib.load("armenian_propaganda_detector.pkl")
model = model_data["model"]
vectorizer = model_data["vectorizer"]

def predict_sentence(sentence: str):
    """’é’•÷Ä’°’§’°÷Ä’±’∂’∏÷Ç’¥ ’ß '’î’°÷Ä’∏’¶’π’°’Ø’°’∂' ’Ø’°’¥ '’â’•’¶’∏÷Ñ' ’ø’•÷Ñ’Ω’ø’´ ’§’°’Ω’®÷â"""
    X = vectorizer.transform([sentence])
    pred = model.predict(X)[0]
    return "’î’°÷Ä’∏’¶’π’°’Ø’°’∂" if pred == 1 else "’â’•’¶’∏÷Ñ"

if __name__ == "__main__":
    sentence = input("‘≥÷Ä’´÷Ä ’∂’°’≠’°’§’°’Ω’∏÷Ç’©’µ’∏÷Ç’∂’® ’Ω’ø’∏÷Ç’£’•’¨’∏÷Ç ’∞’°’¥’°÷Ä: ")
    result = predict_sentence(sentence)
    print(f"‘±÷Ä’§’µ’∏÷Ç’∂÷Ñ: {result}")


In [None]:
!pip install transformers datasets sentencepiece evaluate nltk
import nltk
nltk.download("punkt")
nltk.download("wordnet")

import random
import torch
from datasets import load_dataset, Dataset
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    DataCollatorWithPadding,
    TrainingArguments,
    Trainer
)
import evaluate
import pandas as pd
import re

# Use the existing data DataFrame from the notebook
# Assuming 'data' DataFrame with 'text' and 'label' columns exists from previous cells.
# If not, you might need to load or define it here.
# For example:
# data = pd.read_csv("your_dataset.csv")

# Add the clean_text function
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = text.lower()
    return text

# Apply cleaning
data['cleaned_text'] = data['text'].apply(clean_text)

# Split data and save to csv
from sklearn.model_selection import train_test_split
train_df, test_df = train_test_split(data, test_size=0.2, random_state=42, stratify=data['label'])
train_df.to_csv("train.csv", index=False)
test_df.to_csv("test.csv", index=False)

# Load the dataset from the saved csv files
dataset = load_dataset("csv", data_files={"train": "train.csv", "test": "test.csv"})


from nltk.corpus import wordnet

def synonym_replacement(text, n=1):
    words = text.split()
    new_words = words.copy()
    random_word_list = list(set(words))
    random.shuffle(random_word_list)
    num_replaced = 0
    for random_word in random_word_list:
        synonyms = wordnet.synsets(random_word)
        if synonyms:
            synonym = synonyms[0].lemmas()[0].name()
            new_words = [synonym if word == random_word else word for word in new_words]
            num_replaced += 1
        if num_replaced >= n:
            break
    return " ".join(new_words)

def augment_examples(example):
    # Apply augmentation to the cleaned text
    if random.random() < 0.3:
        example["cleaned_text"] = synonym_replacement(example["cleaned_text"])
    return example

# Apply augmentation on the cleaned text column
augmented_train = dataset["train"].map(augment_examples)

tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-base")

def tokenize(batch):
    # Tokenize the cleaned text
    return tokenizer(batch["cleaned_text"], truncation=True)

tokenized_train = augmented_train.map(tokenize, batched=True)
tokenized_test = dataset["test"].map(tokenize, batched=True)

model = AutoModelForSequenceClassification.from_pretrained("xlm-roberta-base", num_labels=2)

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
accuracy = evaluate.load("accuracy")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    preds = logits.argmax(-1)
    return accuracy.compute(predictions=preds, references=labels)

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir="./logs",
    push_to_hub=False,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_test,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

trainer.train()

trainer.save_model("./AzgIntel-XLMR")
tokenizer.save_pretrained("./AzgIntel-XLMR")

In [None]:
# ’ä’°’∞’°’∂’ª’æ’∏’≤ ’£÷Ä’°’§’°÷Ä’°’∂’∂’•÷Ä’®
!pip install datasets

from datasets import load_dataset
import pandas as pd

# ’Ü’•÷Ä’¢’•’º’∂’∏÷Ç’¥ ’•’∂÷Ñ azcorpus_v0 dataset-’®
dataset = load_dataset("azcorpus/azcorpus_v0")

# ’è’•’Ω’∂’•’∂÷Ñ ’´’∂’π ’•’∂’©’°’¢’°’™’´’∂’∂’•÷Ä ’∏÷Ç’∂’´
print(dataset)

# ’ï÷Ä’´’∂’°’Ø ’æ’•÷Ä÷Å’∂’•’∂÷Ñ ’¨’∏÷Ç÷Ä’•÷Ä’´ ’¢’°’™’´’∂’® (news)
news_data = dataset["news"]

# ‘¥’´’ø’•’∂÷Ñ ’°’º’°’ª’´’∂ ’¥’´ ÷Ñ’°’∂’´ ’¨’∏÷Ç÷Ä’•÷Ä’®
print(news_data[0])

# ’é’•÷Ä’°÷É’∏’≠’•’∂÷Ñ pandas DataFrame-’´, ’∏÷Ä’∫’•’Ω’¶’´ ’∞’•’∑’ø ÷Ü’´’¨’ø÷Ä’•’∂÷Ñ
df = pd.DataFrame(news_data)

# ’ñ’´’¨’ø÷Ä’•’∂÷Ñ ’¥’´’°’µ’∂ ÷Ñ’°’≤’°÷Ñ’°’Ø’°’∂ ’¨’∏÷Ç÷Ä’•÷Ä’®
# ’°’µ’Ω’ø’•’≤ "siyas…ôt" (÷Ñ’°’≤’°÷Ñ’°’Ø’°’∂’∏÷Ç’©’µ’∏÷Ç’∂) ’∞’´’¥’∂’°’Ø’°’∂ keyword-’∂ ’ß ’°’§÷Ä’¢’•’ª’°’∂’•÷Ä’•’∂’∏÷Ç’¥
politics_df = df[df["text"].str.contains("siyas…ôt|politika|parlament|prezident|hakimiyy…ôt", case=False, na=False)]

# ’è’•’Ω’∂’•’∂÷Ñ ÷Ñ’°’∂’´ ’∞’∏’§’æ’°’Æ ’Ω’ø’°÷Å’°’∂÷Ñ
print("’î’°’≤’°÷Ñ’°’Ø’°’∂ ’¨’∏÷Ç÷Ä’•÷Ä’´ ÷Ñ’°’∂’°’Ø:", len(politics_df))

# ’ä’°’∞’∫’°’∂’•’∂÷Ñ CSV ’±÷á’°’π’°÷É’∏’æ’ù ’∞’•’ø’°’£’° ÷Ö’£’ø’°’£’∏÷Ä’Æ’¥’°’∂ ’∞’°’¥’°÷Ä
politics_df.to_csv("azerbaijani_political_news.csv", index=False, encoding="utf-8-sig")


In [None]:
!pip install huggingface_hub datasets

from huggingface_hub import login

# ‘ø’∫÷Å÷Ä’∏÷Ç ÷Ñ’∏ HF access token-’® ’°’µ’Ω’ø’•’≤
login("hf_xxxxxxxxxxxxxxxxxxxxxxxxx")
