In [934]:
import nltk
import numpy as np
import pandas as pd
from deeppavlov import build_model
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.sentiment import SentimentIntensityAnalyzer

Импортируем все необходимые библиотеки.

In [936]:
nltk.download('stopwords')
nltk.download('omw-1.4')
nltk.download('vader_lexicon')  
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\0001\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\0001\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\0001\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\0001\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Скачиваем нужные пакеты.

In [938]:
data = pd.read_csv('toxic_comments (1).csv', encoding="utf-8", on_bad_lines="skip", engine='python')

Инициализируем переменную для хранения датасета.

In [939]:
data['text_clean'] = data['text'].replace(r'[^\w\s]','',regex=True).replace(r'\s+',' ',regex=True).str.lower()

Создаём новый столбец с фразами, очищенными от специальных символов и приведёнными к нижнему регистру.

In [940]:
def lemmatization(text):
    lemmatizer = WordNetLemmatizer()
    tokens = word_tokenize(text)
    lemmatized_words = [lemmatizer.lemmatize(word) for word in tokens if not word in stopwords.words('english')]
    lemmatized_text = ' '.join(lemmatized_words)
    return lemmatized_text

Функция для лемматизации текста, включающая в себя токенизацию и удаление стоп-слов.

In [942]:
data['lemmatized_text'] = data.iloc[0:50, 3].astype(str).apply(lemmatization)
#data['lemmatized_text'] = data['text_clean'].astype(str).apply(definition_of_tonality)

Создаём столбец с лемматизированными фразами.

In [943]:
def vectorization(col):
    vectorizer = TfidfVectorizer(max_features = 3000) 
    vectorized_col = vectorizer.fit_transform(col) 
    return vectorized_col

Функция для векторизации текста.

In [944]:
data['vectorized_text'] = list(vectorization(data['text_clean']))

Векторизируем все фразы в датасете и помещаем их в новый столбец.

In [945]:
def definition_of_tonality(text):
    sia = SentimentIntensityAnalyzer()
    scores = sia.polarity_scores(text)
    if scores['compound'] > 0:
        return("Positive")
    elif scores['compound'] < 0:
        return("Negative")
    else:
        return("Neutral")

Функция для определения тональности при помощи предоставляемого NLTK класса SentimentIntensityAnalyzer.

In [946]:
data['tonality'] = data.iloc[0:50, 4].astype(str).apply(definition_of_tonality)
#data['tonality'] = data['text_clean'].astype(str).apply(definition_of_tonality)

Создаём новый столбец, в который записываем тональность фраз.

In [947]:
display(data.head(20))

Unnamed: 0.1,Unnamed: 0,text,toxic,text_clean,lemmatized_text,vectorized_text,tonality
0,0,Explanation\nWhy the edits made under my usern...,0,explanation why the edits made under my userna...,explanation edits made username hardcore metal...,"(0, 1317)\t0.12835109094211322\n (0, 2412)\...",Positive
1,1,D'aww! He matches this background colour I'm s...,0,daww he matches this background colour im seem...,daww match background colour im seemingly stuc...,"(0, 2803)\t0.24629577714478507\n (0, 2)\t0....",Positive
2,2,"Hey man, I'm really not trying to edit war. It...",0,hey man im really not trying to edit war its j...,hey man im really trying edit war guy constant...,"(0, 1359)\t0.20323879837680936\n (0, 87)\t0...",Negative
3,3,"""\nMore\nI can't make any real suggestions on ...",0,more i cant make any real suggestions on impr...,cant make real suggestion improvement wondered...,"(0, 877)\t0.1365315162980271\n (0, 1088)\t0...",Positive
4,4,"You, sir, are my hero. Any chance you remember...",0,you sir are my hero any chance you remember wh...,sir hero chance remember page thats,"(0, 2637)\t0.31222259692010257\n (0, 2896)\...",Positive
5,5,"""\n\nCongratulations from me as well, use the ...",0,congratulations from me as well use the tools...,congratulation well use tool well talk,"(0, 2698)\t0.49526786202170786\n (0, 2790)\...",Positive
6,6,COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK,1,cocksucker before you piss around on my work,cocksucker piss around work,"(0, 2953)\t0.3366295744079504\n (0, 230)\t0...",Negative
7,7,Your vandalism to the Matt Shirvington article...,0,your vandalism to the matt shirvington article...,vandalism matt shirvington article reverted pl...,"(0, 304)\t0.4262768592916919\n (0, 2932)\t0...",Positive
8,8,Sorry if the word 'nonsense' was offensive to ...,0,sorry if the word nonsense was offensive to yo...,sorry word nonsense offensive anyway im intend...,"(0, 2445)\t0.12165944685365364\n (0, 1743)\...",Negative
9,9,alignment on this subject and which are contra...,0,alignment on this subject and which are contra...,alignment subject contrary dulithgow,"(0, 2660)\t0.3784729397205029\n (0, 632)\t0...",Neutral


Итоговый вид датасета

In [959]:
import spacy
from spacy import load
from spacy.lang.ru.examples import sentences
from spacy.lang.ru import Russian

Подключем библиотеку для лемматизации русского текста.

In [962]:
data_rus = pd.read_csv('rusentitweet_full.csv', encoding="utf-8", on_bad_lines="skip", engine='python')

Инициализируем переменную для хранения датасета с русскими твитами.

In [964]:
data_rus['text_clean'] = data_rus['text'].replace(r'[^\w\s]','',regex=True).replace(r'\s+',' ',regex=True).str.lower()

Создаём новый столбец с фразами, очищенными от специальных символов и приведёнными к нижнему регистру.

In [966]:
nlp = Russian()
load_model = load('ru_core_news_sm')
stopwords_ru = stopwords.words("russian")

lemma = []
for doc in load_model.pipe(data_rus['text_clean'].values):
    lemma.append([n.lemma_ for n in doc])
data_rus['lemmatized_text'] = lemma
data_rus['lemmatized_text'] = data_rus['lemmatized_text'].apply(lambda x: [item for item in x if item not in stopwords_ru])
data_rus['lemmatized_text'] = [' '.join(map(str, l)) for l in data_rus['lemmatized_text']]

Используем модель для лемматизации русского текста.

In [967]:
data_rus['vectorized_text'] = list(vectorization(data_rus['text_clean']))

Векторизируем все фразы в датасете и помещаем их в новый столбец.

In [968]:
model = build_model('rusentiment_convers_bert', download=True, install=True)

2025-02-28 21:49:34.690 INFO in 'deeppavlov.download'['download'] at line 138: Skipped http://files.deeppavlov.ai/v1/classifiers/rusentiment_convers_bert/rusentiment_convers_bert_torch.tar.gz download because of matching hashes
Some weights of the model checkpoint at DeepPavlov/rubert-base-cased-conversational were not used when initializing BertForSequenceClassification: ['cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias', 'cls.seq_relationship.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertFor

Скачиваем модель для определения тональности русского текста.

In [978]:
twits = data_rus.iloc[0:50, 5].tolist()
marks = model(twits)
data_rus['tonality'] = np.nan
data_rus.iloc[0:50, 7] = marks

Создаём новый столбец с оценкой твитов.

In [981]:
display(data_rus.head(20))

Unnamed: 0.1,Unnamed: 0,text,label,id,text_clean,lemmatized_text,vectorized_text,tonality
0,0,@varlamov @McFaul На,skip,1327934765807308801,varlamov mcfaul на,varlamov mcfaul,"(0, 1404)\t0.35406342281471737\n (0, 150)\t...",neutral
1,1,велл они всё равно что мусор так что ничего с...,negative,1252943181387350017,велл они всё равно что мусор так что ничего ст...,велл всё равный мусор ничто страшный,"(0, 2518)\t0.44639436078826983\n (0, 1534)\...",negative
2,2,"""трезвая жизнь какая-то такая стрёмная""\r\n(с)...",negative,1323610669061677056,трезвая жизнь какаято такая стрёмная с артём a...,трезвый жизнь какаято стрёмная артём azrtusa,"(0, 2563)\t0.5232520257730847\n (0, 1008)\t...",negative
3,3,Ой какие неожиданные результаты 🤭 https://t.co...,neutral,1336231661160247297,ой какие неожиданные результаты httpstcozwohpd...,ой неожиданный результат httpstcozwohpdkuqq,"(0, 2153)\t0.6836193557855418\n (0, 1009)\t...",positive
4,4,@Shvonder_chief @dimsmirnov175 На заборе тоже ...,neutral,1292421736454127617,shvonder_chief dimsmirnov175 на заборе тоже на...,shvonder_chief dimsmirnov175 забор написаноа д...,"(0, 459)\t0.42769213920806115\n (0, 2373)\t...",neutral
5,5,@idkwhht мы тоже мебельная компания уджина😳😳😳,neutral,1303753911174606848,idkwhht мы тоже мебельная компания уджина,idkwhht мебельный компания уджина,"(0, 1397)\t0.7128189989770867\n (0, 2633)\t...",neutral
6,6,Счастья здоровья 10 классникам https://t.co/M9...,speech,1339917376427601921,счастья здоровья 10 классникам httpstcom9vunsixdi,счастие здоровье 10 классникам httpstcom9vunsixdi,"(0, 1)\t0.5028662599916109\n (0, 907)\t0.60...",speech
7,7,@dntbliev НЕ ПАЛИ.,neutral,1267898207176142848,dntbliev не пали,dntbliev пасть,"(0, 1486)\t1.0",neutral
8,8,@BTS_twt ты такой красивый 😭😭😭🥺💓,positive,1281551551706865665,bts_twt ты такой красивый,bts_twt красивый,"(0, 1132)\t0.6199306862334426\n (0, 2572)\t...",positive
9,9,"@Ladyzchensk Цыган , хуле ...",negative,1257761690122358784,ladyzchensk цыган хуле,ladyzchensk цыган хуле,,skip


Итоговый вид датасета с русскими твитами.