In [88]:
import pandas as pd
import re
import torch
import nltk
import gensim.models
from pymystem3 import Mystem
import emojis

In [89]:
dataset = pd.read_json('dataset.jsonl', encoding='utf-8', lines = True)
dataset.head(5)

Unnamed: 0,text,url,id,hash,date,root_id,parent_id
0,Наша многодетная семья переехала из Калифорнии...,http://www.youtube.com/watch?v=_UYt9yJFck0,_UYt9yJFck0,008c23470d1454e362218325921370f1,2023-11-05 00:59:59,,
1,Прохождение DEAD SPACE на русском языке.,http://www.youtube.com/watch?v=ZZDu5IRiI9g,ZZDu5IRiI9g,0051fdc65fa052f78f1f616ea29952b3,2023-11-04 09:00:23,,
2,Рацион для похудения на 2500рублей в неделю,http://www.youtube.com/watch?v=VJ0dk0dxRRk,VJ0dk0dxRRk,008d75c75c26965a7a16515905a87084,2023-11-04 20:46:27,,
3,Всем доброго времени суток <br />\nВот такая л...,http://www.youtube.com/watch?v=Irzr95K6T9A,Irzr95K6T9A,00121ecaceac7de50318003e5962357c,2023-11-04 12:51:19,,
4,Как вам такое видео)💕 @,http://www.youtube.com/watch?v=9-GWe3L8efY,9-GWe3L8efY,007310caf9f4e257dafc0981bbc6cc70,2023-11-05 08:30:34,,


In [14]:
with open('stopwords-ru.txt') as stopwords:
    stopwords = [x.replace('\n', '') for x in stopwords.readlines()]

In [90]:
m = Mystem()

def text_prepare(txt):
    txt = re.sub('<.*?>', ' ', txt)
    txt = re.sub('\s+', ' ', txt)
    txt = txt.replace('\\', '').lower().strip()
    txt = re.sub('[^0-9а-яА-ЯЁё ]+', '', txt)
    txt = ''.join(m.lemmatize(txt))
    txt = re.sub('[^0-9а-яА-ЯЁё ]+', '', txt)
    txt = re.sub('\s+', ' ', txt)
    return txt

def filter_stopwords(tokens):
    return [w for w in tokens if not w.lower() in stopwords]

def tokenize(text):
    tokens = text.split()
    tokens = filter_stopwords(tokens)
    return tokens

dataset['cleaned_text'] = dataset['text'].apply(text_prepare)
dataset['tokenized_text'] = dataset['cleaned_text'].apply(tokenize)
dataset.head(5)

Unnamed: 0,text,url,id,hash,date,root_id,parent_id,cleaned_text,tokenized_text
0,Наша многодетная семья переехала из Калифорнии...,http://www.youtube.com/watch?v=_UYt9yJFck0,_UYt9yJFck0,008c23470d1454e362218325921370f1,2023-11-05 00:59:59,,,наш многодетный семья переезжать из калифорния...,"[многодетный, семья, переезжать, калифорния, с..."
1,Прохождение DEAD SPACE на русском языке.,http://www.youtube.com/watch?v=ZZDu5IRiI9g,ZZDu5IRiI9g,0051fdc65fa052f78f1f616ea29952b3,2023-11-04 09:00:23,,,прохождение на русский язык,"[прохождение, язык]"
2,Рацион для похудения на 2500рублей в неделю,http://www.youtube.com/watch?v=VJ0dk0dxRRk,VJ0dk0dxRRk,008d75c75c26965a7a16515905a87084,2023-11-04 20:46:27,,,рацион для похудение на 2500рублей в неделя,"[рацион, похудение, 2500рублей, неделя]"
3,Всем доброго времени суток <br />\nВот такая л...,http://www.youtube.com/watch?v=Irzr95K6T9A,Irzr95K6T9A,00121ecaceac7de50318003e5962357c,2023-11-04 12:51:19,,,все добрый время сутки вот такой лесной вкусня...,"[добрый, сутки, лесной, вкусняшка, полезный, п..."
4,Как вам такое видео)💕 @,http://www.youtube.com/watch?v=9-GWe3L8efY,9-GWe3L8efY,007310caf9f4e257dafc0981bbc6cc70,2023-11-05 08:30:34,,,как вы такой видео,[видео]


In [93]:
def extract_links(txt):
    txt = re.sub('<.*?>', ' ', txt)
    txt = re.findall("(?P<url>https?://[^\s]+)", txt)
    return txt

def extract_hashes(txt):
    txt = re.findall("#[0-9a-zA-Zа-яА-ЯЁё]+", txt)
    return txt

dataset['links'] = dataset['text'].apply(extract_links)
dataset['hashtags'] = dataset['text'].apply(extract_hashes)
dataset['emojis'] = dataset['text'].apply(lambda x: emojis.get(x))

In [94]:
dataset[['tokenized_text', 'emojis', 'links', 'hashtags']].head(20)

Unnamed: 0,tokenized_text,emojis,links,hashtags
0,"[многодетный, семья, переезжать, калифорния, с...",{},"[https://www.youtube.com/channel/UCp1j..., htt...","[#влогСША, #сша, #жизньвштатах, #ценынавещивсш..."
1,"[прохождение, язык]",{},[],[]
2,"[рацион, похудение, 2500рублей, неделя]",{},[],[]
3,"[добрый, сутки, лесной, вкусняшка, полезный, п...",{},[],"[#кухняохотникаслайками, #лайкисоловьева]"
4,[видео],{💕},[],[]
5,"[пинок, канава, мема, димдимыч]",{},[],"[#мем, #димдимыч]"
6,"[здравствовать, добро, пожаловать, интернет, м...","{🌺, 👇, 🇹🇷}","[https://wa.me/message/SH3IHMZJDS5XH1, https:/...",[]
7,"[звук, нормик]","{🌚, 🤙}",[],[]
8,"[4, ноябрь, 2023]",{},[],[]
9,"[здар, обозревать, обновление, операционный, с...",{},[https://drive.google.com/file/d/1Kt08heFknF6g...,[]


In [95]:
dataset[['text', 'tokenized_text']].head(20)

Unnamed: 0,text,tokenized_text
0,Наша многодетная семья переехала из Калифорнии...,"[многодетный, семья, переезжать, калифорния, с..."
1,Прохождение DEAD SPACE на русском языке.,"[прохождение, язык]"
2,Рацион для похудения на 2500рублей в неделю,"[рацион, похудение, 2500рублей, неделя]"
3,Всем доброго времени суток <br />\nВот такая л...,"[добрый, сутки, лесной, вкусняшка, полезный, п..."
4,Как вам такое видео)💕 @,[видео]
5,все сразу = пинком в канаву #мем #димдимыч,"[пинок, канава, мема, димдимыч]"
6,"Здравствуйте, добро пожаловать на наш интернет...","[здравствовать, добро, пожаловать, интернет, м..."
7,"не под звук, но нормик, 🌚🌚🌚🌚🌚🌚🌚🤙🏿","[звук, нормик]"
8,4 ноября 2023 г.,"[4, ноябрь, 2023]"
9,Здаров! Сегодня мы будем обозревать новое обно...,"[здар, обозревать, обновление, операционный, с..."
