## Установка и импорт библиотек

In [1]:
!pip install --proxy 10.0.0.1:3128 nltk pymorphy2 emoji pandas

Collecting nltk
  Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
Collecting emoji
  Downloading emoji-2.2.0.tar.gz (240 kB)
Collecting pandas
  Downloading pandas-2.0.0-cp38-cp38-win_amd64.whl (11.3 MB)
Collecting click
  Downloading click-8.1.3-py3-none-any.whl (96 kB)
Collecting tqdm
  Downloading tqdm-4.65.0-py3-none-any.whl (77 kB)
Collecting regex>=2021.8.3
  Downloading regex-2023.3.23-cp38-cp38-win_amd64.whl (267 kB)
Collecting joblib
  Downloading joblib-1.2.0-py3-none-any.whl (297 kB)
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
Collecting docopt>=0.6
  Downloading docopt-0.6.2.tar.gz (25 kB)
Collecting pytz>=2020.1
  Downloading pytz-2023.3-py2.py3-none-any.whl (502 kB)
Collecting tzdata>=2022.1
  Downloading tzdata-2023.3-py2.py3-non

You should consider upgrading via the 'c:\users\admin\appdata\local\programs\python\python38\python.exe -m pip install --upgrade pip' command.


In [2]:
import os
import re
import pandas as pd
import nltk
from nltk.corpus import stopwords
import pymorphy2
from pymorphy2 import MorphAnalyzer
import emoji

In [3]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

## Склейка собранных парсером датасетов

In [4]:
df_temp = pd.DataFrame()
df_all = pd.DataFrame()
colnames = ['index', 'comment']

for filename in os.listdir("parsed_ds"):
    with open(os.path.join("parsed_ds", filename), 'r') as f:
        print('Открыт файл ' + filename)
        file_path = 'parsed_ds/' + filename
        df_temp = pd.read_csv(file_path, names=colnames, header=None)
        df_temp = df_temp.drop(columns = ['index'],axis = 1)
        print('Содержит записей ' + str(df_temp.shape[0]))
        df_all = pd.concat([df_all, df_temp], axis=0)
print('Закончена склейка датасетов!')
print('Полученный датасет:')
print(df_all.head(8))
print('Всего записей: ' + str(df_all.shape[0]))

Открыт файл 1.csv
Содержит записей 2291
Открыт файл 10.csv
Содержит записей 4840
Открыт файл 11.csv
Содержит записей 925
Открыт файл 12.csv
Содержит записей 3865
Открыт файл 13.csv
Содержит записей 2592
Открыт файл 14.csv
Содержит записей 1076
Открыт файл 2.csv
Содержит записей 2069
Открыт файл 3.csv
Содержит записей 2219
Открыт файл 4.csv
Содержит записей 864
Открыт файл 5.csv
Содержит записей 2563
Открыт файл 6.csv
Содержит записей 2671
Открыт файл 7.csv
Содержит записей 2768
Открыт файл 8.csv
Содержит записей 2711
Открыт файл 9.csv
Содержит записей 887
Закончена склейка датасетов!
Полученный датасет:
                                             comment
0                                                  0
1                                                  😭
2               Храни Господь неравнодушных людей!🙏🕊
3  [id450710457|Евгений], еслибы бог был он бы та...
4   [id122712390|Кирилл], тут я полностью согласен 😢
5  [id122712390|Кирилл], Бог есть! Пути его неисп...
6  [id450710457|Ев

## Предобработка

In [5]:
def divide_emoji(doc):
    for c in str(doc):
      if emoji.is_emoji(c):
          i = doc.index(c)
          doc = re.sub(doc[i], ' ' + doc[i] + ' ', str(doc))
    return doc

In [6]:
patterns = "[A-Za-z0-9!#$%&'()*+,./:;<=>?@[\]^_`{|}~—\"\-]+"
stopwords_ru = stopwords.words("russian")
morph = MorphAnalyzer()

def lemmatize(doc):
    tokens = []
    doc = re.sub(patterns, ' ', str(doc))
    for token in doc.split():
        if token and token not in stopwords_ru:
            token = token.strip()
            token = morph.normal_forms(token)[0]
            tokens.append(token)
    if tokens != []:
        return tokens

In [7]:
def drop_empty(df, colname):
    for i in range(df.shape[0]):
        if df.iloc[i][0] == []:
            df = df.drop(index=i)

In [8]:
df_tokens = pd.DataFrame()

In [9]:
df_tokens['tokens'] = df_all['comment'].apply(divide_emoji)

In [10]:
df_tokens['tokens'] = df_tokens['tokens'].apply(lemmatize)

In [11]:
df_tokens = df_tokens.dropna()

In [12]:
df_tokens = df_tokens.reset_index(drop=True)

In [13]:
df_tokens

Unnamed: 0,tokens
0,[😭]
1,"[хранить, господь, неравнодушный, человек, 🙏, 🕊]"
2,"[евгений, еслиб, бог, такой, допускать]"
3,"[кирилл, полностью, согласный, 😢]"
4,"[кирилл, бог, путь, неисповедимый]"
...,...
30199,"[наталья, точно, сказать]"
30200,"[вспомнить, ф, карантин]"
30201,"[интересно, любой, слетать, космос, становитьс..."
30202,"[ранний, ещё, орден, ленин, давать, звезда]"


In [24]:
df_tokens.to_csv('datasets/new_vk.csv', sep='\t')