# Реализация NLTK preprocessing for Transformer

In [48]:
import os
import pandas as pd
import nltk
import spacy
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import string
import re

In [34]:
nltk.download('punkt_tab')
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [3]:
from google.colab import files
uploaded = files.upload()

Saving transformer_df.csv to transformer_df.csv


In [21]:
df = pd.read_csv("transformer_df.csv")
df["Reviews"] = df["Reviews"].apply(lambda x: " ".join(eval(x)).lower())
df["Reviews"] = df["Reviews"].apply(lambda x: sent_tokenize(x))
df['Reviews'][0]

['кроссовки удобные, но быстро порвались.',
 'лёгкие, но скользкие на мокром асфальте.',
 'размер в размер, не натирают.',
 'через месяц начала отклеиваться подошва.',
 'отличные, ношу каждый день!']

In [30]:
def remove_stopwords(text):
    words = word_tokenize(text)  # Токенизация по словам
    filtered_words = [word for word in words if word not in stop_words or word in exceptions]
    return " ".join(filtered_words).replace(" ,", ",").replace(" .", ".").replace(" !", "!")

stop_words = set(stopwords.words('russian'))
exceptions = {
    "не", "ни", "нет", "да", "или", "и", "так", "потому", "что", "когда",
    "где", "кто", "что", "как", "зачем", "почему", "будто", "бы", "вдруг",
    "пусть", "тоже", "все", "всё", "этот", "та", "такой", "сам", "только",
    "другой", "ещё", "возможно", "почему", "впрочем", "хотя", "тем", "вместо",
    "между", "также", "тогда", "вдобавок", "после", "перед", "наоборот",
    "поэтому", "то", "тогда", "когда", "если", "даже", "включая", "совсем",
    "именно", "через", "сейчас", "когда", "будет", "для", "от", "среди"
}

df["Reviews"] = df["Reviews"].apply(lambda sentences: [remove_stopwords(sentence) for sentence in sentences])
df["Reviews"][0]

['кроссовки удобные, быстро порвались.',
 'лёгкие, скользкие мокром асфальте.',
 'размер размер, не натирают.',
 'через месяц начала отклеиваться подошва.',
 'отличные, ношу каждый день!']

In [40]:
!python -m spacy download ru_core_news_sm
!pip install pymorphy2

Collecting ru-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.8.0/ru_core_news_sm-3.8.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m44.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.8.0)
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3>=1.0.0->ru-core-news-sm==3.8.0)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3>=1.0.0->ru-core-news-sm==3.8.0)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3

In [42]:
nlp = spacy.load('ru_core_news_sm')

def lemmatize_text(text):
    doc = nlp(text)
    lemmatized_words = [token.lemma_ for token in doc]
    return " ".join(lemmatized_words)

df["Reviews"] = df["Reviews"].apply(lambda sentences: [lemmatize_text(sentence) for sentence in sentences])
df["Reviews"][0]

['кроссовки удобный , быстро порваться .',
 'лёгкий , скользкий мокром асфальт .',
 'размер размер , не натирать .',
 'через месяц начать отклеиваться подошва .',
 'отличный , носить каждый день !']

In [44]:
df["Reviews"][0]

['кроссовки удобный , быстро порваться .',
 'лёгкий , скользкий мокром асфальт .',
 'размер размер , не натирать .',
 'через месяц начать отклеиваться подошва .',
 'отличный , носить каждый день !']

In [56]:
def remove_punctuation(text):
    exceptions_punctuation = {"!", "?", "-"}
    exclude_punctuation = "".join([p for p in string.punctuation if p not in exceptions_punctuation])
    text = text.translate(str.maketrans("", "", exclude_punctuation))
    text = re.sub(r"\s+", " ", text).strip()
    return text

df["Reviews"] = df["Reviews"].apply(lambda sentences: [remove_punctuation(sentence) for sentence in sentences])
df["Reviews"][0]

['кроссовки удобный быстро порваться',
 'лёгкий скользкий мокром асфальт',
 'размер размер не натирать',
 'через месяц начать отклеиваться подошва',
 'отличный носить каждый день']

In [55]:
df = df.drop(columns=['Unnamed: 0'])
df.head()

KeyError: "['Unnamed: 0'] not found in axis"

In [57]:
df.to_csv('preprocessed_transformer.csv', index=False)
files.download('preprocessed_transformer.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>