In [1]:
import os
import pandas as pd
import nltk

In [2]:
BASE_DIR = os.getcwd()
DIRECTORY_PATH = os.path.dirname(BASE_DIR)
DF_PATH = DIRECTORY_PATH + "\\parser\\main_df.csv"

In [3]:
df = pd.read_csv(DF_PATH)

# NLTK

In [4]:
nltk.download('punkt_tab')
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

# Stop words

In [5]:
reviews = df['User review'].values

In [6]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
stop_words = set(stopwords.words('russian'))

In [7]:
for index, review in enumerate(reviews):
    words = word_tokenize(review)
    filtered_tokens = []
    for word in words:
        if word not in stop_words:
            filtered_tokens.append(word)
    
    # Итоговый отзыв без стоп слов
    result_review = ' '.join(filtered_tokens)
    reviews[index] = result_review

In [8]:
reviews

array(['Достоинства устроило нормальная демисезонка',
       'Шикарная , начиталась отзывы , рискнула , стирки , время покажет , верх покупаю 54 размер , 48 заказать , стала , взяла 50.Спасибо , очень понравилась',
       'Дочке понравилась', ...,
       'Широкий ассортимент высокое качество обслуживания . Молодцы !',
       'Всё чётко , оперативно нареканий . Доставка часам .',
       'Обратная связь высшем уровне , вопросы решаются моментально .'],
      dtype=object)

# Stemming

In [9]:
from nltk.stem.snowball import SnowballStemmer

In [10]:
# stemmer = SnowballStemmer("russian")
# for index, review in enumerate(reviews):
#     words = word_tokenize(review)
#     stemmed_words = [stemmer.stem(word) for word in words]
#     result_review = ' '.join(stemmed_words)
#     reviews[index] = result_review

In [11]:
reviews

array(['Достоинства устроило нормальная демисезонка',
       'Шикарная , начиталась отзывы , рискнула , стирки , время покажет , верх покупаю 54 размер , 48 заказать , стала , взяла 50.Спасибо , очень понравилась',
       'Дочке понравилась', ...,
       'Широкий ассортимент высокое качество обслуживания . Молодцы !',
       'Всё чётко , оперативно нареканий . Доставка часам .',
       'Обратная связь высшем уровне , вопросы решаются моментально .'],
      dtype=object)

# Лемматизация

In [12]:
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [13]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

In [14]:
for index, review in enumerate(reviews):
    words = word_tokenize(review)
    stemmed_words = [morph.parse(word)[0].normal_form for word in words]
    result_review = ' '.join(stemmed_words)
    reviews[index] = result_review

In [15]:
reviews

array(['достоинство устроить нормальный демисезонка',
       'шикарный , начитаться отзыв , рискнуть , стирка , время показать , верх покупать 54 размер , 48 заказать , стать , взять 50.спасибо , очень понравиться',
       'дочка понравиться', ...,
       'широкий ассортимент высокий качество обслуживание . молодец !',
       'всё чётко , оперативно нарекание . доставка час .',
       'обратный связь высокий уровень , вопрос решаться моментально .'],
      dtype=object)

# Приведение к нижнему регистру

In [16]:
for index, review in enumerate(reviews):
    reviews[index] = review.lower()

In [17]:
reviews

array(['достоинство устроить нормальный демисезонка',
       'шикарный , начитаться отзыв , рискнуть , стирка , время показать , верх покупать 54 размер , 48 заказать , стать , взять 50.спасибо , очень понравиться',
       'дочка понравиться', ...,
       'широкий ассортимент высокий качество обслуживание . молодец !',
       'всё чётко , оперативно нарекание . доставка час .',
       'обратный связь высокий уровень , вопрос решаться моментально .'],
      dtype=object)

# Токенизация и удаление знаков препинания

In [18]:
from nltk.tokenize import word_tokenize
import string

In [19]:
for index, review in enumerate(reviews):
    tokens = word_tokenize(review)
    tokens = [word for word in tokens if word not in string.punctuation]
    reviews[index] = tokens    

In [20]:
reviews

array([list(['достоинство', 'устроить', 'нормальный', 'демисезонка']),
       list(['шикарный', 'начитаться', 'отзыв', 'рискнуть', 'стирка', 'время', 'показать', 'верх', 'покупать', '54', 'размер', '48', 'заказать', 'стать', 'взять', '50.спасибо', 'очень', 'понравиться']),
       list(['дочка', 'понравиться']), ...,
       list(['широкий', 'ассортимент', 'высокий', 'качество', 'обслуживание', 'молодец']),
       list(['всё', 'чётко', 'оперативно', 'нарекание', 'доставка', 'час']),
       list(['обратный', 'связь', 'высокий', 'уровень', 'вопрос', 'решаться', 'моментально'])],
      dtype=object)

In [21]:
reviews = list(reviews)

In [22]:
df

Unnamed: 0.1,Unnamed: 0,User review,Review date,Star review,Text length,Has media,Has answer,Written by bot
0,0.0,"[достоинство, устроить, нормальный, демисезонка]",2024-10-09,5,54,0,0,0
1,1.0,"[шикарный, начитаться, отзыв, рискнуть, стирка...",2024-10-09,5,195,0,0,0
2,2.0,"[дочка, понравиться]",2024-10-09,5,17,0,0,0
3,3.0,"[пока, одевать, хотеть]",2024-10-09,5,33,0,0,0
4,4.0,"[отличный, куртка]",2024-10-09,5,15,0,0,0
...,...,...,...,...,...,...,...,...
1901,203.0,"[всё, быстро, чётко, проблема, ставить, магази...",2024-11-03,5,55,1,0,True
1902,204.0,"[отличный, магазин, теперь, ваш, постоянный, к...",2024-11-02,5,56,0,1,True
1903,205.0,"[широкий, ассортимент, высокий, качество, обсл...",2024-11-01,5,57,1,0,True
1904,206.0,"[всё, чётко, оперативно, нарекание, доставка, ...",2024-10-31,5,57,1,1,True


In [23]:
df.to_csv(DIRECTORY_PATH + "\\parser\\main_df.csv")