In [31]:
import os
import pandas as pd
import nltk

In [67]:
BASE_DIR = os.getcwd()
DIRECTORY_PATH = os.path.dirname(BASE_DIR)
DF_PATH = DIRECTORY_PATH + "\\parser\\main_df.csv"

In [68]:
df = pd.read_csv(DF_PATH)

# NLTK

In [69]:
nltk.download('punkt_tab')
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

# Stop words

In [70]:
reviews = df['User review'].values

In [71]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
stop_words = set(stopwords.words('russian'))

In [72]:
for index, review in enumerate(reviews):
    words = word_tokenize(review)
    filtered_tokens = []
    for word in words:
        if word not in stop_words:
            filtered_tokens.append(word)
    
    # Итоговый отзыв без стоп слов
    result_review = ' '.join(filtered_tokens)
    reviews[index] = result_review

In [73]:
reviews

array(['Достоинства устроило нормальная демисезонка',
       'Шикарная , начиталась отзывы , рискнула , стирки , время покажет , верх покупаю 54 размер , 48 заказать , стала , взяла 50.Спасибо , очень понравилась',
       'Дочке понравилась', ...,
       'Не ожидал такого высокого качества , покупкой доволен .',
       'Все замечательно , продукт оправдал ожидания .',
       'Рекомендую товар , куплю .'], dtype=object)

# Stemming

In [74]:
from nltk.stem.snowball import SnowballStemmer

In [75]:
# stemmer = SnowballStemmer("russian")
# for index, review in enumerate(reviews):
#     words = word_tokenize(review)
#     stemmed_words = [stemmer.stem(word) for word in words]
#     result_review = ' '.join(stemmed_words)
#     reviews[index] = result_review

In [76]:
reviews

array(['Достоинства устроило нормальная демисезонка',
       'Шикарная , начиталась отзывы , рискнула , стирки , время покажет , верх покупаю 54 размер , 48 заказать , стала , взяла 50.Спасибо , очень понравилась',
       'Дочке понравилась', ...,
       'Не ожидал такого высокого качества , покупкой доволен .',
       'Все замечательно , продукт оправдал ожидания .',
       'Рекомендую товар , куплю .'], dtype=object)

# Лемматизация

In [77]:
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\amr\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [78]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()

In [79]:
for index, review in enumerate(reviews):
    words = word_tokenize(review)
    stemmed_words = [morph.parse(word)[0].normal_form for word in words]
    result_review = ' '.join(stemmed_words)
    reviews[index] = result_review

In [80]:
reviews

array(['достоинство устроить нормальный демисезонка',
       'шикарный , начитаться отзыв , рискнуть , стирка , время показать , верх покупать 54 размер , 48 заказать , стать , взять 50.спасибо , очень понравиться',
       'дочка понравиться', ...,
       'не ожидать такой высокий качество , покупка довольный .',
       'всё замечательный , продукт оправдать ожидание .',
       'рекомендовать товар , купить .'], dtype=object)

# Приведение к нижнему регистру

In [81]:
for index, review in enumerate(reviews):
    reviews[index] = review.lower()

In [82]:
reviews

array(['достоинство устроить нормальный демисезонка',
       'шикарный , начитаться отзыв , рискнуть , стирка , время показать , верх покупать 54 размер , 48 заказать , стать , взять 50.спасибо , очень понравиться',
       'дочка понравиться', ...,
       'не ожидать такой высокий качество , покупка довольный .',
       'всё замечательный , продукт оправдать ожидание .',
       'рекомендовать товар , купить .'], dtype=object)

# Токенизация и удаление знаков препинания

In [83]:
from nltk.tokenize import word_tokenize
import string

In [84]:
for index, review in enumerate(reviews):
    tokens = word_tokenize(review)
    tokens = [word for word in tokens if word not in string.punctuation]
    reviews[index] = tokens    

In [85]:
reviews

array([list(['достоинство', 'устроить', 'нормальный', 'демисезонка']),
       list(['шикарный', 'начитаться', 'отзыв', 'рискнуть', 'стирка', 'время', 'показать', 'верх', 'покупать', '54', 'размер', '48', 'заказать', 'стать', 'взять', '50.спасибо', 'очень', 'понравиться']),
       list(['дочка', 'понравиться']), ...,
       list(['не', 'ожидать', 'такой', 'высокий', 'качество', 'покупка', 'довольный']),
       list(['всё', 'замечательный', 'продукт', 'оправдать', 'ожидание']),
       list(['рекомендовать', 'товар', 'купить'])], dtype=object)

In [86]:
reviews = list(reviews)

In [87]:
reviews

[['достоинство', 'устроить', 'нормальный', 'демисезонка'],
 ['шикарный',
  'начитаться',
  'отзыв',
  'рискнуть',
  'стирка',
  'время',
  'показать',
  'верх',
  'покупать',
  '54',
  'размер',
  '48',
  'заказать',
  'стать',
  'взять',
  '50.спасибо',
  'очень',
  'понравиться'],
 ['дочка', 'понравиться'],
 ['пока', 'одевать', 'хотеть'],
 ['отличный', 'куртка'],
 ['лёгкий', 'тёплый', 'супер', '👍'],
 ['куртка',
  'очень',
  'большемерить',
  'зима',
  'оформить',
  'возврат',
  '52',
  'заказать',
  '48',
  'сезон',
  'тёплый',
  'ноябрь',
  'март'],
 ['классный', 'куртка', 'рекомендовать'],
 ['неплохой',
  'куртка',
  'посмотреть',
  'стирка',
  'в',
  'целое',
  'довольный',
  'покупка',
  'рекомендовать'],
 ['куртка',
  'очень',
  'понравиться',
  'строчка',
  'ровный',
  'торчать',
  'всё',
  'карман',
  'удобный',
  'сделать',
  'немного',
  'выше',
  'прийтись',
  'привыкнуть',
  'очень',
  'понравиться',
  'молния',
  'закрываться',
  'пуговица',
  'единственно',
  'нравиться'

In [88]:
df

Unnamed: 0.1,Unnamed: 0,User review,Review date,Star review,Text length,Has media,Has answer,Written by bot
0,0.0,"[достоинство, устроить, нормальный, демисезонка]",2024-10-09,5,54,0,0,0
1,1.0,"[шикарный, начитаться, отзыв, рискнуть, стирка...",2024-10-09,5,195,0,0,0
2,2.0,"[дочка, понравиться]",2024-10-09,5,17,0,0,0
3,3.0,"[пока, одевать, хотеть]",2024-10-09,5,33,0,0,0
4,4.0,"[отличный, куртка]",2024-10-09,5,15,0,0,0
...,...,...,...,...,...,...,...,...
1792,94.0,"[всё, супер, продукт, высота]",2024-06-28,5,38,1,1,1
1793,95.0,"[товар, рекомендовать, высокий, уровень]",2024-06-27,5,44,0,1,1
1794,96.0,"[не, ожидать, такой, высокий, качество, покупк...",2024-06-26,5,52,1,1,1
1795,97.0,"[всё, замечательный, продукт, оправдать, ожида...",2024-06-25,5,48,0,1,1


In [92]:
df.to_csv(DIRECTORY_PATH + "\\parser\\main_df.csv")