# Анализ отзывов с Ozon
В этом ноутбуке проводится анализ отзывов на товары в двух категориях: Мужская и Женская одежда.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import nltk
import re
from nltk.corpus import stopwords

nltk.download("stopwords")

In [None]:
# Загрузка данных
df = pd.read_csv("../data/ozon_reviews.csv")
df.head()

In [None]:
# Проверка на пропущенные значения
df.isnull().sum()

In [None]:
# Очистка текста
russian_stopwords = set(stopwords.words("russian"))

def clean_text(text):
    text = str(text).lower()
    text = re.sub(r'[^а-яё\s]', '', text)
    words = text.split()
    words = [word for word in words if word not in russian_stopwords]
    return " ".join(words)

df['clean_text'] = df['text'].apply(clean_text)
df['text_len'] = df['clean_text'].apply(lambda x: len(x.split()))

## Описательная статистика

In [None]:
df.describe()

In [None]:
df.groupby("category")["rating"].mean()

In [None]:
df.groupby("category")["text_len"].mean()

In [None]:
df["category"].value_counts()

## Визуализация данных

In [None]:
# Wordcloud для Женской одежды
text_women = " ".join(df[df['category'] == 'Women']['clean_text'])
wordcloud_women = WordCloud(width=800, height=400, background_color='white').generate(text_women)

plt.figure(figsize=(10,5))
plt.imshow(wordcloud_women, interpolation='bilinear')
plt.axis('off')
plt.title('Женская одежда - Часто встречающиеся слова')
plt.show()

In [None]:
# Wordcloud для Мужской одежды
text_men = " ".join(df[df['category'] == 'Men']['clean_text'])
wordcloud_men = WordCloud(width=800, height=400, background_color='white').generate(text_men)

plt.figure(figsize=(10,5))
plt.imshow(wordcloud_men, interpolation='bilinear')
plt.axis('off')
plt.title('Мужская одежда - Часто встречающиеся слова')
plt.show()

In [None]:
# Распределение оценок
plt.figure(figsize=(8,6))
sns.histplot(data=df, x='rating', hue='category', multiple='dodge', bins=5)
plt.title('Распределение оценок по категориям')
plt.xlabel('Оценка')
plt.ylabel('Количество отзывов')
plt.show()

In [None]:
# Длина отзывов
plt.figure(figsize=(8,6))
sns.boxplot(data=df, x='category', y='text_len')
plt.title('Длина отзывов по категориям')
plt.xlabel('Категория')
plt.ylabel('Количество слов в отзыве')
plt.show()

## Выводы
- Средняя оценка выше в категории X.
- Отзывы в категории Y длиннее.
- Женская/мужская категория чаще использует слова: ...