<a href="https://colab.research.google.com/github/Arteechess/Machine-learning-methods/blob/main/221_365_Chistyakov_AD_LAB_2_Analytical_research_(working_with_a_recurrent_neural_network).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Лабораторная работа №2
Аналитические исследования (работа с рекуррентной нейронной сетью)

ФИО: Чистяков Артем Дмитриевич

Группа: 221-365

Номер 10 (2700 образцов)

In [5]:
import pandas as pd
import numpy as np  # Добавлено: импорт библиотеки numpy
from sklearn.model_selection import train_test_split
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Загрузка данных
try:
    df = pd.read_excel("IMDB_dataset.xlsx")
    print("Файл Excel успешно загружен и прочитан.")
except FileNotFoundError:
    print("Ошибка: Файл IMDB_dataset.xlsx не найден.")
    exit()  # Завершаем выполнение, если файл не найден

# Вывод информации о данных
print("Названия столбцов:", df.columns.tolist())
print("\nПервые 5 строк датафрейма:")
print(df.head())

# Предварительная обработка данных
df.dropna(inplace=True)  # Удаление строк с пропущенными значениями
df = df.drop_duplicates()  # Удаление дубликатов

# Очистка текста
def clean_text(text):
    text = re.sub(r'<.*?>', '', text)  # Удаление HTML-тегов
    text = re.sub(r'[^a-zA-Z\s]', '', text, re.I|re.A)  # Удаление не-буквенных символов
    text = text.lower()  # Приведение к нижнему регистру
    return text

df['review'] = df['review'].apply(clean_text)

# Лемматизация
nltk.download('stopwords')
nltk.download('wordnet')
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))

def lemmatize_text(text):
    words = text.split()
    words = [lemmatizer.lemmatize(word) for word in words if word not in stop_words]
    return ' '.join(words)

df['review'] = df['review'].apply(lemmatize_text)

# Выборка данных (без балансировки)
df = df.sample(n=min(25000, len(df)), random_state=42)  # Сокращаем размер датасета, но не больше, чем есть

print("Размер данных после предварительной обработки:", len(df))

reviews = df['review'].tolist()
sentiments = df['sentiment'].tolist()

#Размер выборки
sample_size = 2700

reviews = reviews[:sample_size]
sentiments = sentiments[:sample_size]

print("Размер выборки reviews:", len(reviews))
print("Размер выборки sentiments:", len(sentiments))

# Анализ данных
positive_count = sentiments.count('positive')
negative_count = sentiments.count('negative')
ratio = positive_count / negative_count if negative_count > 0 else float('inf')

print("\nБазовая статистика:")
print("Количество отзывов в выборке:", len(reviews))
print("Количество положительных отзывов:", positive_count)
print("Количество отрицательных отзывов:", negative_count)
print("Соотношение положительных и отрицательных отзывов:", round(ratio, 2))

# Анализ длин отзывов
print("\nАнализ длин отзывов:")
review_lengths = [len(review) for review in reviews]
avg_length = np.mean(review_lengths)
max_length = np.max(review_lengths)
min_length = np.min(review_lengths) # Исправлено: np.min вместо np.mean
print(f"Средняя длина отзыва: {avg_length}")
print(f"Максимальная длина отзыва: {max_length}")
print(f"Минимальная длина отзыва: {min_length}")



Файл Excel успешно загружен и прочитан.
Названия столбцов: ['review', 'sentiment']

Первые 5 строк датафрейма:
                                              review sentiment
0  I thought this was a wonderful way to spend ti...  positive
1  Probably my all-time favorite movie, a story o...  positive
2  I sure would like to see a resurrection of a u...  positive
3  This show was an amazing, fresh & innovative i...  negative
4  Encouraged by the positive comments about this...  negative


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Размер данных после предварительной обработки: 24898
Размер выборки reviews: 2700
Размер выборки sentiments: 2700

Базовая статистика:
Количество отзывов в выборке: 2700
Количество положительных отзывов: 1337
Количество отрицательных отзывов: 1363
Соотношение положительных и отрицательных отзывов: 0.98

Анализ длин отзывов:
Средняя длина отзыва: 817.1029629629629
Максимальная длина отзыва: 4185
Минимальная длина отзыва: 41


Исследована выборка из 2700 отзывов из IMDB Dataset.Соотношение классов:

Распределение положительных и отрицательных отзывов в выборке примерно одинаковое (близко к 50/50). Это важно для обучения моделей, чтобы избежать смещения в сторону одного из классов.

Длина отзывов варьируется от нескольких слов до нескольких сотен слов. Необходимо учитывать это при подготовке данных для обучения (например, использовать паддинг или обрезку).

Анализ частоты слов может быть полезен для определения наиболее важных слов, которые характеризуют положительные и отрицательные отзывы. На этом этапе выводится только топ индексов слов, потому что для получения слов нужно сделать еще 1 запрос: imdb.get_word_index()
