# Import Required Libraries
Import necessary libraries such as datasets, pandas, matplotlib, and IPython.display for visualization.

In [1]:
# Import necessary libraries such as datasets, pandas, matplotlib, and IPython.display for visualization
from datasets import load_dataset
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display

  from .autonotebook import tqdm as notebook_tqdm


# Load the IMDB Dataset
Load the IMDB dataset using the datasets library and convert it to pandas DataFrames for easier manipulation.

In [2]:
# Load the IMDB Dataset
imdb_dataset = load_dataset("imdb")

# Convert the dataset to pandas DataFrames for easier manipulation
imdb_train_df = pd.DataFrame(imdb_dataset['train'])
imdb_test_df = pd.DataFrame(imdb_dataset['test'])
imdb_unsupervised_df = pd.DataFrame(imdb_dataset['unsupervised'])

# Display the first few rows of each DataFrame
display(imdb_train_df.head())
display(imdb_test_df.head())
display(imdb_unsupervised_df.head())

Unnamed: 0,text,label
0,I rented I AM CURIOUS-YELLOW from my video sto...,0
1,"""I Am Curious: Yellow"" is a risible and preten...",0
2,If only to avoid making this type of film in t...,0
3,This film was probably inspired by Godard's Ma...,0
4,"Oh, brother...after hearing about this ridicul...",0


Unnamed: 0,text,label
0,I love sci-fi and am willing to put up with a ...,0
1,"Worth the entertainment value of a rental, esp...",0
2,its a totally average film with a few semi-alr...,0
3,STAR RATING: ***** Saturday Night **** Friday ...,0
4,"First off let me say, If you haven't enjoyed a...",0


Unnamed: 0,text,label
0,This is just a precious little diamond. The pl...,-1
1,When I say this is my favourite film of all ti...,-1
2,I saw this movie because I am a huge fan of th...,-1
3,Being that the only foreign films I usually li...,-1
4,After seeing Point of No Return (a great movie...,-1


# Explore Dataset Structure
Examine the dataset structure, including features, splits, and basic statistics using methods like info() and describe().

In [None]:
# Explore the structure of the training dataset
print("Training Dataset Info:")
imdb_train_df.info()

print("\nTraining Dataset Description:")
display(imdb_train_df.describe())

# Explore the structure of the test dataset
print("\nTest Dataset Info:")
imdb_test_df.info()

print("\nTest Dataset Description:")
display(imdb_test_df.describe())

# Explore the structure of the unsupervised dataset
print("\nUnsupervised Dataset Info:")
imdb_unsupervised_df.info()

print("\nUnsupervised Dataset Description:")
display(imdb_unsupervised_df.describe())

# Display Dataset Samples
Show samples from the dataset using display() function to properly format text data in the notebook.

In [None]:
# Display Dataset Samples

# Display the first few rows of each DataFrame
display(imdb_train_df.head())
display(imdb_test_df.head())
display(imdb_unsupervised_df.head())

# Explore the structure of the training dataset
print("Training Dataset Info:")
imdb_train_df.info()

print("\nTraining Dataset Description:")
display(imdb_train_df.describe())

# Explore the structure of the test dataset
print("\nTest Dataset Info:")
imdb_test_df.info()

print("\nTest Dataset Description:")
display(imdb_test_df.describe())

# Explore the structure of the unsupervised dataset
print("\nUnsupervised Dataset Info:")
imdb_unsupervised_df.info()

print("\nUnsupervised Dataset Description:")
display(imdb_unsupervised_df.describe())

# Analyze Text Data
Analyze text properties such as review length, word frequency, and distribution of labels.

In [None]:
# Analyze Text Data

# Analyze review length
imdb_train_df['review_length'] = imdb_train_df['text'].apply(len)
imdb_test_df['review_length'] = imdb_test_df['text'].apply(len)
imdb_unsupervised_df['review_length'] = imdb_unsupervised_df['text'].apply(len)

# Plot review length distribution
plt.figure(figsize=(12, 6))
plt.hist(imdb_train_df['review_length'], bins=50, alpha=0.5, label='Train')
plt.hist(imdb_test_df['review_length'], bins=50, alpha=0.5, label='Test')
plt.hist(imdb_unsupervised_df['review_length'], bins=50, alpha=0.5, label='Unsupervised')
plt.xlabel('Review Length')
plt.ylabel('Frequency')
plt.title('Review Length Distribution')
plt.legend(loc='upper right')
plt.show()

# Analyze word frequency
from collections import Counter
import re

def get_word_freq(text_series):
    words = ' '.join(text_series).lower()
    words = re.findall(r'\b\w+\b', words)
    return Counter(words)

train_word_freq = get_word_freq(imdb_train_df['text'])
test_word_freq = get_word_freq(imdb_test_df['text'])
unsupervised_word_freq = get_word_freq(imdb_unsupervised_df['text'])

# Display the most common words
print("Most common words in training set:")
print(train_word_freq.most_common(10))

print("\nMost common words in test set:")
print(test_word_freq.most_common(10))

print("\nMost common words in unsupervised set:")
print(unsupervised_word_freq.most_common(10))

# Distribution of labels
plt.figure(figsize=(12, 6))
imdb_train_df['label'].value_counts().plot(kind='bar', alpha=0.5, label='Train')
imdb_test_df['label'].value_counts().plot(kind='bar', alpha=0.5, label='Test')
plt.xlabel('Label')
plt.ylabel('Frequency')
plt.title('Label Distribution')
plt.legend(loc='upper right')
plt.show()

# Visualize Dataset Statistics
Create visualizations to better understand the dataset, including distribution of review lengths, word clouds, and label distribution.

In [None]:
# Visualize Dataset Statistics

# Import necessary libraries for visualization
import seaborn as sns
from wordcloud import WordCloud

# Plot distribution of review lengths
plt.figure(figsize=(12, 6))
sns.histplot(imdb_train_df['review_length'], bins=50, kde=True, color='blue', label='Train')
sns.histplot(imdb_test_df['review_length'], bins=50, kde=True, color='green', label='Test')
sns.histplot(imdb_unsupervised_df['review_length'], bins=50, kde=True, color='red', label='Unsupervised')
plt.xlabel('Review Length')
plt.ylabel('Frequency')
plt.title('Review Length Distribution')
plt.legend(loc='upper right')
plt.show()

# Generate word clouds for each dataset
train_text = ' '.join(imdb_train_df['text'])
test_text = ' '.join(imdb_test_df['text'])
unsupervised_text = ' '.join(imdb_unsupervised_df['text'])

train_wordcloud = WordCloud(width=800, height=400, background_color='white').generate(train_text)
test_wordcloud = WordCloud(width=800, height=400, background_color='white').generate(test_text)
unsupervised_wordcloud = WordCloud(width=800, height=400, background_color='white').generate(unsupervised_text)

# Display the word clouds
plt.figure(figsize=(16, 8))

plt.subplot(1, 3, 1)
plt.imshow(train_wordcloud, interpolation='bilinear')
plt.title('Train Set Word Cloud')
plt.axis('off')

plt.subplot(1, 3, 2)
plt.imshow(test_wordcloud, interpolation='bilinear')
plt.title('Test Set Word Cloud')
plt.axis('off')

plt.subplot(1, 3, 3)
plt.imshow(unsupervised_wordcloud, interpolation='bilinear')
plt.title('Unsupervised Set Word Cloud')
plt.axis('off')

plt.show()

# Plot label distribution for train and test datasets
plt.figure(figsize=(12, 6))
sns.countplot(x='label', data=imdb_train_df, alpha=0.5, label='Train')
sns.countplot(x='label', data=imdb_test_df, alpha=0.5, label='Test')
plt.xlabel('Label')
plt.ylabel('Frequency')
plt.title('Label Distribution')
plt.legend(loc='upper right')
plt.show()

In [4]:
from transformers import pipeline
# Используем русскоязычную модель
classifier = pipeline("text-classification", model="blanchefort/rubert-base-cased-sentiment")
result = classifier("Я люблю этот фильм!")
print(result)

Device set to use mps:0


[{'label': 'POSITIVE', 'score': 0.9790315628051758}]


In [None]:
# from transformers import pipeline
# import os
# import pandas as pd
# import json
# from datetime import datetime

# # Используем существующие пути к папкам
# labeled_dir = "/Users/vladpalamarchuk/Documents/Data-Project/labeled_data"
# sentiment_dir = os.path.join(labeled_dir, "sentiment_results")
# os.makedirs(sentiment_dir, exist_ok=True)  # Создаем подпапку для результатов анализа

# # Используем русскоязычную модель
# classifier = pipeline("text-classification", model="blanchefort/rubert-base-cased-sentiment")

# # Определяем базовые имена файлов
# base_name = "imdb_text"
# # Находим существующие файлы, чтобы определить следующий номер
# existing_files = [f for f in os.listdir(sentiment_dir) if f.startswith(base_name) and f.endswith('.csv')]
# next_number = 1
# if existing_files:
#     # Извлекаем номера из существующих файлов
#     numbers = [int(f.replace(base_name, '').replace('.csv', '')) for f in existing_files if f.replace(base_name, '').replace('.csv', '').isdigit()]
#     if numbers:
#         next_number = max(numbers) + 1

# # Создаем файлы для сохранения результатов
# results_file = os.path.join(sentiment_dir, f"{base_name}{next_number}.csv")
# json_file = os.path.join(sentiment_dir, f"{base_name}{next_number}.json")

# # Выбираем датасет для анализа (можно заменить на imdb_test_df или imdb_unsupervised_df)
# dataset_to_analyze = imdb_train_df.head(100)  # Анализируем первые 100 записей для примера

# print(f"Начинаем анализ датасета, всего записей: {len(dataset_to_analyze)}")

# # Создаем список для хранения результатов
# results_data = []

# # Обрабатываем каждую запись в датасете
# for index, row in dataset_to_analyze.iterrows():
#     text = row['text']
#     original_label = row['label']
    
#     # Ограничиваем длину текста для анализа (модель имеет ограничение)
#     text_for_analysis = text[:512]
    
#     # Получаем результат анализа тональности
#     sentiment_result = classifier(text_for_analysis)
    
#     # Извлекаем метку и уверенность
#     sentiment_label = sentiment_result[0]['label']
#     confidence = sentiment_result[0]['score']
    
#     # Добавляем результат в список
#     results_data.append({
#         'index': index,
#         'original_text': text[:200] + '...' if len(text) > 200 else text,  # Сокращаем для вывода
#         'original_label': original_label,
#         'sentiment_label': sentiment_label,
#         'confidence': confidence
#     })
    
#     # Выводим прогресс каждые 10 записей
#     if (index + 1) % 10 == 0:
#         print(f"Обработано {index + 1} записей")

# # Создаем DataFrame из результатов
# results_df = pd.DataFrame(results_data)

# # Сохраняем результаты в CSV
# results_df.to_csv(results_file, index=False)

# # Сохраняем также в JSON для более удобного использования
# with open(json_file, 'w', encoding='utf-8') as f:
#     json.dump(results_data, f, ensure_ascii=False, indent=4)

# print(f"\nАнализ завершен!")
# print(f"Обработано записей: {len(results_data)}")
# print(f"Результаты сохранены в: {results_file}")
# print(f"JSON-версия сохранена в: {json_file}")

# # Выводим первые 5 результатов для просмотра
# results_df.head()

In [4]:
from transformers import pipeline
import os
import pandas as pd
import json
from datetime import datetime

# Пути к папкам
dataset_path = "/Users/vladpalamarchuk/Documents/Data-Project/dataset"
labeled_dir = "/Users/vladpalamarchuk/Documents/Data-Project/labeled_data"
sentiment_dir = os.path.join(labeled_dir, "sentiment_results")
os.makedirs(sentiment_dir, exist_ok=True)  # Создаем подпапку для результатов анализа

# Путь к файлу с текстом
text_file = os.path.join(dataset_path, "20-sentences.txt")

# Используем русскоязычную модель
classifier = pipeline("text-classification", model="blanchefort/rubert-base-cased-sentiment")

# Определяем базовые имена файлов
base_name = "text_sentiment"
# Находим существующие файлы, чтобы определить следующий номер
existing_files = [f for f in os.listdir(sentiment_dir) if f.startswith(base_name) and f.endswith('.csv')]
next_number = 1
if existing_files:
    # Извлекаем номера из существующих файлов
    numbers = [int(f.replace(base_name, '').replace('.csv', '')) for f in existing_files if f.replace(base_name, '').replace('.csv', '').isdigit()]
    if numbers:
        next_number = max(numbers) + 1

# Создаем файлы для сохранения результатов
results_file = os.path.join(sentiment_dir, f"{base_name}{next_number}.csv")
json_file = os.path.join(sentiment_dir, f"{base_name}{next_number}.json")

# Читаем текстовый файл
print(f"Читаем файл: {text_file}")
with open(text_file, 'r', encoding='utf-8') as file:
    lines = [line.strip() for line in file if line.strip()]  # Убираем пустые строки

print(f"Начинаем анализ текста, всего предложений: {len(lines)}")

# Создаем список для хранения результатов
results_data = []

# Обрабатываем каждое предложение
for index, text in enumerate(lines):
    # Ограничиваем длину текста для анализа (модель имеет ограничение)
    text_for_analysis = text[:512]
    
    # Получаем результат анализа тональности
    sentiment_result = classifier(text_for_analysis)
    
    # Извлекаем метку и уверенность
    sentiment_label = sentiment_result[0]['label']
    confidence = sentiment_result[0]['score']
    
    # Добавляем результат в список
    results_data.append({
        'index': index,
        'original_text': text,
        'sentiment_label': sentiment_label,
        'confidence': confidence
    })
    
    # Выводим прогресс каждые 5 предложений
    if (index + 1) % 5 == 0:
        print(f"Обработано {index + 1} предложений")

# Создаем DataFrame из результатов
results_df = pd.DataFrame(results_data)

# Сохраняем результаты в CSV
results_df.to_csv(results_file, index=False)

# Сохраняем также в JSON для более удобного использования
with open(json_file, 'w', encoding='utf-8') as f:
    json.dump(results_data, f, ensure_ascii=False, indent=4)

print(f"\nАнализ завершен!")
print(f"Обработано предложений: {len(results_data)}")
print(f"Результаты сохранены в: {results_file}")
print(f"JSON-версия сохранена в: {json_file}")

# Выводим первые 5 результатов для просмотра
results_df.head()

Device set to use mps:0


Читаем файл: /Users/vladpalamarchuk/Documents/Data-Project/dataset/20-sentences.txt
Начинаем анализ текста, всего предложений: 20
Обработано 5 предложений
Обработано 10 предложений
Обработано 15 предложений
Обработано 20 предложений

Анализ завершен!
Обработано предложений: 20
Результаты сохранены в: /Users/vladpalamarchuk/Documents/Data-Project/labeled_data/sentiment_results/text_sentiment1.csv
JSON-версия сохранена в: /Users/vladpalamarchuk/Documents/Data-Project/labeled_data/sentiment_results/text_sentiment1.json


Unnamed: 0,index,original_text,sentiment_label,confidence
0,0,1.\tСолнце светит ярко и дарит тепло.,NEUTRAL,0.7321
1,1,2.\tСегодня я чувствую радость и вдохновение.,NEGATIVE,0.751456
2,2,3.\tУлыбки прохожих наполняют меня счастьем.,POSITIVE,0.942914
3,3,4.\tМир вокруг кажется прекрасным и уютным.,POSITIVE,0.969522
4,4,5.\tКаждое утро приносит надежду на лучшее.,POSITIVE,0.980489
