In [1]:
# Импорт
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS, CountVectorizer, TfidfTransformer
from sklearn.decomposition import LatentDirichletAllocation
import numpy as np
import mglearn
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup
import pandas as pd

# Загрузка набора данных IMDB
dataset_path = r"C:\Users\ASUS\DataBase\IMDB Dataset.csv"
df = pd.read_csv(dataset_path)

# Выбор 20-25 отзывов из набора данных
selected_reviews = df['review'][:25]

# Вывод выбранных 25 отзывов
# for i, review in enumerate(selected_reviews):
#     print(f"Отзыв {i + 1}:\n{review}\n{'='*50}\n")


In [2]:
# Очистка HTML-тегов
cleaned_reviews = [BeautifulSoup(review, "html.parser").get_text() for review in selected_reviews]

# Вывод 
# for i, cleaned_review in enumerate(cleaned_reviews):
#     print(f"Очищенный отзыв {i + 1}:\n{cleaned_review}\n{'='*50}\n")

In [3]:
# Использование CountVectorizer для создания представления "мешка слов"
vectorizer = CountVectorizer(max_features=10000, max_df=0.15)
X = vectorizer.fit_transform(cleaned_reviews)
feature_names = vectorizer.get_feature_names_out()

# Выводим представление "мешка слов"
print("Мешок слов (Bag-of-Words) для первых 5 отзывов:")
print(X[:5].toarray())  # Выводим только первые 5 отзывов для простоты

# Выводим имена признаков
print("\nИмена признаков (слов):")
print(feature_names)


Мешок слов (Bag-of-Words) для первых 5 отзывов:
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 1 0]
 [0 0 0 ... 0 0 2]
 [0 0 0 ... 1 0 0]]

Имена признаков (слов):
['12' '15' '1963' ... 'york' 'young' 'zombie']


In [4]:
# Использование стоп-слов на английском языке из scikit-learn
stop_words = list(ENGLISH_STOP_WORDS)

# Использование CountVectorizer с учетом стоп-слов
vectorizer_with_stopwords = CountVectorizer(max_features=10000, max_df=0.15, stop_words=stop_words)
X_with_stopwords = vectorizer_with_stopwords.fit_transform(cleaned_reviews)
feature_names_with_stopwords = vectorizer_with_stopwords.get_feature_names_out()

# Выводим имена признаков (слов) с учетом стоп-слов
print("\nИмена признаков (слов) с учетом стоп-слов:")
print(feature_names_with_stopwords)


Имена признаков (слов) с учетом стоп-слов:
['12' '15' '1963' ... 'york' 'young' 'zombie']


In [5]:
# Преобразование мешка слов в TF-IDF
tfidf_transformer = TfidfTransformer()
X_tfidf = tfidf_transformer.fit_transform(X)
X_tfidf_with_stopwords = tfidf_transformer.fit_transform(X_with_stopwords)

# Вывести TF-IDF представление для первых 5 отзывов без учета стоп-слов
print("TF-IDF представление (без учета стоп-слов) для первых 5 отзывов:")
print(X_tfidf[:5].toarray())

# Вывести TF-IDF представление для первых 5 отзывов с учетом стоп-слов
print("\nTF-IDF представление (с учетом стоп-слов) для первых 5 отзывов:")
print(X_tfidf_with_stopwords[:5].toarray())


TF-IDF представление (без учета стоп-слов) для первых 5 отзывов:
[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.09297697 0.        ]
 [0.         0.         0.         ... 0.         0.         0.22818663]
 [0.         0.         0.         ... 0.08450363 0.         0.        ]]

TF-IDF представление (с учетом стоп-слов) для первых 5 отзывов:
[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.09929979 0.        ]
 [0.         0.         0.         ... 0.         0.         0.22915658]
 [0.         0.         0.         ... 0.09441266 0.         0.        ]]


In [6]:
# Создание целевой переменной (sentiment)
y = df['sentiment'][:25]

In [7]:
from sklearn.model_selection import train_test_split  # Добавленный импорт
from sklearn.linear_model import LogisticRegression

# Разделение на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

# Обучение модели логистической регрессии
model = LogisticRegression()
model.fit(X_train, y_train)

In [8]:
# Исследование коэффициентов модели
coefficients = model.coef_[0]
feature_importance = pd.DataFrame({'Word': feature_names, 'Coefficient': coefficients})
feature_importance = feature_importance.sort_values(by='Coefficient', ascending=False)
print(feature_importance)

             Word  Coefficient
594         liked     0.200839
177        cinema     0.199699
477           her     0.156731
676           mom     0.152476
1116           tv     0.151803
...           ...          ...
1028         such    -0.173264
540          jake    -0.182749
409         funny    -0.185871
951          show    -0.210488
939   shakespeare    -0.217471

[1222 rows x 2 columns]


In [9]:
# Теперь выполним моделирование тем на том же наборе данных
lda = LatentDirichletAllocation(n_components=10, learning_method='batch', max_iter=10, random_state=0)
document_topics = lda.fit_transform(X_tfidf)

# Вывод результатов моделирования тем
print("Топики и соответствующие слова:")
sorting = np.argsort(lda.components_, axis=1)[:, ::-1]
feature_names = np.array(vectorizer.get_feature_names_out())

# Выводим топовые слова для каждой темы
mglearn.tools.print_topics(topics=range(5), feature_names=feature_names, sorting=sorting, topics_per_chunk=5, n_words=10)


Топики и соответствующие слова:
topic 0       topic 1       topic 2       topic 3       topic 4       
--------      --------      --------      --------      --------      
mattei        being         jake          boll          show          
oddness       exactly       drama         three         almost        
these         use           parents       carver        towards       
funny         called        terror        george        such          
different     thats         version       constant      wrong         
mr            watched       itself        fantastic     hal           
people        play          zombie        greetings     die           
encounter     look          closet        bart          funny         
next          re            thriller      prisoners     laughs        
relations     person        came          roll          full          




In [10]:
# Сортировка тем по важности в порядке убывания
sorting = np.argsort(lda.components_, axis=1)[:, ::-1]

# Получение имен признаков из векторизатора
feature_names = np.array(vectorizer.get_feature_names_out())

# Вывод топ-10 слов для каждой темы
mglearn.tools.print_topics(topics=range(10), feature_names=feature_names, sorting=sorting, topics_per_chunk=5, n_words=10)


topic 0       topic 1       topic 2       topic 3       topic 4       
--------      --------      --------      --------      --------      
mattei        being         jake          boll          show          
oddness       exactly       drama         three         almost        
these         use           parents       carver        towards       
funny         called        terror        george        such          
different     thats         version       constant      wrong         
mr            watched       itself        fantastic     hal           
people        play          zombie        greetings     die           
encounter     look          closet        bart          funny         
next          re            thriller      prisoners     laughs        
relations     person        came          roll          full          


topic 5       topic 6       topic 7       topic 8       topic 9       
--------      --------      --------      --------      --------      
oz  

In [11]:
# Если вы хотитим вывести топ-20 слов для выбранных тем
topics = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])  # построили индексы тем по необходимости
mglearn.tools.print_topics(topics=topics, feature_names=feature_names, sorting=sorting, topics_per_chunk=5, n_words=20)


topic 0       topic 1       topic 2       topic 3       topic 4       
--------      --------      --------      --------      --------      
mattei        being         jake          boll          show          
oddness       exactly       drama         three         almost        
these         use           parents       carver        towards       
funny         called        terror        george        such          
different     thats         version       constant      wrong         
mr            watched       itself        fantastic     hal           
people        play          zombie        greetings     die           
encounter     look          closet        bart          funny         
next          re            thriller      prisoners     laughs        
relations     person        came          roll          full          
each          again         formula       clooney       believe       
currently     kill          horror        recommand     painful       
eventu

Этот код выполняет сортировку тем, получение имен признаков и вывод топ-слов для каждой темы.

In [12]:
# Вывести топ-10 документов, в которых указанная тема наиболее важна
selected_topic = 0  # Подстройте индекс темы по необходимости
document_indices = np.argsort(document_topics[:, selected_topic])[::-1]
for doc_index in document_indices[:10]:
    # Вывести первые два предложения
    print('\n'.join(cleaned_reviews[doc_index].split('.')[:2]) + '\n')


Petter Mattei's "Love in the Time of Money" is a visually stunning film to watch
 Mr

Phil the Alien is one of those quirky films where the humour is based around the oddness of everything rather than actual punchlines
At first it was very odd and pretty funny but as the movie progressed I didn't find the jokes or oddness funny anymore

If you like original gut wrenching laughter you will like this movie
 If you are young or old then you will love this movie, hell even my mom liked it

This a fantastic movie of three prisoners who become famous
 One of the actors is george clooney and I'm not a fan but this roll is not bad

What an absolutely stunning movie, if you have 2
5 hrs to kill, watch it, you won't regret it, it's too much fun! Rajnikanth carries the movie on his shoulders and although there isn't anything more other than him, I still liked it

The cast played Shakespeare
Shakespeare lost

Basically there's a family where a little boy (Jake) thinks there's a zombie in his close

В ходе выполнения этой лабораторной работы мы освоили несколько важных моментов в анализе текстовых данных и построении моделей машинного обучения: 
Очистка текстовых данных от HTML-тегов с использованием библиотеки BeautifulSoup, а также преобразование текстов в представление "мешка слов" и TF-IDF. Применение метода Latent Dirichlet Allocation (LDA) для моделирования тем в корпусе текстов. Вывод топ-10 или топ-20 слов для каждой темы. Использование логистической регрессии для анализа сентимента в текстах. Обучение модели на TF-IDF представлении данных и анализ важности слов для сентимента. Импорт и использование различных инструментов из библиотеки scikit-learn, таких как CountVectorizer, TfidfTransformer, LatentDirichletAllocation, LogisticRegression, train_test_split и другие. 
Эта лабораторная работа дает представление о том, как проводить анализ текстовых данных, выделять темы в корпусе текстов, а также строить модели для задач анализа сентимента. Комбинация методов машинного обучения и анализа текстовых данных является мощным инструментом для извлечения знаний из текстов.