<a href="https://colab.research.google.com/github/vifirsanova/compling/blob/main/projects/sentiment_project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Шаблон проекта по теме "Сентимент-анализ"

Критерии оценивания

- Открыт [датасет отзывов на фильмы](https://www.kaggle.com/datasets/columbine/imdb-dataset-sentiment-analysis-in-csv-format) из базы IMDB (или любой другой набор данных для анализа тональности в формате *.csv) (2 балла)
- Использована модель NLTK Sentiment Analyzer для автоматической разметки датасета. Пример реализации: https://www.datacamp.com/tutorial/text-analytics-beginners-nltk (2 балла)
- Результат разметки с помощью NLTK Sentiment Analyzer преобразован к виду 0 (негативный сентимент) и 1 (позитивный сентимент) (2 балла)
- Произведено сравнение результатов NLTK Sentiment Analyzer со значениями из датасета, выполнена оценка с помощью метрик оценки Precision, Recall, F-Score (1 балла)
- Выполнена визуализация результатов с использованием матрицы ошибок (1 балл)
- С помощью print выведена примеры, которые модель разметила неправильно (1 балл)
- Представлены рассуждения на тему того, что могло вызвать ошибки в работе модели (1 балл)

### Шаг 1

Откройте и загрузите датасет с помощью библиотеки pandas

Используйте следующие сниппеты кода в качестве подсказки

In [None]:
import pandas as pd

# Укажите путь к вашему CSV-файлу
file_path = 'example.csv'

# Чтение CSV-файла в DataFrame
df = pd.read_csv(file_path)

# Вывод первых 5 строк DataFrame
df.head()

### Шаг 2

Примените модель NLTK Sentiment Analyzer, чтобы оценки сентимент-скоры (оценки тональности) для каждого текста из датасета

Внимание! Если процесс занимает много времени, сократите объем датасета до первых 1000 строк

Не забудьте установить все необходимые модули nltk, ориентируйтесь на документацию и сообщения об ошибках nltk

Реализация:

- Создайте новый столбец, куда вы занесете результаты разметки
- Создайте функцию для разметки
- Примените функцию к созданному столбцу с помощью pandas apply

Используйте сниппеты кода:

In [None]:
import nltk
from nltk.sentiment import SentimentIntensityAnalyzer

# Загрузка модели VADER — это лексикон и алгоритм для анализа тональности
nltk.download('vader_lexicon')

# Инициализация анализатора тональности
sia = SentimentIntensityAnalyzer()

# Пример текста
text = "I love this product! It's absolutely amazing."

# Анализ тональности
sentiment = sia.polarity_scores(text)

print(sentiment)

Сниппет для реализации разметки с помощью pandas

In [None]:
# Функция для анализа тональности
def analyze_sentiment(text):
    return sia.polarity_scores(text)

# Применение функции к столбцу 'Text'
df['Sentiment'] = df['Text'].apply(analyze_sentiment)

### Шаг 3

Результат разметки NLTK выглядит так: `{'neg': 0.0, 'neu': 0.264, 'pos': 0.736, 'compound': 0.8316}`

При этом в датасете используется разметка, где 0 означает негативный сентимент, а 1 - позитивный

Используйте условия, функции и pandas apply, чтобы найти метку с наибольшим значением (в нашем примере это `'pos': 0.736`) и на основе этой информации произвести замену `{'neg': 0.0, 'neu': 0.264, 'pos': 0.736, 'compound': 0.8316}` на `1`

In [None]:
# Функция для преобразования словаря с настроением в метку 0 или 1
def sentiment_to_label(sentiment_dict):
    # Найти ключ с максимальным значением
    max_key = max(sentiment_dict, key=sentiment_dict.get)
    # Если максимальное значение 'pos', возвращаем 1, иначе 0
    return 1 if max_key == 'pos' else 0

### Шаг 4

Примените к столбцам с исходными метками и метками NLTK методы для расчета метрик Precision, Recall, F-Score, чтобы оценить качество работы NLTK

Используйте сниппеты кода:

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score

# Расчет метрик оценки
precision = precision_score(df['label'], df['predicted_label'])
recall = recall_score(df['label'], df['predicted_label'])
f1 = f1_score(df['label'], df['predicted_label'])

Визуализируйте результат с использованием матрицы ошибок

Для визуализации используйте heatmap из библиотеки seaborn

https://seaborn.pydata.org/generated/seaborn.heatmap.html

In [None]:
from sklearn.metrics import confusion_matrix

# Расчет матрицы ошибок
conf_matrix = confusion_matrix(df['label'], df['predicted_label'])

### Шаг 5

Сравните результаты в двух столбцах: напишите функцию, которая проверяет равны или не равны значения в двух столбцах. Если они не равны, выведите на экран текст, который NLTK разметил неверно

### Шаг 6

Сформулируйте ответ на вопрос: что могло вызвать ошибки в работе модели? Возможными причинами могут быть омонимия, опечатки, ирония и сарказм в текстах

- ваш ответ здесь