# Визуализация эмбедингов и кластеров для обнаружения генеративного ИИ

Этот ноутбук предназначен для визуализации эмбедингов текстов и результатов кластеризации в проекте обнаружения генеративного ИИ.

In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
from sklearn.manifold import TSNE
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from sklearn.metrics import confusion_matrix, silhouette_score, adjusted_rand_score
import warnings
warnings.filterwarnings('ignore')

# Устанавливаем стиль для matplotlib
plt.style.use('ggplot')
sns.set_theme(style="whitegrid")

In [None]:
!pwd

In [3]:
import utils_visualization as viz

In [None]:
task_num = 2

task_num

## 1. Загрузка данных

Сначала загрузим эмбединги, полученные с помощью скрипта `extract_embeddings.py`, и результаты кластеризации из `clustering.py`.

In [None]:
# Загрузка данных
df_viz, embeddings, embeddings_tsne, metadata, cluster_labels, task = viz.load_data(task_num)

df_viz.head()


## 2. Визуализация эмбедингов с истинными метками

Визуализируем эмбединги в 2D-пространстве с раскраской по истинным меткам классов.

In [None]:
# Базовая визуализация t-SNE
viz.visualize_tsne_basic(df_viz, task)


## 3. Интерактивная визуализация с Plotly

Создадим интерактивную визуализацию эмбедингов с возможностью исследования точек.

In [None]:
# Интерактивная визуализация t-SNE
viz.visualize_tsne_interactive(df_viz, task)

## 4. Визуализация результатов кластеризации

Теперь визуализируем результаты кластеризации и сравним их с истинными метками.

In [None]:
# Сравнение истинных меток с кластерами
viz.visualize_labels_vs_clusters(df_viz, task)


## 5. Оценка соответствия кластеров истинным меткам

Построим матрицу соответствия между кластерами и истинными метками.

In [None]:
# Анализ метрик кластеризации
viz.analyze_cluster_metrics(df_viz, embeddings_tsne)


## 6. Анализ разделимости классов

Проведем дополнительный анализ для определения, насколько хорошо разделяются классы в пространстве эмбедингов.

In [None]:
# Визуализация PCA
viz.visualize_pca(df_viz, embeddings, task)


## 7. Анализ сложных для классификации примеров

Найдем примеры, которые были некорректно кластеризованы, и проанализируем их характеристики.

In [None]:
# Анализ ошибочно кластеризованных примеров
viz.analyze_clustering_errors(df_viz, task)


## 8. Выводы и рекомендации

На основе проведенного анализа можно сделать следующие выводы:

1. **Разделимость классов**: [здесь будут выводы о том, насколько хорошо разделяются классы в пространстве эмбедингов]

2. **Качество кластеризации**: [здесь будут выводы о качестве кластеризации и соответствии кластеров истинным меткам]

3. **Сложные примеры**: [здесь будут выводы о характеристиках сложных для классификации примеров]

4. **Рекомендации для улучшения**:
   - [рекомендация 1]
   - [рекомендация 2]
   - [рекомендация 3]
   
Дальнейшие шаги в проекте могут включать:
- Обучение и оптимизацию классификаторов на основе полученных эмбедингов
- Применение методов работы с несбалансированными классами
- Интеграцию дополнительных признаков для улучшения разделимости классов