<a href="https://colab.research.google.com/github/AnnSenina/Python_CL_2025_26/blob/main/notebooks/Python_11_Viz.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Графика на Python

Основа графики в Python - **matplotlib**.

Кусочек этой библиотеки включил в себя pandas (в упрощенном режиме можно построить график через pandas, но настроить без matplotlib все равно не получится).

Seaborn, wordcloud и др. часто управляются командами matplotlib, пример с пары о частотах:

```
wordcloud = WordCloud(width = 2000,
                      height = 1500,
                      background_color='white',
                      margin = 10,
                      colormap='viridis').generate_from_frequencies(Counter(clean_tokens(text)))
plt.figure(figsize=(20, 15)) # Устанавливаем размер картинки
plt.imshow(wordcloud) # Что изображаем
plt.axis("off") # Без подписей на осях
plt.show() # показать изображение
```

Все команды plt показывают нам управление через matplotlib

In [None]:
# библиотеки (новые):
!pip install matplotlib
!pip install seaborn
# % для VS Code

In [None]:
import pandas as pd
import matplotlib.pyplot as plt # традиционное сокращение
import matplotlib.ticker as ticker

In [None]:
# здесь пакет всего и сразу из старого, чтобы практику сделать в этой тетрадке, а не в отдельной

!pip install pymorphy3 # для Colab
import pymorphy3
from pymorphy3 import MorphAnalyzer
morph = MorphAnalyzer()

!pip install pymystem3 # для Colab
from pymystem3 import Mystem
mystem = Mystem()

import nltk
from nltk.tokenize import word_tokenize
from nltk import download # для Colab
download('punkt_tab') # для Colab
download('stopwords') # для Colab
from nltk.corpus import stopwords
stop_words = stopwords.words('russian') + ['это', 'всё', 'свой', 'весь', 'вроде']
from collections import Counter
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

def lemm_pymorphy(text):
  text_list_nltk = word_tokenize(text.lower())
  text_clean = [word for word in text_list_nltk if word not in stop_words and word[0].isalpha()]
  lemm = [morph.parse(word)[0].normal_form for word in text_clean]
  return lemm

def lemm_mystem(text):
  lemm = mystem.lemmatize(text)
  lemm_clean = [word for word in lemm if word not in stop_words and word[0].isalpha()]
  return lemm_clean

Визуализации в matplotlib обычно делают с помощью `pyplot`
— специального объекта, методы которого позволяют создавать и изменять графики

In [None]:
# import matplotlib.pyplot as plt # традиционное сокращение

### Линейный график

В этом году я наконец-то решилась сильно переделать тетрадку (версия прошлого года, если нужно - [здесь](https://colab.research.google.com/github/AnnSenina/Python_CL_2025/blob/main/notebooks/Python_11_Viz.ipynb))

Не будем строить графики к таблице с числами - построим сразу к текстам

Общая идея: `plt.тип_графика(данные)`, соберем данные из небольшого текста

In [None]:
text = '''Эй! – Снежок летит в окно. Выглядываю наружу – это Юхан, принёс мне новую порцию шаров.
Я бегом спускаюсь по лестнице, звенит дверной колокольчик. Давно можно было провести электрический звонок, но мне нравится так: дом старый, и я не хочу тут ничего менять. Зато у меня настоящая печка и дым из трубы, и вот колокольчик старинный, да.
– Ничего себе! – говорю я, открывая тяжёлую дверь. – Снег! Наконец-то зима!
– Это только у тебя зима, – хмыкает Юхан, протягивая мне корзину.
– Как это? – Я выглядываю наружу. Длинная улица за моим домом уходит под уклон, снег блестит. Еловые лапы в снегу, качели в снегу, горка, рябина – красные ягоды под снегом тоже блестят, как нарисованные.
– Да вот так! – отвечает Юхан. – Во всём городе грязь и слякоть, и только у твоего дома – погодная аномалия.
Я пожимаю плечами.
– Зайдёшь? – спрашиваю я, но это просто вежливые слова. Я знаю, Юхан спешит – он даже не отвечает мне, только машет на прощанье рукой.'''

# текст Н. Дашевской, "Зимний мастер"

In [None]:
words_count = Counter(lemm_pymorphy(text))
df = pd.DataFrame.from_dict(words_count, orient='index', columns=['частота']) # вспонила еще один способ передать заголовки
df['частота'].sort_values(ascending=False) # сортировка по убыванию

In [None]:
plt.plot(df['частота'].sort_values(ascending=False))
plt.show()

# вместо plt.show() часто ставят просто ; в конце кода графика
# plt.plot(df['частота'].sort_values(ascending=False));

# также можно сохранить график как png-файл в среду (рабочую директорию питона):
# plt.savefig('my_lineplot') # создаст png

Текст маленький, распределение слов странное, частоты - абсолютные и подписи не видны -> будем улучшать

In [None]:
plt.figure(figsize=(10,5))  # указываем размер в дюймах
# # https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.figure.html

plt.plot(df['частота'].sort_values(ascending=False))
plt.show()

In [None]:
# исправляем ось х
plt.figure(figsize=(12,4))  # указываем размер в дюймах

plt.plot(df['частота'].sort_values(ascending=False))
plt.xticks(rotation=90) # показать подписи вертикально = под углом 90 градусов, можно задать ваш угол наклона
plt.show()

# на практике объем вашего текста будет больше - так можно отобразить первые топ-10-50 слов, не больше (иначе будет нечитаемо)

In [None]:
# настроим отображение линии
plt.figure(figsize=(12,4))  # размер холста

plt.plot(df['частота'].sort_values(ascending=False),
         marker='o', linestyle = ':', color='purple', linewidth = 3) # цвет можно задать, написав его сокращение (для основных), полное название или даже HEX-код

plt.xticks(rotation=90) # подписи
plt.show()

Вот [здесь](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html) описаны все варианты задания цветов, точек, формы и толщины штриха.

Основные обозначения цветов [здесь](https://matplotlib.org/stable/gallery/color/named_colors.html), градиенты и палитры [здесь](https://matplotlib.org/stable/gallery/color/colormap_reference.html)

In [None]:
# исправить ось y сложнее, нужно изменить шаг (у нас это 0.5 слова)

fig, ax = plt.subplots(figsize=(12,4))  # размер холста, задали его немного иначе
# ax - контейнер внутри figure для конкретного графика, figure может содержат несколько ax

plt.plot(df['частота'].sort_values(ascending=False),
         marker='o', linestyle = ':', color='purple', linewidth = 3)

ax.yaxis.set_major_locator(ticker.MultipleLocator(1)) # шаг для оси y
# ax.xaxis.set_major_locator(ticker.MultipleLocator(2)) # шаг для оси x, если надо

plt.xticks(rotation=90) # подписи
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(12,4))  # размер холста

# добавила алфавитную сортировку слов перед сортировкой по частоте
# сократила количество слов до 50 на свой вкус
# добавляем label - он отобразится в легенде
plt.plot(df['частота'].sort_index().sort_values(ascending=False)[:50],
         marker='o', linestyle = '-.', color='purple', linewidth = 3, label='частота')
ax.yaxis.set_major_locator(ticker.MultipleLocator(1)) # шаг для оси y

plt.xticks(rotation=90) # подписи
plt.legend() # легенда собирает информацию из label
plt.show()

# можно почитать здесь https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.legend.html#matplotlib.pyplot.legend

Методы пайплота, которые отвечают за текст на графиках ([см.тут](https://matplotlib.org/stable/api/text_api.html#matplotlib.text.Text))

In [None]:
fig, ax = plt.subplots(figsize=(12,4)) # размер холста

# заголовок и его стили
plt.title('Частотные леммы', fontsize=16, color='darkslategray', fontstyle='italic', fontfamily='serif')

plt.plot(df['частота'].sort_index().sort_values(ascending=False)[:50],
         marker='o', linestyle = '-.', color='purple', linewidth = 3, label='частота')
ax.yaxis.set_major_locator(ticker.MultipleLocator(1)) # шаг для оси y

# подписи осей
plt.xticks(rotation=90, fontsize=12) # вертикально
plt.yticks(fontsize=12)
plt.xlabel('Леммы', fontsize=12)
plt.ylabel('Количество', fontsize=12)

plt.legend(fontsize=12) # легенда
plt.grid(color='whitesmoke') # сетка, у нас не очень красивая - привязана к тикам
plt.show()

### Задание 1



In [None]:
with open('Чехов.txt', encoding='utf-8') as f:
  text1 = f.read()

# топ-50 лемм
top50 = Counter(lemm_pymorphy(text1)).most_common(50)
df = pd.DataFrame(top50, columns=['лемма', 'частота'])
df.index = df['лемма'] # удобно брать подписи из индексов df

# данные для графика
df['частота'].sort_index().sort_values(ascending=False)

In [None]:
plt.plot(df['частота'].sort_values(ascending=False));

Сделайте этот график минимально приличным:
- растяните холст по горизонтали;
- расположите подписи по оси х так, чтобы стало читаемо

In [None]:
# ваш код



In [None]:
# @title
plt.figure(figsize=(10, 4))
plt.plot(df['частота'].sort_values(ascending=False))
plt.xticks(rotation=90);

На самом деле, сегодня, уже мало кто редактирует графики сам - нужные настройки приходится искать в обширной документации matplotlib, процесс не очень интуитивно понятный...

Попробуйте отправить в ChatGPT минимальный код вашего графика (`plt.тип_графика(данные)`) и попросите его улучшить

**К вашим проектам**: часто вижу графики к разным показателям и метрикам, например:

У Чехова есть деление на главы - посчитаем TTR (type/token ratio) каждой главы - простой и критикуемый способ вычисления коэффициента лексического разнообразия без учета длины текста

In [None]:
import re
chekhov = re.split(r'[IV]{2,}\b\n\n|V', text1) # какая-то неприличная регулярка, но разделилось
len(chekhov)

In [None]:
clean_chekhov = [' '.join(lemm_pymorphy(part)) for part in chekhov]

In [None]:
ttr = pd.DataFrame(clean_chekhov, columns=['текст'])
ttr['TTR'] = ttr['текст'].apply(lambda x: len(set(x.split())) / len(x.split())) # количество уникальных слов / количество слов
ttr

In [None]:
plt.figure(figsize=(8, 4))
plt.title('TTR по главам повести А.П. Чехова "Степь"')
plt.plot(range(1, 9), ttr['TTR']) # range(1, 9) = явно передала в график подписи по оси х по-питонски

plt.xlabel('Глава', fontsize=10)
plt.ylabel('TTR', fontsize=10);

### Столбчатая и круговая диаграммы

Будьте внимательны с бар-чартами, **им нужны явно заданные подписи оси х**, сравните:

`plt.plot(данные)`

`plt.bar(подписи, данные)`

In [None]:
plt.figure(figsize=(10, 5))

plt.bar(df['частота'].sort_values(ascending=False)[:10].index,
        df['частота'].sort_values(ascending=False)[:10]);

# настраивать дальше не будем))

Пай-чарты не требуют подписей, но без них выглядят очень плохо:

`plt.pie(данные)`

In [None]:
# пай-чарт
plt.pie(df['частота'].sort_values(ascending=False)[:10]);

In [None]:
plt.pie(df['частота'].sort_values(ascending=False)[:10],
        labels=df['частота'].sort_values(ascending=False)[:10].index,
        autopct='%1.1f%%');
# добавили labels = подписи из индекса df, а еще сверху наолжили проценты

Будьте очень осторожны - для демонстрации работы так делать можно, но, на самом деле, относительно уникальных слов в тексте топ-10 - это капля в море, но круг создает иллюзию 100% отображения ваших данных

Датавиз-сообщества считают, что pie-chart'ы устарели! :)

![мем.jpg](https://external-preview.redd.it/bQVi4yCFNKrzIz0UKybwJqYhMdLfwYQVeE19rQryb90.jpg?width=320&crop=smart&auto=webp&s=a14989709f9441255db8ee5bd2417f1b4adc6c43)

За картинку спасибо @Andre_Orlov!)

[Веселое обсуждение](https://medium.com/@eolay13/визуализируем-кофе-молоко-и-сахар-68fc7079868c) в тему - это Medium, откроется только с vpn


### Добавляем частеречную разметку

Действуем так:
1. Получаем pos-теги
2. Считаем, сколько раз какой pos-тег встретился - pandas это делает через вспомогательную табличку с подсчетами `df['столбец'].value_counts()`
3. Строим к ней графики

In [None]:
def pos_pymorphy(word):
  return morph.parse(word)[0].tag.POS

def pos_mystem(word):
  try:
    return mystem.analyze(word)[0]['analysis'][0]['gr'][0]
  except: # там у меня где-то выскочила ошибка, лень искать и исправлять -> заменим на None
    None

df = pd.DataFrame(lemm_mystem(text1), columns=['лемма'])
df['pymorphy'] = df['лемма'].apply(pos_pymorphy)
df['mystem'] = df['лемма'].apply(pos_mystem)
df

- создайте частотные таблицы с помощью `df[столбец].value_counts()` для pymorphy и mystem

- постройте бар-чарты (столбчатые диаграммы) для pos-тегов pymorphy и mystem с помощью `plt.bar()`

In [None]:
# пример исходных данных

df['pymorphy'].value_counts() # данные
# df['pymorphy'].value_counts().index # индексы обычно становятся подписями

In [None]:
# pymorphy



In [None]:
# mystem



- переделайте эти графики в пай-плоты

In [None]:
# pymorphy



In [None]:
# mystem



Возможные ответы:

In [None]:
# @title
plt.figure(figsize=(10, 5))
plt.bar(df['pymorphy'].value_counts().index,
        df['pymorphy'].value_counts());

In [None]:
# @title
plt.figure(figsize=(10, 5))
plt.bar(df['mystem'].value_counts().index,
        df['mystem'].value_counts());

In [None]:
# @title
plt.pie(df['pymorphy'].value_counts(),
        labels=df['pymorphy'].value_counts().index,
        autopct='%1.1f%%');

In [None]:
# @title
plt.pie(df['mystem'].value_counts(),
        labels=df['mystem'].value_counts().index,
        autopct='%1.1f%%');

Как делать пай-чарты не такими ужасными? :)

Всегда хочется срезать только частотные категории, но это будет некорректно - их доли изменяется, помним про 100% круг

In [None]:
# найдем приблизительную границу для очень маленьких категорий - 1000?
df['pymorphy'].value_counts()

In [None]:
# отфильтруем сроки со значением больше 1000
# потом сохраним в новую таблицу

mini = df['pymorphy'].value_counts()
res = mini[mini > 1000]
other = mini[mini <= 1000].sum() # создадим категорию Другие = посчитаем, сколько значений мы потеряли при фильтрации
res = pd.concat([res, pd.Series(other, index=['Другие'], name='count')]) # объдиняем нужные значения + другие
plt.pie(res, autopct='%.2f', labels = res.index);

In [None]:
# или:
# просто создадим для этого новый столбец в датафрейме

top_pos = list(df['pymorphy'].value_counts()[:5].index) # оставила самые частотные категории

def f(n):
  if n not in top_pos:
    return 'Другие'
  else:
    return n

df['pymorphy_coded'] = df['pymorphy'].apply(f)

plt.pie(df['pymorphy_coded'].value_counts(), autopct='%.2f', labels = df['pymorphy_coded'].value_counts().index);

### Другие типы графиков

Дальше будут скорее мои рассуждения + много ссылок

На самом деле, кажется, что некоторые из основных графиков нам не очень полезны, например:
- `plt.hist(данные)`
- `plt.boxplot(данные)`

Они для строго числовых переменных, не стала их включать (распределения будут в статистике на R с Иваном Поздняковым)

Но, гипотетически, мы можем построить `plt.scatter(данные, данные)` - зависимость нескольких количественных показетелей

Что, если взять несколько текстов, посчитать tf-idf (думаю, что про векторные модели в КЛ вы еще об этом поговорите) и наложить на график? (я не сама придумала, в конце будет ссылка об этом))

In [None]:
with open('По причине души.txt', encoding='utf-8') as f:
  text2 = f.read()

with open('Краснов.txt', encoding='utf-8') as f:
  text3 = f.read()

In [None]:
corpus = [text1, text2, text3]
clean_corpus = [' '.join(lemm_pymorphy(i)) for i in corpus] # будем использовать чистые тексты

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(stop_words=stop_words)
tfidf = tfidf_vectorizer.fit_transform(clean_corpus)
words = tfidf_vectorizer.get_feature_names_out()
data = tfidf.todense().tolist()
keywords = pd.DataFrame(data, columns = words)

In [None]:
res = keywords.T
res.columns = ['Чехов', 'Краснов_По причине души', 'Краснов_Новомир']
res

In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(res['Краснов_По причине души'], res['Краснов_Новомир'])
plt.xlabel('Краснов_По причине души', fontsize=12)
plt.ylabel('Краснов_Новомир', fontsize=12);

In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(res['Краснов_По причине души'], res['Чехов'])
plt.xlabel('Краснов_По причине души', fontsize=12)
plt.ylabel('Чехов', fontsize=12);

In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(res['Краснов_Новомир'], res['Чехов'])
plt.xlabel('Краснов_Новомир', fontsize=12)
plt.ylabel('Чехов', fontsize=12);

Забавно, но ничего непонятно: какие **слова** все-таки отличают тексты в большей степени?

Добавим наложение подписей к точкам, но! уникальных слов - более 30 тыс., подписывать каждое не будем (иначе график будет строиться долго...)

In [None]:
mini = res.sort_values(by=['Чехов', 'Краснов_Новомир'], ascending=False)[:100] # срез

plt.figure(figsize=(10, 5))
plt.scatter(mini['Краснов_Новомир'], mini['Чехов'])

for x_coord, y_coord, label in zip(mini['Краснов_Новомир'], mini['Чехов'], mini.index):
    plt.text(x_coord, y_coord, label)

plt.xlabel('Краснов_Новомир', fontsize=12)
plt.ylabel('Чехов', fontsize=12);

In [None]:
mini = res.sort_values(by=['Краснов_По причине души', 'Краснов_Новомир'], ascending=False)[:100]

plt.figure(figsize=(10, 5))
plt.scatter(mini['Краснов_Новомир'], mini['Краснов_По причине души'])

for x_coord, y_coord, label in zip(mini['Краснов_Новомир'], mini['Краснов_По причине души'], mini.index):
    plt.text(x_coord, y_coord, label)

plt.xlabel('Краснов_Новомир', fontsize=12)
plt.ylabel('Краснов_По причине души', fontsize=12);

Графики немножко искажаются из-за сортировки

можно так поступить вообще со всеми словами, но строиться будет значительно дольше (2-3 минуты), запускайте на свой страх и риск))

In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(res['Краснов_По причине души'], res['Чехов'])

for x_coord, y_coord, label in zip(res['Краснов_По причине души'], res['Чехов'], res.index):
    plt.text(x_coord, y_coord, label)

plt.xlabel('Краснов_По причине души', fontsize=12)
plt.ylabel('Чехов', fontsize=12);

Это я просто экспериментировала - тоже в целом не призываю вас к таким графикам, но если хочется что-то сравнить - можно))

In [None]:
mini2 = res.sort_values(by=['Чехов', 'Краснов_Новомир'], ascending=False)[3:13] # первые 3 слова с высоким весом - имена героев, пропустила их
mini2

In [None]:
import numpy as np
ind = np.arange(10) # 10 строк
height = 0.4 # ширина столбца

fig, ax = plt.subplots(figsize=(10, 6))

# Строим левый график (отрицательное значение для "обратной" стороны), помогал ChatGPT
ax.barh(ind, -mini2['Чехов'].values, height=height, color='darkcyan', label='Чехов, Степь')
# Строим правый график
ax.barh(ind, mini2['Краснов_По причине души'].values, height=height, color='lightcoral', label='Краснов, По причине души')

ax.set_yticks(ind)
ax.set_yticklabels(mini2.index)
ax.invert_yaxis()

# Наложение подписей - значений tf-idf к столбикам
for i in range(10):
    ax.text(-mini2['Чехов'].iloc[i] - 0.01, i, f'{round(mini2["Чехов"].iloc[i], 2)}', va='center', ha='right', color='darkcyan')
    ax.text(mini2['Краснов_По причине души'].iloc[i] + 0.01, i, f'{round(mini2["Краснов_По причине души"].iloc[i], 2)}', va='center', ha='left', color='lightcoral')

ax.set_xlim(-0.45, 0.45) # задала границы исходя из значений tf-idf
ax.set_xlabel('Значение tf-idf')
ax.legend(loc='lower right')

plt.title('Сравнение tf-idf в текстах Чехова и Краснова')
plt.show()

См.разные типы графиков [здесь](https://matplotlib.org/stable/plot_types/index.html)

Также от моих коллег - подборка разных ресурсов для вдохновения:

https://www.data-to-viz.com/ (+ Python / R)

https://datavizcatalogue.com/RU/

https://datavizproject.com/

### Дополнительно несколько разных примеров работы с текстами:
1. Визуализация данных [с помощью matplotlib и NLTK](https://python-bloggers.com/2023/04/visualizing-text-data/) (вы можете улучшить! как минимум, на этапе очистки текста)

2. Topic Modeling от Д. Скоринкина: [тетрадка](https://colab.research.google.com/drive/1a_3_lQtI0HmaLNlouMsNjIImCP8LVFHg?usp=sharing) (важно! gensim больше не поддерживает этот модуль, так что инструкция устаревшая) - но есть другие библиотеки, например, я показывала no-code студентам, что не могу выделить главное в 3 тыс. патентных заявок без Python, с [BERTTopic](https://colab.research.google.com/drive/1l_OivuxHGLCpnJe9oK2I_d-OpMKLvILN?usp=sharing) в конце

3. Прекрасная библиотека scattertext: [гитхаб](https://github.com/JasonKessler/scattertext) авторов проекта