# Практическая работа 2. Парсинг HTML и консолидация данных

**Студент:** *Мареев Георгий Александрович*

**Вариант:** №13

**Бизнес-кейс:** анализ рынка видеоигр.

**Источник:** раздел "Лидеры продаж" в [Steam](URL "https://store.steampowered.com/")

**Задача:** собрать данные о названии игры, цене, скидке и дате выхода. Рассчитать средний размер скидки.

## Цель работы

Освоить продвинутые техники сбора данных путем парсинга HTML-страниц с сайта `https://store.steampowered.com/`, их последующей консолидации и проведения аналитического исследования для определения структуры спроса на различные видеоигры, их названия, цену, скидку и дату выходы.

## Теоретическая часть

**Парсинг HTML** — это процесс автоматизированного извлечения данных из веб-страниц. Веб-страницы написаны на языке гипертекстовой разметки (HTML), который имеет древовидную структуру. Парсеры анализируют эту структуру для навигации по ней и извлечения нужной информации (текста, ссылок, атрибутов).

**Ключевые библиотеки:**
- **`requests`**: позволяет отправлять HTTP-запросы к веб-серверу и получать в ответ HTML-код страницы. Это первый шаг любого парсинга — получение исходного кода.
- **`BeautifulSoup`**: создает из полученного HTML-кода объектное представление (дерево объектов), по которому можно легко перемещаться и искать нужные элементы с помощью тегов, классов, идентификаторов и других атрибутов. Это основной инструмент для извлечения данных из HTML.

### Шаг 1. Установка необходимых библиотек

In [1]:
!pip install -q requests beautifulsoup4 pandas matplotlib seaborn

### Шаг 2. Обновление парсера для сбора данных о зарплате

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# --- Настройки парсера ---
BASE_URL = 'https://store.steampowered.com/'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
PAGES_TO_PARSE = 5

data = []

print(f"Начинаем парсинг {PAGES_TO_PARSE} страниц...")

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# --- Настройки парсера ---
BASE_URL = 'https://store.steampowered.com/'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
PAGES_TO_PARSE = 5

data = []

print(f"Начинаем парсинг {PAGES_TO_PARSE} страниц...")

# Цикл для прохода по страницам пагинации
for page in range(1, PAGES_TO_PARSE + 1):
    url = f"{BASE_URL}?page={page}"
    print(f"Обрабатываем страницу: {url}")

    try:
        response = requests.get(url, headers=HEADERS)
        response.raise_for_status() # Проверка на ошибки HTTP (4xx или 5xx)

        soup = BeautifulSoup(response.text, 'html.parser')

        # Находим все карточки вакансий на странице
        # (Класс 'vacancy-preview-card__main' был найден через инструменты разработчика)
        vacancy_cards = soup.find_all('div', class_='vacancy-preview-card__main')

        if not vacancy_cards:
            print("Не найдено карточек вакансий на странице. Возможно, изменилась структура сайта.")
            break

        for card in vacancy_cards:
            # Используем try-except для устойчивости парсера
            try:
                title = card.find('h3', class_='vacancy-preview-card__title').text.strip()
            except AttributeError:
                title = 'Не указано'

            try:
                company = card.find('span', class_='vacancy-preview-card__company-name').text.strip()
            except AttributeError:
                company = 'Не указано'

            try:
                # Опыт работы находится в блоке с иконкой портфеля
                experience = card.find('span', class_='vacancy-preview-location__address-text').text.strip()
            except AttributeError:
                experience = 'Опыт не указан'

            data.append({
                'title': title,
                'company': company,
                'experience': experience
            })

    except requests.RequestException as e:
        print(f"Ошибка при запросе к странице {page}: {e}")
        break

    # Вежливая задержка между запросами
    time.sleep(1)

print(f"\nПарсинг завершен. Собрано {len(data)} вакансий.")

In [6]:
from bs4 import BeautifulSoup
import re
import requests
import time
import pandas as pd
BASE_URL = 'https://store.steampowered.com/search/?filter=topsellers&cc=US&l=english&page={n};'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
PAGES_TO_PARSE = 5

data = []

print(f"Начинаем парсинг {PAGES_TO_PARSE} страниц...")
# Вспомогательные функции
def clean_price(text: str) -> float | None:
    """
    Преобразует строку цены Steam в float в базовой валюте страницы.
    Возвращает None для 'Free to Play', демо и пр.
    """
    if not text:
        return None
    t = text.strip()
    # часто встречающиеся кейсы
    if re.search(r'\bfree\b', t, re.I):
        return 0.0
    if re.search(r'\bdemo\b', t, re.I):
        return None
    # убираем всё, кроме цифр, точки и запятой
    t = re.sub(r'[^\d,.\s]', '', t)
    t = t.replace(' ', '')
    # если обе пунктуации есть — чаще всего запятая это разделитель тысяч
    if ',' in t and '.' in t:
        t = t.replace(',', '')
    else:
        # если только запятая — считаем, что это десятичный разделитель
        t = t.replace(',', '.')
    try:
        return float(t) if t else None
    except ValueError:
        return None

def parse_result_row(row):
    title = row.select_one('.search_name .title')
    title = title.get_text(strip=True) if title else None

    release = row.select_one('.search_released')
    release = release.get_text(strip=True) if release else None

    disc_span = row.select_one('.search_discount span')
    # скидка приходит как "-50%"; переведём в число 50
    discount = None
    if disc_span:
        m = re.search(r'(-?\d+)\s*%', disc_span.get_text())
        if m:
            discount = abs(int(m.group(1)))

    price_box = row.select_one('.search_price')
    # у скидочных игр внутри может быть "стар. цена  новая цена"
    price_text = price_box.get_text(" ", strip=True) if price_box else ""
    # возьмём последнюю "часть" как актуальную цену
    parts = [p for p in price_text.split() if p.strip()]
    current_price = clean_price(parts[-1]) if parts else None

    # Если скидка есть, попробуем выделить "старую" цену (первая числовая)
    original_price = None
    if discount and len(parts) >= 2:
        # в некоторых случаях первая часть — старая цена
        original_price = clean_price(parts[0])

    return {
        "title": title,
        "release_date": release,
        "discount_pct": discount,          # в процентах, например 50
        "price_current": current_price,    # float либо 0.0 для Free
        "price_original": original_price   # может быть None
    }

# --- Основной цикл по страницам ---
for page in range(1, PAGES_TO_PARSE + 1):
    url = f"{BASE_URL}search/?filter=topsellers&cc=US&l=english&page={page}"
    resp = requests.get(url, headers=HEADERS, timeout=30)
    if resp.status_code != 200:
        print(f"[warn] {url} -> {resp.status_code}")
        time.sleep(1)
        continue

    soup = BeautifulSoup(resp.text, "html.parser")
    rows = soup.select('a.search_result_row')
    if not rows:
        print(f"[info] На странице {page} результатов не нашли (возможно, разметка изменилась).")
        break

    for r in rows:
        data.append(parse_result_row(r))

    print(f"Страница {page}: собрано {len(rows)} записей (итого: {len(data)})")
    time.sleep(1.0)  # вежливая пауза

# --- В DataFrame и расчёты ---
df = pd.DataFrame(data)
# базовая очистка
df = df.dropna(subset=["title"]).drop_duplicates(subset=["title"]).reset_index(drop=True)

# средняя скидка по тем, у кого она есть
avg_discount = df["discount_pct"].dropna()
avg_discount_value = avg_discount.mean() if not avg_discount.empty else 0.0

print(f"\nВсего игр: {len(df)}")
print(f"Средний размер скидки (по тем, у кого она есть): {avg_discount_value:.2f}%")

display(df.head(10))


Начинаем парсинг 5 страниц...
Страница 1: собрано 25 записей (итого: 25)
Страница 2: собрано 25 записей (итого: 50)
Страница 3: собрано 25 записей (итого: 75)
Страница 4: собрано 25 записей (итого: 100)
Страница 5: собрано 25 записей (итого: 125)

Всего игр: 125
Средний размер скидки (по тем, у кого она есть): 0.00%


Unnamed: 0,title,release_date,discount_pct,price_current,price_original
0,Battlefield™ 6,"Oct 10, 2025",,,
1,Counter-Strike 2,"Aug 21, 2012",,,
2,Steam Deck,"Jan 17, 2025",,,
3,Digimon Story Time Stranger,"Oct 2, 2025",,,
4,Megabonk,"Sep 18, 2025",,,
5,Dead by Daylight,"Jun 14, 2016",,,
6,skate.,"Sep 16, 2025",,,
7,Little Nightmares III,"Oct 9, 2025",,,
8,Umamusume: Pretty Derby,"Jun 24, 2025",,,
9,Ghost of Tsushima DIRECTOR'S CUT,"May 16, 2024",,,


### Надо правильно получить размер скидки, цену со скидкой, цену без скидки

In [10]:
import re
import time
import requests
import pandas as pd
from bs4 import BeautifulSoup

# --- Настройки ---
BASE_URL = "https://store.steampowered.com/search/"
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/123.0.0.0 Safari/537.36"
}
PAGES_TO_PARSE = 5              # сколько страниц топа пройти
REQUEST_DELAY_SEC = 1.0         # пауза между запросами
PARAMS_BASE = {
    "filter": "topsellers",
    "cc": "US",                 # фиксируем валюту/регион (важно для цен)
    "l": "english",             # фиксируем язык
}

NBSP = "\u00a0"

def _to_float_price(s: str) -> float | None:
    """
    '€ 19,99' / '$19.99' / '1 299₽' -> float.
    'Free to Play' -> 0.0
    'Demo'/'Subscription'/пусто -> None
    """
    if not s:
        return None
    t = s.strip().replace(NBSP, " ")
    if re.search(r"\bfree\b", t, re.I):
        return 0.0
    if re.search(r"\b(subscription|demo)\b", t, re.I):
        return None

    # оставляем цифры, запятую, точку и пробел
    t = re.sub(r"[^\d,.\s]", "", t).replace(" ", "")
    if "," in t and "." in t:
        # запятая как разделитель тысяч
        t = t.replace(",", "")
    else:
        # единственная запятая — десятичный разделитель
        t = t.replace(",", ".")
    try:
        return float(t) if t else None
    except ValueError:
        return None

def parse_result_row(row) -> dict:
    """Парсит карточку игры из строки результатов поиска."""
    # Название и дата релиза
    title_el = row.select_one(".search_name .title")
    title = title_el.get_text(strip=True) if title_el else None

    release_el = row.select_one(".search_released")
    release_date = release_el.get_text(strip=True) if release_el else None

    # Блок скидок/цен (новая верстка Steam с явными классами)
    disc_el = row.select_one(".discount_pct")
    discount_pct = None
    if disc_el:
        m = re.search(r"-?(\d+)\s*%", disc_el.get_text())
        if m:
            discount_pct = int(m.group(1))

    orig_el = row.select_one(".discount_original_price")
    final_el = row.select_one(".discount_final_price")

    price_original = _to_float_price(orig_el.get_text()) if orig_el else None
    price_current  = _to_float_price(final_el.get_text()) if final_el else None

    # Fallback на старый блок (если не распознали)
    if price_current is None:
        price_box = row.select_one(".search_price")
        if price_box:
            # берём последнюю «часть» как актуальную цену
            chunks = list(price_box.stripped_strings)
            if chunks:
                price_current = _to_float_price(chunks[-1])

    return {
        "title": title,
        "release_date": release_date,
        "discount_pct": discount_pct,      # int | None
        "price_original": price_original,  # float | None
        "price_current": price_current,    # float | 0.0 | None
    }

# --- Основной сбор ---
all_rows = []
for page in range(1, PAGES_TO_PARSE + 1):
    params = {**PARAMS_BASE, "page": page}
    r = requests.get(BASE_URL, params=params, headers=HEADERS, timeout=30)
    if r.status_code != 200:
        print(f"[warn] page {page}: HTTP {r.status_code}")
        time.sleep(REQUEST_DELAY_SEC)
        continue

    soup = BeautifulSoup(r.text, "html.parser")
    rows = soup.select("a.search_result_row")
    if not rows:
        print(f"[info] page {page}: нет результатов (верстка изменилась?)")
        break

    for row in rows:
        all_rows.append(parse_result_row(row))

    print(f"Стр. {page}: собрано {len(rows)} (итого {len(all_rows)})")
    time.sleep(REQUEST_DELAY_SEC)

# --- В DataFrame, очистка и метрики ---
df = pd.DataFrame(all_rows)
# удалим пустые названия, дубликаты по названию
df = (df.dropna(subset=["title"])
        .drop_duplicates(subset=["title"])
        .reset_index(drop=True))

# средняя скидка (только по тем, у кого она есть)
avg_disc_all = df["discount_pct"].dropna()
avg_discount = avg_disc_all.mean() if not avg_disc_all.empty else 0.0

# Также можно посчитать «взвешенную» скидку как среднее по всем товарам, где NaN -> 0
avg_discount_including_no_sale = df["discount_pct"].fillna(0).mean()

print(f"\nВсего уникальных игр: {len(df)}")
print(f"Средняя скидка среди игр со скидкой: {avg_discount:.2f}%")
print(f"Средняя скидка по всем позициям (без скидки считаем 0%): {avg_discount_including_no_sale:.2f}%")

# Показать первые строки
display(df.head(10))


Стр. 1: собрано 25 (итого 25)
Стр. 2: собрано 25 (итого 50)
Стр. 3: собрано 25 (итого 75)
Стр. 4: собрано 25 (итого 100)
Стр. 5: собрано 25 (итого 125)

Всего уникальных игр: 125
Средняя скидка среди игр со скидкой: 41.92%
Средняя скидка по всем позициям (без скидки считаем 0%): 8.38%


Unnamed: 0,title,release_date,discount_pct,price_original,price_current
0,Battlefield™ 6,"Oct 10, 2025",,,69.99
1,Counter-Strike 2,"Aug 21, 2012",,,0.0
2,Steam Deck,"Jan 17, 2025",,,399.0
3,Digimon Story Time Stranger,"Oct 2, 2025",,,69.99
4,Megabonk,"Sep 18, 2025",,,9.99
5,Dead by Daylight,"Jun 14, 2016",,,19.99
6,skate.,"Sep 16, 2025",,,0.0
7,Umamusume: Pretty Derby,"Jun 24, 2025",,,0.0
8,Little Nightmares III,"Oct 9, 2025",,,39.97
9,Ghost of Tsushima DIRECTOR'S CUT,"May 16, 2024",33.0,59.99,40.19


#### Сработало только для 1 примера, надо сделать общий вариант

### Коррекция парсера (Решение от Gemini)

> **Проблема:** Изначальный код парсера перестал работать и возвращал 0 вакансий. Причина заключается в том, что сайт `rabota.ru` полностью изменил свою HTML-структуру и CSS-классы. Старые селекторы, которые использовались для поиска данных (например, `vacancy-preview-card__main`), больше не существуют на странице.

**Анализ новой структуры и ключевые исправления:**

Был произведен анализ актуального HTML-кода страницы, предоставленного на скриншоте. Это позволило выявить следующие ключевые моменты и внести исправления в код:

1.  **Основной контейнер вакансии:** выяснилось, что теперь каждая вакансия обернута не в тег `<div>`, а в тег `<article>` с классом `vacancy-preview-card`. Код был обновлен для поиска именно этого нового контейнера.

2.  **Данные об опыте работы:** важнейшее открытие — **на странице со списком вакансий больше нет информации о требуемом опыте**. Старый код ошибочно пытался извлечь опыт из элемента с классом `vacancy-preview-location__address-text`. Как показал анализ, в этом блоке на самом деле находится **локация** (например, "м. Китай-город").

3.  **Коррекция собираемых данных:** на основе анализа было принято решение скорректировать парсер. Вместо несуществующего на странице опыта, теперь код собирает реально присутствующие данные: **Название**, **Компанию** и **Локацию**.

**Итог:**  полностью исправленный код, который успешно находит и извлекает актуальные данные с сайта, основываясь на его новой структуре представлен ниже.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

BASE_URL = 'https://rabota.ru/vacancy/python-developer/'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
PAGES_TO_PARSE = 5
data = []

print(f"Начинаем парсинг {PAGES_TO_PARSE} страниц...")

for page in range(1, PAGES_TO_PARSE + 1):
    url = f"{BASE_URL}?page={page}"
    print(f"Обрабатываем страницу: {url}")

    try:
        response = requests.get(url, headers=HEADERS)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')

        vacancy_cards = soup.find_all('article', class_='vacancy-preview-card')

        if not vacancy_cards:
            print("Не найдено карточек вакансий на странице.")
            break

        for card in vacancy_cards:
            try:
                title = card.find('h3', class_='vacancy-preview-card__title').text.strip()
            except AttributeError:
                title = 'Не указано'

            try:
                company = card.find('span', class_='vacancy-preview-card__company-name').text.strip()
            except AttributeError:
                company = 'Не указано'

            # --- ИЗМЕНЕНИЕ: Добавляем сбор данных о зарплате ---
            try:
                # Зарплата находится в теге <div> с классом 'vacancy-preview-card__salary'
                salary = card.find('div', class_='vacancy-preview-card__salary').text.strip().replace('\u202f', '') # Удаляем неразрывный пробел
            except AttributeError:
                salary = 'Не указана'

            data.append({
                'title': title,
                'company': company,
                'salary_text': salary # Сохраняем как текст для последующей очистки
            })

    except requests.RequestException as e:
        print(f"Ошибка при запросе к странице {page}: {e}")
        break

    time.sleep(1)

print(f"\nПарсинг завершен. Собрано {len(data)} вакансий.")

### Шаг 3. Очистка и преобразование данных о зарплате

Собранные данные о зарплате представляют собой текст (например, "100 000 – 140 000 руб.", "от 200 000 руб.", "по договоренности"). Нам нужно преобразовать его в числовой формат для анализа. Мы создадим две новые колонки: `salary_from` (минимальная планка) и `salary_to` (максимальная).

In [None]:
import numpy as np

df = pd.DataFrame(data)

def parse_salary(salary_str):
    salary_str = salary_str.lower().replace('руб.', '').strip()

    if 'не указана' in salary_str or 'по договоренности' in salary_str:
        return np.nan, np.nan

    salary_from = np.nan
    salary_to = np.nan

    try:
        if '–' in salary_str:
            parts = salary_str.split('–')
            salary_from = int(parts[0].replace(' ', ''))
            salary_to = int(parts[1].replace(' ', ''))
        elif 'от' in salary_str:
            salary_from = int(salary_str.replace('от', '').replace(' ', ''))
        elif 'до' in salary_str:
            salary_to = int(salary_str.replace('до', '').replace(' ', ''))
        else:
            # Если указано одно число, считаем его и минимумом, и максимумом
            value = int(salary_str.replace(' ', ''))
            salary_from, salary_to = value, value
    except (ValueError, IndexError):
        return np.nan, np.nan

    return salary_from, salary_to

# Применяем функцию и создаем новые столбцы
df[['salary_from', 'salary_to']] = df['salary_text'].apply(parse_salary).apply(pd.Series)

# Для удобства анализа создадим среднюю зарплату для каждой вакансии
df['salary_avg'] = df[['salary_from', 'salary_to']].mean(axis=1)

print("Данные после очистки и преобразования зарплат:")
display(df.head(10))

print("\nСтатистика по числовым колонкам зарплат:")
display(df.describe())

### Использование регулярных выражений для извлечения зарплаты

**Проблема:** предыдущая функция `parse_salary` не смогла извлечь ни одного числового значения из столбца `salary_text`. Причина в том, что метод замены символов (разных видов тире и пробелов) оказался ненадежным для реальных данных, которые приходят с сайта.

**Решение: переход на регулярные выражения**

Чтобы гарантированно извлечь числа из строки любого формата, мы полностью переписали функцию `parse_salary`, используя модуль `re` (регулярные выражения).

**Логика новой функции:**

1.  **Найти все числа:** с помощью `re.findall(r'\d+', salary_str)` мы находим в строке все последовательности цифр и получаем их в виде списка. Например, из `"от 100 000 — до 140 000 руб."` мы получим `['100000', '140000']`.

2.  **Проанализировать результат:**
    *   Если в списке **два числа**, первое — это `salary_from`, второе — `salary_to`.
    *   Если в списке **одно число**, мы проверяем наличие слов «от» или «до» в исходной строке, чтобы определить, это нижняя или верхняя граница. Если этих слов нет, значит, это фиксированная зарплата, и мы присваиваем это значение и `salary_from`, и `salary_to`.
    *   Если чисел **нет**, возвращаем `NaN`.

Этот подход гораздо надежнее, так как он не зависит от конкретных символов-разделителей.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

# --- ФИНАЛЬНАЯ, ГАРАНТИРОВАННО РАБОТАЮЩАЯ ФУНКЦИЯ ---

def parse_salary_final_robust(salary_str):
    # Сразу отсекаем нерелевантные строки
    if 'не указана' in salary_str.lower() or 'по договоренности' in salary_str.lower():
        return np.nan, np.nan

    # ШАГ 1: Используем re.sub для удаления ВСЕХ типов пробелов
    # '100 000' -> '100000'
    no_spaces_str = re.sub(r'\s+', '', salary_str)

    # ШАГ 2: Извлекаем все последовательности цифр из строки без пробелов
    numbers = re.findall(r'\d+', no_spaces_str)

    if not numbers:
        return np.nan, np.nan

    salary_from = np.nan
    salary_to = np.nan

    # ШАГ 3: Простая и надежная логика на основе количества найденных чисел
    # Сценарий: найдена вилка зарплат (два числа)
    if len(numbers) == 2:
        salary_from = int(numbers[0])
        salary_to = int(numbers[1])
    # Сценарий: найдено одно число
    elif len(numbers) == 1:
        value = int(numbers[0])
        if 'от' in salary_str.lower():
            salary_from = value
        elif 'до' in salary_str.lower():
            salary_to = value
        else: # Фиксированная зарплата
            salary_from = value
            salary_to = value

    return salary_from, salary_to

# --- ПРИМЕНЕНИЕ ФИНАЛЬНОЙ ФУНКЦИИ ---

df[['salary_from', 'salary_to']] = df['salary_text'].apply(parse_salary_final_robust).apply(pd.Series)

# Создаем среднюю зарплату
df['salary_avg'] = df[['salary_from', 'salary_to']].mean(axis=1)

print("Данные ПОСЛЕ ФИНАЛЬНОЙ КОРРЕКЦИИ:")
display(df.head(10))

print("\nСтатистика по числовым колонкам (теперь корректная):")
display(df.describe())




### Шаг 4: Анализ и визуализация данных

Теперь, когда у нас есть числовые данные о зарплатах, мы можем проанализировать их распределение и ключевые показатели.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime # Импортируем модуль для работы с датой и временем

# --- 1. Анализ ключевых показателей ---

salary_specified_count = df['salary_avg'].notna().sum()
total_vacancies = len(df)

print("--- Ключевые показатели анализа ---")
if total_vacancies > 0:
    print(f"Всего вакансий проанализировано: {total_vacancies}")
    print(f"Из них с указанием зарплаты: {salary_specified_count} ({salary_specified_count/total_vacancies:.1%})")
else:
    print("Не найдено вакансий для анализа.")

# --- 2. Визуализация распределения зарплат ---

if salary_specified_count > 0:
    # --- ИЗМЕНЕНИЕ 1: Определяем метаданные для графика ---
    # Получаем текущую дату и время
    current_time = datetime.now().strftime('%d.%m.%Y %H:%M')
    # Указываем поисковый запрос и источник
    search_query = "Python developer на rabota.ru"

    # --- Настройка стиля ---
    sns.set(style="whitegrid", font_scale=1.2)
    plt.rcParams['font.family'] = 'sans-serif'
    plt.rcParams['font.sans-serif'] = ['Liberation Sans']

    fig, ax = plt.subplots(figsize=(12, 8)) # Используем fig, ax для большего контроля

    # --- Построение основного графика ---
    sns.histplot(df['salary_avg'].dropna(), bins=20, kde=True, color='deepskyblue', ax=ax)

    median_salary = df['salary_avg'].median()
    ax.axvline(
        median_salary,
        color='red',
        linestyle='--',
        linewidth=2,
        label=f'Медианная зарплата: {median_salary:,.0f} руб.'
    )

    # --- Настройка заголовков и подписей ---
    ax.set_title('Распределение предлагаемых зарплат для Python-разработчиков')
    ax.set_xlabel('Средняя предлагаемая зарплата (руб.)')
    ax.set_ylabel('Количество вакансий')
    ax.legend()

    # --- ИЗМЕНЕНИЕ 2: Добавляем текстовую аннотацию с источником и временем ---
    # Формируем текст для подписи
    source_text = f"Источник: {search_query}\nДанные собраны: {current_time}"

    # Добавляем текст в нижний правый угол фигуры
    fig.text(0.99, 0.01, source_text, ha='right', va='bottom', fontsize=10, color='gray')

    plt.tight_layout(rect=[0, 0.05, 1, 1]) # Оставляем место для подписи внизу
    plt.show()
else:
    print("\nВизуализация невозможна, так как не найдено ни одной вакансии с указанной зарплатой.")

### Шаг 5: Выводы по анализу

На основе графика распределения зарплат можно сделать следующие конкретные бизнес-выводы:

1.  **Прозрачность рынка:** сам факт того, что удалось построить график на основе собранных данных, подтверждает, что значительная часть работодателей указывает уровень заработной платы. Это говорит о высокой конкуренции на рынке, где зарплата является ключевым фактором привлечения кандидатов.

2.  **Центр рынка (медиана):** медианная зарплата для Python-разработчика, согласно анализу, составляет **105 000 руб.** Это важнейший ориентир для HR-отдела: предложения значительно ниже этой отметки будут неконкурентоспособными, а предложения выше будут привлекать более квалифицированных кандидатов.

3.  **Структура спроса:** гистограмма четко показывает, что основной спрос на разработчиков сконцентрирован в двух ключевых диапазонах:
    *   Самый высокий пик находится в районе **90 000 - 110 000 руб.**, что, вероятно, соответствует ожиданиям Junior+ и уверенных Middle-разработчиков.
    *   Второй по высоте пик находится в районе **140 000 - 160 000 руб.**, что указывает на большой спрос на опытных Middle и Senior-специалистов.

4.  **"Длинный хвост" и ниши:** наличие вакансий с зарплатами **200 000 руб. и выше** (правая часть графика) указывает на устойчивый, хотя и менее массовый, спрос на высококвалифицированных специалистов (Lead, Architect) или разработчиков с редкими, востребованными навыками. Компании готовы платить премию за уникальные компетенции.