<a href="https://colab.research.google.com/github/NickOsipov/otus-ds-basic-tutorial/blob/main/parsing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Парсинг данных в Python

Краткий интерактивный ноутбук для быстрого освоения **искусства извлечения данных** — на русском языке. Каждый раздел содержит пример кода и краткое пояснение[1].

## Что такое парсинг и зачем он нужен?

**Парсинг — это суперсила для Data Scientist**: Умение извлекать нужную информацию из любого источника — сайтов, файлов, API.

**Почему парсинг критически важен**:
- **80% времени** тратится на сбор и очистку данных
- **Автоматизация**: Вместо копирования вручную — один скрипт на миллионы записей
- **Актуальность**: Получение свежих данных в реальном времени
- **Масштаб**: Обработка данных, недоступных для ручного анализа

## Импорт необходимых библиотек

**Арсенал парсера**: Каждая библиотека — специализированный инструмент для своих задач:
- **requests** — ваш проводник в мир веб-страниц  
- **BeautifulSoup** — библиотека для разбора HTML/XML документов
- **pandas** — мастер табличных данных
- **json** — переводчик JavaScript объектов

In [None]:
import json
import xml.etree.ElementTree as ET
import csv
from urllib.parse import urljoin
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

## Урок первый: Парсинг HTML с BeautifulSoup

**Знакомьтесь с BeautifulSoup** — библиотека для работы с веб-страницами!

**Практическое применение**:
- Извлечение цен с сайтов интернет-магазинов
- Сбор новостей и статей
- Анализ структуры веб-страниц
- Автоматизация заполнения отчетов из веб-источников

In [None]:
# Пример HTML для парсинга
html_content = """
<html>
<head><title>Пример страницы</title></head>
<body>
    <h1>Заголовок страницы</h1>
    <div class="content">
        <p>Первый параграф</p>
        <p>Второй параграф</p>
        <ul>
            <li>Элемент списка 1</li>
            <li>Элемент списка 2</li>
            <li>Элемент списка 3</li>
        </ul>
    </div>
    <a href="https://example.com">Ссылка</a>
</body>
</html>
"""

# Создание объекта BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

print("Заголовок страницы:", soup.title.text)
print("\nЗаголовок h1:", soup.h1.text)
print("\nВсе параграфы:")
for p in soup.find_all('p'):
    print("-", p.text)

print("\nЭлементы списка:")
for li in soup.find_all('li'):
    print("-", li.text)

## Урок второй: Парсинг JSON — язык современного веба

**JSON — это эсперанто интернета**: Универсальный язык обмена данными между системами.

**Аналогия для понимания**: Если HTML — это красиво оформленная книга, то JSON — это структурированная картотека в библиотеке. Все данные разложены по полочкам и легко находятся.

**Где встречается JSON**:
- **API ответы** — 99% современных API возвращают данные в JSON
- **Конфигурационные файлы** — настройки приложений
- **NoSQL базы данных** — MongoDB, CouchDB хранят данные в JSON-подобном формате
- **AJAX запросы** — обмен данными между браузером и сервером

In [None]:
# Пример JSON данных
json_data = '''
{
    "name": "Иван Иванов",
    "age": 30,
    "city": "Москва",
    "skills": ["Python", "JavaScript", "SQL"],
    "education": {
        "degree": "Магистр",
        "university": "МГУ",
        "year": 2020
    }
}
'''

# Парсинг JSON
data = json.loads(json_data)

print("Имя:", data['name'])
print("Возраст:", data['age'])
print("Город:", data['city'])
print("Навыки:", ", ".join(data['skills']))
print("Образование:", data['education']['degree'], "в", data['education']['university'])

## Урок третий: Парсинг CSV — основа табличных данных

**CSV — это Excel без красивостей**: Чистые данные, максимальная совместимость.

**Почему CSV так популярен**:
- **Универсальность**: Открывается в любой программе — от блокнота до Excel
- **Скорость**: Быстрее загружается и обрабатывается, чем Excel файлы  
- **Размер**: Минимальный объем файлов
- **Стандарт**: Используется везде — банки, биржи, научные исследования

**Практическое применение**:
- Экспорт отчетов из баз данных
- Обмен данными между системами
- Загрузка данных в машинное обучение
- Анализ финансовых данных

In [None]:
# Создание примера CSV данных
csv_content = """name,age,city,salary
Иван Иванов,30,Москва,100000
Петр Петров,25,Санкт-Петербург,80000
Мария Сидорова,28,Екатеринбург,90000
Анна Козлова,32,Новосибирск,95000"""

# Сохранение в файл
with open('example.csv', 'w', encoding='utf-8') as f:
    f.write(csv_content)

# Парсинг с помощью pandas
df = pd.read_csv('example.csv')
print("Данные из CSV файла:")
print(df)

print("\nСтатистика по зарплатам:")
print(f"Средняя зарплата: {df['salary'].mean():,.0f}")
print(f"Максимальная зарплата: {df['salary'].max():,.0f}")
print(f"Минимальная зарплата: {df['salary'].min():,.0f}")

## Урок четвертый: Парсинг XML — структурированные документы

**XML — это HTML с правилами**: Более строгий, но гибкий формат для сложных иерархических данных.

**Где используется XML**:
- **Корпоративные системы** — обмен данными между большими системами
- **Конфигурационные файлы** — настройки сложных приложений
- **SOAP веб-сервисы** — старый, но все еще используемый стандарт
- **Банковские системы** — стандарты типа ISO 20022

**Когда выбирать XML вместо JSON**:
- Нужны атрибуты у элементов
- Требуется валидация структуры (XSD схемы)
- Работа с пространствами имен
- Сложная иерархия данных

In [None]:
# Пример XML данных
xml_content = """
<?xml version="1.0" encoding="UTF-8"?>
<books>
    <book id="1">
        <title>Война и мир</title>
        <author>Лев Толстой</author>
        <year>1869</year>
        <genre>Роман</genre>
    </book>
    <book id="2">
        <title>Преступление и наказание</title>
        <author>Федор Достоевский</author>
        <year>1866</year>
        <genre>Роман</genre>
    </book>
    <book id="3">
        <title>Мастер и Маргарита</title>
        <author>Михаил Булгаков</author>
        <year>1967</year>
        <genre>Фантастика</genre>
    </book>
</books>
"""

# Парсинг XML
root = ET.fromstring(xml_content)

print("Книги в библиотеке:")
for book in root.findall('book'):
    book_id = book.get('id')
    title = book.find('title').text
    author = book.find('author').text
    year = book.find('year').text
    genre = book.find('genre').text

    print(f"ID: {book_id}")
    print(f"  Название: {title}")
    print(f"  Автор: {author}")
    print(f"  Год: {year}")
    print(f"  Жанр: {genre}")
    print()

## Урок пятый: Веб-скрапинг — этично и эффективно

**Веб-скрапинг — это автоматизированная разведка**: Программы собирают данные вместо вас, но с соблюдением правил приличия.

**ВАЖНЫЕ ПРИНЦИПЫ ЭТИЧНОГО СКРАПИНГА**:
- **robots.txt** — всегда проверяйте, что разрешено
- **Задержки** — не перегружайте сервер запросами
- **User-Agent** — представьтесь корректно
- **Terms of Service** — соблюдайте правила сайта

**Практические применения**:
- Мониторинг цен конкурентов  
- Сбор новостей и аналитики
- Исследование рынков
- Автоматизация рутинных задач

In [None]:
# Функция для безопасного получения веб-страницы
def safe_request(url, delay=1):
    """
    Безопасный запрос к веб-странице с задержкой
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }

    try:
        time.sleep(delay)  # Вежливая задержка
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        return response
    except requests.exceptions.RequestException as e:
        print(f"Ошибка при запросе: {e}")
        return None

# Пример использования (замените на реальный URL для тестирования)
# url = "https://httpbin.org/html"
# response = safe_request(url)
#
# if response:
#     soup = BeautifulSoup(response.content, 'html.parser')
#     title = soup.find('title')
#     if title:
#         print(f"Заголовок страницы: {title.text}")

print("Функция safe_request готова к использованию")
print("Не забывайте соблюдать robots.txt и условия использования сайтов!")

## Урок шестой: Обработка ошибок — защита от неожиданностей

**Золотое правило парсинга**: "Всегда ожидайте неожиданное!" Данные из реального мира грязные, неполные и непредсказуемые.

**Аналогия**: Парсинг без обработки ошибок — это вождение автомобиля без ремней безопасности. Можно проехать без проблем, но первая же неожиданность станет катастрофой.

**Типичные проблемы в реальных данных**:
- **Отсутствующие элементы** — ожидаемого поля нет на странице
- **Невалидный JSON** — лишняя запятая ломает весь парсинг
- **Изменилась структура** — сайт обновился, ваш код сломался
- **Проблемы с кодировкой** — русские символы превратились в ???

In [None]:
def safe_parse_json(json_string):
    """
    Безопасный парсинг JSON с обработкой ошибок
    """
    try:
        return json.loads(json_string)
    except json.JSONDecodeError as e:
        print(f"Ошибка парсинга JSON: {e}")
        return None

def safe_extract_text(soup, selector, default="Не найдено"):
    """
    Безопасное извлечение текста из HTML
    """
    try:
        element = soup.select_one(selector)
        return element.text.strip() if element else default
    except Exception as e:
        print(f"Ошибка извлечения текста: {e}")
        return default

# Примеры использования
valid_json = '{"name": "Тест", "value": 123}'
invalid_json = '{"name": "Тест", "value":}'

print("Парсинг корректного JSON:")
result1 = safe_parse_json(valid_json)
print(result1)

print("\nПарсинг некорректного JSON:")
result2 = safe_parse_json(invalid_json)
print(result2)

# Пример безопасного извлечения из HTML
html = "<div class='content'><h1>Заголовок</h1></div>"
soup = BeautifulSoup(html, 'html.parser')

print("\nИзвлечение существующего элемента:")
title = safe_extract_text(soup, 'h1')
print(f"Заголовок: {title}")

print("\nИзвлечение несуществующего элемента:")
subtitle = safe_extract_text(soup, 'h2')
print(f"Подзаголовок: {subtitle}")

## Урок седьмой: Практическое задание — ваша первая победа

**Время показать мастерство!** Лучший способ изучить парсинг — попрактиковаться на реальной задаче.

**Совет наставника**: Начните с простого, постепенно усложняйте. Каждая маленькая победа приближает вас к мастерству парсинга.

**Идеи для развития навыков**:
- Парсинг курсов валют с сайта ЦБ РФ
- Извлечение заголовков новостей с новостных сайтов  
- Анализ вакансий с job-сайтов
- Мониторинг цен в интернет-магазинах

In [None]:
# Место для вашего кода
# Задание: создайте функцию для парсинга данных о погоде из JSON
# или HTML таблицы с данными

def parse_weather_data(data):
    """
    Функция для парсинга данных о погоде
    data может быть JSON строкой или HTML
    """
    # Ваш код здесь
    pass

# Пример данных для тестирования
weather_json = '''
{
    "city": "Москва",
    "temperature": -5,
    "humidity": 65,
    "condition": "Снег",
    "wind_speed": 12
}
'''

print("Добавьте свой код для парсинга данных о погоде!")

---

## Заключение

**Что вы изучили**: Основы парсинга данных — ключевой навык для любого аналитика. Теперь вы знаете:
- Как работать с HTML, JSON, CSV и XML форматами
- Секреты этичного веб-скрапинга
- Важность обработки ошибок в реальных проектах
- Практические инструменты для повседневной работы

**Важные принципы, которые нужно помнить**:
- **Этика прежде всего** — соблюдайте правила сайтов
- **Обрабатывайте ошибки** — реальные данные всегда грязные
- **Уважайте серверы** — используйте задержки между запросами
- **Изучайте robots.txt** — это карта разрешений для скрапинга

**Продвинутые техники для изучения**:
- **Selenium** — для парсинга JavaScript-сайтов
- **Scrapy** — промышленный фреймворк для больших проектов
- **API-интеграции** — часто лучше, чем скрапинг
- **Обходы защиты** — captcha, rate limits, IP-блокировки

**Полезные библиотеки для роста**:
- `requests-html` — JavaScript рендеринг
- `lxml` — быстрый XML/HTML парсер  
- `scrapy` — профессиональный веб-скрапинг
- `selenium` — автоматизация браузера
- `aiohttp` — асинхронные запросы

> **Дополнительные материалы и документация доступны в [Scrapy Tutorial](https://docs.scrapy.org/en/latest/intro/tutorial.html) и [BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)[1].**

[1] https://realpython.com/python-web-scraping-practical-introduction/