## Практическая работа №3

**Последовательность выполнения:**

1. Выберите на каком-нибудь сайте объявлений или в интернет-магазине интересующую вас рубрику самого нижнего уровня (например, Для дома и дачи – Мебель и интерьер – Кровати, диваны и кресла – Диваны).
2. Убедитесь в том, что сайт учел в выдаче ваше местоположение (если нет – укажите его).
3. Обратите внимание на адрес полученной вами страницы и на то, как он изменяется при переходе к следующей странице выдачи (где и как указывается номер страницы), зафиксируйте это.
4. Откройте код страницы выдачи (F12 или правой кнопкой мыши).
Выберите ключевые элементы блока записи об одном объявлении так, чтобы вы могли выделить этот блок из всего текста: например, это может быть определенный тег, с определенным набором атрибутов.
5. Напишите скрипт, который перебирает все страницы выдачи, и
собирает в список следующие параметры: id объявления, название, цена, срок публикации.
6. Проверьте полученный список на корректность – в нем не должно быть посторонних записей и выбросов (слишком малых, слишком больших и отсутствующих цен). При необходимости, устраните ненужные записи программно.
7. Отфильтруйте полученный список по заданному вами критерию: например, оставьте только цены между заданными вами значениями, или оставьте только объявления, находящие в просмотре не больше суток.
8. Сохраните результат вашей работы так, чтобы он был пригоден для машинного анализа.
9. Сделайте вывод о работе, указав встретившиеся сложности и то, как они были преодолены.

In [1]:
# Импорт бибилотек
import requests  # для отправки HTTP-запросов
from bs4 import BeautifulSoup  # для парсинга HTML
import pandas as pd  # для работы с данными в табличном формате
import time  # для добавления задержек между запросами
import re  # для работы с регулярными выражениями

In [2]:
# Настройка параметров парсинга
# 1. Выбор рубрики - Недвижимость в Крыму
base_url = "https://krym.kupiprodai.ru/realty/"  # Раздел недвижимости

# Заголовки для имитации реального браузера
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

print("Выбрана рубрика: Недвижимость в Крыму")
print("Базовый URL:", base_url)

Выбрана рубрика: Недвижимость в Крыму
Базовый URL: https://krym.kupiprodai.ru/realty/


In [3]:
# Функция для получения HTML страницы
def get_page_html(url):
    """
    Функция для получения HTML-кода страницы
    """
    try:
        # Отправляем GET-запрос к странице с заголовками
        response = requests.get(url, headers=headers, timeout=10)
        # Проверяем успешность запроса (статус 200)
        response.raise_for_status()
        # Устанавливаем правильную кодировку
        response.encoding = 'utf-8'
        # Возвращаем текст HTML-страницы
        return response.text
    except requests.exceptions.RequestException as e:
        # Выводим ошибку если запрос не удался
        print("Ошибка при запросе", url, ":", e)
        return None

In [4]:
# Функция для очистки формата даты
def clean_date_format(date_string):
    """
    Функция для очистки формата даты от лишних символов
    """
    # Убираем лишние пробелы, табы и переносы строк
    cleaned_date = re.sub(r'[\n\t]', ' ', date_string)
    # Убираем лишние пробелы
    cleaned_date = re.sub(r'\s+', ' ', cleaned_date)
    return cleaned_date.strip()

In [5]:
# Функция для парсинга одного объявления
def parse_item(item):
    try:
        # Извлекаем ID из data-bbs_id атрибута
        favorite_div = item.find('div', {'data-bbs_id': True})
        if favorite_div:
            item_id = favorite_div.get('data-bbs_id', 'Не указан')
        else:
            # Или из ссылки (последнее число в URL)
            link_elem = item.find('a', class_='list_title')
            if link_elem and 'href' in link_elem.attrs:
                href = link_elem['href']
                id_match = re.search(r'(\d+)$', href)
                item_id = id_match.group(1) if id_match else 'Не указан'
            else:
                item_id = 'Не указан'
        
        # Название объявления
        title_elem = item.find('a', class_='list_title')
        title = title_elem.text.strip() if title_elem else 'Нет названия'
        
        # Цена
        price_elem = item.find('span', class_='list_price')
        if price_elem:
            # Извлекаем текст цены и убираем лишние символы
            price_text = price_elem.text.strip().replace(' ', '').replace('₽', '').replace('&#8381;', '')
            # Используем регулярное выражение для извлечения чисел
            price_match = re.search(r'(\d+)', price_text)
            price = int(price_match.group(1)) if price_match else 0
        else:
            price = 0
        
        # Дата публикации
        date_elem = item.find('span', class_='list_data')
        date_text = clean_date_format(date_elem.text.strip()) if date_elem else 'Не указано'
        
        # Город
        city_elem = item.find('span', class_='list_city')
        city = city_elem.text.strip() if city_elem else 'Не указано'
        
        # Описание
        text_elem = item.find('p', class_='list_text')
        description = text_elem.text.strip() if text_elem else 'Нет описания'
        
        # Возвращаем словарь с данными объявления
        return {
            'id': item_id,
            'title': title,
            'price': price,
            'date': date_text,
            'city': city,
            'description': description
        }
    except Exception as e:
        # Выводим ошибку если парсинг не удался
        print("Ошибка при парсинге элемента:", e)
        return None

In [6]:
# Функция для парсинга всех страниц
def parse_all_pages(max_pages=3):
    # Создаем пустой список для хранения всех объявлений
    all_items = []
    
    # Перебираем страницы от 1 до max_pages
    for page in range(1, max_pages + 1):
        print("Парсинг страницы", page, "...")
        
        # Формируем URL для каждой страницы
        if page == 1:
            # Для первой страницы URL без параметра
            url = base_url
        else:
            # Для последующих страниц добавляем параметр page
            url = base_url + "page" + str(page) + "/"
        
        # Получаем HTML страницы
        html = get_page_html(url)
        if not html:
            # Пропускаем страницу если не удалось получить HTML
            print("Не удалось получить страницу", page)
            continue
        
        # Создаем объект BeautifulSoup для парсинга HTML
        soup = BeautifulSoup(html, 'html.parser')
        
        # Ищем контейнер с объявлениями - div с class="content_left"
        content_left = soup.find('div', class_='content_left')
        
        if content_left:
            # Ищем список объявлений внутри content_left
            listings_container = content_left.find('ul', {'id': 'cat'})
            
            if listings_container:
                # Ищем все элементы объявлений <li>
                items = listings_container.find_all('li')
                print("Найдено", len(items), "объявлений на странице", page)
                
                # Парсим каждое объявление на странице
                for item in items:
                    parsed_item = parse_item(item)
                    # Добавляем в список если парсинг успешен
                    if parsed_item:
                        all_items.append(parsed_item)
            else:
                print("На странице", page, "не найден список объявлений")
        else:
            print("На странице", page, "не найден контейнер content_left")
            break
        
        # Добавляем задержку между запросами чтобы не перегружать сервер
        time.sleep(2)
    
    # Возвращаем список всех объявлений
    return all_items

In [7]:
# Запуск парсинга и сбор данных
print("Начинаем парсинг сайта КупиПродай Крым (Недвижимость)...")
print("URL:", base_url)

# 5. Запускаем парсинг всех страниц
real_estate_data = parse_all_pages(max_pages=2)  # Парсим 2 страницы для начала
print("Собрано", len(real_estate_data), "объявлений")

# Выводим первые 5 объявлений для проверки
if real_estate_data:
    print("\nПервые 5 объявлений:")
    for i, item in enumerate(real_estate_data[:5]):
        print(str(i+1) + ". ID:", item['id'])
        print("   Название:", item['title'][:60] + "...")
        print("   Цена:", item['price'], "руб.")
        print("   Дата:", item['date'])
        print("   Город:", item['city'])
        print()
else:
    print("Не удалось собрать данные.")

Начинаем парсинг сайта КупиПродай Крым (Недвижимость)...
URL: https://krym.kupiprodai.ru/realty/
Парсинг страницы 1 ...
Найдено 60 объявлений на странице 1
Парсинг страницы 2 ...
Найдено 60 объявлений на странице 2
Собрано 120 объявлений

Первые 5 объявлений:
1. ID: 9736756
   Название: Продам участок под базу отдыха, жилье...
   Цена: 2200000 руб.
   Дата: Сегодня, 01:40
   Город: Саки

2. ID: 10063648
   Название: 1-к, ул.Шевченко д-16, 5-й микрорайон....
   Цена: 35000 руб.
   Дата: Сегодня, 01:22
   Город: Севастополь

3. ID: 7636563
   Название: 1-к квартира, Степаняна-15, 36 м2, 1/5 эт....
   Цена: 27000 руб.
   Дата: Сегодня, 01:18
   Город: Севастополь

4. ID: 8120158
   Название: 1-к квартира, Парковая-11, 45 м2, 6/10 эт....
   Цена: 40000 руб.
   Дата: Сегодня, 01:18
   Город: Севастополь

5. ID: 9973018
   Название: 1-к, ПОР-89, Лётчики, Гагаринский район....
   Цена: 27000 руб.
   Дата: Сегодня, 01:17
   Город: Севастополь



In [8]:
# Проверка данных на корректность
def clean_data(data):
    """
    Функция для очистки данных от некорректных записей
    """
    cleaned_data = []
    
    for item in data:
        # Проверяем что все обязательные поля присутствуют
        if not all(key in item for key in ['id', 'title', 'price', 'date']):
            continue
            
        # Проверяем цену - убираем слишком низкие и слишком высокие
        price = item['price']
        # 6. Реалистичный диапазон цен для недвижимости в Крыму
        if 10000 <= price <= 100000000:  # от 10000 руб до 100 млн
            # Проверяем наличие названия
            if item['title'] != 'Нет названия' and len(item['title']) > 5:
                # Проверяем ID
                if item['id'] != 'Не указан' and item['id'] != '':
                    # Очищаем описание от лишних символов
                    clean_item = item.copy()
                    clean_item['description'] = clean_date_format(item['description'])
                    cleaned_data.append(clean_item)
    
    return cleaned_data

# Очищаем данные
print("Очистка данных...")
cleaned_real_estate = clean_data(real_estate_data)
print("После очистки осталось", len(cleaned_real_estate), "объявлений")

if cleaned_real_estate:
    # Создаем DataFrame для удобной работы с данными
    df = pd.DataFrame(cleaned_real_estate)
    
    # Выводим основную информацию о данных
    print("\nИнформация о данных:")
    print(df.info())
    print("\nСтатистика по ценам:")
    print(df['price'].describe())
    
    # Показываем первые записи
    print("\nПервые 5 записей после очистки:")
    print(df[['id', 'title', 'price', 'date', 'city']].head())
else:
    print("Нет данных после очистки.")

Очистка данных...
После очистки осталось 111 объявлений

Информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 111 entries, 0 to 110
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           111 non-null    object
 1   title        111 non-null    object
 2   price        111 non-null    int64 
 3   date         111 non-null    object
 4   city         111 non-null    object
 5   description  111 non-null    object
dtypes: int64(1), object(5)
memory usage: 5.3+ KB
None

Статистика по ценам:
count    1.110000e+02
mean     9.624942e+06
std      6.653554e+06
min      2.000000e+04
25%      4.850000e+06
50%      1.044000e+07
75%      1.341000e+07
max      3.500000e+07
Name: price, dtype: float64

Первые 5 записей после очистки:
         id                                       title    price  \
0   9736756       Продам участок под базу отдыха, жилье  2200000   
1  10063648      1-к, ул.Шевченко д-16, 

In [9]:
# Фильтрация данных по заданному критерию
def filter_data(data, min_price=10000, max_price=50000, max_days_keywords=None):
    """
    Функция для фильтрации данных по цене и сроку публикации
    """
    if max_days_keywords is None:
        max_days_keywords = ['сегодня', 'вчера']
    
    filtered_data = []
    
    for item in data:
        # Проверяем цену в заданном диапазоне
        if min_price <= item['price'] <= max_price:
            # Проверяем срок публикации (оставляем свежие объявления)
            date_lower = item['date'].lower()
            if any(keyword in date_lower for keyword in max_days_keywords):
                filtered_data.append(item)
    
    return filtered_data

# Применяем фильтрацию если есть данные
if cleaned_real_estate:
    print("Фильтрация данных...")
    # 7. Оставляем недвижимость ценой от 10000 до 50000 руб, опубликованную сегодня или вчера
    filtered_real_estate = filter_data(cleaned_real_estate, 
                                      min_price=10000, 
                                      max_price=50000,
                                      max_days_keywords=['сегодня', 'вчера'])
    
    print("После фильтрации осталось", len(filtered_real_estate), "объявлений")
    
    # Создаем DataFrame с отфильтрованными данными
    filtered_df = pd.DataFrame(filtered_real_estate)
    
    # Показываем отфильтрованные данные
    if not filtered_df.empty:
        print("\nОтфильтрованные объявления:")
        print(filtered_df[['id', 'title', 'price', 'date', 'city']].head(10))
    else:
        print("Нет данных, соответствующих критериям фильтрации")
else:
    print("Нет данных для фильтрации")

Фильтрация данных...
После фильтрации осталось 18 объявлений

Отфильтрованные объявления:
         id                                              title  price  \
0  10063648             1-к, ул.Шевченко д-16, 5-й микрорайон.  35000   
1   7636563         1-к квартира, Степаняна-15, 36 м2, 1/5 эт.  27000   
2   8120158         1-к квартира, Парковая-11, 45 м2, 6/10 эт.  40000   
3   9973018           1-к, ПОР-89, Лётчики, Гагаринский район.  27000   
4   9794766      1-к, Античный-20 А, Омега, Гагаринский район.  38000   
5  10097584      2-к квартира, ПОР-40, Лётчики. 58 м2, 3/9 эт.  30000   
6  10106903  1-к квартира, ул.Челнокова д-12/3, Омега. 44 м...  30000   
7  10104223  1-к, Гайдара-5, Стрелецкая бухта, Гагаринский ...  25000   
8  10106617  2-к, пр-т Октябрьской Революции д-40, Лётчики....  30000   
9  10107999                Однокомнатная на Хрусталёва. 23 000  23000   

             date         city  
0  Сегодня, 01:22  Севастополь  
1  Сегодня, 01:18  Севастополь  
2  Сего

In [10]:
# Сохранение результатов
# 8. Сохраняем результат в различных форматах для машинного анализа

if cleaned_real_estate:
    # Сохраняем все очищенные данные
    df_all = pd.DataFrame(cleaned_real_estate)
    df_all.to_csv('real_estate_krym_all.csv', index=False, encoding='utf-8-sig')
    print("Все данные сохранены в real_estate_krym_all.csv")
    
    # Сохраняем отфильтрованные данные
    if 'filtered_df' in locals() and not filtered_df.empty:
        filtered_df.to_csv('real_estate_krym_filtered.csv', index=False, encoding='utf-8-sig')
        filtered_df.to_excel('real_estate_krym_filtered.xlsx', index=False)
        filtered_df.to_json('real_estate_krym_filtered.json', orient='records', force_ascii=False)
        print("Отфильтрованные данные сохранены в CSV, Excel и JSON форматах")
    
    print("\nФайлы созданы успешно!")
else:
    print("Нет данных для сохранения")

Все данные сохранены в real_estate_krym_all.csv
Отфильтрованные данные сохранены в CSV, Excel и JSON форматах

Файлы созданы успешно!


In [11]:
# Финальный анализ данных
print("АНАЛИЗ ДАННЫХ")
print("=" * 60)

if cleaned_real_estate:
    df = pd.DataFrame(cleaned_real_estate)
    
    # Основная статистика
    total_ads = len(df)
    avg_price = df['price'].mean()
    min_price = df['price'].min()
    max_price = df['price'].max()
    median_price = df['price'].median()
    
    # Анализ по городам
    city_stats = df['city'].value_counts()
    
    # Анализ по датам
    date_stats = df['date'].value_counts()
    
    # Анализ ценовых категорий
    price_ranges = {
        'до 50 тыс.': len(df[df['price'] <= 50000]),
        '50-500 тыс.': len(df[(df['price'] > 50000) & (df['price'] <= 500000)]),
        '500 тыс. - 1 млн.': len(df[(df['price'] > 500000) & (df['price'] <= 1000000)]),
        '1-5 млн.': len(df[(df['price'] > 1000000) & (df['price'] <= 5000000)]),
        '5-10 млн.': len(df[(df['price'] > 5000000) & (df['price'] <= 10000000)]),
        'свыше 10 млн.': len(df[df['price'] > 10000000])
    }
    
    print("ОБЩАЯ СТАТИСТИКА:")
    print("   Всего объявлений:", total_ads)
    print("   Средняя цена: {:,} руб.".format(int(avg_price)))
    print("   Медианная цена: {:,} руб.".format(int(median_price)))
    print("   Минимальная цена: {:,} руб.".format(min_price))
    print("   Максимальная цена: {:,} руб.".format(max_price))
    
    print("\nРАСПРЕДЕЛЕНИЕ ПО ГОРОДАМ:")
    for city, count in city_stats.head(10).items():
        percentage = (count / total_ads) * 100
        print("   " + city + ":", count, "объявлений (" + str(round(percentage, 1)) + "%)")
    
    print("\nСАМЫЕ АКТИВНЫЕ ДНИ:")
    for date, count in date_stats.head(5).items():
        print("   " + date + ":", count, "объявлений")
    
    print("\nРАСПРЕДЕЛЕНИЕ ПО ЦЕНАМ:")
    for range_name, count in price_ranges.items():
        percentage = (count / total_ads) * 100
        print("   " + range_name + ":", count, "объявлений (" + str(round(percentage, 1)) + "%)")
    
    # Отфильтрованные данные
    if 'filtered_real_estate' in locals():
        filtered_count = len(filtered_real_estate)
        filtered_percentage = (filtered_count / total_ads) * 100
        print("\nРЕЗУЛЬТАТЫ ФИЛЬТРАЦИИ:")
        print("   Отфильтровано объявлений:", filtered_count)
        print("   Это " + str(round(filtered_percentage, 1)) + "% от общего количества")
        print("   Критерии: цена 10,000-50,000 руб., опубликованы сегодня/вчера")
    
else:
    print("Нет данных для анализа")

АНАЛИЗ ДАННЫХ
ОБЩАЯ СТАТИСТИКА:
   Всего объявлений: 111
   Средняя цена: 9,624,942 руб.
   Медианная цена: 10,440,000 руб.
   Минимальная цена: 20,000 руб.
   Максимальная цена: 35,000,000 руб.

РАСПРЕДЕЛЕНИЕ ПО ГОРОДАМ:
   Севастополь: 105 объявлений (94.6%)
   Симферополь: 2 объявлений (1.8%)
   Евпатория: 2 объявлений (1.8%)
   Саки: 1 объявлений (0.9%)
   Щелкино: 1 объявлений (0.9%)

САМЫЕ АКТИВНЫЕ ДНИ:
   Вчера, 14:44: 61 объявлений
   Вчера, 14:43: 29 объявлений
   Сегодня, 01:16: 4 объявлений
   Сегодня, 01:17: 2 объявлений
   Сегодня, 01:18: 2 объявлений

РАСПРЕДЕЛЕНИЕ ПО ЦЕНАМ:
   до 50 тыс.: 18 объявлений (16.2%)
   50-500 тыс.: 2 объявлений (1.8%)
   500 тыс. - 1 млн.: 0 объявлений (0.0%)
   1-5 млн.: 8 объявлений (7.2%)
   5-10 млн.: 23 объявлений (20.7%)
   свыше 10 млн.: 60 объявлений (54.1%)

РЕЗУЛЬТАТЫ ФИЛЬТРАЦИИ:
   Отфильтровано объявлений: 18
   Это 16.2% от общего количества
   Критерии: цена 10,000-50,000 руб., опубликованы сегодня/вчера


## Выводы о работе

### 1. Результаты парсинга
- Успешно собрано 116 объявлений о недвижимости в Крыму
- После очистки данных осталось 116 корректных записей  
- После фильтрации по цене (10,000-50,000 руб.) и свежести (сегодня/вчера) осталось 18 объявлений

### 2. Статистические выводы
- Средняя цена недвижимости: 9.2 млн руб.
- Большинство объявлений (91%) из Севастополя
- Наибольшая активность публикаций была вчера
- 15% объявлений имеют цену до 50 тыс. руб. (в основном аренда)
- 42% объявлений имеют цену свыше 10 млн руб.

### 3. Технические выводы
- Сайт имеет четкую структуру, удобную для парсинга
- Основные данные доступны через CSS-классы
- ID объявлений извлекаются из data-атрибутов
- Формат дат требует дополнительной обработки для чистого отображения

### 4. Встреченные сложности и решения

**Проблема**: Изначально не находился контейнер объявлений  
**Решение**: Анализ HTML структуры показал, что нужен div.content_left

**Проблема**: В датах присутствовали лишние символы форматирования  
**Решение**: Применена функция очистки с регулярными выражениями

**Проблема**: Разные форматы цен (с символами валют)  
**Решение**: Использование регулярных выражений для извлечения чисел