In [3]:
import cianparser
import time
import pandas as pd

def save_data_to_csv(data, filename="cianparser_ol.csv", mode="a"):
    """Функция записи данных в CSV-файл.

    Args:
        data (list): Список словарей с данными.
        filename (str, optional): Имя файла. Defaults to "cianparser_ol.csv".
        mode (str, optional): Режим записи. Defaults to "a" (append).
    """
    if data:  # Проверяем, не пуст ли список data
        df = pd.DataFrame(data)  # Создаем DataFrame
        df.to_csv(filename, index=False, header=False, mode=mode)

# Создаем парсер для обоих регионов
parser = cianparser.CianParser(location="Москва и Московская область") 

# Записываем заголовки в файл (первая строка)
headers = parser.get_flats(deal_type="sale", rooms=(1, 2), with_saving_csv=False, additional_settings={"start_page":1, "end_page":1})[0].keys() 
save_data_to_csv(list(headers), filename="cianparser_ol.csv", mode="w")  # Записываем заголовки

# Парсим данные по 900 страницам
for page in range(1, 900):
    time.sleep(40)
    page_data = parser.get_flats(deal_type="sale", rooms=(1, 2), with_saving_csv=False, additional_settings={"start_page":page, "end_page":page})
    if page_data:  # Проверяем, не пуст ли список page_data
        save_data_to_csv(page_data, filename="cianparser_ol.csv")

print("Данные успешно сохранены в файл cianparser_ol.csv")


                              Preparing to collect information from pages..
The page from which the collection of information begins: 
 https://cian.ru/cat.php?engine_version=2&p=1&with_neighbors=0&region=None&deal_type=sale&offer_type=flat&room1=1&room2=1


KeyboardInterrupt: 

In [None]:
import pandas as pd

# Загружаем данные из CSV-файла, игнорируя некорректные строки
df = pd.read_csv('cian_parsing.csv', header=None, names=[
    "Компания", "Тип", "Город", "Тип сделки", "Тип объекта", "Этажность", "Количество комнат", "Площадь (кв.м)", 
    "Цена (руб.)", "Район", "Улица", "Дом", "Станция метро", "ЖК"
], sep=",", on_bad_lines='warn')
df['Цена (руб.)'] = df['Цена (руб.)'].apply(lambda x: '{:,.0f}'.format(x))

# Выводим DataFrame в виде таблицы
print(df.to_string())

: 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Загружаем данные из CSV-файла
df = pd.read_csv('cian_parsing.csv', header=None, names=[
    "Компания", "Тип", "Город", "Тип сделки", "Тип объекта", "Этажность", "Количество комнат", "Площадь (кв.м)", 
    "Цена (руб.)", "Район", "Улица", "Дом", "Станция метро", "ЖК"
], sep=",", on_bad_lines='warn')


# Преобразуем столбцы в числовые типы
df['Этажность'] = df['Этажность'].astype(int)
df['Количество комнат'] = df['Количество комнат'].astype(int)
df['Площадь (кв.м)'] = df['Площадь (кв.м)'].astype(float)
df['Цена (руб.)'] = df['Цена (руб.)'].astype(float)

# Гистограммы числовых признаков
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
sns.histplot(df['Этажность'], kde=True)
plt.title('Гистограмма этажности')

plt.subplot(2, 2, 2)
sns.histplot(df['Количество комнат'], kde=True)
plt.title('Гистограмма количества комнат')

plt.subplot(2, 2, 3)
sns.histplot(df['Площадь (кв.м)'], kde=True)
plt.title('Гистограмма площади')

plt.subplot(2, 2, 4)
sns.histplot(df['Цена (руб.)'], kde=True)
plt.title('Гистограмма цены')

plt.tight_layout()
plt.show()

# Зависимость цены от площади с учетом количества комнат
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Площадь (кв.м)', y='Цена (руб.)', hue='Количество комнат', data=df)
plt.title('Зависимость цены от площади с учетом количества комнат')
plt.xlabel('Площадь (кв.м)')
plt.ylabel('Цена (руб.)')
plt.show()

# KDE распределение площади жилья
plt.figure(figsize=(8, 4))
sns.kdeplot(df['Площадь (кв.м)'], shade=True)
plt.title('KDE распределение площади жилья')
plt.xlabel('Площадь (кв.м)')
plt.show()