In [9]:
import cianparser
import pandas as pd
import sqlite3
import os

# Шаг 1 - Сбор данных с cian.ru
def fetch_data(pages=50):
    parser = cianparser.CianParser(location="Москва")
    data = parser.get_flats(deal_type="sale", rooms=(1, 2, 3, 4, 5), with_saving_csv=False, additional_settings={"start_page": 1, "end_page": pages})
    return data

# Шаг 2 - Преобразование данных в pandas DataFrame
def create_dataframe(data):
    df = pd.DataFrame(data)
    return df

# Шаг 3 - Сохранение данных в различные форматы
def save_data(df):
    # Создание папки для сохранения файлов
    os.makedirs('real_estate_data', exist_ok=True)

    # Пути для сохранения файлов
    csv_path = os.path.join('real_estate_data', 'real_estate_data.csv')
    excel_path = os.path.join('real_estate_data', 'real_estate_data.xlsx')
    pickle_path = os.path.join('real_estate_data', 'real_estate_data.pkl')
    db_path = os.path.join('real_estate_data', 'real_estate_data.db')

    # Сохранение в CSV
    df.to_csv(csv_path, index=False)
    # Сохранение в Excel
    df.to_excel(excel_path, index=False)
    # Сохранение в Pickle
    df.to_pickle(pickle_path)
    # Сохранение в базу данных SQLite
    conn = sqlite3.connect(db_path)
    df.to_sql('real_estate', conn, if_exists='replace', index=False)
    conn.close()

# Основная функция для выполнения всех шагов
def main(pages=50):
    data = fetch_data(pages)
    df = create_dataframe(data)
    save_data(df)

# Выполнение скрипта
main(pages=50)


Collecting git+https://github.com/lenarsaitov/cianparser.git
  Cloning https://github.com/lenarsaitov/cianparser.git to /tmp/pip-req-build-v7uj9w_o
  Running command git clone --filter=blob:none --quiet https://github.com/lenarsaitov/cianparser.git /tmp/pip-req-build-v7uj9w_o
  Resolved https://github.com/lenarsaitov/cianparser.git to commit 236352a200b08b27c24d14b18939b4c34691cbb2
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting cloudscraper (from cianparser==1.0.4)
  Downloading cloudscraper-1.2.71-py2.py3-none-any.whl (99 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m99.7/99.7 kB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m
Collecting transliterate (from cianparser==1.0.4)
  Downloading transliterate-1.10.2-py2.py3-none-any.whl (45 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.8/45.8 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
Collecting datetime (from cianparser==1.0.4)
  Downloading DateTime-5.5-py3-none-any.whl (52 kB)