In [None]:
import pandas as pd
import numpy as np

### Загружаем последний файл с базой

In [None]:
df = pd.read_excel(r"C:\Users\m.olshanskiy\Desktop\06-07.2025_рынок.xlsx")

### Загружаем предыдущий файл с базой

In [None]:
df2 = pd.read_excel(r"C:\Users\m.olshanskiy\Desktop\05-06.2025_рынок+квартирогр_актуал.xlsx", sheet_name = 'массив')

### В последней базе оставляем только последний месяц, если есть лишние

In [None]:
df = df[df['Дата обновления'].dt.month == 7]

### Чистим в последней базе сроки сдачи и стадии

In [None]:
df['Срок сдачи'] = np.nan
df['Стадия строительной готовности'] = np.nan

### В столбце Корпус, если номер корпуса идёт в скобках, то удаляем всё за скобками, оставляем только то, что в скобках. Если в скобках есть слово очередь, то ничего не трогаем

In [None]:
df['Корпус'] = df['Корпус'].astype(str)

# Выделим текст в скобках
bracket_content = df['Корпус'].str.extract(r'\((.*?)\)', expand=False)

# Маска: строка содержит скобки
has_brackets = df['Корпус'].str.contains(r'\(.*?\)', na=False)

# Маска: в строке есть слово "очередь" где угодно (внутри или снаружи скобок)
contains_ochered = df['Корпус'].str.contains(r'очередь', case=False, na=False)

# Маска: есть скобки, но НЕТ "очередь" вообще
mask = has_brackets & ~contains_ochered

# Заменяем только те строки, которые соответствуют маске
df.loc[mask, 'Корпус'] = bracket_content[mask].str.strip()

In [None]:
df2['Корпус'] = df2['Корпус'].astype(str)

# Выделим текст в скобках
bracket_content = df2['Корпус'].str.extract(r'\((.*?)\)', expand=False)

# Маска: строка содержит скобки
has_brackets = df2['Корпус'].str.contains(r'\(.*?\)', na=False)

# Маска: в строке есть слово "очередь" где угодно (внутри или снаружи скобок)
contains_ochered = df2['Корпус'].str.contains(r'очередь', case=False, na=False)

# Маска: есть скобки, но НЕТ "очередь" вообще
mask = has_brackets & ~contains_ochered

# Заменяем только те строки, которые соответствуют маске
df2.loc[mask, 'Корпус'] = bracket_content[mask].str.strip()

### Ещё раз приводим корпуса к текстовому типу

In [None]:
df['Корпус'] = df['Корпус'].astype(str)
df2['Корпус'] = df2['Корпус'].astype(str)

### Меняем названия столбцов

In [None]:
df2.columns = df2.columns.str.capitalize().str.strip()

### Продолжаем чистить Корпуса, меняя все пропуски на '1'

In [None]:
# 1. Удаляем текст 'Жилой дом № ' (всё равно на NaN это не повлияет)
df['Корпус'] = df['Корпус'].replace('Жилой дом № ', '', regex=True)

# Заменяем строку 'nan' и пустые строки на np.nan
df['Корпус'] = df['Корпус'].replace(['nan', r'^\s*$'], np.nan, regex=True)

# 3. Заполняем NaN единицами
df['Корпус'] = df['Корпус'].fillna('1')

In [None]:
# 1. Удаляем текст 'Жилой дом № ' (всё равно на NaN это не повлияет)
df2['Корпус'] = df2['Корпус'].replace('Жилой дом № ', '', regex=True)

# Заменяем строку 'nan' и пустые строки на np.nan
df2['Корпус'] = df2['Корпус'].replace(['nan', r'^\s*$'], np.nan, regex=True)

# 3. Заполняем NaN единицами
df2['Корпус'] = df2['Корпус'].fillna('1')

### Соединяем текущий и предыдущие месяца в один датафрейм

In [None]:
df_new = pd.concat([df2, df], ignore_index=True)

### Заполняем все пропущенные значения нового датафрейма

In [None]:
# Столбцы, в которых нужно заполнить пропуски
columns_to_fill = ['На англ',
 'Промзона',
 'Местоположение',
 'Метро',
 'Расстояние до метро, км',
 'Время до метро, мин',
 'Мцк/мцд/бкл',
 'Расстояние до мцк/мцд, км',
 'Время до мцк/мцд, мин',
 'Бкл',
 'Расстояние до бкл, км',
 'Время до бкл, мин',
 'Статус',
 'Старт',
 'Комментарий',
 'Округ',
 'Район',
 'Адрес',
 'Эскроу',
 'Конструктив',
 'Класс',
 'Договор']

columns_to_fill_by_corpus = ['Срок сдачи', 'Стадия строительной готовности', 'Старый срок сдачи']

df_new = df_new.sort_values(by=[])
df_new = df_new.sort_values(by=['Дата обновления', 'Название проекта', 'Девелопер', 'Корпус'])


# Группируем по названию проекта и заполняем только нужные столбцы
for col in columns_to_fill:
    df_new[col] = df_new.groupby(['Название проекта', 'Девелопер'])[col].ffill()

for col in columns_to_fill_by_corpus:
    df_new[col] = df_new.groupby(['Название проекта', 'Девелопер', 'Корпус'])[col].ffill()

### Сохраняем в новый файл

In [None]:
df_new = df_new[df_new['Дата обновления'].dt.month.isin([6, 7])]