## Бюро национальной статистики - ЗАДАЧА По автоматизации сортировки записей ЭПХУ

`Черкасов Борис Юрьевич`

23.06.2025 - 26.07.25

#### Предварительные этапные соображения по реализации

In [2]:
import pandas as pd
import os

def split_by_location(file_path, output_folder, column_name="Елді мекен / Населенный пункт"):
    # Загружаем таблицу, пропуская первые 2 строки (заголовки)
    df = pd.read_excel(file_path, header=3)

    if column_name not in df.columns:
        print(f"Колонка '{column_name}' не найдена в {file_path}")
        return

    base_name = os.path.splitext(os.path.basename(file_path))[0]
    save_dir = os.path.join(output_folder, base_name)
    os.makedirs(save_dir, exist_ok=True)

    for location in df[column_name].dropna().unique():
        subset = df[df[column_name] == location]
        safe_name = str(location).strip().replace("/", "_").replace("\\", "_").replace(" ", "_")
        save_path = os.path.join(save_dir, f"{safe_name}.xlsx")
        subset.to_excel(save_path, index=False)

    print(f"Обработан файл: {file_path}. Сохранено {len(df[column_name].unique())} населённых пунктов.")


def process_all_files_in_directory(input_dir=".", output_dir="output"):
    for filename in os.listdir(input_dir):
        full_path = os.path.join(input_dir, filename)
        if os.path.isfile(full_path) and filename.endswith((".xlsx", ".csv")):
            split_by_location(full_path, output_dir)


In [3]:
process_all_files_in_directory()

Колонка 'Елді мекен / Населенный пункт' не найдена в .\1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
Колонка 'Елді мекен / Населенный пункт' не найдена в .\10-қосымша - Западно-Казахстанская.xlsx
Обработан файл: .\12-Қосымша - Западно-Казахстанская.xlsx. Сохранено 134 населённых пунктов.
Колонка 'Елді мекен / Населенный пункт' не найдена в .\13-қосымша - Западно-Казахстанская.xlsx


KeyboardInterrupt: 

In [None]:
def clean_excel_headers(file_path, save_path):
    df = pd.read_excel(file_path, header=2)
    df.to_excel(save_path, index=False)

In [7]:
path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'
df = pd.read_excel(path, header=5)
df

Unnamed: 0,271033000,П.ДЕРКУЛ,200540001344,"ГУ ""АППАРАТ АКИМА ПОСЕЛКА ДЕРКУЛ ГОРОДА УРАЛЬСК""",0,481.26458,200,0.1,1,0.2,...,0.23,0.24,46,46.1,200.3,0.25,1.6,Unnamed: 62,Unnamed: 63,да непредставление
0,271035000,П.ЗАЧАГАНСК,50140003452,"ГУ ""АППАРАТ АКИМА ПОСЕЛКА ЗАЧАГАНСК ГОРОДА УРА...",0.00000,1390.22209,2.000000e+02,0,1,0,...,0,0,3,3,200.000000,0,1,,,да непредставление
1,622037000,П.ЖЕЗКАЗГАН,970540001422,"ГУ ""АППАРАТ АКИМА ПОСЕЛКА ЖЕЗКАЗГАН""",0.44920,0.44920,1.235778e-14,0,0,6,...,0,0,0,0,0.000000,0,0,,,да
2,114433000,С.АБАЙ,30140003469,"ГУ ""АППАРАТ АКИМА СЕЛА АБАЙ ЕГИНДЫКОЛЬСКОГО РА...",1.00891,2.15051,7.226643e+01,0,1,13,...,0,0,0,0,0.000000,0,0,,,да
3,114531000,С.АКСУ,40840003614,"ГУ ""АППАРАТ АКИМА АКСУСКОГО СЕЛЬСКОГО ОКРУГА"" ...",1.63968,1.59057,3.040632e+00,1,0,25,...,0,0,0,0,0.000000,0,0,,,да
4,596243000,С.ЕСИЛЬ,561240000014,"КГУ ""АППАРАТ АКИМА ЕСИЛЬСКОГО СЕЛЬСКОГО ОКРУГА...",1.68120,1.85870,1.002853e+01,0,1,28,...,0,24,92,92,117.241379,0,1,,,да
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2287,195253000,С.РАЙЫМБЕК,130340012288,"ГУ ""АППАРАТ АКИМА РАЙЫМБЕКСКОГО С/О КАРАСАЙСКО...",832.80980,1463.73325,5.494549e+01,0,1,7278,...,0,10,10,10,0.000000,0,0,,,да
2288,434430000,П.АЙТЕКЕ БИ,940140000946,"КГУ ""АППАРАТ АКИМА ПОСЕЛКА АЙТЕКЕ БИ""",913.86462,1028.30518,1.178482e+01,0,1,7735,...,0,0,0,0,0.000000,0,0,,,да
2289,615253000,С.КАРАБУЛАК,1240000940,"ГУ ""АППАРАТ АКИМА КАРАБУЛАКСКОГО СЕЛЬСКОГО ОКР...",1138.50532,1095.47432,3.852408e+00,1,0,7206,...,0,0,0,0,0.000000,0,0,,,да
2290,473630000,С.БЕЙНЕУ,991140004855,"ГУ ""АППАРАТ АКИМА СЕЛА БЕЙНЕУ""",1199.96598,1466.86697,2.001633e+01,0,1,9663,...,0,0,0,0,0.000000,0,0,,,да


In [None]:
path = '6-қосымша - Западно-Казахстанская.xlsx'
df = pd.read_excel(path, header=3)
df

Unnamed: 0,Облыс / Область,ӘАОЖ / KATO,Елді мекен / Населенный пункт,ҮШ мүшесінің реттік нөмірі/\nПорядковый номер члена ДХ,Үй мүшесінің коды/\nКод члена ДХ,ЖСН / ИИН,Тегі / \nФамилия,Аты / \nИмя,Әкесінің аты/ Отчество,Дербес шоты/\nЛицевой счет,Көшесі / \nУлица,Үй / \nДом,Өзгертілді: ия/жоқ /\nИзменен: да/нет,"Егер өзгертілмесе, себебін көрсету/\nЕсли не изменен, указать причину"
0,Западно-Казахстанская,276049100,С.МЕРЕЙ,2,1,440509400609,МУКАНГАЛИЕВА,НАСТЯ,КИНЖАГАЛИЕВНА,62.0,С.СЕЙФУЛЛИН,5,,
1,Западно-Казахстанская,276049300,С.ӨРКЕН,2,1,711201300281,УТАЛИЕВ,АМАНГАЛИ,АШУКЕНОВОВИЧ,253.0,ЕҢБЕКШІЛЕР,8,,
2,Западно-Казахстанская,273235100,С.АКСУАТ,4,1,931028300475,БЕКМУХАМБЕТОВ,РУСЛАН,ЖУМАГАЛИЕВИЧ,151.0,ОКТЯБРЬ,50,,
3,Западно-Казахстанская,273235200,С.АКБУЛАК,2,1,721223301454,КУЛЕТОВ,АЛТЫНБЕК,АМИРОВИЧ,397.0,АЛТЫНБЕК,1,,
4,Западно-Казахстанская,273235100,С.АКСУАТ,2,1,781210300648,ТУЛЕГЕНОВ,АЛИБИ,БИЖАНОВИЧ,157.0,ОКТЯБРЬ,58,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
78,Западно-Казахстанская,274030100,С.ЖАНГАЛА,6,1,1209550484,БИҒАЛИЕВ,ЕРЖІГІТ,НҰРЖАНҰЛЫ,265.0,СӘЛІМ АЙТҚҰЛОВ,3,,
79,Западно-Казахстанская,274030100,С.ЖАНГАЛА,5,1,410112401287,АЙТКАЛИЕВА,КУЛШАТ,,879.0,1 МАМЫР,27,,
80,Западно-Казахстанская,274030100,С.ЖАНГАЛА,2,1,610727401460,СЕЙТМУХАМБЕТОВА,МАРЗИЯ,,146.0,ХАЛЫҚТАР ДОСТЫҒЫ,10,,
81,Западно-Казахстанская,274030100,С.ЖАНГАЛА,2,1,780424402297,МАДИЕВА,КЫЗГАЛДАК,ИСАТАЕВНА,169.0,ХАЛЫҚТАР ДОСТЫҒЫ,11,,


In [None]:
path = '1 - қосымша - Западно-Казахстанская.xlsx'
df = pd.read_excel(path, header=3)
df

FileNotFoundError: [Errno 2] No such file or directory: '1 - қосымша - Западно-Казахстанская.xlsx'

In [8]:
import pandas as pd
import os

# Возможные названия столбца с названием населенного пункта
POSSIBLE_LOCATION_COLUMNS = [
    "Елді мекен / Населенный пункт",
    "Елді мекендер атауы / Наименование населенного пункта",
    "Населенный пункт",
    "Елді мекен"
]

def find_valid_header_and_column(file_path, max_header_row=10):
    for header in range(max_header_row):
        try:
            df = pd.read_excel(file_path, header=header)
            for col in df.columns:
                if isinstance(col, str):
                    for possible in POSSIBLE_LOCATION_COLUMNS:
                        if possible.lower() in col.lower():
                            return header, col
        except Exception:
            continue
    return None, None

def split_by_location_auto(file_path, output_folder):
    header_row, column_name = find_valid_header_and_column(file_path)

    if header_row is None or column_name is None:
        print(f"[!] Не удалось найти подходящий заголовок и колонку в файле: {file_path}")
        return

    df = pd.read_excel(file_path, header=header_row)

    base_name = os.path.splitext(os.path.basename(file_path))[0]
    save_dir = os.path.join(output_folder, base_name)
    os.makedirs(save_dir, exist_ok=True)

    for location in df[column_name].dropna().unique():
        subset = df[df[column_name] == location]
        safe_name = str(location).strip().replace("/", "_").replace("\\", "_").replace(" ", "_")
        save_path = os.path.join(save_dir, f"{safe_name}.xlsx")
        subset.to_excel(save_path, index=False)

    print(f"[✓] Обработан файл: {file_path}. Сохранено {len(df[column_name].unique())} населённых пунктов.")


In [9]:
def process_all_excel_files(input_dir=".", output_dir="output"):
    for filename in os.listdir(input_dir):
        full_path = os.path.join(input_dir, filename)
        if os.path.isfile(full_path) and filename.endswith((".xlsx", ".xls")):
            split_by_location_auto(full_path, output_folder=output_dir)


In [10]:
process_all_excel_files(input_dir=".", output_dir="результаты")


[✓] Обработан файл: .\1- қосымша (сельские округа) — 03032025 послед вариант.xlsx. Сохранено 1884 населённых пунктов.
[✓] Обработан файл: .\10-қосымша - Западно-Казахстанская.xlsx. Сохранено 214 населённых пунктов.
[✓] Обработан файл: .\12-Қосымша - Западно-Казахстанская.xlsx. Сохранено 134 населённых пунктов.
[✓] Обработан файл: .\13-қосымша - Западно-Казахстанская.xlsx. Сохранено 45 населённых пунктов.
[✓] Обработан файл: .\14-қосымша_Западно-Казахстанская.xlsx. Сохранено 368 населённых пунктов.
[✓] Обработан файл: .\2-қосымша-Западно-Казахстанская.xlsx. Сохранено 2 населённых пунктов.
[✓] Обработан файл: .\3-қосымша - Западно-Казахстанская.xlsx. Сохранено 231 населённых пунктов.
[✓] Обработан файл: .\4-қосымша - Западно-Казахстанская.xlsx. Сохранено 373 населённых пунктов.
[✓] Обработан файл: .\5-қосымша - Западно-Казахстанская.xlsx. Сохранено 91 населённых пунктов.
[✓] Обработан файл: .\6-қосымша - Западно-Казахстанская.xlsx. Сохранено 37 населённых пунктов.
[✓] Обработан файл: .\8

In [11]:
import pandas as pd
import os
from collections import defaultdict

def merge_location_tables(input_root="output", final_output="объединенные"):
    os.makedirs(final_output, exist_ok=True)
    files_by_location = defaultdict(list)

    # 1. Собираем пути ко всем xlsx-файлам
    for root, dirs, files in os.walk(input_root):
        for fname in files:
            if fname.endswith(".xlsx"):
                full_path = os.path.join(root, fname)
                files_by_location[fname].append(full_path)

    # 2. Объединяем таблицы по каждому населенному пункту
    for filename, paths in files_by_location.items():
        dfs = []
        for path in paths:
            try:
                df = pd.read_excel(path)
                dfs.append(df)
            except Exception as e:
                print(f"[!] Ошибка при чтении {path}: {e}")
        if dfs:
            combined_df = pd.concat(dfs, ignore_index=True)
            save_path = os.path.join(final_output, filename)
            combined_df.to_excel(save_path, index=False)
            print(f"[✓] Объединено {len(paths)} файлов в: {save_path}")

In [12]:
merge_location_tables(input_root="результаты", final_output="итог_населенные_пункты")

[✓] Объединено 1 файлов в: итог_населенные_пункты\C.КАЖЫМУКАН.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\C.КАРАЖАР.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\C.ЫБЫРАЯ_АЛТЫНСАРИНА.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\Filt.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.АБДИЛЬДА_ТАЖИБАЕВА.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.АКТОГАН.xlsx
[✓] Объединено 5 файлов в: итог_населенные_пункты\А.АТАМЕКЕН.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.АУХАТТЫ.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.БАЙДИБЕК.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.БЕТКАЙНАР.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.БОЛТИРИК_ШЕШЕН.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.ДИНМУХАМЕДА_КУНАЕВА.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.ЕСЕЙ_БИ.xlsx
[✓] Объединено 1 файлов в: итог_населенные_пункты\А.ЖАЙЫЛМА.xlsx
[✓] Объединено 7 файлов в: итог_населенные_пункт

In [13]:
import pandas as pd
import os
from collections import defaultdict

def normalize_column_name(col):
    """Приводим названия столбцов к стандартному виду"""
    return col.strip().lower().replace("ё", "е")

def find_location_column(columns):
    """Поиск колонки с названием населенного пункта"""
    for col in columns:
        name = normalize_column_name(col)
        if "елді мекен" in name or "населенный пункт" in name:
            return col
    return None

def combine_by_location(input_dir="output", output_dir="по_населенным_пунктам"):
    os.makedirs(output_dir, exist_ok=True)
    data_by_location = defaultdict(list)

    for root, dirs, files in os.walk(input_dir):
        for fname in files:
            if not fname.endswith(".xlsx"):
                continue
            path = os.path.join(root, fname)
            try:
                df = pd.read_excel(path, header=0)

                # Найти правильную колонку с названием населенного пункта
                loc_col = find_location_column(df.columns)
                if not loc_col:
                    print(f"[!] Не найдена колонка с населённым пунктом в {path}")
                    continue

                for location, group_df in df.groupby(loc_col):
                    data_by_location[location].append(group_df)

            except Exception as e:
                print(f"[!] Ошибка при обработке {path}: {e}")

    # Сохраняем всё по населенным пунктам
    for location, dfs in data_by_location.items():
        if pd.isna(location) or str(location).strip() == "":
            continue
        combined_df = pd.concat(dfs, ignore_index=True)
        safe_name = str(location).strip().replace("/", "-").replace("\\", "-")
        combined_df.to_excel(os.path.join(output_dir, f"{safe_name}.xlsx"), index=False)
        print(f"[✓] Сохранен файл: {safe_name}.xlsx ({len(combined_df)} строк)")


In [2]:
import pandas as pd
import os
from collections import defaultdict

def normalize_column_name(col):
    """Нормализация названия колонки для поиска"""
    return col.strip().lower().replace("ё", "е")

def find_header_row(path, search_keywords):
    """Автоопределение строки с заголовками"""
    for header in range(0, 10):
        try:
            df = pd.read_excel(path, header=header, nrows=1)
            for col in df.columns:
                name = normalize_column_name(str(col))
                for keyword in search_keywords:
                    if keyword in name:
                        return header
        except Exception:
            continue
    return None

def extract_location_column(df, search_keywords):
    """Нахождение нужной колонки"""
    for col in df.columns:
        col_norm = normalize_column_name(str(col))
        for keyword in search_keywords:
            if keyword in col_norm:
                return col
    return None

def merge_by_living_points(input_dir='.', output_dir='итог_по_пунктам'):
    os.makedirs(output_dir, exist_ok=True)
    по_пунктам = defaultdict(list)
    
    search_keywords = ['населенный пункт', 'елді мекен']
    
    for file in os.listdir(input_dir):
        if not file.endswith('.xlsx'):
            continue
        path = os.path.join(input_dir, file)
        header_row = find_header_row(path, search_keywords)

        if header_row is None:
            print(f"[!] Не удалось найти заголовок в {file}")
            continue
        
        try:
            df = pd.read_excel(path, header=header_row)
        except Exception as e:
            print(f"[!] Ошибка чтения {file}: {e}")
            continue
        
        col_location = extract_location_column(df, search_keywords)
        if col_location is None:
            print(f"[!] Не найдена колонка с населённым пунктом в {file}")
            continue

        for name, group in df.groupby(col_location):
            if pd.isna(name) or str(name).strip() == "":
                continue
            по_пунктам[name.strip()].append(group)

    # Сохраняем
    for name, список_таблиц in по_пунктам.items():
        combined = pd.concat(список_таблиц, ignore_index=True)
        safe_name = str(name).strip().replace('/', '-').replace('\\', '-')
        output_path = os.path.join(output_dir, f"{safe_name}.xlsx")
        combined.to_excel(output_path, index=False)
        print(f"[✓] Сохранено: {safe_name}.xlsx ({len(combined)} строк)")



In [3]:
merge_by_living_points(input_dir=".", output_dir="итог_по_пунктам")


[✓] Сохранено: П.АТАМЕКЕН.xlsx (1 строк)
[✓] Сохранено: С.БЕСКАУГА.xlsx (1 строк)
[✓] Сохранено: С.ЗАНГАР.xlsx (1 строк)
[✓] Сохранено: С.КУЛАНДЫ.xlsx (2 строк)
[✓] Сохранено: С.МӘШҺҮР ЖҮСІП.xlsx (1 строк)
[✓] Сохранено: С.СЕВЕРНОЕ.xlsx (1 строк)
[✓] Сохранено: СТ.БЕКБАУЫЛ.xlsx (1 строк)
[✓] Сохранено: C.КАЖЫМУКАН.xlsx (1 строк)
[✓] Сохранено: C.КАРАЖАР.xlsx (1 строк)
[✓] Сохранено: C.ЫБЫРАЯ АЛТЫНСАРИНА.xlsx (1 строк)
[✓] Сохранено: Filt.xlsx (1 строк)
[✓] Сохранено: А.АБДИЛЬДА ТАЖИБАЕВА.xlsx (1 строк)
[✓] Сохранено: А.АКТОГАН.xlsx (1 строк)
[✓] Сохранено: А.АТАМЕКЕН.xlsx (146 строк)
[✓] Сохранено: А.АУХАТТЫ.xlsx (1 строк)
[✓] Сохранено: А.БАЙДИБЕК.xlsx (1 строк)
[✓] Сохранено: А.БЕТКАЙНАР.xlsx (1 строк)
[✓] Сохранено: А.БОЛТИРИК ШЕШЕН.xlsx (1 строк)
[✓] Сохранено: А.ДИНМУХАМЕДА КУНАЕВА.xlsx (1 строк)
[✓] Сохранено: А.ЕСЕЙ БИ.xlsx (1 строк)
[✓] Сохранено: А.ЖАЙЫЛМА.xlsx (1 строк)
[✓] Сохранено: А.ЖАНАБУЛАК.xlsx (217 строк)
[✓] Сохранено: А.ЖИБЕК ЖОЛЫ.xlsx (1 строк)
[✓] Сохранено: А.ИМ.

In [8]:
path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'
df = pd.read_excel(path, header=1)
df['Елді мекендер атауы / Наименование населенного пункта'].value_counts()

Елді мекендер атауы / Наименование населенного пункта
С.ЖАМБЫЛ         14
С.БИРЛИК         13
С.АБАЙ           10
С.АКБУЛАК         8
С.КЫЗЫЛЖАР        8
                 ..
С.ГУЛЬДАЛА        1
С.КАЗЫГУРТ        1
С.ЕРКИНКАЛА       1
С.ШЕЛЕК           1
С. ЖИБЕК ЖОЛЫ     1
Name: count, Length: 1883, dtype: int64

In [13]:
# Папка с Excel-файлами
folder = "./итог_по_пунктам/"

# Ключевые слова для поиска названия населенного пункта
village_keys = [
    "Наименование населенного пункта", 
    "Елді мекендер атауы", 
    "Наименование", 
    "Населенный пункт",
    "Елді мекен / Населенный пункт",
    "Елді мекендер атауы / Наименование населенного пункта"
]

# Храним датасеты по названиям населенных пунктов
data_by_place = defaultdict(list)

# Перебираем все Excel-файлы
for filename in os.listdir(folder):
    if filename.endswith(".xlsx"):
        file_path = os.path.join(folder, filename)

        df = None
        header_row = None

       
        df = pd.read_excel(file_path)
        df.columns = df.columns.map(str)  # Приводим названия в строки

        if df is None:
            print(f"Не удалось найти нужный столбец в {filename}")
            continue

        # Удаляем Unnamed-столбцы
        df = df.loc[:, ~df.columns.str.contains('^Unnamed')]

        # Название колонки населенного пункта
        village_col = [col for col in df.columns if any(key in col for key in village_keys)][0]

        # Заполняем словарь: ключ = название населенного пункта
        for _, row in df.iterrows():
            place = str(row[village_col]).strip()
            if place and place.lower() != "nan":
                data_by_place[place].append(row)

# Преобразуем списки строк в полноценные DataFrame
final_datasets = {
    place: pd.DataFrame(rows) for place, rows in data_by_place.items()
}

# Пример: вывести первые 3 населенных пункта и их размеры
for place, df in list(final_datasets.items())[:3]:
    print(f"Населенный пункт: {place}, записей: {len(df)}")


Населенный пункт: C.КАЖЫМУКАН, записей: 1
Населенный пункт: C.КАРАЖАР, записей: 1
Населенный пункт: C.ЫБЫРАЯ АЛТЫНСАРИНА, записей: 1


In [14]:
import os
import re

# Создадим папку для результатов, если её ещё нет
output_dir = "cleaned_villages"
os.makedirs(output_dir, exist_ok=True)

# Сохраняем каждый DataFrame как CSV
for place, df in final_datasets.items():
    # Удаляем "Unnamed" столбцы
    df = df.loc[:, ~df.columns.str.contains('^Unnamed')]

    # Делаем безопасное имя файла
    safe_name = re.sub(r'[^\w\s-]', '', place).strip().replace(' ', '_')
    filename = f"{safe_name}.csv"
    filepath = os.path.join(output_dir, filename)

    # Сохраняем в CSV
    df.to_csv(filepath, index=False, encoding='utf-8-sig')

print(f"✅ Сохранено {len(final_datasets)} CSV-файлов в папке '{output_dir}'")

✅ Сохранено 2095 CSV-файлов в папке 'cleaned_villages'


Код, который запускает обработку 14 файлов "косымша" и достает из них записи по населенным пунктам в отдельные датасеты.

In [15]:
import pandas as pd
import os
import re
from collections import defaultdict

# Укажи путь к папке с исходными файлами
source_folder = "./"  # ЗАМЕНИ на путь к папке
output_folder = "villages_merged"
os.makedirs(output_folder, exist_ok=True)

# Хранилище для объединённых данных по населенным пунктам
final_datasets = defaultdict(list)

# Функция: загрузка Excel с многоуровневым заголовком
def load_excel_with_combined_headers(filepath, max_header_depth=6):
    for depth in range(2, max_header_depth + 1):
        try:
            df = pd.read_excel(filepath, header=list(range(depth)))
            df.columns = [' / '.join([str(l).strip() for l in col if str(l) != 'nan']) for col in df.columns]
            return df
        except Exception:
            continue
    return None

# Обход всех файлов
for filename in os.listdir(source_folder):
    if filename.endswith(".xlsx"):
        filepath = os.path.join(source_folder, filename)
        print(f"📄 Обрабатываем: {filename}")
        
        df = load_excel_with_combined_headers(filepath)
        if df is None:
            print(f"❌ Не удалось загрузить: {filename}")
            continue
        
        # Поиск столбца с названием населенного пункта
        place_col = None
        for col in df.columns:
            if "насел" in col.lower() and "пункт" in col.lower():
                place_col = col
                break
        
        if not place_col:
            print(f"⚠️ Столбец с населённым пунктом не найден в {filename}")
            continue

        # Группируем по населённым пунктам
        for name, group in df.groupby(place_col):
            if pd.isna(name):
                continue
            name = str(name).strip()
            final_datasets[name].append(group)

# Объединяем и сохраняем
for name, group_list in final_datasets.items():
    combined_df = pd.concat(group_list, ignore_index=True)

    # Удаление "Unnamed" столбцов
    combined_df = combined_df.loc[:, ~combined_df.columns.str.contains('^Unnamed')]

    # Безопасное имя файла
    safe_name = re.sub(r'[^\w\s-]', '', name).strip().replace(' ', '_')
    output_path = os.path.join(output_folder, f"{safe_name}.csv")

    # Сохраняем
    combined_df.to_csv(output_path, index=False, encoding="utf-8-sig")

print(f"\n✅ Объединено и сохранено: {len(final_datasets)} файлов в папке '{output_folder}'")


📄 Обрабатываем: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
📄 Обрабатываем: 10-қосымша - Западно-Казахстанская.xlsx
⚠️ Столбец с населённым пунктом не найден в 10-қосымша - Западно-Казахстанская.xlsx
📄 Обрабатываем: 12-Қосымша - Западно-Казахстанская.xlsx
⚠️ Столбец с населённым пунктом не найден в 12-Қосымша - Западно-Казахстанская.xlsx
📄 Обрабатываем: 13-қосымша - Западно-Казахстанская.xlsx
⚠️ Столбец с населённым пунктом не найден в 13-қосымша - Западно-Казахстанская.xlsx
📄 Обрабатываем: 14-қосымша_Западно-Казахстанская.xlsx
⚠️ Столбец с населённым пунктом не найден в 14-қосымша_Западно-Казахстанская.xlsx
📄 Обрабатываем: 2-қосымша-Западно-Казахстанская.xlsx
⚠️ Столбец с населённым пунктом не найден в 2-қосымша-Западно-Казахстанская.xlsx
📄 Обрабатываем: 3-қосымша - Западно-Казахстанская.xlsx
⚠️ Столбец с населённым пунктом не найден в 3-қосымша - Западно-Казахстанская.xlsx
📄 Обрабатываем: 4-қосымша - Западно-Казахстанская.xlsx
⚠️ Столбец с населённым пунктом не найден

In [22]:
df = pd.read_csv("./villages_merged/СЫНТАЛЫ.csv")
df

Unnamed: 0,"2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / КАТО","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Елді мекендер атауы / Наименование населенного пункта","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / БСН / БИН","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Әкім аппаратының атауы / Наименование аппарата акима","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / АШЖБ жалпы алаңының көлемі / Общий объем площади по СРЖФ","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Айырмашылығы / Разница, %","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Алшақтық дәрежесі / Степень расхождения","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Алшақтық дәрежесі / Степень расхождения.1","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / ШЕА үйлер саны / Кол-во домов в ПХУ",...,"2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Шошқалар /Свиньи.1","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Шошқалар /Свиньи.2","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Шошқалар /Свиньи.3","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Шошқалар /Свиньи.4","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Шошқалар /Свиньи.5","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Алшақтық дәрежесі / Степень расхождения.14","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Алшақтық дәрежесі / Степень расхождения.15","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Жалпы бұзушылықтар саны/ Общее количество нарушений","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Жалпы бұзушылықтар саны/ Общее количество нарушений.1","2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ) / Қашықтан бақылау жүргізу: иә/жоқ/\nПроводить дистанционный контроль: да/ нет"
0,333475000,С.ЫНТАЛЫ,130340014869,"ГУ ""АППАРАТ АКИМА ЫНТАЛИНСКОГО СЕЛЬСКОГО ОКРУГ...",7.97073,8.3058,4.117217,1,0,115,...,0,0,0,0,0,0,0,,,да
1,354889000,С.ЫНТАЛЫ,950340000802,"ГУ ""АППАРАТ АКИМА ЫНТАЛИНСКОГО СЕЛЬСКОГО ОКРУГ...",10.6245,11.5056,7.96291,1,0,95,...,0,0,0,0,0,0,0,,,да
2,615547000,С.ЫНТАЛЫ,50240010706,"ГУ ""АППАРАТ АКИМА СЕЛЬСКОГО ОКРУГА МАЙДАНТАЛ"" ...",54.52803,47.7751,13.201805,0,1,548,...,0,0,0,0,0,0,0,,,да
3,614473000,С.ЫНТАЛЫ,991040003586,"ГУ ""АППАРАТ АКИМА СЕЛЬСКОГО ОКРУГА Ж.НУРЛЫБАЕВ...",91.3446,100.0104,9.057302,1,0,1044,...,0,0,0,0,0,0,0,,,да


Новое решение, исходя из смены постановки

In [None]:
# import os
# import re
# import zipfile
# import pandas as pd
# from openpyxl import Workbook
# from openpyxl.utils.dataframe import dataframe_to_rows
# from openpyxl.styles import Alignment
# from openpyxl.utils import get_column_letter

# # Пути
# zip_path = "приложени.zip"
# extract_dir = "extracted_files"
# output_dir = "kato_output"
# os.makedirs(output_dir, exist_ok=True)

# # Распаковка архива
# with zipfile.ZipFile(zip_path, 'r') as zip_ref:
#     zip_ref.extractall(extract_dir)

# # Словарь для хранения данных по КАТО
# kato_data = {}

# # Функция для извлечения номера приложения
# def extract_app_name(filename):
#     match = re.search(r'([Пп]риложение)[\s\-_:]*?(\d+)', filename)
#     return f"Приложение-{match.group(2)}" if match else "Приложение-БезНомера"

# # Очистка имени листа Excel от запрещённых символов
# def clean_sheet_name(name):
#     name = re.sub(r'[\\/*?:\[\]]', '_', name)
#     return name[:31]  # Excel допускает максимум 31 символ

# # Обработка всех файлов Excel
# for file in os.listdir(extract_dir):
#     if not file.endswith(".xlsx"):
#         continue

#     path = os.path.join(extract_dir, file)
#     app_sheet = extract_app_name(file)
#     safe_sheet_name = clean_sheet_name(app_sheet)

#     try:
#         df_raw = pd.read_excel(path, header=None)
#     except Exception as e:
#         print(f"[!] Ошибка при чтении файла {file}: {e}")
#         continue

#     # Поиск строки заголовка, содержащей КАТО
#     header_row_idx = None
#     for i, row in df_raw.iterrows():
#         if row.astype(str).str.contains("КАТО", case=False, na=False).any():
#             header_row_idx = i
#             break

#     if header_row_idx is None:
#         print(f"[!] КАТО не найден в файле: {file}")
#         continue

#     # Заголовки
#     header = df_raw.iloc[:header_row_idx + 1]

#     # Основные данные
#     try:
#         df = pd.read_excel(path, skiprows=header_row_idx + 1)
#     except Exception as e:
#         print(f"[!] Ошибка при повторном чтении файла {file}: {e}")
#         continue

#     # Поиск колонки с КАТО
#     kato_col = None
#     for col in df.columns:
#         col_str = str(col).upper()
#         if "КАТО" in col_str or "KATO" in col_str:
#             kato_col = col
#             break

#     if kato_col is None:
#         print(f"[!] Колонка с КАТО не найдена в: {file}")
#         continue
#     else:
#         print(f"[+] Найдена колонка с КАТО: '{kato_col}' в файле: {file}")

#     # Группировка по КАТО
#     for kato_val, group in df.groupby(kato_col):
#         if pd.isna(kato_val):
#             continue
#         kato_str = str(kato_val).strip()
#         if kato_str not in kato_data:
#             kato_data[kato_str] = {}
#         kato_data[kato_str][safe_sheet_name] = {
#             "header": header,
#             "data": group
#         }

# # Сохранение данных по КАТО в отдельные Excel-файлы
# for kato_code, sheets in kato_data.items():
#     wb = Workbook()
#     first = True
#     for sheet_name, content in sheets.items():
#         sheet_title = clean_sheet_name(sheet_name)
#         if first:
#             ws = wb.active
#             ws.title = sheet_title
#             first = False
#         else:
#             ws = wb.create_sheet(title=sheet_title)

#         # Название листа в первой строке
#         ws.append([sheet_name])
#         ws.merge_cells(start_row=1, start_column=1, end_row=1, end_column=10)
#         ws["A1"].alignment = Alignment(horizontal="center")

#         # Вставка заголовков
#         for i in range(content["header"].shape[0]):
#             ws.append(content["header"].iloc[i].tolist())

#         # Вставка таблицы
#         for r in dataframe_to_rows(content["data"], index=False, header=True):
#             ws.append(r)

#         # Автоширина
#         for col in ws.columns:
#             max_len = max((len(str(cell.value)) for cell in col if cell.value), default=10)
#             ws.column_dimensions[get_column_letter(col[0].column)].width = max_len + 2

#     # Сохраняем
#     out_path = os.path.join(output_dir, f"{kato_code}.xlsx")
#     wb.save(out_path)

# print("✅ Готово: все КАТО-файлы сохранены.")


[!] Колонка с КАТО не найдена в: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
[!] Колонка с КАТО не найдена в: 10-қосымша - Западно-Казахстанская.xlsx
[!] Колонка с КАТО не найдена в: 12-Қосымша - Западно-Казахстанская.xlsx
[!] КАТО не найден в файле: 13-қосымша - Западно-Казахстанская.xlsx
[!] Колонка с КАТО не найдена в: 14-қосымша_Западно-Казахстанская.xlsx
[!] Колонка с КАТО не найдена в: 2-қосымша-Западно-Казахстанская.xlsx
[+] Найдена колонка с КАТО: 'РАБКАТОВИЧ' в файле: 3-қосымша - Западно-Казахстанская.xlsx
[!] Колонка с КАТО не найдена в: 4-қосымша - Западно-Казахстанская.xlsx
[!] КАТО не найден в файле: 5-қосымша - Западно-Казахстанская.xlsx
[!] КАТО не найден в файле: 6-қосымша - Западно-Казахстанская.xlsx
[!] Колонка с КАТО не найдена в: 8-қосымша - Западно-Казахстанская.xlsx
[!] Колонка с КАТО не найдена в: 9-қосымша - Западно-Казахстанская.xlsx
✅ Готово: все КАТО-файлы сохранены.


In [3]:
import pandas as pd 

df = pd.read_excel('1- қосымша (сельские округа) — 03032025 послед вариант.xlsx')
df.columns

Index(['2025 жылғы 1 қаңтардағы жағдайы бойынша әкімшілік деректерді (ШЕА, АШЖБ, ТҮҚСТ) талдау және салыстыру / Анализ, сверка и сопоставление административных данных\nпо состоянию на 1 января 2025 года (ПХУ, ИСЖ, СРЖФ)',
       'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5',
       'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10',
       'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13', 'Unnamed: 14',
       'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18',
       'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21', 'Unnamed: 22',
       'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26',
       'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30',
       'Unnamed: 31', 'Unnamed: 32', 'Unnamed: 33', 'Unnamed: 34',
       'Unnamed: 35', 'Unnamed: 36', 'Unnamed: 37', 'Unnamed: 38',
       'Unnamed: 39', 'Unnamed: 40', 'Unnamed: 41', 'Unnamed: 42',
       'Unnamed: 43', 'Unnamed: 44', 'Unnamed: 45', 'Unnamed: 46',
       'Unnamed: 47'

In [4]:
import pandas as pd
import os
from openpyxl import Workbook
import re

# Каталог с Excel-файлами
folder_path = "./"

# Названия колонок КАТО, которые мы ищем
kato_keywords = ["КАТО", "ӘАОЖ / KATO"]

# Словарь: КАТО -> список (название_таблицы, название_приложения, DataFrame)
kato_groups = {}

# Обход файлов
for file_name in os.listdir(folder_path):
    if not file_name.endswith(".xlsx"):
        continue

    file_path = os.path.join(folder_path, file_name)
    print(f"🔍 Обрабатываю файл: {file_name}")

    try:
        xls = pd.ExcelFile(file_path)
    except Exception as e:
        print(f"[!] Не удалось открыть файл {file_name}: {e}")
        continue

    for sheet_name in xls.sheet_names:
        try:
            df_raw = pd.read_excel(xls, sheet_name=sheet_name, header=None, nrows=10)
        except Exception as e:
            print(f"[!] Ошибка при чтении листа {sheet_name} в файле {file_name}: {e}")
            continue

        header_row_idx = None
        kato_colname = None

        # Поиск строки с заголовками
        for i in range(min(10, len(df_raw))):
            row = df_raw.iloc[i].astype(str).str.strip()
            for col in row:
                if any(k in col for k in kato_keywords):
                    header_row_idx = i
                    break
            if header_row_idx is not None:
                break

        if header_row_idx is None:
            print(f"[!] КАТО не найден в файле: {file_name}")
            continue

        # Название таблицы — строка ПЕРЕД заголовками
        table_title = "Без названия"
        if header_row_idx > 0:
            title_row = df_raw.iloc[header_row_idx - 1]
            table_title = " ".join(str(x) for x in title_row if pd.notna(x)).strip()

        try:
            df = pd.read_excel(xls, sheet_name=sheet_name, skiprows=header_row_idx)
        except Exception as e:
            print(f"[!] Ошибка при чтении основного фрейма: {e}")
            continue

        # Поиск названия колонки с КАТО
        df.columns = df.columns.astype(str).str.strip()
        kato_colname = next((col for col in df.columns if any(k in col for k in kato_keywords)), None)

        if kato_colname is None:
            print(f"[!] Колонка КАТО не найдена в {file_name}")
            continue

        for _, row in df.iterrows():
            kato_value = row.get(kato_colname)
            if pd.isna(kato_value):
                continue
            kato_value = str(kato_value).strip()
            if not kato_value:
                continue

            if kato_value not in kato_groups:
                kato_groups[kato_value] = []
            kato_groups[kato_value].append((table_title, file_name, row))

print(f"✅ Обработка завершена. Всего КАТО найдено: {len(kato_groups)}")

# Сохраняем итоговый Excel-файл
wb = Workbook()
ws0 = wb.active
ws0.title = "Список КАТО"

# Создаем сводную страницу со всеми КАТО
ws0.append(["КАТО", "Кол-во записей"])
for kato, entries in kato_groups.items():
    ws0.append([kato, len(entries)])

# Создаем листы по каждому КАТО
for kato, records in kato_groups.items():
    # Название листа не должно содержать запрещённых символов
    sheet_title = re.sub(r'[\\/*?:[\]]', "_", kato)[:31]
    ws = wb.create_sheet(title=sheet_title)
    ws.append(["Приложение", "Название таблицы"] + list(records[0][2].index))  # заголовки

    for table_title, file_name, row in records:
        values = [file_name, table_title] + list(row.values)
        ws.append(values)

# Сохраняем
output_file = "итоговый_КАТО.xlsx"
wb.save(output_file)
print(f"📁 Сохранено: {output_file}")


🔍 Обрабатываю файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
🔍 Обрабатываю файл: 10-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 12-Қосымша - Западно-Казахстанская.xlsx
[!] КАТО не найден в файле: 12-Қосымша - Западно-Казахстанская.xlsx
[!] КАТО не найден в файле: 12-Қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 13-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 14-қосымша_Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 2-қосымша-Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 3-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 4-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 5-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 6-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 8-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: 9-қосымша - Западно-Казахстанская.xlsx
🔍 Обрабатываю файл: итоговый_КАТО.xlsx
✅ Обработка завершена. Всего КАТО найдено: 2724
📁 Сохранено: итоговый_КАТО.xlsx


In [6]:
import pandas as pd

path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'
df = pd.read_excel(path, header=1)
df

Unnamed: 0,КАТО,Елді мекендер атауы / Наименование населенного пункта,БСН / БИН,Әкім аппаратының атауы / Наименование аппарата акима,ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ,АШЖБ жалпы алаңының көлемі / Общий объем площади по СРЖФ,"Айырмашылығы / Разница, %",Алшақтық дәрежесі / Степень расхождения,Unnamed: 8,ШЕА үйлер саны / Кол-во домов в ПХУ,...,Unnamed: 55,Unnamed: 56,Unnamed: 57,Unnamed: 58,Unnamed: 59,Алшақтық дәрежесі / Степень расхождения.7,Unnamed: 61,Жалпы бұзушылықтар саны/ Общее количество нарушений,Unnamed: 63,Қашықтан бақылау жүргізу: иә/жоқ/\nПроводить дистанционный контроль: да/ нет
0,,,,,,,,елеусіз/ незнач.,елеулі/ знач.,,...,,,АШЖБ / ИСЖ,,"Айырмашылығы / Разница, %",елеусіз/ незнач.,елеулі/ знач.,елеусіз/ незнач.,елеулі/ знач.,
1,,,,,,,,,,,...,АФШ / КФХ,Барлығы / Всего,Заңды тұлғаларсыз/ Без ЮЛ,Барлығы /Всего,,,,,,
2,Filt,Filt,Filt,Filt,Filt,,Filt,Filt,Filt,Filt,...,Filt,Filt,Filt,Filt,Filt,Filt,Filt,Filt,Filt,Filt
3,271033000,П.ДЕРКУЛ,200540001344,"ГУ ""АППАРАТ АКИМА ПОСЕЛКА ДЕРКУЛ ГОРОДА УРАЛЬСК""",0,481.26458,200,0,1,0,...,0,0,46,46,200,0,1,,,да непредставление
4,271035000,П.ЗАЧАГАНСК,050140003452,"ГУ ""АППАРАТ АКИМА ПОСЕЛКА ЗАЧАГАНСК ГОРОДА УРА...",0,1390.22209,200,0,1,0,...,0,0,3,3,200,0,1,,,да непредставление
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2291,195253000,С.РАЙЫМБЕК,130340012288,"ГУ ""АППАРАТ АКИМА РАЙЫМБЕКСКОГО С/О КАРАСАЙСКО...",832.8098,1463.73325,54.945493,0,1,7278,...,0,10,10,10,0,0,0,,,да
2292,434430000,П.АЙТЕКЕ БИ,940140000946,"КГУ ""АППАРАТ АКИМА ПОСЕЛКА АЙТЕКЕ БИ""",913.86462,1028.30518,11.784815,0,1,7735,...,0,0,0,0,0,0,0,,,да
2293,615253000,С.КАРАБУЛАК,001240000940,"ГУ ""АППАРАТ АКИМА КАРАБУЛАКСКОГО СЕЛЬСКОГО ОКР...",1138.50532,1095.47432,3.852408,1,0,7206,...,0,0,0,0,0,0,0,,,да
2294,473630000,С.БЕЙНЕУ,991140004855,"ГУ ""АППАРАТ АКИМА СЕЛА БЕЙНЕУ""",1199.96598,1466.86697,20.016326,0,1,9663,...,0,0,0,0,0,0,0,,,да


In [15]:
import pandas as pd
import re
import os

file_path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'

# === Пробуем разные комбинации header (начнем с [1, 2, 3]) ===
df = pd.read_excel(file_path, header=[1, 2, 3])

# Посмотрим, что за названия колонок
flat_columns = [' / '.join([str(i).strip() for i in col if str(i) != 'nan']) for col in df.columns]
print("📋 Названия колонок:")
for col in flat_columns:
    print(f"- {col}")

# Применим их к DataFrame
df.columns = flat_columns


📋 Названия колонок:
- КАТО / Unnamed: 0_level_1 / Unnamed: 0_level_2
- Елді мекендер атауы / Наименование населенного пункта / Unnamed: 1_level_1 / Unnamed: 1_level_2
- БСН / БИН / Unnamed: 2_level_1 / Unnamed: 2_level_2
- Әкім аппаратының атауы /                                                                                Наименование аппарата акима / Unnamed: 3_level_1 / Unnamed: 3_level_2
- ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ / Unnamed: 4_level_1 / Unnamed: 4_level_2
- АШЖБ жалпы алаңының көлемі /  Общий объем площади по СРЖФ / Unnamed: 5_level_1 / Unnamed: 5_level_2
- Айырмашылығы / Разница, % / Unnamed: 6_level_1 / Unnamed: 6_level_2
- Алшақтық дәрежесі /                             Степень расхождения / елеусіз/ незнач. / Unnamed: 7_level_2
- Алшақтық дәрежесі /                             Степень расхождения / елеулі/ знач. / Unnamed: 8_level_2
- ШЕА үйлер саны / Кол-во домов в ПХУ / Unnamed: 9_level_1 / Unnamed: 9_level_2
- АШЖБ үйлер саны /                   

In [16]:
print(df.columns.tolist())


['КАТО / Unnamed: 0_level_1 / Unnamed: 0_level_2', 'Елді мекендер атауы / Наименование населенного пункта / Unnamed: 1_level_1 / Unnamed: 1_level_2', 'БСН / БИН / Unnamed: 2_level_1 / Unnamed: 2_level_2', 'Әкім аппаратының атауы /                                                                                Наименование аппарата акима / Unnamed: 3_level_1 / Unnamed: 3_level_2', 'ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ / Unnamed: 4_level_1 / Unnamed: 4_level_2', 'АШЖБ жалпы алаңының көлемі /  Общий объем площади по СРЖФ / Unnamed: 5_level_1 / Unnamed: 5_level_2', 'Айырмашылығы / Разница, % / Unnamed: 6_level_1 / Unnamed: 6_level_2', 'Алшақтық дәрежесі /                             Степень расхождения / елеусіз/ незнач. / Unnamed: 7_level_2', 'Алшақтық дәрежесі /                             Степень расхождения / елеулі/ знач. / Unnamed: 8_level_2', 'ШЕА үйлер саны / Кол-во домов в ПХУ / Unnamed: 9_level_1 / Unnamed: 9_level_2', 'АШЖБ үйлер саны /                         Кол-

In [14]:
import pandas as pd
import os
import re

# === Параметры ===
file_path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'  # путь к твоему файлу
save_dir = 'като_таблицы'  # директория, куда сохранить таблицы
os.makedirs(save_dir, exist_ok=True)

# === 1. Получаем название и номер приложения ===
file_name = os.path.basename(file_path)
app_number = re.search(r'(\d{2})', file_name).group(1)
app_title = f"Приложение-{app_number}"

# === 2. Читаем Excel с мультииндексом ===
df = pd.read_excel(file_path, header=[1, 2, 3])  # 3 строки заголовков
print(df.columns)
df.columns = df.columns.map(lambda x: ' / '.join([str(i) for i in x if str(i) != 'nan']))  # упрощаем заголовки



# === 3. Убираем пустые строки сверху ===
df = df.dropna(subset=["КАТО"])  # оставим только те строки, где КАТО есть

# === 4. Уникальные значения КАТО ===
unique_kato = df["КАТО"].dropna().unique()

# === 5. Заголовок файла из первой строки файла (читаем отдельно) ===
with pd.ExcelFile(file_path) as xls:
    top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]  # строка из A1

# === 6. Создаем таблицы по каждому КАТО ===
for kato in unique_kato:
    kato_df = df[df["КАТО"] == kato]
    if kato_df.empty:
        continue

    # Создаем новую таблицу: строка 1 — заголовок, строка 2 — приложение, далее — данные
    out_df = pd.concat([
        pd.DataFrame([[top_row]], columns=[kato_df.columns[0]]),
        pd.DataFrame([[app_title]], columns=[kato_df.columns[0]]),
        kato_df.reset_index(drop=True)
    ], ignore_index=True)

    # Сохраняем в файл
    save_path = os.path.join(save_dir, f"{int(kato)}.xlsx")
    out_df.to_excel(save_path, index=False)


MultiIndex([(                                                                                                                               'КАТО', ...),
            (                                                                              'Елді мекендер атауы / Наименование населенного пункта', ...),
            (                                                                                                                          'БСН / БИН', ...),
            ('Әкім аппаратының атауы /                                                                                Наименование аппарата акима', ...),
            (                                                                                'ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ', ...),
            (                                                                          'АШЖБ жалпы алаңының көлемі /  Общий объем площади по СРЖФ', ...),
            (                                                               

KeyError: ['КАТО']

In [19]:
import pandas as pd
import os
import re

# === Параметры ===
file_path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'  # путь к вашему файлу
save_dir = 'като_таблицы'  # директория для сохранения отдельных таблиц
os.makedirs(save_dir, exist_ok=True)

# === 1. Получаем название и номер приложения ===
file_name = os.path.basename(file_path)
app_number = re.search(r'(\d{1,2})', file_name).group(1)
app_title = f"Приложение-{app_number}"

# === 2. Читаем Excel с многоуровневым заголовком ===
df = pd.read_excel(file_path, header=[1, 2, 3])  # предполагаем, что 3 строки заголовка

# === 3. Объединяем уровни заголовков и сокращаем до первой части до "/" ===
df.columns = [
    ' / '.join([str(x).strip() for x in col if str(x) != 'nan']) for col in df.columns.values
]
df.columns = [col.split('/')[0].strip() for col in df.columns]
print(df.columns)
# === 4. Удаляем строки, где нет значения в колонке "КАТО" ===
if "КАТО" not in df.columns:
    raise ValueError("В таблице не найден столбец 'КАТО'. Проверьте заголовки.")

df = df.dropna(subset=["КАТО"])

# === 5. Уникальные значения КАТО ===
unique_kato = df["КАТО"].dropna().unique()

# === 6. Читаем первую строку файла отдельно для заголовка таблицы ===
with pd.ExcelFile(file_path) as xls:
    top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

# === 7. Генерируем и сохраняем таблицы по КАТО ===
for kato in unique_kato:
    kato_df = df[df["КАТО"] == kato]
    if kato_df.empty:
        continue

    # Строим новую таблицу: строка 1 — верхний заголовок, строка 2 — Приложение-XX, потом данные
    out_df = pd.concat([
        pd.DataFrame([[top_row]], columns=[kato_df.columns[0]]),
        pd.DataFrame([[app_title]], columns=[kato_df.columns[0]]),
        kato_df.reset_index(drop=True)
    ], ignore_index=True)

    # Сохраняем файл
    save_path = os.path.join(save_dir, f"{int(kato)}.xlsx")
    out_df.to_excel(save_path, index=False)

print(f"✅ Успешно сохранено {len(unique_kato)} таблиц в папку: {save_dir}")


Index(['КАТО', 'Елді мекендер атауы', 'БСН', 'Әкім аппаратының атауы',
       'ШЕА жалпы алаңының көлемі', 'АШЖБ жалпы алаңының көлемі',
       'Айырмашылығы', 'Алшақтық дәрежесі', 'Алшақтық дәрежесі',
       'ШЕА үйлер саны', 'АШЖБ үйлер саны', 'Айырмашылығы',
       'Алшақтық дәрежесі', 'Алшақтық дәрежесі', 'ІҚМ', 'ІҚМ', 'ІҚМ', 'ІҚМ',
       'ІҚМ', 'ІҚМ', 'Алшақтық дәрежесі', 'Алшақтық дәрежесі', 'Жылқылар',
       'Жылқылар', 'Жылқылар', 'Жылқылар', 'Жылқылар', 'Жылқылар',
       'Алшақтық дәрежесі', 'Алшақтық дәрежесі', 'Қойлар', 'Қойлар', 'Қойлар',
       'Қойлар', 'Қойлар', 'Қойлар', 'Алшақтық дәрежесі', 'Алшақтық дәрежесі',
       'Ешкілер', 'Ешкілер', 'Ешкілер', 'Ешкілер', 'Ешкілер', 'Ешкілер',
       'Алшақтық дәрежесі', 'Алшақтық дәрежесі', 'Түйелер', 'Түйелер',
       'Түйелер', 'Түйелер', 'Түйелер', 'Түйелер', 'Алшақтық дәрежесі',
       'Алшақтық дәрежесі', 'Шошқалар', 'Шошқалар', 'Шошқалар', 'Шошқалар',
       'Шошқалар', 'Шошқалар', 'Алшақтық дәрежесі', 'Алшақтық дәрежес

InvalidIndexError: Reindexing only valid with uniquely valued Index objects

In [25]:
import pandas as pd
import os
import re

# === Параметры ===
file_path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'
save_dir = 'като_таблицы'
os.makedirs(save_dir, exist_ok=True)

# === 1. Название приложения ===
file_name = os.path.basename(file_path)
app_number = re.search(r'(\d{1,2})', file_name).group(1)
app_title = f"Приложение-{app_number}"

# === 2. Читаем Excel с многоуровневым заголовком ===
df = pd.read_excel(file_path, header=[1, 2, 3])

# === 3. Объединяем заголовки и сокращаем до первой части до "/" ===
# df.columns = [
#     ' / '.join([str(x).strip() for x in col if str(x) != 'nan']) for col in df.columns.values
# ]
# df.columns = [col.split('/')[0].strip() for col in df.columns]

# Объединяем уровни заголовка
df.columns = [
    ' / '.join([str(x).strip() for x in col if str(x) != 'nan']) for col in df.columns.values
]
df.columns = [col.split('/')[0].strip() for col in df.columns]

# === 3.5 Удаляем строки, где только Filt или NaN
df = df[~df.apply(lambda row: all(str(cell).strip() in ['Filt', 'nan', 'None', ''] for cell in row), axis=1)]

# === 4. Делаем названия колонок уникальными
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

df.columns = make_unique_columns(df.columns)

# === 5. Удаляем строки без КАТО
if "КАТО" not in df.columns:
    raise ValueError("В таблице не найден столбец 'КАТО'.")

df = df.dropna(subset=["КАТО"])
unique_kato = df["КАТО"].dropna().unique()

# === 6. Читаем заголовок таблицы
with pd.ExcelFile(file_path) as xls:
    top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

# === 7. Сохраняем таблицы по КАТО
for kato in unique_kato:
    kato_df = df[df["КАТО"] == kato]
    if kato_df.empty:
        continue

    # Строим таблицу: строка 1 — заголовок, строка 2 — Приложение-N, потом данные
    first_column = kato_df.columns[0]
    out_df = pd.concat([
        pd.DataFrame([[top_row]], columns=[first_column]),
        pd.DataFrame([[app_title]], columns=[first_column]),
        kato_df.reset_index(drop=True)
    ], ignore_index=True)

    save_path = os.path.join(save_dir, f"{int(kato)}.xlsx")
    out_df.to_excel(save_path, index=False)

print(f"✅ Успешно сохранено {len(unique_kato)} таблиц в папку: {save_dir}")


        КАТО Елді мекендер атауы           БСН  \
1  271033000            П.ДЕРКУЛ  200540001344   
2  271035000         П.ЗАЧАГАНСК  050140003452   
3  622037000         П.ЖЕЗКАЗГАН  970540001422   
4  114433000              С.АБАЙ  030140003469   
5  114531000              С.АКСУ  040840003614   

                              Әкім аппаратының атауы  \
1   ГУ "АППАРАТ АКИМА ПОСЕЛКА ДЕРКУЛ ГОРОДА УРАЛЬСК"   
2  ГУ "АППАРАТ АКИМА ПОСЕЛКА ЗАЧАГАНСК ГОРОДА УРА...   
3               ГУ "АППАРАТ АКИМА ПОСЕЛКА ЖЕЗКАЗГАН"   
4  ГУ "АППАРАТ АКИМА СЕЛА АБАЙ ЕГИНДЫКОЛЬСКОГО РА...   
5  ГУ "АППАРАТ АКИМА АКСУСКОГО СЕЛЬСКОГО ОКРУГА" ...   

  ШЕА жалпы алаңының көлемі  АШЖБ жалпы алаңының көлемі Айырмашылығы  \
1                         0                   481.26458          200   
2                         0                  1390.22209          200   
3                    0.4492                     0.44920          0.0   
4                   1.00891                     2.15051    72.266429   
5 

In [26]:
path = './като_таблицы/103230000.xlsx'
kato_df = pd.read_excel(path)
kato_df

Unnamed: 0,КАТО,Елді мекендер атауы,БСН,Әкім аппаратының атауы,ШЕА жалпы алаңының көлемі,АШЖБ жалпы алаңының көлемі,Айырмашылығы,Алшақтық дәрежесі,Алшақтық дәрежесі_1,ШЕА үйлер саны,...,Шошқалар_1,Шошқалар_2,Шошқалар_3,Шошқалар_4,Шошқалар_5,Алшақтық дәрежесі_14,Алшақтық дәрежесі_15,Жалпы бұзушылықтар саны,Жалпы бұзушылықтар саны_1,Қашықтан бақылау жүргізу: иә
0,2025 жылғы 1 қаңтардағы жағдайы бойынша әкімші...,,,,,,,,,,...,,,,,,,,,,
1,Приложение-1,,,,,,,,,,...,,,,,,,,,,
2,103230000,С.КАРААУЛ,980840000000.0,"ГУ ""АППАРАТ АКИМА КАРАУЛЬСКОГО СЕЛЬСКОГО ОКРУГ...",105.42798,113.88405,7.711451,1.0,0.0,940.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,да


In [29]:
import pandas as pd
import os
import re

# === Параметры ===
file_path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'
save_dir = 'като_таблицы'
os.makedirs(save_dir, exist_ok=True)

# === 1. Название приложения ===
file_name = os.path.basename(file_path)
app_number = re.search(r'(\d{1,2})', file_name).group(1)
app_title = f"Приложение-{app_number}"

# === 2. Читаем Excel с многоуровневым заголовком ===
df = pd.read_excel(file_path, header=[1, 2, 3])

# === 3. Объединяем уровни заголовков и сохраняем обе части названия через слэш ===
def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

df.columns = [combine_column(col) for col in df.columns]

# === 3.5 Удаляем строки, где только 'Filt', пусто или NaN ===
df = df[~df.apply(lambda row: all(str(cell).strip() in ['Filt', 'nan', 'None', ''] for cell in row), axis=1)]

# === 4. Делаем названия колонок уникальными
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

df.columns = make_unique_columns(df.columns)

# === 5. Удаляем строки без КАТО
if not any("КАТО" in col for col in df.columns):
    raise ValueError("В таблице не найден столбец с названием 'КАТО'.")

# Найдём точное имя колонки КАТО
kato_col = [col for col in df.columns if "КАТО" in col][0]

df = df.dropna(subset=[kato_col])
unique_kato = df[kato_col].dropna().unique()

# === 6. Читаем заголовок таблицы (первая строка сверху)
with pd.ExcelFile(file_path) as xls:
    top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

# === 7. Сохраняем таблицы по КАТО
for kato in unique_kato:
    kato_df = df[df[kato_col] == kato]
    if kato_df.empty:
        continue

    # Добавляем строки с заголовком и названием приложения
    first_col = kato_df.columns[0]
    meta_rows = pd.DataFrame(
        [[top_row], [app_title]],
        columns=[first_col]
    )

    # Остальные колонки будут пустыми в этих строках
    for col in kato_df.columns[1:]:
        meta_rows[col] = ""

    # Объединяем
    out_df = pd.concat([meta_rows, kato_df.reset_index(drop=True)], ignore_index=True)

    # Путь сохранения
    save_path = os.path.join(save_dir, f"{int(kato)}.xlsx")
    out_df.to_excel(save_path, index=False)

print(f"✅ Успешно сохранено {len(unique_kato)} таблиц в папку: {save_dir}")


✅ Успешно сохранено 2293 таблиц в папку: като_таблицы


In [30]:
path = './като_таблицы/103230000.xlsx'
kato_df = pd.read_excel(path)
kato_df

Unnamed: 0,КАТО,Елді мекендер атауы / Наименование населенного пункта,БСН / БИН,Әкім аппаратының атауы / Наименование аппарата акима,ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ,АШЖБ жалпы алаңының көлемі / Общий объем площади по СРЖФ,"Айырмашылығы / Разница, %",Алшақтық дәрежесі / Степень расхождения / елеусіз/ незнач.,Алшақтық дәрежесі / Степень расхождения / елеулі/ знач.,ШЕА үйлер саны / Кол-во домов в ПХУ,...,Шошқалар /Свиньи / ШЕА / ПХУ / АФШ / КФХ,Шошқалар /Свиньи / ШЕА / ПХУ / Барлығы / Всего,Шошқалар /Свиньи / АШЖБ / ИСЖ / Заңды тұлғаларсыз/ Без ЮЛ,Шошқалар /Свиньи / АШЖБ / ИСЖ / Барлығы /Всего,"Шошқалар /Свиньи / Айырмашылығы / Разница, %",Алшақтық дәрежесі / Степень расхождения / елеусіз/ незнач._7,Алшақтық дәрежесі / Степень расхождения / елеулі/ знач._7,Жалпы бұзушылықтар саны/ Общее количество нарушений / елеусіз/ незнач.,Жалпы бұзушылықтар саны/ Общее количество нарушений / елеулі/ знач.,Қашықтан бақылау жүргізу: иә/жоқ/\nПроводить дистанционный контроль: да/ нет
0,2025 жылғы 1 қаңтардағы жағдайы бойынша әкімші...,,,,,,,,,,...,,,,,,,,,,
1,Приложение-1,,,,,,,,,,...,,,,,,,,,,
2,103230000,С.КАРААУЛ,980840000000.0,"ГУ ""АППАРАТ АКИМА КАРАУЛЬСКОГО СЕЛЬСКОГО ОКРУГ...",105.42798,113.88405,7.711451,1.0,0.0,940.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,да


In [38]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows

# === Параметры ===
file_path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'
save_dir = 'като_таблицы'
os.makedirs(save_dir, exist_ok=True)

# === 1. Название приложения ===
file_name = os.path.basename(file_path)
app_number = re.search(r'(\d{1,2})', file_name).group(1)
app_title = f"Приложение-{app_number}"

# === 2. Читаем Excel с многоуровневым заголовком ===
df = pd.read_excel(file_path, header=[1, 2, 3])

# === 3. Объединяем уровни заголовков
def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

df.columns = [combine_column(col) for col in df.columns]

# === 3.5 Фильтрация строк
df = df[~df.apply(lambda row: all(str(cell).strip() in ['Filt', 'nan', 'None', ''] for cell in row), axis=1)]

# === 4. Уникальные колонки
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

df.columns = make_unique_columns(df.columns)

# === 5. Найдём колонку КАТО
if not any("КАТО" in col for col in df.columns):
    raise ValueError("В таблице не найден столбец с названием 'КАТО'.")

kato_col = [col for col in df.columns if "КАТО" in col][0]
df = df.dropna(subset=[kato_col])
unique_kato = df[kato_col].dropna().unique()

# === 6. Читаем заголовок (1-я строка файла)
with pd.ExcelFile(file_path) as xls:
    top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

# === 7. Сохраняем таблицы по КАТО с верхними строками вне датафрейма
for kato in unique_kato:
    kato_df = df[df[kato_col] == kato].reset_index(drop=True)

    # Создаем книгу Excel
    wb = Workbook()
    ws = wb.active

    # Добавляем первые две строки как обычные строки (вне датафрейма)
    ws.append([top_row])
    ws.append([app_title])

    # Добавляем заголовки + данные
    for r in dataframe_to_rows(kato_df, index=False, header=True):
        ws.append(r)

    # Путь сохранения
    save_path = os.path.join(save_dir, f"{int(kato)}.xlsx")
    wb.save(save_path)

print(f"✅ Успешно сохранено {len(unique_kato)} таблиц с корректным форматированием!")


✅ Успешно сохранено 2293 таблиц с корректным форматированием!


In [40]:
path = './като_таблицы/103230000.xlsx'
kato_df = pd.read_excel(path, header=2)
kato_df

Unnamed: 0,КАТО,Елді мекендер атауы / Наименование населенного пункта,БСН / БИН,Әкім аппаратының атауы / Наименование аппарата акима,ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ,АШЖБ жалпы алаңының көлемі / Общий объем площади по СРЖФ,"Айырмашылығы / Разница, %",Алшақтық дәрежесі / Степень расхождения / елеусіз/ незнач.,Алшақтық дәрежесі / Степень расхождения / елеулі/ знач.,ШЕА үйлер саны / Кол-во домов в ПХУ,...,Шошқалар /Свиньи / ШЕА / ПХУ / АФШ / КФХ,Шошқалар /Свиньи / ШЕА / ПХУ / Барлығы / Всего,Шошқалар /Свиньи / АШЖБ / ИСЖ / Заңды тұлғаларсыз/ Без ЮЛ,Шошқалар /Свиньи / АШЖБ / ИСЖ / Барлығы /Всего,"Шошқалар /Свиньи / Айырмашылығы / Разница, %",Алшақтық дәрежесі / Степень расхождения / елеусіз/ незнач._7,Алшақтық дәрежесі / Степень расхождения / елеулі/ знач._7,Жалпы бұзушылықтар саны/ Общее количество нарушений / елеусіз/ незнач.,Жалпы бұзушылықтар саны/ Общее количество нарушений / елеулі/ знач.,Қашықтан бақылау жүргізу: иә/жоқ/\nПроводить дистанционный контроль: да/ нет
0,103230000,С.КАРААУЛ,980840002473,"ГУ ""АППАРАТ АКИМА КАРАУЛЬСКОГО СЕЛЬСКОГО ОКРУГ...",105.42798,113.88405,7.711451,1,0,940,...,0,0,0,0,0,0,0,,,да


#### Финальный скрипт, для решения задачи. Из-за проблем с считыванием `формул в Excel` необходимо заново пересохранять таблицы, чтобы сбросить результат формулы в текст, тогда pandas сможет его определить и не закидывать в `NaN`.

#### Дальнейшие возможные улучшения 

In [62]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment

# === Параметры ===
file_path = '1- қосымша (сельские округа) — 03032025 послед вариант.xlsx'
save_dir = 'като_таблицы'
os.makedirs(save_dir, exist_ok=True)

# === 1. Название приложения ===
file_name = os.path.basename(file_path)
app_number = re.search(r'(\d{1,2})', file_name).group(1)
app_title = f"Приложение-{app_number}"

# === 2. Читаем Excel с многоуровневым заголовком ===
df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)

# === 3. Объединяем уровни заголовков
def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

df.columns = [combine_column(col) for col in df.columns]

# === 3.5 Фильтрация строк
df = df[~df.apply(lambda row: all(str(cell).strip() in ['Filt', 'nan', 'None', ''] for cell in row), axis=1)]

# === 4. Уникальные колонки
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

df.columns = make_unique_columns(df.columns)

# === 5. Найдём колонку КАТО
if not any("КАТО" in col for col in df.columns):
    raise ValueError("В таблице не найден столбец с названием 'КАТО'.")

kato_col = [col for col in df.columns if "КАТО" in col][0]
df = df.dropna(subset=[kato_col])
unique_kato = df[kato_col].dropna().unique()

# === 6. Читаем заголовок (1-я строка файла)
with pd.ExcelFile(file_path) as xls:
    top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

# === 7. Сохраняем таблицы по КАТО с форматированием
for kato in unique_kato:
    kato_df = df[df[kato_col] == kato].reset_index(drop=True)

    # Создаем книгу Excel
    wb = Workbook()
    ws = wb.active

    # Форматирование: жирный + по центру
    bold_center = Font(bold=True)
    center_align = Alignment(horizontal='center', vertical='center')

    # Добавляем первые две строки
    ws.append([top_row])
    ws.append([app_title])

   # Применяем стили к первой и второй строке
    for cell in [ws["A1"], ws["A2"]]:
        cell.font = bold_center
        cell.alignment = center_align


    # Добавляем данные (заголовки + строки)
    for r_idx, row in enumerate(dataframe_to_rows(kato_df, index=False, header=True), start=3):
        ws.append(row)
        if r_idx == 3:  # заголовки
            for cell in ws[r_idx]:
                cell.font = bold_center
                cell.alignment = center_align

    # Путь сохранения
    save_path = os.path.join(save_dir, f"{int(kato)}.xlsx")
    wb.save(save_path)

print(f"✅ Успешно сохранено {len(unique_kato)} таблиц с форматированием в папку: {save_dir}")


✅ Успешно сохранено 2293 таблиц с форматированием в папку: като_таблицы


In [63]:
path = './като_таблицы/103230000.xlsx'
kato_df = pd.read_excel(path, header=2)
kato_df

Unnamed: 0,КАТО,Елді мекендер атауы / Наименование населенного пункта,БСН / БИН,Әкім аппаратының атауы / Наименование аппарата акима,ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ,АШЖБ жалпы алаңының көлемі / Общий объем площади по СРЖФ,"Айырмашылығы / Разница, %",Алшақтық дәрежесі / Степень расхождения / елеусіз/ незнач.,Алшақтық дәрежесі / Степень расхождения / елеулі/ знач.,ШЕА үйлер саны / Кол-во домов в ПХУ,...,Шошқалар /Свиньи / ШЕА / ПХУ / АФШ / КФХ,Шошқалар /Свиньи / ШЕА / ПХУ / Барлығы / Всего,Шошқалар /Свиньи / АШЖБ / ИСЖ / Заңды тұлғаларсыз/ Без ЮЛ,Шошқалар /Свиньи / АШЖБ / ИСЖ / Барлығы /Всего,"Шошқалар /Свиньи / Айырмашылығы / Разница, %",Алшақтық дәрежесі / Степень расхождения / елеусіз/ незнач._7,Алшақтық дәрежесі / Степень расхождения / елеулі/ знач._7,Жалпы бұзушылықтар саны/ Общее количество нарушений / елеусіз/ незнач.,Жалпы бұзушылықтар саны/ Общее количество нарушений / елеулі/ знач.,Қашықтан бақылау жүргізу: иә/жоқ/\nПроводить дистанционный контроль: да/ нет
0,103230000,С.КАРААУЛ,980840002473,"ГУ ""АППАРАТ АКИМА КАРАУЛЬСКОГО СЕЛЬСКОГО ОКРУГ...",105.42798,113.88405,7.711451,1,0,940,...,0,0,0,0,0,0,0,5,1,да


In [2]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment

# === Параметры ===
input_dir = './'  # укажи свою папку
output_file = 'все_приложения_КАТО.xlsx'

# === Функция объединения заголовков ===
def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

# === Уникальные имена колонок ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

# === Инициализируем финальную книгу ===
wb = Workbook()
wb.remove(wb.active)  # удалим пустой стартовый лист

# === Проходим по всем Excel-файлам ===
for file in os.listdir(input_dir):
    if not file.lower().endswith('.xlsx'):
        continue

    file_path = os.path.join(input_dir, file)
    file_name = os.path.basename(file)

    # Название приложения
    app_match = re.search(r'(\d{1,2})', file_name)
    if not app_match:
        print(f"⛔ Пропущен файл: {file} (не найден номер приложения)")
        continue
    app_number = app_match.group(1)
    app_title = f"Приложение-{app_number}"

    try:
        # Чтение верхней строки
        with pd.ExcelFile(file_path) as xls:
            top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

        # Чтение основного датафрейма
        df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
        df.columns = [combine_column(col) for col in df.columns]
        df.columns = make_unique_columns(df.columns)

        # Удаляем пустые/служебные строки
        df = df[~df.apply(lambda row: all(str(cell).strip() in ['Filt', 'nan', 'None', ''] for cell in row), axis=1)]

        # Поиск колонки КАТО
        kato_cols = [col for col in df.columns if "КАТО" in col]
        if not kato_cols:
            print(f"⚠️ Нет колонки 'КАТО' в файле: {file}")
            continue

        kato_col = kato_cols[0]
        df = df.dropna(subset=[kato_col])
        unique_kato = df[kato_col].dropna().unique()

        for kato in unique_kato:
            kato_df = df[df[kato_col] == kato].reset_index(drop=True)
            sheet_name = f"{app_title} {kato}"

            # Обрезаем имя до допустимого размера (31 символ)
            if len(sheet_name) > 31:
                sheet_name = sheet_name[:31]

            ws = wb.create_sheet(title=sheet_name)

            # Форматирование
            bold_center = Font(bold=True)
            center_align = Alignment(horizontal='center', vertical='center')

            ws.append([top_row])
            ws.append([app_title])

            for cell in [ws["A1"], ws["A2"]]:
                cell.font = bold_center
                cell.alignment = center_align

            for r_idx, row in enumerate(dataframe_to_rows(kato_df, index=False, header=True), start=3):
                ws.append(row)
                if r_idx == 3:
                    for cell in ws[r_idx]:
                        cell.font = bold_center
                        cell.alignment = center_align

    except Exception as e:
        print(f"❌ Ошибка при обработке {file}: {e}")

# === Сохраняем итоговую книгу ===
wb.save(output_file)
print(f"✅ Все КАТО по приложениям сохранены в: {output_file}")


⚠️ Нет колонки 'КАТО' в файле: 10-қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 12-Қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 13-қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 14-қосымша_Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 3-қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 4-қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 5-қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 6-қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 8-қосымша - Западно-Казахстанская.xlsx
⚠️ Нет колонки 'КАТО' в файле: 9-қосымша - Западно-Казахстанская.xlsx


KeyboardInterrupt: 

In [3]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment

# === Параметры ===
source_dir = '.'  # Папка с Excel-файлами
save_path = 'Итоговый_по_КАТО.xlsx'

# Создаем книгу Excel
wb = Workbook()
wb.remove(wb.active)  # Удаляем пустой стартовый лист

# Поиск всех Excel-файлов, содержащих слово "қосымша"
excel_files = [f for f in os.listdir(source_dir) if f.endswith('.xlsx') and 'қосымша' in f]

for file_name in sorted(excel_files):
    file_path = os.path.join(source_dir, file_name)

    try:
        # === Название приложения ===
        app_number = re.search(r'(\d{1,2})', file_name).group(1)
        app_title = f"Приложение-{app_number}"

        # === Чтение заголовка ===
        with pd.ExcelFile(file_path) as xls:
            top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
        top_row_kk, _, top_row_ru = top_row.partition('/')

        # === Чтение таблицы ===
        df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)

        # Объединяем уровни заголовков
        def combine_column(col_tuple):
            parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
            return ' / '.join(parts)

        df.columns = [combine_column(col) for col in df.columns]

        # Фильтрация пустых строк
        df = df[~df.apply(lambda row: all(str(cell).strip() in ['Filt', 'nan', 'None', ''] for cell in row), axis=1)]

        # Уникальные названия столбцов
        def make_unique_columns(columns):
            seen = {}
            new_columns = []
            for col in columns:
                if col in seen:
                    seen[col] += 1
                    new_columns.append(f"{col}_{seen[col]}")
                else:
                    seen[col] = 0
                    new_columns.append(col)
            return new_columns

        df.columns = make_unique_columns(df.columns)

        # Поиск колонки КАТО
        kato_col = next((col for col in df.columns if "КАТО" in col or "KATO" in col), None)
        if kato_col is None:
            print(f"⚠️ В файле {file_name} не найден столбец с КАТО.")
            continue

        df = df.dropna(subset=[kato_col])
        unique_kato = df[kato_col].dropna().unique()

        for kato in unique_kato:
            kato_df = df[df[kato_col] == kato].reset_index(drop=True)

            # Имя листа
            sheet_name = f"{app_title} ({kato})"
            if len(sheet_name) > 31:
                sheet_name = f"{app_title} ({str(kato)[-6:]})"

            ws = wb.create_sheet(title=sheet_name)

            # Форматирование
            bold_center = Font(bold=True)
            center_align = Alignment(horizontal='center', vertical='center')

            # Первая и вторая строки
            ws.append([f"{top_row_kk.strip()} / {top_row_ru.strip()}"])
            ws.append([app_title])

            for cell in [ws["A1"], ws["A2"]]:
                cell.font = bold_center
                cell.alignment = center_align

            # Заголовки и данные
            for r_idx, row in enumerate(dataframe_to_rows(kato_df, index=False, header=True), start=3):
                ws.append(row)
                if r_idx == 3:
                    for cell in ws[r_idx]:
                        cell.font = bold_center
                        cell.alignment = center_align

        print(f"✅ Обработано приложение {app_title} ({file_name}), создано {len(unique_kato)} листов.")

    except Exception as e:
        print(f"❌ Ошибка при обработке {file_name}: {e}")

# Сохраняем итоговый файл
wb.save(save_path)
print(f"\n📁 Итоговый файл успешно сохранён: {save_path}")


✅ Обработано приложение Приложение-1 (1- қосымша (сельские округа) — 03032025 послед вариант.xlsx), создано 2293 листов.
❌ Ошибка при обработке 10-қосымша - Западно-Казахстанская.xlsx: 'numpy.float64' object has no attribute 'partition'
❌ Ошибка при обработке 13-қосымша - Западно-Казахстанская.xlsx: 'numpy.float64' object has no attribute 'partition'
❌ Ошибка при обработке 14-қосымша_Западно-Казахстанская.xlsx: 'numpy.float64' object has no attribute 'partition'
❌ Ошибка при обработке 2-қосымша-Западно-Казахстанская.xlsx: 'numpy.float64' object has no attribute 'partition'
❌ Ошибка при обработке 3-қосымша - Западно-Казахстанская.xlsx: 'numpy.float64' object has no attribute 'partition'
❌ Ошибка при обработке 4-қосымша - Западно-Казахстанская.xlsx: 'numpy.float64' object has no attribute 'partition'
❌ Ошибка при обработке 5-қосымша - Западно-Казахстанская.xlsx: 'numpy.float64' object has no attribute 'partition'
❌ Ошибка при обработке 6-қосымша - Западно-Казахстанская.xlsx: 'numpy.float

In [4]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment

# === Параметры ===
input_dir = './'  # Папка с Excel-файлами
output_file = 'все_приложения_КАТО.xlsx'

# === Функция объединения заголовков ===
def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

# === Функция уникальных имён колонок ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

# === Создание книги Excel ===
wb = Workbook()
wb.remove(wb.active)  # Удалим пустой стартовый лист

# === Обход всех Excel-файлов в папке ===
for file in sorted(os.listdir(input_dir)):
    if not file.lower().endswith('.xlsx'):
        continue
    if not ("қосымша" in file.lower() or "kosymsha" in file.lower() or "приложение" in file.lower()):
        continue

    file_path = os.path.join(input_dir, file)
    file_name = os.path.basename(file)

    # Извлекаем номер приложения из названия файла
    app_match = re.search(r'(\d{1,2})', file_name)
    if not app_match:
        print(f"⛔ Пропущен файл: {file} (не найден номер приложения)")
        continue
    app_number = app_match.group(1)
    app_title = f"Приложение-{app_number}"

    try:
        # Чтение верхней строки (шапки)
        with pd.ExcelFile(file_path) as xls:
            top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

        # Чтение таблицы с многоуровневыми заголовками
        df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
        df.columns = [combine_column(col) for col in df.columns]
        df.columns = make_unique_columns(df.columns)

        # Удаление служебных и пустых строк
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

        # Поиск колонки КАТО
        kato_cols = [col for col in df.columns if "КАТО" in col or "KATO" in col.upper()]
        if not kato_cols:
            print(f"⚠️ Нет колонки 'КАТО' в файле: {file}")
            continue

        kato_col = kato_cols[0]
        df = df.dropna(subset=[kato_col])
        unique_kato = df[kato_col].dropna().unique()

        for kato in unique_kato:
            kato_df = df[df[kato_col] == kato].reset_index(drop=True)
            sheet_name = f"{app_title} ({str(kato)[-6:]})"

            if len(sheet_name) > 31:
                sheet_name = f"{app_title}-{str(kato)[-6:]}"

            if sheet_name in wb.sheetnames:
                suffix = 1
                while f"{sheet_name}_{suffix}" in wb.sheetnames:
                    suffix += 1
                sheet_name = f"{sheet_name}_{suffix}"

            ws = wb.create_sheet(title=sheet_name)

            # Стиль
            bold_center = Font(bold=True)
            center_align = Alignment(horizontal='center', vertical='center')

            # Шапка и название
            ws.append([top_row])
            ws.append([app_title])
            for cell in [ws["A1"], ws["A2"]]:
                cell.font = bold_center
                cell.alignment = center_align

            # Таблица
            for r_idx, row in enumerate(dataframe_to_rows(kato_df, index=False, header=True), start=3):
                ws.append(row)
                if r_idx == 3:
                    for cell in ws[r_idx]:
                        cell.font = bold_center
                        cell.alignment = center_align

        print(f"✅ Обработан файл: {file}, добавлено листов: {len(unique_kato)}")

    except Exception as e:
        print(f"❌ Ошибка в файле {file}: {e}")

# === Сохраняем итоговую книгу ===
wb.save(output_file)
print(f"\n📁 Итоговый Excel-файл сохранён: {output_file}")


✅ Обработан файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx, добавлено листов: 2293
✅ Обработан файл: 10-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 226
✅ Обработан файл: 12-Қосымша - Западно-Казахстанская.xlsx, добавлено листов: 140
✅ Обработан файл: 13-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 46
✅ Обработан файл: 14-қосымша_Западно-Казахстанская.xlsx, добавлено листов: 399
✅ Обработан файл: 2-қосымша-Западно-Казахстанская.xlsx, добавлено листов: 1
✅ Обработан файл: 3-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 244
✅ Обработан файл: 4-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 404
✅ Обработан файл: 5-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 91
✅ Обработан файл: 6-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 37
✅ Обработан файл: 8-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 55
✅ Обработан файл: 9-қосымша - Западно-Казахстанская.xlsx, добавлено листов: 29

📁 Итоговый Excel-файл со

In [6]:
import pandas as pd
import os
import re
from collections import defaultdict
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment

# === Параметры ===
input_dir = './'  # Папка с Excel-файлами
output_dir = 'като_файлы'  # Куда сохраняем отдельные файлы по КАТО
os.makedirs(output_dir, exist_ok=True)

# === Вспомогательные функции ===
def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

# === Словарь: КАТО -> приложение -> датафрейм ===
kato_data = defaultdict(lambda: defaultdict(list))

# === Обработка файлов-приложений ===
for file in sorted(os.listdir(input_dir)):
    if not file.lower().endswith('.xlsx'):
        continue
    if not ("қосымша" in file.lower() or "kosymsha" in file.lower() or "приложение" in file.lower()):
        continue

    file_path = os.path.join(input_dir, file)
    file_name = os.path.basename(file)

    # Извлечение номера приложения
    app_match = re.search(r'(\d{1,2})', file_name)
    if not app_match:
        print(f"⛔ Пропущен файл: {file} (не найден номер приложения)")
        continue
    app_number = app_match.group(1)
    app_title = f"Приложение-{app_number}"

    try:
        # Шапка файла
        with pd.ExcelFile(file_path) as xls:
            top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]

        # Чтение таблицы
        df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
        df.columns = [combine_column(col) for col in df.columns]
        df.columns = make_unique_columns(df.columns)

        # Очистка от мусора
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

        # Поиск колонки КАТО
        kato_cols = [col for col in df.columns if "КАТО" in col or "KATO" in col.upper()]
        if not kato_cols:
            print(f"⚠️ Нет колонки 'КАТО' в файле: {file}")
            continue

        kato_col = kato_cols[0]
        df = df.dropna(subset=[kato_col])
        df = df[df[kato_col].str.strip() != '']
        unique_kato = df[kato_col].dropna().unique()

        # Распределение по КАТО
        for kato in unique_kato:
            kato_str = str(kato).replace('.', '_').replace(',', '_').strip()
            kato_df = df[df[kato_col] == kato].reset_index(drop=True)
            kato_data[kato_str][app_title].append((top_row, kato_df))

        print(f"✅ Обработан файл: {file}")

    except Exception as e:
        print(f"❌ Ошибка в файле {file}: {e}")

# === Создание Excel-файлов по КАТО ===
for kato_code, apps_dict in kato_data.items():
    wb = Workbook()
    wb.remove(wb.active)

    for app_title, df_list in sorted(apps_dict.items()):
        sheet_name = app_title
        if len(sheet_name) > 31:
            sheet_name = sheet_name[:31]

        ws = wb.create_sheet(title=sheet_name)

        bold_center = Font(bold=True)
        center_align = Alignment(horizontal='center', vertical='center')

        # Шапка и название
        top_row_value, df_combined = df_list[0][0], pd.concat([d for _, d in df_list], ignore_index=True)

        ws.append([top_row_value])
        ws.append([app_title])
        for cell in [ws["A1"], ws["A2"]]:
            cell.font = bold_center
            cell.alignment = center_align

        for r_idx, row in enumerate(dataframe_to_rows(df_combined, index=False, header=True), start=3):
            ws.append(row)
            if r_idx == 3:
                for cell in ws[r_idx]:
                    cell.font = bold_center
                    cell.alignment = center_align

    # Сохраняем файл
    output_path = os.path.join(output_dir, f"{kato_code}.xlsx")
    wb.save(output_path)
    print(f"📄 Создан файл: {output_path}")

print("\n✅ Готово: все КАТО сохранены в отдельные файлы в папке 'като_файлы'")


✅ Обработан файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
✅ Обработан файл: 10-қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 12-Қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 13-қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 14-қосымша_Западно-Казахстанская.xlsx
✅ Обработан файл: 2-қосымша-Западно-Казахстанская.xlsx
✅ Обработан файл: 3-қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 4-қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 5-қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 6-қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 8-қосымша - Западно-Казахстанская.xlsx
✅ Обработан файл: 9-қосымша - Западно-Казахстанская.xlsx
📄 Создан файл: като_файлы\271033000.xlsx
📄 Создан файл: като_файлы\271035000.xlsx
📄 Создан файл: като_файлы\622037000.xlsx
📄 Создан файл: като_файлы\114433000.xlsx
📄 Создан файл: като_файлы\114531000.xlsx
📄 Создан файл: като_файлы\596243000.xlsx
📄 Создан файл: като_файлы\355645000.xlsx
📄 Создан

In [9]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from collections import defaultdict

# === Параметры ===
input_dir = '.'       # Папка с Excel-файлами
output_dir = 'като_файлы'  # Куда сохраняем файлы по КАТО
os.makedirs(output_dir, exist_ok=True)

# === Вспомогательные функции ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        col = col.strip()
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

# === Словарь: КАТО -> приложение -> данные ===
kato_data = defaultdict(lambda: defaultdict(list))

# === Обработка Excel-файлов ===
for file in os.listdir(input_dir):
    if not file.lower().endswith('.xlsx'):
        continue

    file_path = os.path.join(input_dir, file)
    print(f"📂 Обрабатывается файл: {file}")

    try:
        preview = pd.read_excel(file_path, header=None, nrows=15)

        app_idx = None
        header_idx = None
        for i, row in preview.iterrows():
            line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
            if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                app_idx = i
            if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                header_idx = i
            if app_idx is not None and header_idx is not None:
                break

        if header_idx is None:
            print(f"⚠️ Заголовки колонок не найдены в файле: {file}")
            continue

        # Название таблицы — между строкой приложения и заголовками
        title_row = ""
        if app_idx is not None and app_idx + 1 < header_idx:
            title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])

        # Номер приложения
        app_number = "??"
        if app_idx is not None:
            line = ' '.join([str(cell) for cell in preview.iloc[app_idx] if pd.notna(cell)])
            match = re.search(r'(\d{1,2})', line)
            if match:
                app_number = match.group(1)

        app_title = f"Приложение-{app_number}"

        # Чтение полной таблицы
        df = pd.read_excel(file_path, header=header_idx, dtype=str)
        df.columns = make_unique_columns([str(col) for col in df.columns])

        # Удалим строки-пустышки
        df = df.dropna(how='all')
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

        # Колонка КАТО
        kato_cols = [col for col in df.columns if "kato" in col.lower()]
        if not kato_cols:
            print(f"⚠️ Нет колонки КАТО в файле: {file}")
            continue

        kato_col = kato_cols[0]
        df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]

        for kato_value in df[kato_col].unique():
            kato_df = df[df[kato_col] == kato_value].copy()
            kato_data[kato_value][app_title].append((title_row, kato_df))

        print(f"✅ Успешно обработан: {file}")

    except Exception as e:
        print(f"❌ Ошибка при обработке файла {file}: {e}")

# === Сохраняем по КАТО ===
for kato_code, app_dict in kato_data.items():
    wb = Workbook()
    wb.remove(wb.active)

    for app_title, entries in app_dict.items():
        sheet_name = app_title[:31]
        ws = wb.create_sheet(title=sheet_name)

        for title_row, df in entries:
            # Заголовок
            ws.append([title_row])
            ws.append([app_title])
            for cell in [ws["A1"], ws["A2"]]:
                cell.font = Font(bold=True)
                cell.alignment = Alignment(horizontal='center')

            for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                ws.append(row)
                if i == 3:
                    for cell in ws[i]:
                        cell.font = Font(bold=True)
                        cell.alignment = Alignment(horizontal='center')

    output_path = os.path.join(output_dir, f"{kato_code}.xlsx")
    wb.save(output_path)
    print(f"📄 Сохранён файл: {output_path}")

print("\n🎉 Готово! Все КАТО-файлы сохранены в папке 'като_файлы'")


📂 Обрабатывается файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
⚠️ Заголовки колонок не найдены в файле: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
📂 Обрабатывается файл: 10-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 10-қосымша - Западно-Казахстанская.xlsx
📂 Обрабатывается файл: 12-Қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 12-Қосымша - Западно-Казахстанская.xlsx
📂 Обрабатывается файл: 13-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 13-қосымша - Западно-Казахстанская.xlsx
📂 Обрабатывается файл: 14-қосымша_Западно-Казахстанская.xlsx
✅ Успешно обработан: 14-қосымша_Западно-Казахстанская.xlsx
📂 Обрабатывается файл: 2-қосымша-Западно-Казахстанская.xlsx
✅ Успешно обработан: 2-қосымша-Западно-Казахстанская.xlsx
📂 Обрабатывается файл: 3-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 3-қосымша - Западно-Казахстанская.xlsx
📂 Обрабатывается файл: 4-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 4

In [11]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from collections import defaultdict

# === Параметры ===
input_dir = '.'       # Папка с Excel-файлами
output_dir = 'като_файлы'  # Куда сохраняем файлы по КАТО
os.makedirs(output_dir, exist_ok=True)

# === Вспомогательные функции ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        col = col.strip()
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

# === Словарь: КАТО -> приложение -> данные ===
kato_data = defaultdict(lambda: defaultdict(list))

# === Обработка Excel-файлов ===
for file in os.listdir(input_dir):
    if not file.lower().endswith('.xlsx'):
        continue

    file_path = os.path.join(input_dir, file)
    print(f"\n📂 Обрабатывается файл: {file}")

    try:
        # === Попробуем сначала стандартный случай ===
        preview = pd.read_excel(file_path, header=None, nrows=15)
        app_idx = None
        header_idx = None

        for i, row in preview.iterrows():
            line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
            if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                app_idx = i
            if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                header_idx = i
            if app_idx is not None and header_idx is not None:
                break

        app_number = "??"
        title_row = ""

        if header_idx is not None:
            # === Стандартный случай ===
            if app_idx is not None:
                # Название таблицы между app_idx и header_idx
                if app_idx + 1 < header_idx:
                    title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])
                line = ' '.join([str(cell) for cell in preview.iloc[app_idx] if pd.notna(cell)])
                match = re.search(r'(\d{1,2})', line)
                if match:
                    app_number = match.group(1)
            else:
                # Номер приложения из имени файла
                match = re.search(r'(\d{1,2})', file)
                if match:
                    app_number = match.group(1)

            app_title = f"Приложение-{app_number}"

            df = pd.read_excel(file_path, header=header_idx, dtype=str)
            df.columns = make_unique_columns([str(col) for col in df.columns])

        else:
            # === Особый случай: нет явных заголовков ===
            print("⚠️ Переход в режим обработки многоуровневого заголовка")

            # Номер приложения из названия файла
            match = re.search(r'(\d{1,2})', file)
            if match:
                app_number = match.group(1)
            app_title = f"Приложение-{app_number}"

            # Заголовок таблицы — первая строка
            with pd.ExcelFile(file_path) as xls:
                top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
            title_row = str(top_row)

            df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
            df.columns = [combine_column(col) for col in df.columns]
            df.columns = make_unique_columns(df.columns)

        # Удалим строки-пустышки
        df = df.dropna(how='all')
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

        # Колонка КАТО
        kato_cols = [col for col in df.columns if "kato" in col.lower()]
        if not kato_cols:
            print(f"⚠️ Нет колонки КАТО в файле: {file}")
            continue

        kato_col = kato_cols[0]
        df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]

        for kato_value in df[kato_col].unique():
            kato_df = df[df[kato_col] == kato_value].copy()
            kato_data[kato_value][app_title].append((title_row, kato_df))

        print(f"✅ Успешно обработан: {file}")

    except Exception as e:
        print(f"❌ Ошибка при обработке файла {file}: {e}")

# === Сохраняем по КАТО ===
for kato_code, app_dict in kato_data.items():
    wb = Workbook()
    wb.remove(wb.active)

    for app_title, entries in app_dict.items():
        sheet_name = app_title[:31]
        ws = wb.create_sheet(title=sheet_name)

        for title_row, df in entries:
            # Заголовок
            ws.append([title_row])
            ws.append([app_title])
            for cell in [ws["A1"], ws["A2"]]:
                cell.font = Font(bold=True)
                cell.alignment = Alignment(horizontal='center')

            for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                ws.append(row)
                if i == 3:
                    for cell in ws[i]:
                        cell.font = Font(bold=True)
                        cell.alignment = Alignment(horizontal='center')

    output_path = os.path.join(output_dir, f"{kato_code}.xlsx")
    wb.save(output_path)
    print(f"📄 Сохранён файл: {output_path}")

print("\n🎉 Готово! Все КАТО-файлы сохранены в папке 'като_файлы'")



📂 Обрабатывается файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка
⚠️ Нет колонки КАТО в файле: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx

📂 Обрабатывается файл: 10-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 10-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 12-Қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 12-Қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 13-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 13-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 14-қосымша_Западно-Казахстанская.xlsx
✅ Успешно обработан: 14-қосымша_Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 2-қосымша-Западно-Казахстанская.xlsx
✅ Успешно обработан: 2-қосымша-Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 3-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 3-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 4-қосымша 

KeyboardInterrupt: 

In [14]:
import os
import pandas as pd
from openpyxl import Workbook
from openpyxl.styles import Alignment
from openpyxl.utils.dataframe import dataframe_to_rows

# === Настройки ===
data_dir = "."  # Папка с входными файлами
save_dir = "output"  # Папка для сохранения файлов
os.makedirs(save_dir, exist_ok=True)

# === Вспомогательные функции ===
def combine_column(col):
    return " / ".join([str(c).strip() for c in col if pd.notna(c)])

def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        if col not in seen:
            seen[col] = 1
            new_columns.append(col)
        else:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
    return new_columns

def extract_application_number(file_name):
    # Ищем номер приложения в начале файла (до пробела или дефиса)
    prefix = file_name.split()[0].split('-')[0]
    return f"Приложение {prefix.strip()}"

def looks_like_kato(colname):
    norm = str(colname).lower().strip()
    return "като" in norm or "kato" in norm

# === Сбор всех файлов Excel ===
excel_files = [f for f in os.listdir(data_dir) if f.endswith(".xlsx")]

# === Словарь: KATO -> приложение -> DataFrame ===
kato_dict = {}

for file in excel_files:
    file_path = os.path.join(data_dir, file)
    print(f"\n📂 Обрабатывается файл: {file}")

    try:
        with pd.ExcelFile(file_path) as xls:
            first_cell = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
            app_name = extract_application_number(file)

            # Сначала пробуем 3 строки заголовков
            try:
                df = pd.read_excel(xls, header=[1, 2, 3], engine="openpyxl", dtype=str)
                df.columns = [combine_column(col) for col in df.columns]
                df.columns = make_unique_columns(df.columns)
                print("⚠️ Переход в режим обработки многоуровневого заголовка")
            except Exception:
                df = pd.read_excel(xls, header=1, engine="openpyxl", dtype=str)
                df.columns = df.columns.astype(str)

            kato_cols = [col for col in df.columns if looks_like_kato(col)]

            if not kato_cols:
                print(f"⚠️ Нет колонки КАТО в файле: {file}")
                continue

            kato_col = kato_cols[0]

            for kato_val in df[kato_col].dropna().unique():
                if kato_val not in kato_dict:
                    kato_dict[kato_val] = {}
                df_kato = df[df[kato_col] == kato_val].copy()
                if app_name not in kato_dict[kato_val]:
                    kato_dict[kato_val][app_name] = []
                kato_dict[kato_val][app_name].append((file, df_kato))

    except Exception as e:
        print(f"❌ Ошибка при обработке {file}: {e}")

# === Сохраняем каждый КАТО в отдельный файл с листами по приложениям ===
center_align = Alignment(horizontal='center', vertical='center', wrap_text=True)

for kato, apps in kato_dict.items():
    wb_out = Workbook()
    wb_out.remove(wb_out.active)  # Удалим стандартный пустой лист

    for app_name, entries in apps.items():
        # Если нет данных — не создаем лист
        if not entries:
            continue
        ws = wb_out.create_sheet(title=app_name[:31])
        for file_name, df_app in entries:
            ws.append([file_name])
            ws.append([app_name])
            ws.append(list(df_app.columns))
            for row in df_app.itertuples(index=False):
                ws.append(list(row))

    # Сохраняем файл для КАТО
    kato_filename = f"{str(kato).replace('/', '_')}.xlsx"
    save_path = os.path.join(save_dir, kato_filename)
    wb_out.save(save_path)

print(f"\n✅ Успешно сохранено {len(kato_dict)} файлов по КАТО в папку: {save_dir}")



📂 Обрабатывается файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 10-қосымша - Западно-Казахстанская.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 12-Қосымша - Западно-Казахстанская.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 13-қосымша - Западно-Казахстанская.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 14-қосымша_Западно-Казахстанская.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 2-қосымша-Западно-Казахстанская.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 3-қосымша - Западно-Казахстанская.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 4-қосымша - Западно-Казахстанская.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка

📂 Обрабатывается файл: 5-қосымша -

In [15]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from collections import defaultdict

# === Параметры ===
input_dir = '.'       # Папка с Excel-файлами
output_dir = 'като_файлы'
os.makedirs(output_dir, exist_ok=True)

# === Вспомогательные функции ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        col = col.strip()
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

# === Словарь: КАТО -> Приложение -> данные ===
kato_data = defaultdict(lambda: defaultdict(list))

# === Обработка Excel-файлов ===
for file in os.listdir(input_dir):
    if not file.lower().endswith('.xlsx'):
        continue

    file_path = os.path.join(input_dir, file)
    print(f"\n📂 Обрабатывается файл: {file}")

    try:
        preview = pd.read_excel(file_path, header=None, nrows=15)
        app_idx = None
        header_idx = None

        # === Ищем строки с "Приложением" и заголовками (КАТО)
        for i, row in preview.iterrows():
            line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
            if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                app_idx = i
            if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                header_idx = i
            if app_idx is not None and header_idx is not None:
                break

        # === Определяем номер приложения
        app_number = "??"
        match = re.search(r'(\d{1,2})', file)
        if match:
            app_number = match.group(1)
        app_title = f"Приложение-{app_number}"

        # === Читаем таблицу
        if header_idx is not None:
            # === Обычный случай
            if app_idx is not None and app_idx + 1 < header_idx:
                title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])
            else:
                title_row = app_title

            df = pd.read_excel(file_path, header=header_idx, dtype=str)
            df.columns = make_unique_columns([str(col) for col in df.columns])

        else:
            # === Особый случай: многоуровневые заголовки
            print("⚠️ Переход в режим обработки многоуровневого заголовка")

            # Читаем первую ячейку — как заголовок таблицы
            with pd.ExcelFile(file_path) as xls:
                top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
            title_row = str(top_row)

            df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
            df.columns = [combine_column(col) for col in df.columns]
            df.columns = make_unique_columns(df.columns)

        # === Чистка
        df = df.dropna(how='all')
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

        # === Колонка КАТО
        kato_cols = [col for col in df.columns if "kato" in col.lower()]
        if not kato_cols:
            print(f"⚠️ Нет колонки КАТО в файле: {file}")
            continue
        kato_col = kato_cols[0]

        df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]

        for kato_value in df[kato_col].unique():
            kato_df = df[df[kato_col] == kato_value].copy()
            kato_data[kato_value][app_title].append((title_row, kato_df))

        print(f"✅ Успешно обработан: {file}")

    except Exception as e:
        print(f"❌ Ошибка при обработке файла {file}: {e}")

# === Сохраняем по КАТО ===
for kato_code, app_dict in kato_data.items():
    wb = Workbook()
    wb.remove(wb.active)

    for app_title, entries in app_dict.items():
        sheet_name = app_title[:31]
        ws = wb.create_sheet(title=sheet_name)

        for title_row, df in entries:
            ws.append([title_row])
            ws.append([app_title])
            for cell in [ws["A1"], ws["A2"]]:
                cell.font = Font(bold=True)
                cell.alignment = Alignment(horizontal='center')

            for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                ws.append(row)
                if i == 3:
                    for cell in ws[i]:
                        cell.font = Font(bold=True)
                        cell.alignment = Alignment(horizontal='center')

    output_path = os.path.join(output_dir, f"{kato_code}.xlsx")
    wb.save(output_path)
    print(f"📄 Сохранён файл: {output_path}")

print("\n🎉 Готово! Все КАТО-файлы сохранены в папке 'като_файлы'")



📂 Обрабатывается файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка
⚠️ Нет колонки КАТО в файле: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx

📂 Обрабатывается файл: 10-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 10-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 12-Қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 12-Қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 13-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 13-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 14-қосымша_Западно-Казахстанская.xlsx
✅ Успешно обработан: 14-қосымша_Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 2-қосымша-Западно-Казахстанская.xlsx
✅ Успешно обработан: 2-қосымша-Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 3-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 3-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 4-қосымша 

In [19]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from collections import defaultdict

# === Параметры ===
input_dir = '.'       # Папка с Excel-файлами
output_dir = 'като_файлы'
os.makedirs(output_dir, exist_ok=True)

# === Вспомогательные функции ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        col = col.strip()
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

# === Словарь: КАТО -> приложение -> данные ===
kato_data = defaultdict(lambda: defaultdict(list))

# === Обработка Excel-файлов ===
for file in os.listdir(input_dir):
    if not file.lower().endswith('.xlsx'):
        continue

    file_path = os.path.join(input_dir, file)
    print(f"\n📂 Обрабатывается файл: {file}")

    try:
        preview = pd.read_excel(file_path, header=None, nrows=15)
        app_idx = None
        header_idx = None

        for i, row in preview.iterrows():
            line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
            if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                app_idx = i
            if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                header_idx = i
            if app_idx is not None and header_idx is not None:
                break

        app_number = "??"
        title_row = ""

        # Номер приложения из строки или из имени файла
        match = re.search(r'(\d{1,2})', file)
        if match:
            app_number = match.group(1)
        app_title = f"Приложение-{app_number}"

        if header_idx is not None:
            # === Обычный случай ===
            if app_idx is not None and app_idx + 1 < header_idx:
                title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])
            else:
                title_row = app_title

            df = pd.read_excel(file_path, header=header_idx, dtype=str)
            df.columns = make_unique_columns([str(col) for col in df.columns])

        else:
            # === Многоуровневый заголовок ===
            print("⚠️ Переход в режим обработки многоуровневого заголовка")

            with pd.ExcelFile(file_path) as xls:
                top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
            title_row = str(top_row)

            df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
            df.columns = [combine_column(col) for col in df.columns]
            df.columns = make_unique_columns(df.columns)

        # Удалим строки-пустышки
        df = df.dropna(how='all')
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]
        print(df.columns)
        # Ищем колонку КАТО по вхождению
        kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
        if not kato_col_candidates:
            kato1_col = [col for col in df.columns if "КАТО" in col][0]
            if not kato1_col:
                print(f"⚠️ Нет колонки КАТО в файле: {file}")
                continue
            kato_col_candidates.append(kato1_col)
        

        kato_col = kato_col_candidates[0]
        df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]

        for kato_value in df[kato_col].unique():
            kato_df = df[df[kato_col] == kato_value].copy()
            kato_data[kato_value][app_title].append((title_row, kato_df))

        print(f"✅ Успешно обработан: {file}")

    except Exception as e:
        print(f"❌ Ошибка при обработке файла {file}: {e}")

# === Сохраняем по КАТО ===
for kato_code, app_dict in kato_data.items():
    wb = Workbook()
    wb.remove(wb.active)

    for app_title, entries in app_dict.items():
        sheet_name = app_title[:31]
        ws = wb.create_sheet(title=sheet_name)

        for title_row, df in entries:
            ws.append([title_row])
            ws.append([app_title])
            for cell in [ws["A1"], ws["A2"]]:
                cell.font = Font(bold=True)
                cell.alignment = Alignment(horizontal='center')

            for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                ws.append(row)
                if i == 3:
                    for cell in ws[i]:
                        cell.font = Font(bold=True)
                        cell.alignment = Alignment(horizontal='center')

    output_path = os.path.join(output_dir, f"{kato_code}.xlsx")
    wb.save(output_path)
    print(f"📄 Сохранён файл: {output_path}")

print("\n🎉 Готово! Все КАТО-файлы сохранены в папке 'като_файлы'")



📂 Обрабатывается файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка
Index(['КАТО', 'Елді мекендер атауы / Наименование населенного пункта',
       'БСН / БИН',
       'Әкім аппаратының атауы /                                                                                Наименование аппарата акима',
       'ШЕА жалпы алаңының көлемі / Общий объем площади ПХУ',
       'АШЖБ жалпы алаңының көлемі /  Общий объем площади по СРЖФ',
       'Айырмашылығы / Разница, %',
       'Алшақтық дәрежесі /                             Степень расхождения / елеусіз/ незнач.',
       'Алшақтық дәрежесі /                             Степень расхождения / елеулі/ знач.',
       'ШЕА үйлер саны / Кол-во домов в ПХУ',
       'АШЖБ үйлер саны /                         Кол-во домов в СРЖФ',
       'Айырмашылығы / Разница, %_1',
       'Алшақтық дәрежесі /                             Степень расхождения / елеусіз/ незнач._1',
       'Алшақты

#### Версия с учетом подразделений КАТО

In [3]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from collections import defaultdict

# === Параметры ===
input_dir = '.'       # Папка с Excel-файлами
output_dir = 'като_файлы'
os.makedirs(output_dir, exist_ok=True)

# === Вспомогательные функции ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        col = col.strip()
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

# === Словарь: КАТО-первые-6-цифр -> приложение -> данные ===
kato_data = defaultdict(lambda: defaultdict(list))

# === Обработка Excel-файлов ===
for file in os.listdir(input_dir):
    if not file.lower().endswith('.xlsx'):
        continue

    file_path = os.path.join(input_dir, file)
    print(f"\n📂 Обрабатывается файл: {file}")

    try:
        preview = pd.read_excel(file_path, header=None, nrows=15)
        app_idx = None
        header_idx = None

        for i, row in preview.iterrows():
            line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
            if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                app_idx = i
            if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                header_idx = i
            if app_idx is not None and header_idx is not None:
                break

        app_number = "??"
        title_row = ""

        # Номер приложения из имени файла
        match = re.search(r'(\d{1,2})', file)
        if match:
            app_number = match.group(1)
        app_title = f"Приложение-{app_number}"

        if header_idx is not None:
            # === Обычный случай ===
            if app_idx is not None and app_idx + 1 < header_idx:
                title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])
            else:
                title_row = app_title

            df = pd.read_excel(file_path, header=header_idx, dtype=str)
            df.columns = make_unique_columns([str(col) for col in df.columns])

        else:
            # === Многоуровневый заголовок ===
            print("⚠️ Переход в режим обработки многоуровневого заголовка")

            with pd.ExcelFile(file_path) as xls:
                top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
            title_row = str(top_row)

            df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
            df.columns = [combine_column(col) for col in df.columns]
            df.columns = make_unique_columns(df.columns)

        # Удалим строки-пустышки
        df = df.dropna(how='all')
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

        # # Поиск колонки КАТО
        # kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
        # if not kato_col_candidates:
        #     print(f"⚠️ Нет колонки КАТО в файле: {file}")
        #     continue

        # # Ищем колонку КАТО по вхождению
        # kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
        # if not kato_col_candidates:
        #     kato1_col = [col for col in df.columns if "КАТО" in col][0]
        #     if not kato1_col:
        #         print(f"⚠️ Нет колонки КАТО в файле: {file}")
        #         continue
        #     kato_col_candidates.append(kato1_col)

        # Ищем колонку КАТО по вхождению
        kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
        if not kato_col_candidates:
            kato1_col = [col for col in df.columns if "КАТО" in col][0]
            if not kato1_col:
                print(f"⚠️ Нет колонки КАТО в файле: {file}")
                continue
            kato_col_candidates.append(kato1_col)

        kato_col = kato_col_candidates[0]
        df[kato_col] = df[kato_col].astype(str).str.strip()
        df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]

        # Добавим колонку с корнем КАТО (первые 6 символов)
        df['kato_root'] = df[kato_col].str[:6]

        # Группируем по kato_root
        for kato_root, group_df in df.groupby('kato_root'):
            if not kato_root.isdigit():
                continue
            kato_data[kato_root][app_title].append((title_row, group_df.drop(columns=['kato_root'])))

        print(f"✅ Успешно обработан: {file}")

    except Exception as e:
        print(f"❌ Ошибка при обработке файла {file}: {e}")

# === Сохраняем по КАТО (6 цифр) ===
for kato_code, app_dict in kato_data.items():
    wb = Workbook()
    wb.remove(wb.active)

    for app_title, entries in app_dict.items():
        sheet_name = app_title[:31]
        ws = wb.create_sheet(title=sheet_name)

        for title_row, df in entries:
            ws.append([title_row])
            ws.append([app_title])
            for cell in [ws["A1"], ws["A2"]]:
                cell.font = Font(bold=True)
                cell.alignment = Alignment(horizontal='center')

            for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                ws.append(row)
                if i == 3:
                    for cell in ws[i]:
                        cell.font = Font(bold=True)
                        cell.alignment = Alignment(horizontal='center')

    output_path = os.path.join(output_dir, f"{kato_code}.xlsx")
    wb.save(output_path)
    print(f"📄 Сохранён файл: {output_path}")

print("\n🎉 Готово! Все КАТО-файлы сохранены в папке 'като_файлы'")



📂 Обрабатывается файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка
✅ Успешно обработан: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx

📂 Обрабатывается файл: 10-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 10-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 12-Қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 12-Қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 13-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 13-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 14-қосымша_Западно-Казахстанская.xlsx
✅ Успешно обработан: 14-қосымша_Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 2-қосымша-Западно-Казахстанская.xlsx
✅ Успешно обработан: 2-қосымша-Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 3-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 3-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 4-қосымша - Западн

In [None]:
import pandas as pd
import os
import re
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from openpyxl.utils import get_column_letter
from collections import defaultdict

MAX_WIDTH = 30

# === Параметры ===
input_dir = '.'       # Папка с Excel-файлами
output_dir = 'като_файлы'
os.makedirs(output_dir, exist_ok=True)

# === Вспомогательные функции ===
def make_unique_columns(columns):
    seen = {}
    new_columns = []
    for col in columns:
        col = col.strip()
        if col in seen:
            seen[col] += 1
            new_columns.append(f"{col}_{seen[col]}")
        else:
            seen[col] = 0
            new_columns.append(col)
    return new_columns

def combine_column(col_tuple):
    parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
    return ' / '.join(parts)

def extract_app_number(name):
    match = re.search(r'(\d{1,2})', name)
    return int(match.group(1)) if match else 9999

# === Словарь: КАТО-первые-6-цифр -> приложение -> данные ===
kato_data = defaultdict(lambda: defaultdict(list))

# === Обработка Excel-файлов ===
for file in os.listdir(input_dir):
    if not file.lower().endswith('.xlsx'):
        continue

    file_path = os.path.join(input_dir, file)
    print(f"\n📂 Обрабатывается файл: {file}")

    try:
        preview = pd.read_excel(file_path, header=None, nrows=15)
        app_idx = None
        header_idx = None

        for i, row in preview.iterrows():
            line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
            if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                app_idx = i
            if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                header_idx = i
            if app_idx is not None and header_idx is not None:
                break

        app_number = "??"
        title_row = ""

        match = re.search(r'(\d{1,2})', file)
        if match:
            app_number = match.group(1)
        app_title = f"Приложение-{app_number}"

        if header_idx is not None:
            if app_idx is not None and app_idx + 1 < header_idx:
                title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])
            else:
                title_row = app_title

            df = pd.read_excel(file_path, header=header_idx, dtype=str)
            df.columns = make_unique_columns([str(col) for col in df.columns])

        else:
            print("⚠️ Переход в режим обработки многоуровневого заголовка")

            with pd.ExcelFile(file_path) as xls:
                top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
            title_row = str(top_row)

            df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
            df.columns = [combine_column(col) for col in df.columns]
            df.columns = make_unique_columns(df.columns)

        df = df.dropna(how='all')
        df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

        kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
        if not kato_col_candidates:
            kato1_col = [col for col in df.columns if "КАТО" in col]
            if not kato1_col:
                print(f"⚠️ Нет колонки КАТО в файле: {file}")
                continue
            kato_col_candidates.append(kato1_col[0])

        kato_col = kato_col_candidates[0]
        df[kato_col] = df[kato_col].astype(str).str.strip()
        df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]

        df['kato_root'] = df[kato_col].str[:6]

        for kato_root, group_df in df.groupby('kato_root'):
            if not kato_root.isdigit():
                continue
            kato_data[kato_root][app_title].append((title_row, group_df.drop(columns=['kato_root'])))

        print(f"✅ Успешно обработан: {file}")

    except Exception as e:
        print(f"❌ Ошибка при обработке файла {file}: {e}")

# === Сохраняем по КАТО (6 цифр) ===
for kato_code, app_dict in kato_data.items():
    wb = Workbook()
    wb.remove(wb.active)

    # Упорядочим приложения по номеру
    sorted_apps = sorted(app_dict.items(), key=lambda x: extract_app_number(x[0]))

    for app_title, entries in sorted_apps:
        sheet_name = app_title[:31]
        ws = wb.create_sheet(title=sheet_name)

        for title_row, df in entries:
            ws.append([title_row])
            ws.append([app_title])

            # Стилизация первой строки (название таблицы)
            ws["A1"].font = Font(bold=True, size=14)
            ws["A1"].alignment = Alignment(horizontal='left')
            ws.merge_cells(start_row=1, start_column=1, end_row=1, end_column=len(df.columns))

            ws["A2"].font = Font(bold=True)
            ws["A2"].alignment = Alignment(horizontal='left')
            ws.merge_cells(start_row=2, start_column=1, end_row=2, end_column=len(df.columns))

            for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                ws.append(row)
                if i == 3:
                    for cell in ws[i]:
                        cell.font = Font(bold=True)
                        cell.alignment = Alignment(horizontal='center')

            # for i, col in enumerate(ws.columns, start=1):
            #     max_length = 0
            #     for cell in col:
            #         try:
            #             if cell.value:
            #                 max_length = max(max_length, len(str(cell.value)))
            #         except:
            #             pass
            #     col_letter = get_column_letter(i)
            #     ws.column_dimensions[col_letter].width = max_length + 2

            for i, col in enumerate(ws.columns, start=1):
                max_length = 0
                for cell in col:
                    try:
                        if cell.value:
                            max_length = max(max_length, len(str(cell.value)))
                    except:
                        pass
                adjusted_width = min(max_length + 2, MAX_WIDTH)  # ограничиваем ширину
                col_letter = get_column_letter(i)
                ws.column_dimensions[col_letter].width = adjusted_width


    output_path = os.path.join(output_dir, f"{kato_code}.xlsx")
    wb.save(output_path)
    print(f"📄 Сохранён файл: {output_path}")

print("\n🎉 Готово! Все КАТО-файлы сохранены в папке 'като_файлы'")



📂 Обрабатывается файл: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка
✅ Успешно обработан: 1- қосымша (сельские округа) — 03032025 послед вариант.xlsx

📂 Обрабатывается файл: 10-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 10-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 12-Қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 12-Қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 13-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 13-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 14-қосымша_Западно-Казахстанская.xlsx
✅ Успешно обработан: 14-қосымша_Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 2-қосымша-Западно-Казахстанская.xlsx
✅ Успешно обработан: 2-қосымша-Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 3-қосымша - Западно-Казахстанская.xlsx
✅ Успешно обработан: 3-қосымша - Западно-Казахстанская.xlsx

📂 Обрабатывается файл: 4-қосымша - Западн

In [1]:
import os
import re
import pandas as pd
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from openpyxl.utils import get_column_letter
from collections import defaultdict
import shutil

class KATOFileSorter:
    MAX_WIDTH = 30
    REGION_CODES = {
        "11": "Акмолинская",
        "15": "Актюбинская",
        "19": "Алматинская",
        "23": "Атырауская",
        "63": "Восточно-Казахстанская",
        "71": "Астана",
        "75": "Алматы",
        "79": "Шымкент",
        "31": "Жамбылская",
        "27": "Западно-Казахстанская",
        "35": "Карагандинская",
        "39": "Костанайская",
        "43": "Кызылордиснкая",
        "47": "Мангистауская",
        "10": "область Абай",
        "33": "область Жетісу",
        "62": "область Ұлытау",
        "55": "Павлодарская",
        "59": "Северо-Казахстанская",
        "61": "Туркестанская"
    }

    def __init__(self, input_dir='.', output_dir='като_файлы'):
        self.input_dir = input_dir
        self.output_dir = output_dir
        os.makedirs(self.output_dir, exist_ok=True)
        self.kato_data = defaultdict(lambda: defaultdict(list))

    def make_unique_columns(self, columns):
        seen = {}
        new_columns = []
        for col in columns:
            col = col.strip()
            if col in seen:
                seen[col] += 1
                new_columns.append(f"{col}_{seen[col]}")
            else:
                seen[col] = 0
                new_columns.append(col)
        return new_columns

    def combine_column(self, col_tuple):
        parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
        return ' / '.join(parts)

    def extract_app_number(self, name):
        match = re.search(r'(\d{1,2})', name)
        return int(match.group(1)) if match else 9999

    def get_region_folder(self, kato_code):
        region_prefix = kato_code[:2]
        return self.REGION_CODES.get(region_prefix, 'Прочее')

    def process_files(self):
        for file in os.listdir(self.input_dir):
            if not file.lower().endswith('.xlsx'):
                continue

            file_path = os.path.join(self.input_dir, file)
            print(f"\n📂 Обрабатывается файл: {file}")

            try:
                preview = pd.read_excel(file_path, header=None, nrows=15)
                app_idx = None
                header_idx = None

                for i, row in preview.iterrows():
                    line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
                    if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                        app_idx = i
                    if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                        header_idx = i
                    if app_idx is not None and header_idx is not None:
                        break

                app_number = self.extract_app_number(file)
                app_title = f"Приложение-{app_number}"
                title_row = app_title

                if header_idx is not None:
                    if app_idx is not None and app_idx + 1 < header_idx:
                        title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])

                    df = pd.read_excel(file_path, header=header_idx, dtype=str)
                    df.columns = self.make_unique_columns([str(col) for col in df.columns])
                else:
                    print("⚠️ Переход в режим обработки многоуровневого заголовка")
                    with pd.ExcelFile(file_path) as xls:
                        top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
                    title_row = str(top_row)
                    df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
                    df.columns = [self.combine_column(col) for col in df.columns]
                    df.columns = self.make_unique_columns(df.columns)

                df = df.dropna(how='all')
                df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

                # kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
                # if not kato_col_candidates:
                #     print(f"⚠️ Нет колонки КАТО в файле: {file}")
                #     continue

                kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
                if not kato_col_candidates:
                    kato1_col = [col for col in df.columns if "КАТО" in col]
                    if not kato1_col:
                        print(f"⚠️ Нет колонки КАТО в файле: {file}")
                        continue
                    kato_col_candidates.append(kato1_col[0])

                kato_col = kato_col_candidates[0]
                df[kato_col] = df[kato_col].astype(str).str.strip()
                df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]

                df['kato_root'] = df[kato_col].str[:6]

                for kato_root, group_df in df.groupby('kato_root'):
                    if not kato_root.isdigit():
                        continue
                    self.kato_data[kato_root][app_title].append((title_row, group_df.drop(columns=['kato_root'])))

                print(f"✅ Успешно обработан: {file}")

            except Exception as e:
                print(f"❌ Ошибка при обработке файла {file}: {e}")

    def save_kato_files(self):
        temp_output_root = self.output_dir  # Например: "като_файлы"
        final_output_root = "итоговые_файлы"
        os.makedirs(final_output_root, exist_ok=True)

        # Группировка КАТО-кодов по регионам
        region_to_kato = defaultdict(list)
        for kato_code in self.kato_data:
            region_name = self.get_region_folder(kato_code)
            region_to_kato[region_name].append(kato_code)

        for region_name, kato_codes in region_to_kato.items():
            region_folder = os.path.join(temp_output_root, f"като_файлы_{region_name}")
            os.makedirs(region_folder, exist_ok=True)

            for kato_code in kato_codes:
                wb = Workbook()
                wb.remove(wb.active)

                app_dict = self.kato_data[kato_code]
                sorted_apps = sorted(app_dict.items(), key=lambda x: self.extract_app_number(x[0]))

                for app_title, entries in sorted_apps:
                    sheet_name = app_title[:31]
                    ws = wb.create_sheet(title=sheet_name)

                    for title_row, df in entries:
                        ws.append([title_row])
                        ws.append([app_title])
                        ws["A1"].font = Font(bold=True, size=14)
                        ws["A1"].alignment = Alignment(horizontal='left')
                        ws.merge_cells(start_row=1, start_column=1, end_row=1, end_column=len(df.columns))

                        ws["A2"].font = Font(bold=True)
                        ws["A2"].alignment = Alignment(horizontal='left')
                        ws.merge_cells(start_row=2, start_column=1, end_row=2, end_column=len(df.columns))

                        for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                            ws.append(row)
                            if i == 3:
                                for cell in ws[i]:
                                    cell.font = Font(bold=True)
                                    cell.alignment = Alignment(horizontal='center')

                        for i, col in enumerate(ws.columns, start=1):
                            max_length = 0
                            for cell in col:
                                try:
                                    if cell.value:
                                        max_length = max(max_length, len(str(cell.value)))
                                except:
                                    pass
                            adjusted_width = min(max_length + 2, self.MAX_WIDTH)
                            col_letter = get_column_letter(i)
                            ws.column_dimensions[col_letter].width = adjusted_width

                kato_filename = f"{kato_code}.xlsx"
                output_path = os.path.join(region_folder, kato_filename)
                wb.save(output_path)
                print(f"📄 Сохранён файл: {output_path}")

                # Перенос в итоговую папку
                final_region_folder = os.path.join(final_output_root, region_name)
                os.makedirs(final_region_folder, exist_ok=True)
                shutil.copy(output_path, os.path.join(final_region_folder, kato_filename))

        print("\n🎉 Готово! Файлы отсортированы по регионам и перенесены в папки итоговые_файлы/РЕГИОН")

In [14]:
import os
import shutil

BASE_DIR = os.getcwd()
FINAL_DIR = os.path.join(BASE_DIR, 'итоговые_файлы')
os.makedirs(FINAL_DIR, exist_ok=True)

# Шаг 1: Обработка каждой папки
for region_folder in os.listdir(BASE_DIR):
    full_path = os.path.join(BASE_DIR, region_folder)
    if not os.path.isdir(full_path) or region_folder.startswith('като_файлы') or region_folder == 'итоговые_файлы':
        continue

    print(f"\n📂 Обрабатывается региональная папка: {region_folder}")
    output_dir = f"като_файлы_{region_folder}"
    sorter = KATOFileSorter(input_dir=full_path, output_dir=output_dir)
    sorter.process_files()
    sorter.save_kato_files()

# Шаг 2: Сборка по регионам
for folder in os.listdir(BASE_DIR):
    if not folder.startswith("като_файлы_"):
        continue

    region_name = folder.replace("като_файлы_", "")
    region_output_path = os.path.join(FINAL_DIR, region_name)
    os.makedirs(region_output_path, exist_ok=True)

    current_path = os.path.join(BASE_DIR, folder)

    for file in os.listdir(current_path):
        full_file_path = os.path.join(current_path, file)
        if file.endswith(".xlsx"):
            shutil.copy(full_file_path, os.path.join(region_output_path, file))
            print(f"📥 Перенос: {file} → {region_output_path}")

print("\n✅ Все регионы собраны в папку 'итоговые_файлы'")



📂 Обрабатывается региональная папка: Акмолинская

📂 Обрабатывается файл: 1- қосымша (сельские округа) — 25022025.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка
✅ Успешно обработан: 1- қосымша (сельские округа) — 25022025.xlsx

📂 Обрабатывается файл: 10-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 10-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 11-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 11-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 12-Қосымша - Акмолинская.xlsx
✅ Успешно обработан: 12-Қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 13-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 13-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 14-қосымша_Акмолинская.xlsx
✅ Успешно обработан: 14-қосымша_Акмолинская.xlsx

📂 Обрабатывается файл: 3-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 3-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 4-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 4-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 6-қосымша

KeyboardInterrupt: 

In [2]:
import os

root_dir = '.'  # Здесь лежат папки по регионам, например: 'Алматинская', 'Карагандинская' и т.д.

for subfolder in os.listdir(root_dir):
    full_path = os.path.join(root_dir, subfolder)
    if os.path.isdir(full_path):
        print(f"🔍 Обработка папки: {subfolder}")
        sorter = KATOFileSorter(input_dir=full_path, output_dir=os.path.join(full_path, 'като_файлы'))
        sorter.process_files()
        sorter.save_kato_files()

🔍 Обработка папки: Акмолинская

📂 Обрабатывается файл: 1- қосымша (сельские округа) — 25022025.xlsx
⚠️ Переход в режим обработки многоуровневого заголовка
✅ Успешно обработан: 1- қосымша (сельские округа) — 25022025.xlsx

📂 Обрабатывается файл: 10-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 10-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 11-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 11-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 12-Қосымша - Акмолинская.xlsx
✅ Успешно обработан: 12-Қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 13-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 13-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 14-қосымша_Акмолинская.xlsx
✅ Успешно обработан: 14-қосымша_Акмолинская.xlsx

📂 Обрабатывается файл: 3-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 3-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 4-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 4-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 6-қосымша - Акмолинская.xlsx

In [6]:
shutil.rmtree("./итоговые_файлы")

In [None]:
import os
import re
import shutil
import pandas as pd
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.styles import Font, Alignment
from openpyxl.utils import get_column_letter
from collections import defaultdict

class KATOFileSorter:
    """
    Класс для сортировки, объединения и экспорта Excel-файлов с кодами КАТО по регионам и приложениям.

    Основные функции:
    - Поиск Excel-файлов во входной директории.
    - Удаление ранее созданных подпапок 'като_файлы'.
    - Извлечение данных по КАТО, группировка по 6-значному коду и приложению.
    - Удаление дубликатов записей.
    - Сохранение итоговых файлов в разрезе КАТО и региона в виде отдельных Excel-файлов.

    Атрибуты:
    -----------
    input_dir : str
        Путь к директории, где находятся исходные Excel-файлы.
    output_dir : str
        Путь для сохранения обработанных файлов.
    kato_data : defaultdict
        Словарь для хранения сгруппированных данных вида kato_data[kato_code][app_title] = list of (title, DataFrame).
    kato_skip_list : set
        Множество КАТО-кодов, которые нужно исключить из многократной обработки (например, 25022025).
    already_saved_kato : set
        Множество КАТО-кодов, по которым уже были сохранены итоговые файлы.
    added_entries : set
        Хеш-множество уникальных записей для защиты от дублирования (tuple: kato, app, filename).

    Методы:
    --------
    delete_kato_subfolders()
        Удаляет все подпапки с названием, начинающимся на 'като_файлы' во входной директории.
    
    get_excel_files() -> list
        Рекурсивно ищет все `.xlsx` файлы в input_dir и возвращает их пути.

    make_unique_columns(columns: list) -> list
        Делает названия колонок уникальными, добавляя суффиксы (_1, _2...) при повторениях.

    combine_column(col_tuple: tuple) -> str
        Объединяет кортежи названий колонок из многоуровневого заголовка в одну строку.

    extract_app_number(name: str) -> int
        Извлекает номер приложения из названия строки или файла. Используется для сортировки.

    get_region_folder(kato_code: str) -> str
        Определяет название области на основе первых двух цифр КАТО-кода.

    process_files()
        Основной метод для обработки всех Excel-файлов:
        - ищет приложения и заголовки,
        - извлекает таблицы и КАТО,
        - группирует по 6-значному корню КАТО и приложению,
        - предотвращает дублирование данных.

    save_kato_files()
        Сохраняет сгруппированные данные по КАТО в Excel-файлы по регионам.
        Каждое приложение добавляется как отдельный лист с форматированием заголовков и автошириной колонок.
    """
    MAX_WIDTH = 30
    REGION_CODES = {
        "11": "Акмолинская", "15": "Актюбинская", "19": "Алматинская",
        "23": "Атырауская", "63": "Восточно-Казахстанская", "71": "Астана",
        "75": "Алматы", "79": "Шымкент", "31": "Жамбылская",
        "27": "Западно-Казахстанская", "35": "Карагандинская", "39": "Костанайская",
        "43": "Кызылордиснкая", "47": "Мангистауская", "10": "область Абай",
        "33": "область Жетісу", "62": "область Ұлытау", "55": "Павлодарская",
        "59": "Северо-Казахстанская", "61": "Туркестанская"
    }

    def __init__(self, input_dir='.', output_dir='итоговые_файлы'):
        self.input_dir = input_dir
        self.output_dir = output_dir
        os.makedirs(self.output_dir, exist_ok=True)
        self.kato_data = defaultdict(lambda: defaultdict(list))
        self.kato_skip_list = {'25022025'}
        self.already_saved_kato = set()
        self.added_entries = set()

    def delete_kato_subfolders(self):
        deleted = 0
        for root, dirs, _ in os.walk(self.input_dir):
            for d in dirs:
                if d.lower().startswith("като_файлы"):
                    full_path = os.path.join(root, d)
                    try:
                        shutil.rmtree(full_path)
                        print(f"🗑 Удалена папка: {full_path}")
                        deleted += 1
                    except Exception as e:
                        print(f"⚠️ Не удалось удалить {full_path}: {e}")
        print(f"\n✅ Удалено {deleted} старых папок 'като_файлы'")

    def make_unique_columns(self, columns):
        seen = {}
        new_columns = []
        for col in columns:
            col = col.strip()
            if col in seen:
                seen[col] += 1
                new_columns.append(f"{col}_{seen[col]}")
            else:
                seen[col] = 0
                new_columns.append(col)
        return new_columns

    def combine_column(self, col_tuple):
        parts = [str(x).strip() for x in col_tuple if str(x).strip().lower() != 'nan' and 'Unnamed' not in str(x)]
        return ' / '.join(parts)

    def extract_app_number(self, name):
        match = re.search(r'(\d{1,2})', name)
        return int(match.group(1)) if match else 9999

    def get_region_folder(self, kato_code):
        region_prefix = kato_code[:2]
        return self.REGION_CODES.get(region_prefix, 'Прочее')

    def get_excel_files(self):
        excel_files = []
        for root, _, files in os.walk(self.input_dir):
            for file in files:
                if file.lower().endswith('.xlsx'):
                    excel_files.append(os.path.join(root, file))
        return excel_files

    def process_files(self):
        self.delete_kato_subfolders()
        all_excel_files = self.get_excel_files()
        print(f"\n🔍 Найдено Excel-файлов: {len(all_excel_files)}")

        for file_path in all_excel_files:
            file = os.path.basename(file_path)
            print(f"\n📂 Обрабатывается файл: {file}")

            try:
                preview = pd.read_excel(file_path, header=None, nrows=15)
                app_idx = None
                header_idx = None

                for i, row in preview.iterrows():
                    line = ' '.join([str(cell) for cell in row if pd.notna(cell)]).lower()
                    if app_idx is None and re.search(r'(\d{1,2})[- ]*(қосымша|kosymsha|приложение)', line):
                        app_idx = i
                    if header_idx is None and any("кaто" in str(cell).lower() or "kato" in str(cell).lower() for cell in row):
                        header_idx = i
                    if app_idx is not None and header_idx is not None:
                        break

                app_number = self.extract_app_number(file)
                app_title = f"Приложение-{app_number}"
                title_row = app_title

                if header_idx is not None:
                    if app_idx is not None and app_idx + 1 < header_idx:
                        title_row = ' '.join([str(cell) for cell in preview.iloc[app_idx + 1] if pd.notna(cell)])
                    df = pd.read_excel(file_path, header=header_idx, dtype=str)
                    df.columns = self.make_unique_columns([str(col) for col in df.columns])
                else:
                    print("⚠️ Переход в режим многоуровневого заголовка")
                    with pd.ExcelFile(file_path) as xls:
                        top_row = pd.read_excel(xls, header=None, nrows=1).iloc[0, 0]
                    title_row = str(top_row)
                    df = pd.read_excel(file_path, header=[1, 2, 3], engine='openpyxl', dtype=str)
                    df.columns = [self.combine_column(col) for col in df.columns]
                    df.columns = self.make_unique_columns(df.columns)

                df = df.dropna(how='all')
                df = df[~df.apply(lambda row: all(str(cell).strip().lower() in ['filt', 'nan', 'none', ''] for cell in row), axis=1)]

                kato_col_candidates = [col for col in df.columns if "kato" in col.lower()]
                if not kato_col_candidates:
                    kato1_col = [col for col in df.columns if "КАТО" in col]
                    if not kato1_col:
                        print(f"⚠️ Нет колонки КАТО в файле: {file}")
                        continue
                    kato_col_candidates.append(kato1_col[0])

                kato_col = kato_col_candidates[0]
                df[kato_col] = df[kato_col].astype(str).str.strip()
                df = df[df[kato_col].notna() & (df[kato_col].str.strip() != '')]
                df['kato_root'] = df[kato_col].str[:6]

                for kato_root, group_df in df.groupby('kato_root'):
                    if not kato_root.isdigit():
                        continue

                    entry_id = (kato_root, app_title, os.path.basename(file_path))
                    if entry_id in self.added_entries:
                        continue
                    self.added_entries.add(entry_id)
                    
                    self.kato_data[kato_root][app_title].append((title_row, group_df.drop(columns=['kato_root'])))

                print(f"✅ Успешно обработан: {file}")

            except Exception as e:
                print(f"❌ Ошибка при обработке файла {file}: {e}")

    def save_kato_files(self):
        for kato_code, app_dict in self.kato_data.items():
            if kato_code in self.kato_skip_list and kato_code in self.already_saved_kato:
                print(f"⏭ Пропущен повторяющийся КАТО: {kato_code}")
                continue

            region_name = self.get_region_folder(kato_code)
            region_folder = os.path.join(self.output_dir, region_name)
            os.makedirs(region_folder, exist_ok=True)

            wb = Workbook()
            wb.remove(wb.active)
            sorted_apps = sorted(app_dict.items(), key=lambda x: self.extract_app_number(x[0]))

            for app_title, entries in sorted_apps:
                sheet_name = app_title[:31]
                ws = wb.create_sheet(title=sheet_name)

                for title_row, df in entries:
                    ws.append([title_row])
                    ws.append([app_title])
                    ws["A1"].font = Font(bold=True, size=14)
                    ws["A1"].alignment = Alignment(horizontal='left')
                    ws.merge_cells(start_row=1, start_column=1, end_row=1, end_column=len(df.columns))

                    ws["A2"].font = Font(bold=True)
                    ws["A2"].alignment = Alignment(horizontal='left')
                    ws.merge_cells(start_row=2, start_column=1, end_row=2, end_column=len(df.columns))

                    for i, row in enumerate(dataframe_to_rows(df, index=False, header=True), start=3):
                        ws.append(row)
                        if i == 3:
                            for cell in ws[i]:
                                cell.font = Font(bold=True)
                                cell.alignment = Alignment(horizontal='center')

                    for i, col in enumerate(ws.columns, start=1):
                        max_length = 0
                        for cell in col:
                            try:
                                if cell.value:
                                    max_length = max(max_length, len(str(cell.value)))
                            except:
                                pass
                        adjusted_width = min(max_length + 2, self.MAX_WIDTH)
                        col_letter = get_column_letter(i)
                        ws.column_dimensions[col_letter].width = adjusted_width

            filename = f"{kato_code}.xlsx"
            output_path = os.path.join(region_folder, filename)
            wb.save(output_path)
            print(f"📄 Сохранён: {output_path}")
            self.already_saved_kato.add(kato_code)

        print("\n🎉 Все файлы сохранены в итоговые_файлы/ОБЛАСТЬ/")


In [2]:
sorter = KATOFileSorter(input_dir='.')
sorter.delete_kato_subfolders()
sorter.process_files()
sorter.save_kato_files()


✅ Удалено 0 старых папок 'като_файлы'

✅ Удалено 0 старых папок 'като_файлы'

🔍 Найдено Excel-файлов: 202

📂 Обрабатывается файл: 1- қосымша (сельские округа) — 25022025.xlsx
⚠️ Переход в режим многоуровневого заголовка
✅ Успешно обработан: 1- қосымша (сельские округа) — 25022025.xlsx

📂 Обрабатывается файл: 10-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 10-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 11-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 11-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 12-Қосымша - Акмолинская.xlsx
✅ Успешно обработан: 12-Қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 13-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 13-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 14-қосымша_Акмолинская.xlsx
✅ Успешно обработан: 14-қосымша_Акмолинская.xlsx

📂 Обрабатывается файл: 3-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 3-қосымша - Акмолинская.xlsx

📂 Обрабатывается файл: 4-қосымша - Акмолинская.xlsx
✅ Успешно обработан: 4-қосымша - Акм