In [22]:
docx_path = r'.\ftp\Книга_8.1.3\26_ДСиР-2022-864-Р-8.1.3.СО.docx'

In [23]:
from docx import Document
import pandas as pd
import numpy as np

# Загрузка данных из Word документа
doc = Document(docx_path)
data = []
for table in doc.tables:
    for row in table.rows:
        row_data = [cell.text for cell in row.cells]
        data.append(row_data)

df = pd.DataFrame(data)

# Функция для вычисления схожести двух столбцов (игнорирует пустые значения)
def calculate_similarity(col1, col2):
    # Создаем маску для непустых значений в обоих столбцах
    mask = (~df[col1].isna()) & (~df[col2].isna())
    
    # Если нет пар для сравнения, возвращаем 0
    if mask.sum() == 0:
        return 0
    
    # Считаем совпадения только для непустых значений
    matches = (df.loc[mask, col1] == df.loc[mask, col2]).sum()
    total = mask.sum()
    
    return (matches / total) * 100

# Находим группы подряд идущих схожих столбцов
groups = []
current_group = [df.columns[0]]

for i in range(1, len(df.columns)):
    current_col = df.columns[i]
    prev_col = df.columns[i-1]
    
    similarity = calculate_similarity(prev_col, current_col)
    
    if similarity > 80:
        current_group.append(current_col)
    else:
        groups.append(current_group)
        current_group = [current_col]

# Добавляем последнюю группу
groups.append(current_group)

# Формируем список столбцов для удаления (все кроме первого в каждой группе)
columns_to_keep = []
columns_to_drop = []

for group in groups:
    if len(group) > 1:
        columns_to_keep.append(group[0])
        columns_to_drop.extend(group[1:])
    else:
        columns_to_keep.extend(group)

# Удаляем столбцы
df_cleaned = df[columns_to_keep]
df_cleaned[:10]

Unnamed: 0,0,1,2,3,5,7,9,11,13,15
0,Поз.,Наименование и техническая\nхарактеристика,Наименование и техническая\nхарактеристика,Наименование и техническая\nхарактеристика,"Тип, марка, \nобозначение документа,\n опросно...",Код продукции,Поставщик,Ед. измере-\nния,Кол.,"Масса \n1 ед., \nкг"
1,1,2,2,2,3,4,5,6,7,8
2,,Технологические решения,Технологические решения,Технологические решения,,,,,,
3,,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...
4,,1,Линейные сооружения кабельных линий связи,,,,,,,
5,,1.1,Кабельная канализация в грунте. Трубы,,,,,,,
6,,1.1.1,Труба двустенная ПНД гибкая для кабельной кана...,ГОСТ Р МЭК 61386.24-2014,121963A,«ДКС»,м,16,021,
7,,1.1.2,"Заглушка для трубы ПНД, d=63мм",,023063,«ДКС»,шт.,4,001,
8,,1.1.3,Лента сигнальная 450мм,,120808-00024,"ЗАО ""Связьстройдеталь""",м,16,0602,
9,,1.2,Кабельная канализация в грунте. Колодцы,,,,,,,


In [24]:
df[:10]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,Поз.,Наименование и техническая\nхарактеристика,Наименование и техническая\nхарактеристика,Наименование и техническая\nхарактеристика,"Тип, марка, \nобозначение документа,\n опросно...","Тип, марка, \nобозначение документа,\n опросно...",Код продукции,Код продукции,Поставщик,Поставщик,Ед. измере-\nния,Ед. измере-\nния,Кол.,Кол.,"Масса \n1 ед., \nкг","Масса \n1 ед., \nкг",Примечание
1,1,2,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9
2,,Технологические решения,Технологические решения,Технологические решения,,,,,,,,,,,,,
3,,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...,Мост на автомобильной дороге М-11 через р. Тве...
4,,1,Линейные сооружения кабельных линий связи,,,,,,,,,,,,,,
5,,1.1,Кабельная канализация в грунте. Трубы,,,,,,,,,,,,,,
6,,1.1.1,Труба двустенная ПНД гибкая для кабельной кана...,ГОСТ Р МЭК 61386.24-2014,ГОСТ Р МЭК 61386.24-2014,121963A,121963A,«ДКС»,«ДКС»,м,м,16,16,021,021,,
7,,1.1.2,"Заглушка для трубы ПНД, d=63мм",,,023063,023063,«ДКС»,«ДКС»,шт.,шт.,4,4,001,001,,
8,,1.1.3,Лента сигнальная 450мм,,,120808-00024,120808-00024,"ЗАО ""Связьстройдеталь""","ЗАО ""Связьстройдеталь""",м,м,16,16,0602,0602,,
9,,1.2,Кабельная канализация в грунте. Колодцы,,,,,,,,,,,,,,
