In [2]:
import pandas as pd
import numpy as np
from pathlib import Path

CURR_DIR = Path.cwd()

### JSON to csv

In [4]:
json_file = 'clean_data2.json'
output_csv_file = 'clean_data3.csv'

json_path = CURR_DIR / json_file
output_csv_file_path = CURR_DIR / output_csv_file

with open(json_path, encoding='utf-8') as input_file:
    df = pd.read_json(input_file)

df.to_csv(output_csv_file_path, encoding='utf-8', index=False)

### CSV to json

In [None]:
csv_file = 'raw_precleaned.csv'
output_json_file = 'raw_precleaned.json'

csv_path = CURR_DIR / csv_file
output_json_file_path = CURR_DIR / output_json_file

with open(csv_path, encoding='utf-8') as input_file:
    df = pd.read_csv(input_file)

df.to_json(output_json_file_path, index=False, force_ascii=False)

In [10]:
import csv
import json
import random

def csv_to_json(csv_file_path, json_file_path):
    """
    Преобразует CSV файл в JSON файл
    """
    data = []
    
    # Чтение CSV файла
    with open(csv_file_path, 'r', encoding='utf-8') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        
        # Преобразование каждой строки в словарь
        for row in csv_reader:
            if '_LLM' in row['idx']:
                if random.choice([0, 1]):
                    continue
            data.append({'idx': row['idx'], 'text': row['text'], 'label': row['label']})
    
    # Запись в JSON файл
    with open(json_file_path, 'w', encoding='utf-8') as json_file:
        json.dump(data, json_file, ensure_ascii=False, indent=4)
    
    print(f"Файл успешно преобразован: {csv_file_path} -> {json_file_path}")

# Пример использования
if __name__ == "__main__":
    csv_to_json('augmented_trans_and_shuffle_raw_tags.csv', 'augmented_trans_and_shuffle_raw_tags.json')

Файл успешно преобразован: augmented_trans_and_shuffle_raw_tags.csv -> augmented_trans_and_shuffle_raw_tags.json


### Удаление по IDX

In [None]:
csv_file = 'чистый_без_удаления_текстовудалены_только_битые.csv'
json_file = 'raw_del.json'
output_csv_file = 'чистый_без_удаления_текстовудалены_только_битые.csv'
# idxes = '1310 4377 5586 5587 5749 5758 5955 6053 6925 7033 7118 1326 1355 4347 4424 4445 4447 4467 4664 4678 4725 512 5535 5552 5602 5659 5682 5831 5909 5931 5980 6154 6344 6485 6569 7012 5906 6666 6884 7047 5811'.split()
idxes = ['4627', '4628', '1245', '4367', '1252', '5733', '5734', '1253', '6018', '6020', '6502', '7078', '1254', '1265', '1282', '1283', '1329', '4476', '4478', '4543', '6097', '4545', '6098', '4616', '4708', '5635', '4738', '4739', '4811', '6158', '5673', '5674', '6888', '7004', '6971', '6048', '7070', '7069', '6600', '6890', '7255', '7296', '7297', '1183', '4393', '4530', '5687', '5772', '6399', '6588']
# idxes = ['1326', '5659', '5906', '5811', '1235']
print(idxes)
# idxes = ['4377', '5586', '5587', '5749', '5758', '5955', '6053', '6925']
# idxes = ['4377', '5586', '5587', '5749', '5758', '5955', '6053', '6925', '1263', '4347', '4447', '512', '5602', '5682', '5831', '5909', '6154', '6344', '7012', '6666', '7047', '6884']
# idxes = ['6029', '6526', '6644', '5931', '5980']
# idxes = ['6029']

idxes_array = np.array(idxes)

df = pd.read_csv(csv_file)
# df = pd.read_json(json_file)

mask = ~df['idx'].isin(idxes_array)
df = df[mask]

df.to_csv(output_csv_file)
# df.to_csv('raw_del2.csv')
df

['1326', '5659', '5906', '5811', '1235']


Unnamed: 0.1,Unnamed: 0,idx,text,label
0,0,10026,персона_тег уважаемый персона_тег! организация...,Блок директора по проектированию
1,1,1005,организация_тег инжиниринг общество с ограниче...,Блок деректора по газу
2,2,1010,организация_тег инвест общество с ограниченной...,Блок заместителя генерального директора по без...
3,3,1013,организация_тег филиал объект_тег имени персон...,Блок технического директора
4,4,10186,организация_тег заместитель генерального дирек...,Блок директора по проектированию
...,...,...,...,...
1416,1416,7295,организация_тег юридический адрес: локация_тег...,Блок технического директора
1417,1417,7296,организация_тег сообщает персона_тег о готовно...,Блок технического директора
1418,1418,7297,организация_тег юридический адрес: локация_тег...,Блок технического директора
1419,1419,27278G,ооо [название_компании] контактная информация:...,Проект «Трубопроводный транспорт Ещё одного НГКМ»


### Очистка vs удаление

In [23]:
def remove_duplicates_instr(text: str, spaces: int = 3) -> str:
    # spaces - через сколько слов происходит разрыв    
    splitted_text = text.split()
    index = 0
    while index < len(splitted_text):
        other_substr = list(filter(lambda x: x[1] == splitted_text[index], [(k, splitted_text[k]) for k in range(index+1, len(splitted_text))]))
        if len(other_substr) == 0:
            index+=1
            continue
        new_other_substr = [other_substr[0]]
        for j in range(1, len(other_substr)):
            if new_other_substr[-1][0] + spaces < other_substr[j][0]:
                break
            new_other_substr.append(other_substr[j])
        for j in new_other_substr:
            splitted_text[j[0]] = ''
        splitted_text = [j for j in splitted_text if j != '']
        index+=1
    return ' '.join(splitted_text)

In [None]:
csv_file = 'clean_data1.csv'
output1_csv_file = 'clean_data_del.csv'
output2_csv_file = 'clean_data_cut.csv'

idxes = ['']

df = pd.read_csv(csv_file)
result1_df = df.copy()
result2_df = df.copy()

# Преобразуем idxes в numpy array
idxes_array = np.array(idxes)

# Создаем маску для строк, которые нужно обработать
mask1 = ~result1_df['idx'].isin(idxes_array)
mask2 = result2_df['idx'].isin(idxes_array)

# Обрабатываем строки
result1_df = result1_df[mask]
result2_df.loc[mask, 'text'] = result2_df.loc[mask, 'text'].apply(lambda x: remove_duplicates_instr(x))

result1_df.to_csv(output1_csv_file)
result2_df.to_csv(output2_csv_file)

### Список тегов

In [None]:
csv_file = 'raw_data.csv'
df = pd.read_csv(csv_file)

tags = set()

for text in df['text']:
    # print(text)
    text = text.replace('.', ' ').replace('-', ' ').replace('/', ' ').replace('–', ' ').replace('*', ' ').replace('x', ' ')
    tokens = text.split()
    for token in tokens:
        if token[0] == '[' and token[-1] == ']' and token.count('[') == 1:
            tags.add(token)
            
# print(tags)
# for i in tags:
#     print(i)
print(list(tags))

['[PROJECT]', '[TYPE]', '[SIZE]', '[НОМЕР_ОБЪЕКТА]', '[REGIONAL_OFFICE]', '[NUMBER]', '[MUNICIPAL_DISTRICT]', '[OGRN]', '[CITY]', '[TIME]', '[DIMENSIONS]', '[NUMBER_OF_PAGES]', '[PRODUCT]', '[SIGNATURE]', '[SERVICE_AREA]', '[LAW_NUMBER]', '[QUANTITY]', '[PAGE]', '[PRODUCT_MARK]', '[PROJECT_NUMBER]', '[EXECUTIVE_DIRECTOR]', '[TEMPERATURE]', '[DOMAIN]', '[FILIAL]', '[DATE]', '[KPP]', '[VOLUME]', '[RESOURCE_TYPES]', '[SKVAGH_NUMBER]', '[DIAGNOSIS]', '[PAGE_NUMBER]', '[FRACTION]', '[WORK_TYPE]', '[ELECTRONIC_SIGNATURE]', '[DOCUMENT_SIGNATURE]', '[NETWORK]', '[NAME_OF_FIELD]', '[DISTANCE]', '[AUTONOMOUS_REGION]', '[URL]', '[DISTRICT]', '[DIRECTOR]', '[PLACE]', '[PLAN]', '[CHEMICAL_REAGENT]', '[WWW]', '[TITLE]', '[PROJECT_NAME]', '[PHONE_PROVIDER]', '[SYSTEM]', '[REGION]', '[ID]', '[LICENSE]', '[CURRENCY]', '[BIC]', '[PIPELINE]', '[AREA]', '[RIVER]', '[DEPOSITS]', '[ЛОКАЦИЯ]', '[ACTIVITY]', '[LENGTH]', '[DELIVERY_DATE]', '[BANK_ID]', '[YEAR]', '[JOB_TITLE]', '[TYPE_OF_ORDER]', '[WORK]', '[CE

: 

In [3]:
csv_file = 'raw_data.csv'
df = pd.read_csv(csv_file)

sm = 0

for text in df['text']:
    sm += len(text)
    
sm

4308150