In [None]:
#%pip install easyocr

### 7번 클래스를 진료확인서 = 7, 통원확인서 = 17로 변경
- 변경 후 학습, 학습 후 예측값 후처리 예정 

In [1]:
import os
import pandas as pd
from easyocr import Reader
import re

In [2]:
# 경로 설정
csv_file_path = '../data/new_train.csv'
images_folder_path = '../data/train'

In [3]:
# CSV 파일 로드
df = pd.read_csv(csv_file_path)

In [4]:
# EasyOCR 리더 초기화
reader = Reader(['ko'])

In [5]:
# 'target' 값을 7로 갖는 행을 필터링
df_target_7 = df[df['target'] == 7]

In [6]:
# 텍스트에서 숫자, 공백, 및 특수문자 제거하는 함수
def clean_text(text):
    # 숫자와 특수문자, 공백을 모두 제거하고 한글만 남기기
    cleaned_text = re.sub(r'[^가-힣]', '', text)
    return cleaned_text

for index, row in df_target_7.iterrows():
    image_file_path = os.path.join(images_folder_path, row['ID'])
    
    if os.path.isfile(image_file_path):
        # 이미지에서 텍스트 추출
        results = reader.readtext(image_file_path)
        
        # 텍스트 결과를 문자열로 변환
        text = ' '.join([result[1] for result in results])
        
        # 텍스트 정리
        cleaned_text = clean_text(text)
        
        # '통원'이 텍스트에 포함되어 있으면 target 값을 17로 변경
        if '통원' in cleaned_text:
            df.at[index, 'target'] = 17



In [7]:
cleaned_text

'미니세묘써터다입원지용원확인서구민번도상서탕명역어버밥자너가터나회주장가업좌르넣일일월밑법입밑동연일자내티밑간상기명환자느본입어녀말하여위화은법딩므로지료하고마잎묘하옆라인합니다타용원입마기고다쉬삼공의하주의짙화법건고가바어미이다'

In [8]:
len(df[df['target']==17])

24

In [9]:
df_index = df[df['target']==17].index
df_index

Index([  20,   44,  137,  165,  168,  216,  276,  402,  474,  502,  605,  614,
        728,  770,  917,  957, 1206, 1258, 1328, 1356, 1359, 1419, 1435, 1536],
      dtype='int64')

In [10]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import math

In [11]:
# 열 이름 수정 (필요한 열 이름으로 변경)
filename_col = 'ID'     # 실제 열 이름으로 변경
label_col = 'target'    # 실제 열 이름으로 변경

data_dir = '../data'
train_dir = os.path.join(data_dir, 'train')

In [12]:
# 클래스 선택 (예: 클래스 0)
selected_class = 17
# 선택한 클래스의 데이터 필터링
class_df = df[df['target'] == selected_class]


In [13]:
# 시각화할 이미지 개수 설정
num_images = 100

# 행과 열 개수 계산
num_cols = 5
num_rows = math.ceil(num_images / num_cols)

In [14]:
# # 이미지 시각화
# plt.figure(figsize=(num_cols * 4, num_rows * 6))
# for idx, row in enumerate(class_df.itertuples(), 1):
#     img_path = os.path.join(train_dir, getattr(row, filename_col))
#     img = mpimg.imread(img_path)
#     plt.subplot(num_rows, num_cols, idx)
#     plt.imshow(img)
#     plt.title(getattr(row, filename_col))  # 파일 이름을 제목으로 설정
#     plt.axis('off')

# plt.tight_layout()
# plt.show()

In [15]:
# 레이블 변경 안된 부분 수정
image_name_17 = ['1495a1e3d1599fe1.jpg',
                '3c5e27755a69ce2c.jpg',
                '4a38e395726fbc06.jpg',
                '4e5848a4ad483009.jpg',
                '6804bbcb0644bfaa.jpg',
                '733783e7eccfee05.jpg',
                '739e4dea86e517c6.jpg',
                '7960b14919ebf48a.jpg',
                '81ca8f684b6aee30.jpg',
                '8deba677308ce027.jpg',
                'd87fe6344741e8e4.jpg',
                'f66cc08a628bc668.jpg',
                'f9e939c205cea5c6.jpg',
                'feeade617aa68c45.jpg']
len(image_name_17)

14

In [16]:
for img_list in image_name_17:
    idx = df.loc[df['ID']==f'{img_list}', 'target'].index
    df.loc[df['ID']==f'{img_list}', 'target'] = 17
    print(df.loc[idx])

                       ID  target
132  1495a1e3d1599fe1.jpg      17
                       ID  target
366  3c5e27755a69ce2c.jpg      17
                       ID  target
454  4a38e395726fbc06.jpg      17
                       ID  target
485  4e5848a4ad483009.jpg      17
                       ID  target
672  6804bbcb0644bfaa.jpg      17
                       ID  target
733  733783e7eccfee05.jpg      17
                       ID  target
738  739e4dea86e517c6.jpg      17
                       ID  target
782  7960b14919ebf48a.jpg      17
                       ID  target
833  81ca8f684b6aee30.jpg      17
                       ID  target
906  8deba677308ce027.jpg      17
                        ID  target
1348  d87fe6344741e8e4.jpg      17
                        ID  target
1523  f66cc08a628bc668.jpg      17
                        ID  target
1538  f9e939c205cea5c6.jpg      17
                        ID  target
1566  feeade617aa68c45.jpg      17


In [17]:
# 수정된 데이터프레임을 새 CSV 파일로 저장
df.to_csv('../data/train_updated.csv', index=False)

print("CSV 파일이 업데이트되었습니다.")

CSV 파일이 업데이트되었습니다.


In [18]:
len(df[df['target']==17])

38

In [19]:
24+14


38