### label 검토하기  

In [2]:
%pip install deep-translator

Note: you may need to restart the kernel to use updated packages.


In [6]:
# 필요한 라이브러리 설치 및 가져오기
import pandas as pd
from deep_translator import GoogleTranslator  # deep-translator의 GoogleTranslator 사용
from IPython.display import clear_output  # 출력 내용을 지우기 위해 사용

# CSV 파일 읽기 
targetNum = 35
file_path = f'first_Data/labeling_{targetNum}_gpt.csv'  # CSV 파일 경로를 여기에 입력하세요
data = pd.read_csv(file_path)

In [4]:
# 번역 및 레이블링 준비
translator = GoogleTranslator(source='en', target='ko')  # 영어를 한글로 번역 

# 검토할 행만 필터링 (label이 1 또는 -1인 경우)
data_to_review = data[(data['label'] != 0)].copy()

# 번역 함수 (3000자 제한)
def translate_text_limited(content, max_length=3000):
    truncated_content = content[:max_length]  # 3000자 제한
    try:
        return translator.translate(truncated_content)
    except Exception as e:
        return f"[번역 실패] {e}"

# 검토 및 수정 함수
def review_and_update(index, content, current_label):
    clear_output(wait=True)
    translated_content = translate_text_limited(content)
    
    print(f"행 번호: {index + 1}\n현재 라벨: {current_label}\n번역된 내용:\n{translated_content}\n")
    
    while True:
        try:
            new_label = int(input("라벨을 수정하려면 새로운 값을 입력하세요 (-1, 0, 1, 종료하려면 9): "))
            if new_label in [-1, 0, 1]:
                return new_label
            elif new_label == 9:
                print("진행 상황을 저장하고 종료합니다...")
                data.to_csv(f'labeling_{targetNum}.csv', index=False, encoding='utf-8-sig')
                exit()
            else:
                print("올바른 값을 입력하세요 (-1, 0, 1, 종료하려면 9).")
        except ValueError:
            print("숫자를 입력하세요.")

In [5]:
# 검토 프로세스 실행
for i in data_to_review.index:
    content = data.loc[i, 'content']
    current_label = data.loc[i, 'label']
    updated_label = review_and_update(i, content, current_label)
    data.loc[i, 'label'] = updated_label  # 업데이트

    # 변경 사항 즉시 저장
    data.to_csv(f'labeling_{targetNum}.csv', index=False, encoding='utf-8-sig')

print(f"검토 완료! 결과가 'labeling_{targetNum}.csv'에 저장되었습니다.")

행 번호: 540
현재 라벨: -1
번역된 내용:
감사합니다!

그 메시지가 제게 트리거가 되었던 것 같아요. 평생 그런 말을 들었거든요. 저는 매우 깨끗하게 먹는 사람이기 때문에 정크푸드를 많이 먹어서 냄새가 난다고 들었는데, 정크푸드를 먹지 않는데도요. 실망스럽죠.

냄새 문제가 있는 사람이 더 많이 씻으라고 하면, 물론 그들은 이미 평균적인 사람보다 더 많이 씻는데, 우리는 그들이 더럽고 위생 상태가 나쁘다고 가정할 뿐이에요. 다시 말하지만, 실망스럽죠.

당신에게 맞는 것을 찾으셔서 기쁩니다. 저는 저에게 맞는 것을 찾았고 계속 사용할 것입니다.

저는 향이 없는 아기 비누와 같은 비슷한 제품으로 씻기도 하는데, 전에도 그렇게 했었는데 샤워하고 5분 후에 양파 냄새가 났어요.

저는 많은 연구를 했고 많은 혼란을 겪었기 때문에 다른 사람이 비슷한 문제를 겪고 있다면 공유할 수 있는 기적을 발견하게 되어 기뻤습니다.

검토 완료! 결과가 'labeling_34.csv'에 저장되었습니다.


### 통합코드! 

In [None]:
%pip install deep-translator

In [1]:
# 필요한 라이브러리 설치 및 가져오기
import pandas as pd
from deep_translator import GoogleTranslator  # deep-translator의 GoogleTranslator 사용
from IPython.display import clear_output  # 출력 내용을 지우기 위해 사용

In [None]:
import pandas as pd
from deep_translator import GoogleTranslator  
from IPython.display import clear_output  

# CSV 파일 읽기 
targetNum = 30
file_path = f'labeling_{targetNum}.csv'
data = pd.read_csv(file_path)

# 번역기 설정
translator = GoogleTranslator(source='en', target='ko')

# 검토할 행만 필터링 (label이 0인 경우)
data_to_review = data[data['label'] == 0].copy()

# 결측값(NaN) 처리
data_to_review['content'] = data_to_review['content'].fillna('')

# 번역 함수 (3000자 제한)
def translate_text_limited(content, max_length=3000):
    if isinstance(content, float):  # NaN 값이 float으로 변환됨 → 빈 문자열 처리
        content = ""

    truncated_content = content[:max_length]

    try:
        return translator.translate(truncated_content)
    except Exception as e:
        return f"[번역 실패] {e}"

# 검토 및 수정 함수
def review_and_update(index, content, current_label):
    clear_output(wait=True)
    translated_content = translate_text_limited(content)
    
    print(f"행 번호: {index + 1}\n현재 라벨: {current_label}\n번역된 내용:\n{translated_content}\n")
    
    while True:
        try:
            new_label = int(input("라벨을 수정하려면 새로운 값을 입력하세요 (-1, 0, 1, 2) 또는 종료하려면 9: "))
            if new_label in [-1, 0, 1, 2]:
                if new_label == -1:
                    return "none"
                elif new_label == 0:
                    return "Neutral"
                elif new_label == 1:
                    return "Offender"
                elif new_label == 2:
                    return "Victim"
            elif new_label == 9:
                print("진행 상황을 저장하고 종료합니다...")
                return 9  # 종료 신호 반환
            else:
                print("올바른 값을 입력하세요 (-1, 0, 1, 2, 종료하려면 9).")
        except ValueError:
            print("숫자를 입력하세요.")

# 검토 프로세스 실행
for i in data_to_review.index:
    content = data.loc[i, 'content']
    current_label = data.loc[i, 'label']
    updated_label = review_and_update(i, content, current_label)
    
    if updated_label == 9:
        break  # 사용자가 9를 입력하면 즉시 종료
    
    data.at[i, 'label'] = updated_label  # 업데이트

# 변경 사항을 한 번만 저장
data.to_csv(f'labeling_{targetNum}.csv', index=False, encoding='utf-8-sig')
print(f"검토 완료! 결과가 'labeling_{targetNum}.csv'에 저장되었습니다.")


행 번호: 63
현재 라벨: 0
번역된 내용:
대화 중에 나는 그와 성적 학대라는 기본 주제를 담고 있고 그렇게 모호하지 않은 시를 공유하게 되었고, 그래서 그 시가 조금 문을 열었다고 생각합니다. 또한 우리는 둘 다 갑자기 예민해지는 사람을 좋아하지 않는다는 것에 대해서도 이야기했고, 그래서 우리는 그 아이디어를 어느 정도 몰래 엿보았다고 생각합니다. 만약 상황이 계속 잘된다면, 대화가 자연스럽게 시작될 때까지 그 주제에 대해 더 많은 암시를 할 것입니다.

진행 상황을 저장하고 종료합니다...
검토 완료! 결과가 'labeling_30.csv'에 저장되었습니다.
