In [45]:
from typing import List, Tuple

import numpy as np
import pandas as pd
from tmp import process_korean_lines

In [46]:
pd.set_option('display.max_colwidth', 1000)

In [7]:
file_path = r"C:\Users\HAMA\workspace\tmp\lang-apply-py\src\features\mypage\screens\document_jobseeker_screen.dart"
extracted_results = process_korean_lines(file_path)

In [5]:
columns = ['Key', 'Description', 'en', 'ko', 'origin']
df = pd.DataFrame(columns=columns)

In [6]:
df['ko'] = [x['korean_phrases'] for x in extracted_results]
df['origin'] = [x['original_line'] for x in extracted_results]

df = df.replace({np.nan: None})

In [None]:
# 정규식 조건 설정
exclude_patterns = [r'\$\{', r'\{']  # `${` or `{` pattern
pattern = '|'.join(exclude_patterns)  # Join patterns with OR

# 필터링 조건 적용
df_manual = df[df['origin'].str.contains(pattern, regex=True)]  # 조건에 맞는 행 추출
df_automatic = df[~df['origin'].str.contains(pattern, regex=True)]  # 조건에 맞지 않는 행 추출

In [8]:
df_manual

Unnamed: 0,Key,Description,en,ko,origin
0,,,,)}년,"formattedDate = '${dateTime.year.toString().padLeft(4, '0')}년 '"
1,,,,)}월,"'${dateTime.month.toString().padLeft(2, '0')}월 '"
2,,,,)}일,"'${dateTime.day.toString().padLeft(2, '0')}일';"
3,,,,)}년,"formattedDate = '${dateTime.year.toString().padLeft(4, '0')}년 '"
4,,,,)}월,"'${dateTime.month.toString().padLeft(2, '0')}월 '"
5,,,,)}일,"'${dateTime.day.toString().padLeft(2, '0')}일';"


In [9]:
df_automatic

Unnamed: 0,Key,Description,en,ko,origin
6,,,,계약서/사직서,"title: '계약서/사직서',"
7,,,,계약서,"tabTitleArr: const ['계약서', '사직서'],"
8,,,,사직서,"tabTitleArr: const ['계약서', '사직서'],"
9,,,,작성된 계약서가 없습니다.,": const CommonEmpty(text: '작성된 계약서가 없습니다.'),"
10,,,,작성된 사직서가 없습니다.,": const CommonEmpty(text: '작성된 사직서가 없습니다.'),"


In [5]:
def split_extracted_results(parsed_data) -> Tuple[List]:
    # Default dataframe structure
    df_columns = ['Key', 'Description', 'en', 'ko', 'origin']
    results_df = pd.DataFrame(columns=df_columns)
    
    # Assign values
    results_df['ko'] = [x['korean_phrases'] for x in parsed_data]
    results_df['origin'] = [x['original_line'] for x in parsed_data]
    
    # Replace NaN with None
    results_df = results_df.replace({np.nan: None})
    
    # Patterns to exclude
    exclude_patterns = [r'\$\{', r'\{']  # `${` or `{` pattern
    exclude_pattern_regex = '|'.join(exclude_patterns)  # Join patterns with OR
    
    # Split into manual and automatic dataframes
    manual_entries_df = results_df[results_df['origin'].str.contains(exclude_pattern_regex, regex=True)]
    automatic_entries_df = results_df[~results_df['origin'].str.contains(exclude_pattern_regex, regex=True)]
    
    # Convert to lists
    manual_entries_list = manual_entries_df.values.tolist()
    automatic_entries_list = automatic_entries_df.values.tolist()
    
    return manual_entries_list, automatic_entries_list


In [42]:

from task import KoreanTextPipeline


path_dir = r"C:\Users\HAMA\workspace\tmp\lang-apply-py\src\features\mypage\screens"

pipeline = KoreanTextPipeline(path_dir)
pipeline.process_files()

In [55]:
for x in sorted(pipeline.data_automatic):
    print(x)

[None, None, None, '$origin 전체', "return '$origin 전체';"]
[None, None, None, '(가입 30일 이후 지급, 단 초대 받은 회원이 탈퇴, 재가입 할 경우 지급 안됨)', "'(가입 30일 이후 지급, 단 초대 받은 회원이 탈퇴, 재가입 할 경우 지급 안됨)',"]
[None, None, None, '- 추가 금액 충전은 고객센터 (help@chodan.co.kr, 연락 받을 전화번호도 기재)로 문의 주세요. n- 유료 충전한 초단코인은 유효기간이 1년입니다. 유효기간이 지나면 미사용된 초단코인은 소멸합니다. (무료지급 및 보너스 초단코인 유효기간 45일) n- 유료 충전한 초단코인은 미사용시 구매후 7일이내 청약을 철회할 수 있습니다. (세부내용은 기업회원이용약관 참고) n- 단 구매한 초단코인 또는 보너스로 추가 지급된 초단코인을 이미 사용했다면 청약철회가 불가능합니다.', "'- 추가 금액 충전은 고객센터 (help@chodan.co.kr, 연락 받을 전화번호도 기재)로 문의 주세요.\\n- 유료 충전한 초단코인은 유효기간이 1년입니다. 유효기간이 지나면 미사용된 초단코인은 소멸합니다. (무료지급 및 보너스 초단코인 유효기간 45일)\\n- 유료 충전한 초단코인은 미사용시 구매후 7일이내 청약을 철회할 수 있습니다. (세부내용은 기업회원이용약관 참고)\\n- 단 구매한 초단코인 또는 보너스로 추가 지급된 초단코인을 이미 사용했다면 청약철회가 불가능합니다.',"]
[None, None, None, '---답변입니다.', '//           const Text("---답변입니다."),']
[None, None, None, '0 초코', "? '0 초코'"]
[None, None, None, '0 초코', "? '0 초코'"]
[None, None, None, '0 초코', "? '0 초코'"]
[None, None, None, '0 초코', "? '0 초코'"]
[None, None, None, '0

In [None]:
unique_data = []
seen_values = set()
for row in pipeline.data_automatic:
    if row[4] not in seen_values:
                
        unique_data.append(row)
        
        # seen_values.add(row[4])

TypeError: unhashable type: 'list'