In [11]:
import pandas as pd
import re

with open('./data/pure_solarko.txt', 'r', encoding='utf-8') as file:
    content = file.read()

def parse_text(text):
    raw_source = None
    type_ = None
    generated_text = None
    
    # Extract raw source
    raw_source_match = re.search(r"### Raw Source:(.*?)(?=\n###|$)", text, re.DOTALL)
    if raw_source_match:
        raw_source = raw_source_match.group(1).strip()
    
    # Extract type
    type_match = re.search(r"### (Product Title|Detailed Description|Related Keywords):", text)
    if type_match:
        type_ = type_match.group(1).strip()
    
    generated_text_match = re.search(r"Generated Text:.*?\n\n(.*?)(?=--------------------------------------------------------------------------------|$)", text, re.DOTALL)
    if generated_text_match:
        generated_text_block = generated_text_match.group(1).strip()
        # Now capture the actual core part after the second occurrence of \n\n
        core_match = re.search(r"\n\n(.*)", generated_text_block, re.DOTALL)
        if core_match:
            generated_text = core_match.group(1).strip()
    
    return raw_source, type_, generated_text

# Split the content by "Prompt"
prompts = content.split("Prompt:")

# Initialize lists to store parsed data
raw_sources = []
types = []
generated_texts = []

# Iterate over the split parts and parse each section
for prompt in prompts:
    if prompt.strip():  # Skip empty strings
        raw_source, type_, generated_text = parse_text(prompt)
        raw_sources.append(raw_source)
        types.append(type_)
        generated_texts.append(generated_text)

# Create a DataFrame with the parsed data
parsed_df = pd.DataFrame({
    'raw_source': raw_sources,
    'type': types,
    'generated_text': generated_texts
})

In [7]:
pd.set_option('display.max_colwidth', None) 

In [8]:
parsed_df.head

<bound method NDFrame.head of                                                           raw_source  \
0                                                               None   
1                지능형 감지 쓰레기통 가정용 거실 주방 전동 자동 감지 방취 쓰레기통 대용량 친환경 쓰레기통   
2              축구 운동화 남성용 2023 신형 통기성 메쉬 러닝화 경량 편안 학생 캐주얼 스포츠 트렌드 신발   
3        전자레인지 다기능 스마트 가정용 소형 베이킹 오븐 일체형 기계 고속 가열 회전 해동 전자동 식품 가공 장비   
4      2023 봄 신상품 남성 캐주얼 바지 순색 와이드핏 스트레이트 롱팬츠 비즈니스 캐주얼 바지 일상 편안한 남성복   
..                                                               ...   
106  레트로 스타일 남성 가죽 자켓 가을 겨울 더블 라이닝 보온 바이커 재킷 정품 가죽 아우터 젊은이 인기 패션 아이템   
107          보온 유단복 남성 2023 신모델 겨울용 두꺼운 방풍 방수 아웃도어 등산복 북유럽 심플 스타일 외투   
108            초춘 여성용 얇은 화이트 트렌치코트 긴팔 심플하고 세련된 출근용 OL 스타일 매력적인 라펠 겉옷   
109            지능형 다기능 전자레인지 가정용 터치스크린 정밀 온도 조절 볶음, 삶기, 구이 일체형 요리 기계   
110          어린이 스마트워치 전화 방수 위치 추적 터치스크린 학생용 다기능 게임 시계 남녀공용 2023 신제품   

                     type  \
0                    None   
1        Related Keywords   
2           Produc

In [13]:
parsed_df.to_csv("./data/pure_solarko.csv")

In [12]:
parsed_df

Unnamed: 0,raw_source,type,generated_text
0,지능형 감지 쓰레기통 가정용 거실 주방 전동 자동 감지 방취 쓰레기통 대용량 친환경 쓰레기통,Related Keywords,"지능형 쓰레기통, 쓰레기통, 쓰레기통 자동, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취, 쓰레기통 방취"
1,축구 운동화 남성용 2023 신형 통기성 메쉬 러닝화 경량 편안 학생 캐주얼 스포츠 트렌드 신발,Product Title,축구 운동화 남성용 2023 신형 통기성 메쉬 러닝화 경량 편안 학생 캐주얼 스포츠 트렌드 신발\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진
2,전자레인지 다기능 스마트 가정용 소형 베이킹 오븐 일체형 기계 고속 가열 회전 해동 전자동 식품 가공 장비,Related Keywords,"전자레인지, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐, 전자레인지 오븐"
3,2023 봄 신상품 남성 캐주얼 바지 순색 와이드핏 스트레이트 롱팬츠 비즈니스 캐주얼 바지 일상 편안한 남성복,Product Title,2023 봄 신상품 남성 캐주얼 바지 순색 와이드핏 스트레이트 롱팬츠 비즈니스 캐주얼 바지 일상 편안한 남성복\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진
4,경사금색 실크 벨벳 이브닝백 여성 2024 신상 유럽 스타일 체인 숄더 크로스백,Product Title,경사금색 실크 벨벳 이브닝백 여성 2024 신상 유럽 스타일 체인 숄더 크로스백\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진
...,...,...,...
82,레트로 스타일 남성 가죽 자켓 가을 겨울 더블 라이닝 보온 바이커 재킷 정품 가죽 아우터 젊은이 인기 패션 아이템,Product Title,레트로 스타일 남성 가죽 자켓 가을 겨울 더블 라이닝 보온 바이커 재킷 정품 가죽 아우터 젊은이 인기 패션 아이템\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진
83,보온 유단복 남성 2023 신모델 겨울용 두꺼운 방풍 방수 아웃도어 등산복 북유럽 심플 스타일 외투,Detailed Description,1 보온 유단복 남성 2023 신모델 겨울용 두꺼운 방풍 방수 아웃도어 등산복 북유럽 심플 스타일 외투\n2 보온 유단복 남성 2023 신모델 겨울용 두꺼운 방풍 방수 아웃도어 등산복 북유럽 심플 스타일 외투\n3 보온 유단복 남성 2023 신모델 겨울용 두꺼운 방풍 방수 아웃도어 등산복 북유럽 심플 스타일 외투\n4 보온 유단복 남성 2023 신모델 겨울용 두꺼운 방풍 방수 아웃도어 등산복 북유럽 심플 스타일 외투\n5 보온 유단복 남성 2023 신모델 겨울용 두꺼운 방풍 방수 아웃도어 등산복 북유럽 심플 스타일 외투\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진
84,초춘 여성용 얇은 화이트 트렌치코트 긴팔 심플하고 세련된 출근용 OL 스타일 매력적인 라펠 겉옷,Product Title,초춘 여성용 얇은 화이트 트렌치코트 긴팔 심플하고 세련된 출근용 스타일 매력적인 라펠 겉옷\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진\n시스템사진
85,"지능형 다기능 전자레인지 가정용 터치스크린 정밀 온도 조절 볶음, 삶기, 구이 일체형 요리 기계",Product Title,"### Raw Source:지능형 다기능 전자레인지 가정용 터치스크린 정밀 온도 조절 볶음, 삶기, 구이 일체형 요리 기계\n### Product Title:지능형 다기능 전자레인지 가정용 터치스크린 정밀 온도 조절 볶음, 삶기, 구이 일체형 요리 기계\n\n지능형 다기능 전자레인지 가정용 터치스크린 정밀 온도 조절 볶음, 삶기, 구이 일체형 요리 기계"


In [10]:
# Save the parsed DataFrame to a new CSV file
parsed_df.to_csv('./data/feature_solarko_parsed.csv', index=False)


In [49]:
import pandas as pd

# Define the search text
search_text = "### Raw Source:2023 신제품 남성용 스마트워치 다기능 스포츠형 심박수 모니터링 블루투스 통화 방수 패션 비즈니스 시계\n### Product Title:"

files = ['./data/0621_solarko_base_check.txt']

# Function to read the content of the file
def read_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    return content

# Loop through each file and search for the text
results = []
for file in files:
    content = read_file(file)
    # Check if the search_text is in the content
    if search_text in content:
        start_idx = content.find(search_text)
        end_idx = start_idx + len(search_text)
        # Extract the context around the found text
        context = content[max(0, start_idx - 50):min(len(content), end_idx + 50)]
        
        result = {
            'file': file,
            'start_index': start_idx,
            'end_index': end_idx,
            'context': context
        }
        results.append(result)
        print(f"Found in file: {file}")
        print(f"Context: {context}\n")

# Check if any matches were found
if not results:
    print("No matches found.")
else:
    print(f"Total matches found: {len(results)}")

# Optionally, convert the results to a DataFrame and save to a file
results_df = pd.DataFrame(results)




Found in file: ./data/0621_solarko_base_check.txt
Context: a coherent and relevant product title in Korean.

### Raw Source:2023 신제품 남성용 스마트워치 다기능 스포츠형 심박수 모니터링 블루투스 통화 방수 패션 비즈니스 시계
### Product Title:
Generated Text: ### Instruction: Given a raw sour

Total matches found: 1


In [None]:
Prompt: ### Instruction: Given a raw source for a product, generate a coherent and relevant product title in Korean.

### Raw Source:2023 신제품 남성용 스마트워치 다기능 스포츠형 심박수 모니터링 블루투스 통화 방수 패션 비즈니스 시계
### Product Title:

In [15]:
import pandas as pd
import re

# Load the CSV file
df = pd.read_csv('./data/pure_llama_final.csv')

# Define a function to remove English letters
def remove_english(text):
    # Use regular expression to remove all English letters and keep only Korean characters
    return re.sub(r'[a-zA-Z]', '', text)

# Apply the function to the 'generated_text' column
df['generated_text'] = df['generated_text'].apply(remove_english)

# Save the cleaned DataFrame to a new CSV file
df.to_csv('./data/pure_llama_final_cleaned.csv', index=False)

print("English letters removed and saved to 'pure_llama_final_cleaned.csv'")


English letters removed and saved to 'pure_llama_final_cleaned.csv'
