In [None]:
from datasets import load_dataset

# 특정 서브셋 'en-ko' 로드
dataset = load_dataset("ayymen/Weblate-Translations", "en-ko")

# 데이터셋에서 첫 5개 항목 확인
for i in range(5):
    print(f"EN: {dataset['train'][i]['source_string']}")
    print(f"KO: {dataset['train'][i]['target_string']}")
    print('-' * 20)

In [None]:
len(dataset['train'])

In [None]:
import re

# 길이 조건과 특수 문자가 없는지 확인하는 필터링 함수
def filter_by_length_and_special_chars(example):
    # 1. None인 경우 필터링 제외
    if example['source_string'] is None or example['target_string'] is None:
        return False

    source_text = example['source_string']
    target_text = example['target_string']

    # 2. 특수 문자를 포함하는지 확인 (예시로 %&^$#{}[] 등의 특수문자를 포함하는지 확인)
    if re.search(r'[^\w\s]', source_text) or re.search(r'[^\w\s]', target_text):
        return False

    # 3. 한국어 텍스트에 영어가 포함되어 있는지 확인
    if re.search(r'[a-zA-Z]', target_text):  # 영어 알파벳이 포함된 경우 제외
        return False

    # 4. 개행 문자가 있는지 확인
    if '\n' in source_text or '\n' in target_text:
        return False

    # 5. source_string에서 대문자가 2번 이상 있는지 확인 (전문용어들)
    uppercase_count = sum(1 for c in source_text if c.isupper())
    if uppercase_count >= 2:
        return False

    # 6. 문자열 사이에 3개 이상의 연속된 공백이 있는지 확인
    if re.search(r'\s{3,}', source_text) or re.search(r'\s{3,}', target_text):
        return False

    # 7. 길이 조건 확인 (너무 짧거나 긴 경우 제외)
    if not (15 <= len(source_text) <= 40 and 18 <= len(target_text) <= 40):
        return False

    # 모든 조건을 통과하면 True 반환
    return True

# 필터링 적용 (길이 조건과 특수 문자가 없는 경우만 남김)
filtered_dataset = dataset['train'].filter(filter_by_length_and_special_chars)

In [None]:
len(filtered_dataset)

In [None]:
shuffled_dataset = filtered_dataset.shuffle(seed=4).select(range(1664))

In [None]:
for i in range(50):
    print(f"EN: {shuffled_dataset[i]['source_string']}")
    print(f"KO: {shuffled_dataset[i]['target_string']}")
    print('-' * 20)

In [None]:
save_path = "./filtered_dataset"
shuffled_dataset.save_to_disk(save_path)
print(f"Dataset saved to {save_path}")

In [None]:
shuffled_dataset

In [None]:
import re
import json
import pandas as pd

# JSON 파일 경로
file_path = "/data/uijih/일상생활및구어체_영한_train_set.json"

# JSON 파일 불러오기
with open(file_path, "r", encoding="utf-8") as f:
    data = json.load(f)

In [None]:
print(type(data))

# 데이터가 딕셔너리인 경우
if isinstance(data, dict):
    # 딕셔너리에서 'data' 키를 추출한다고 가정 (파일 구조에 따라 다를 수 있음)
    first_row = data.get('data', [])[0]  # 'data' 키에서 첫 번째 항목 추출
    print(first_row)
else:
    # 데이터가 리스트일 경우
    first_row = data[0]
    print(first_row)

In [None]:
# 'data' 키에서 실제 데이터 리스트 추출
data_list = data['data']  # 'data'가 실제 데이터가 있는 리스트로 가정

# 길이 조건과 특수 문자가 없는지 확인하는 필터링 함수
def filter_by_length_and_special_chars(example):
    en_text = example['en_original']  # 한국어 텍스트 (target_string으로 저장될 데이터)
    ko_text = example['mt']  # 영어 텍스트 (source_string으로 저장될 데이터)

    # 2. 특수 문자를 포함하는지 확인
    if re.search(r'[^\w\s]', ko_text) or re.search(r'[^\w\s]', en_text):
        return False

    # 3. 한국어 텍스트에 영어가 포함되어 있는지 확인
    if re.search(r'[a-zA-Z]', ko_text):
        return False

    # 4. 개행 문자가 있는지 확인
    if '\n' in ko_text or '\n' in en_text:
        return False

    # # 5. 영어 텍스트에서 대문자가 2번 이상 있는지 확인
    uppercase_count = sum(1 for c in en_text if c.isupper())
    if uppercase_count >= 3:
        return False

    # 6. 문자열 사이에 3개 이상의 연속된 공백이 있는지 확인
    if re.search(r'\s{3,}', ko_text) or re.search(r'\s{3,}', en_text):
        return False

    # 7. 길이 조건 확인 (너무 짧거나 긴 경우 제외)
    # if not (10 <= len(ko_text) <= 100 and 10 <= len(en_text) <= 100):
    #     return False

    return True

# 필터링 적용
filtered_data = list(filter(filter_by_length_and_special_chars, data_list))

# 필요한 컬럼만 추출해서 새로운 리스트 생성
final_data = []
for entry in filtered_data:
    final_entry = {
        'source_string': entry['en_original'],       
        'target_string': entry['mt'] 
    }
    final_data.append(final_entry)

# 필터링된 데이터를 DataFrame으로 변환
df_filtered = pd.DataFrame(final_data)

# 데이터셋 파일로 저장
save_path = "/data/uijih/filtered_dataset-2.csv"
df_filtered.to_csv(save_path, index=False)
print(f"Filtered dataset saved to {save_path}")

In [None]:
import pandas as pd

# 파일 경로 설정
input_csv_path = '/data/uijih/EN_Idiom.csv'
output_csv_path = '/data/uijih/EN_Idiom_filtered.csv'  # 필요하면 변경하세요.

# CSV 파일 읽기
df = pd.read_csv(input_csv_path)

# 'id' 열 제거
df = df.drop(columns=['id', 'zh_meaning', 'ja_meaning'])

# 'idiom' 열에 '_'가 포함된 행 제거
df = df[~df['idiom'].str.contains('_')]

# 인덱스 재설정 (선택 사항)
df = df.reset_index(drop=True)

# 결과를 새로운 CSV 파일로 저장 (선택 사항)
df.to_csv(output_csv_path, index=False)

print(f"Filtered DataFrame saved to {output_csv_path}")


In [None]:
# coding=utf-8
# Copyright 2020 HuggingFace Datasets Authors.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Lint as: python3
import datasets


_DESCRIPTION = """\
This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated by double-newlines and paragraphs within the same document separated by a newline. The data is generated using the open source CC-Net repository. No claims of intellectual property are made on the work of preparation of the corpus.
"""
_HOMEPAGE_URL = "https://data.statmt.org/cc-100/"
_CITATION = """\
@inproceedings{conneau-etal-2020-unsupervised,
    title = "Unsupervised Cross-lingual Representation Learning at Scale",
    author = "Conneau, Alexis  and
      Khandelwal, Kartikay  and
      Goyal, Naman  and
      Chaudhary, Vishrav  and
      Wenzek, Guillaume  and
      Guzm{\\'a}n, Francisco  and
      Grave, Edouard  and
      Ott, Myle  and
      Zettlemoyer, Luke  and
      Stoyanov, Veselin",
    editor = "Jurafsky, Dan  and
      Chai, Joyce  and
      Schluter, Natalie  and
      Tetreault, Joel",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.acl-main.747",
    doi = "10.18653/v1/2020.acl-main.747",
    pages = "8440--8451",
}
@inproceedings{wenzek-etal-2020-ccnet,
    title = "{CCN}et: Extracting High Quality Monolingual Datasets from Web Crawl Data",
    author = "Wenzek, Guillaume  and
      Lachaux, Marie-Anne  and
      Conneau, Alexis  and
      Chaudhary, Vishrav  and
      Guzm{\\'a}n, Francisco  and
      Joulin, Armand  and
      Grave, Edouard",
    editor = "Calzolari, Nicoletta  and
      B{\\'e}chet, Fr{\\'e}d{\\'e}ric  and
      Blache, Philippe  and
      Choukri, Khalid  and
      Cieri, Christopher  and
      Declerck, Thierry  and
      Goggi, Sara  and
      Isahara, Hitoshi  and
      Maegaard, Bente  and
      Mariani, Joseph  and
      Mazo, H{\\'e}l{\\`e}ne  and
      Moreno, Asuncion  and
      Odijk, Jan  and
      Piperidis, Stelios",
    booktitle = "Proceedings of the Twelfth Language Resources and Evaluation Conference",
    month = may,
    year = "2020",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://aclanthology.org/2020.lrec-1.494",
    pages = "4003--4012",
    language = "English",
    ISBN = "979-10-95546-34-4",
}
"""

_VERSION = "1.0.0"
_BASE_URL = "https://data.statmt.org/cc-100/{}.txt.xz"
_LANGUAGES = [
    # "af",
    # "am",
    # "ar",
    # "as",
    # "az",
    # "be",
    # "bg",
    # "bn",
    # "bn_rom",
    # "br",
    # "bs",
    # "ca",
    # "cs",
    # "cy",
    # "da",
    # "de",
    # "el",
    "en",
    # "eo",
    # "es",
    # "et",
    # "eu",
    # "fa",
    # "ff",
    # "fi",
    # "fr",
    # "fy",
    # "ga",
    # "gd",
    # "gl",
    # "gn",
    # "gu",
    # "ha",
    # "he",
    # "hi",
    # "hi_rom",
    # "hr",
    # "ht",
    # "hu",
    # "hy",
    # "id",
    # "ig",
    # "is",
    # "it",
    # "ja",
    # "jv",
    # "ka",
    # "kk",
    # "km",
    # "kn",
    "ko",
    # "ku",
    # "ky",
    # "la",
    # "lg",
    # "li",
    # "ln",
    # "lo",
    # "lt",
    # "lv",
    # "mg",
    # "mk",
    # "ml",
    # "mn",
    # "mr",
    # "ms",
    # "my",
    # "my_zaw",
    # "ne",
    # "nl",
    # "no",
    # "ns",
    # "om",
    # "or",
    # "pa",
    # "pl",
    # "ps",
    # "pt",
    # "qu",
    # "rm",
    # "ro",
    # "ru",
    # "sa",
    # "sc",
    # "sd",
    # "si",
    # "sk",
    # "sl",
    # "so",
    # "sq",
    # "sr",
    # "ss",
    # "su",
    # "sv",
    # "sw",
    # "ta",
    # "ta_rom",
    # "te",
    # "te_rom",
    # "th",
    # "tl",
    # "tn",
    # "tr",
    # "ug",
    # "uk",
    # "ur",
    # "ur_rom",
    # "uz",
    # "vi",
    # "wo",
    # "xh",
    # "yi",
    # "yo",
    # "zh-Hans",
    # "zh-Hant",
    # "zu",
]


class Cc100Config(datasets.BuilderConfig):
    def __init__(self, *args, lang=None, **kwargs):
        super().__init__(
            *args,
            name=f"{lang}",
            **kwargs,
        )
        self.lang = lang


class Cc100(datasets.GeneratorBasedBuilder):
    BUILDER_CONFIGS = [
        Cc100Config(
            lang=lang,
            description=f"Language: {lang}",
            version=datasets.Version(_VERSION),
        )
        for lang in _LANGUAGES
    ]
    BUILDER_CONFIG_CLASS = Cc100Config

    def _info(self):
        return datasets.DatasetInfo(
            description=_DESCRIPTION,
            features=datasets.Features(
                {
                    "id": datasets.Value("string"),
                    "text": datasets.Value("string"),
                },
            ),
            supervised_keys=None,
            homepage=_HOMEPAGE_URL,
            citation=_CITATION,
        )

    def _split_generators(self, dl_manager):
        def _base_url(lang):
            return _BASE_URL.format(lang)

        download_url = _base_url(self.config.lang)
        path = dl_manager.download_and_extract(download_url)
        return [
            datasets.SplitGenerator(
                name=datasets.Split.TRAIN,
                gen_kwargs={"datapath": path},
            )
        ]

    def _generate_examples(self, datapath):
        with open(datapath, encoding="utf-8") as f:
            for sentence_counter, row in enumerate(f):
                result = (
                    sentence_counter,
                    {
                        "id": str(sentence_counter),
                        "text": row,
                    },
                )
                yield result

In [None]:
from datasets import load_dataset
import logging

def download_and_print_cc100(language='en', num_samples=5):
    """
    CC-100 데이터셋을 다운로드하고 샘플 텍스트를 출력합니다.
    
    Args:
        language (str): 다운로드할 언어 코드 (예: 'en', 'ko')
        num_samples (int): 출력할 샘플 개수
    """
    try:
        # 로깅 설정
        logging.basicConfig(level=logging.INFO)
        logger = logging.getLogger(__name__)
        
        # 데이터셋 다운로드 시작 알림
        logger.info(f"Downloading CC-100 dataset for language: {language}")
        
        # 데이터셋 로드
        dataset = load_dataset(
            "cc100",
            language,
            split="train",
            streaming=True  # 대용량 데이터셋이므로 스트리밍 모드 사용
        )
        
        logger.info("Dataset successfully loaded!")
        logger.info(f"Printing first {num_samples} samples:\n")
        
        # 샘플 출력
        for i, example in enumerate(dataset):
            if i >= num_samples:
                break
            print(f"\nSample {i+1}:")
            print("=" * 50)
            print(f"ID: {example['id']}")
            print(f"Text: {example['text']}")
            print("=" * 50)
            
    except Exception as e:
        logger.error(f"Error occurred: {str(e)}")
        raise

if __name__ == "__main__":
    # 영어와 한국어 데이터셋 다운로드 및 출력
    languages = ['en', 'ko']
    
    for lang in languages:
        print(f"\nProcessing {lang} dataset:")
        print("-" * 60)
        download_and_print_cc100(lang, num_samples=3)

In [None]:
# coding=utf-8
# Copyright 2020 HuggingFace Datasets Authors.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Lint as: python3
import datasets
import csv
import re
import logging
from typing import List, Dict, Any

class CC100SimplePreprocessor:
    def __init__(self, 
                 max_special_chars: int = 3,
                 max_length: int = 1000,
                 min_length: int = 10):
        """
        CC-100 데이터셋 전처리를 위한 클래스
        
        Args:
            max_special_chars (int): 허용되는 최대 특수문자 개수
            max_length (int): 최대 문장 길이
            min_length (int): 최소 문장 길이
        """
        self.max_special_chars = max_special_chars
        self.max_length = max_length
        self.min_length = min_length
        
        # 로깅 설정
        logging.basicConfig(level=logging.INFO)
        self.logger = logging.getLogger(__name__)
        
        # 특수문자 패턴
        self.special_chars_pattern = re.compile(r'[!@#$%^&*()_+\-=\[\]{};:"\\|,.<>/?~`]')
        
        # 영어 패턴: 영어 알파벳과 기본적인 문장 부호만 허용
        self.english_pattern = re.compile('^[a-zA-Z\s,.!?]+$')
        
        # 문장 분리 패턴
        self.sentence_pattern = re.compile(r'[.!?]+[\s]*')
    
    def count_special_chars(self, text: str) -> int:
        """특수문자 개수를 반환합니다."""
        return len(self.special_chars_pattern.findall(text))
    
    def is_pure_language(self, text: str, lang: str) -> bool:
        """
        텍스트가 해당 언어로만 구성되어 있는지 엄격하게 검사합니다.
        
        Args:
            text (str): 검사할 텍스트
            lang (str): 언어 코드 ('en')
            
        Returns:
            bool: 순수하게 해당 언어로만 구성되어 있으면 True
        """
        return bool(self.english_pattern.match(text))
    
    def split_into_sentences(self, text: str) -> List[str]:
        """
        텍스트를 문장 단위로 분리하고 첫 번째 문장만 반환합니다.
        
        Args:
            text (str): 분리할 텍스트
            
        Returns:
            List[str]: 첫 번째 문장 리스트
        """
        # 문장 끝 문장부호를 기준으로 분리
        sentences = self.sentence_pattern.split(text)
        # 첫 번째 문장만 반환하고 빈 문장 제거
        return [sent.strip() for sent in sentences if sent.strip()][:1]
    
    def is_valid_sentence(self, sentence: str, lang: str) -> bool:
        """
        주어진 문장이 유효한지 검사합니다.
        
        Args:
            sentence (str): 검사할 문장
            lang (str): 언어 코드
            
        Returns:
            bool: 유효한 문장이면 True
        """
        # 공백 제거
        sentence = sentence.strip()
        
        # 길이 검사
        if len(sentence) < self.min_length or len(sentence) > self.max_length:
            return False
            
        # 특수문자 개수 검사
        if self.count_special_chars(sentence) > self.max_special_chars:
            return False
            
        # 순수 언어 검사
        if not self.is_pure_language(sentence, lang):
            return False
            
        return True
    
    def preprocess_dataset(self, lang: str = 'en', num_samples: int = 1000):
        """
        데이터셋을 전처리합니다.
        
        Args:
            lang (str): 언어 코드 ('en')
            num_samples (int, optional): 처리할 샘플 수 (기본값: 1000)
        """
        self.logger.info(f"Starting preprocessing for {lang} dataset...")
        
        try:
            # 데이터셋 로드
            dataset = load_dataset("cc100", lang, split="train", streaming=True)
            processed_count = 0
            valid_sentences = []
            
            for i, example in enumerate(dataset):
                if processed_count >= num_samples:
                    break
                    
                text = example['text'].strip()
                sentences = self.split_into_sentences(text)
                
                # 첫 번째 문장 처리
                for sentence in sentences:
                    if self.is_valid_sentence(sentence, lang):
                        valid_sentences.append({
                            'text': sentence
                        })
                        processed_count += 1
                        
                        if processed_count % 1000 == 0:
                            self.logger.info(f"Processed {processed_count} valid sentences")
                            
                        if processed_count >= num_samples:
                            break
                
            self.logger.info(f"Preprocessing completed. Total valid sentences: {len(valid_sentences)}")
            
            # 중복 제거
            unique_sentences = list({v['text']: v for v in valid_sentences}.values())
            
            # CSV로 저장
            output_filename = f"{lang}_processed_sentences.csv"
            with open(output_filename, mode='w', newline='', encoding='utf-8') as csv_file:
                writer = csv.DictWriter(csv_file, fieldnames=['text'])
                writer.writeheader()
                writer.writerows(unique_sentences)
            
            self.logger.info(f"Saved processed sentences to {output_filename}")
            print(f"{lang} dataset: {len(unique_sentences)} unique valid sentences saved to {output_filename}")
            
            return unique_sentences
            
        except Exception as e:
            self.logger.error(f"Error during preprocessing: {str(e)}")
            raise

def main():
    # 전처리기 초기화
    preprocessor = CC100SimplePreprocessor(
        max_special_chars=3,
        max_length=1000,
        min_length=10
    )
    
    # 영어 데이터셋 전처리
    print(f"\nProcessing en dataset:")
    print("-" * 60)
    
    # 각 언어별 최대 1000개 문장만 처리
    results = preprocessor.preprocess_dataset(lang='en', num_samples=1000)
    
    # 결과 출력
    for i, item in enumerate(results[:5]):  # 첫 5개 샘플만 출력
        print(f"\nSample {i+1}:")
        print("=" * 50)
        print(f"Text: {item['text']}")
        print("=" * 50)

if __name__ == "__main__":
    main()

In [3]:
from Korpora import KowikiTextKorpus
corpus = KowikiTextKorpus()


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : Hyunjoong Kim lovit@github
    Repository : https://github.com/lovit/kowikitext
    References :

    한국어 위키피디아의 덤프 데이터를 바탕을 제작한 wikitext 형식의 텍스트 파일입니다.
    학습 및 평가를 위하여 위키페이지 별로 train (99%), dev (0.5%), test (0.5%) 로 나뉘어져있습니다.


    # License
    CC-BY-SA 3.0 which kowiki dump dataset is licensed

[Korpora] Corpus `kowikitext` is already installed at /data/uijih/Korpora/kowikitext/kowikitext_20200920.train.zip
[Korpora] Corpus `kowikitext` is already installed at /data/uijih/Korpora/kowikitext/kowikitext_20200920.train
[Korpora] Corpus `kowikitext` is already installed at /data/uijih/Korpora/kowikitext/kowikitext_20200920.test.zip
[Korpora] Corpus `kowikitext` is already installed at /data/uijih/Korpora/kowikitext/k

In [5]:
corpus.get_all_texts()

['스폴리아텔레(, )는 이탈리아의 후식으로서 모양은 프랑스의 과자인 마들렌처럼 조개 모양이거나 긴 뿔 모양이기도 하다. 단어 "sfogliatelle"는  "많은 잎 혹은 층"을 의미하며 질감 자체가 여러 잎을 쌓아놓고 씹어먹는 듯한 바삭거리는 느낌이 있기 때문에 이 용어가 아주 잘 어울린다고 보기도 한다.\n산타 로사라고 부르는 스폴리아텔레의 일종은 17세기 콩가 데이 마리니에서 생겨난 과자이다.\n만들 때에는 반죽을 길고 얇게 만든 다음 쇼트닝을 두텁게 바른다. 다음으로는 계속 밀대에 반죽을 밀어서 롤처럼 만들 수 있게 반죽을 풍성하게 만든다. 가운데는 나중에 제거해서 다른 속을 채우도록 한다. 오렌지 맛이 나는 리코타 치즈를 넣기도 한다. 시트론이나 레몬 같은 과일을 넣기도 한다..\n스폴리아텔레는 이탈리아의 나폴리에서 유래했으며 굉장히 만드는 데 시간이 많이 들기 때문에 수녀원 등지에서 형태가 생겨났다고 보고 있다.',
 '나폴리에서는  "sfogliatella riccia" 로 불리며 몰타에서는 세이보리를 속으로 채워넣어서 만들기도 한다. 몰타 사람들은 이런 형태의 스폴리아텔레를 "Ricotta Pastizzi"라고 부른다. 단 맛이 안나는 세이보리가 재료인 것이 특징인데 다른 종류인 "Pastizzi tal-Pizelli"는 같은 모양이지만 세이보리 열매나 새싹을 집어 넣는다. 이 반죽을 "Ta L-Isfoll"라고 칭한다.',
 '',
 '예술',
 '뎨산 구(, )는 중국 광시 좡족 자치구 우저우 시의 현급 행정구역이다. 넓이는 313km2이고, 인구는 2007년 기준으로 190,000명이다.',
 '연평균 기온은 21℃이고 연평균 강수량은 1485mm이다.',
 '3개 가도, 2개 진을 관할한다.\n가도: 角嘴街道, 东兴街道, 富民街道.\n진: 龙湖镇, 夏郢镇.',
 '1966년 FIFA 월드컵 아프리카·아시아·오세아니아 지역 예선은 1966년 FIFA 월드컵에 배정된 아프리카·아시아·오세아니아 지역에 배정된 1장의 출전권을 두고 조선민주주의

In [None]:
from transformers import AutoModel, AutoTokenizer
from huggingface_hub import HfApi, HfFolder, upload_folder

HfFolder.save_token('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')

# 모델 경로와 업로드할 repository 이름 설정
model_path = "/data/uijih/8b_instruct/model_output/llama3_sft_idioms-full-m"
repo_name = "Uiji/llama3_sft_idioms_full_m" 

# 업로드 시작
api = HfApi()

# repo 생성 (존재하지 않는 경우)
api.create_repo(repo_name, exist_ok=True)

# 모델과 토크나이저 업로드
upload_folder(
    folder_path=model_path,
    repo_id=repo_name,
    commit_message="Upload llama3 SFT idioms model and tokenizer",
)

print(f"Model uploaded to https://huggingface.co/{repo_name}")


In [4]:
from huggingface_hub import HfApi, HfFolder, upload_folder
model_path = "/data/uijih/8b_instruct/model_output/llama8_sft_full"
repo_name = "Uiji/llama3_sft_idioms_full" 

# 업로드 시작
api = HfApi()

# repo 생성 (존재하지 않는 경우)
api.create_repo(repo_name, exist_ok=True)

# 모델과 토크나이저 업로드
upload_folder(
    folder_path=model_path,
    repo_id=repo_name,
    commit_message="Upload llama3 SFT idioms model and tokenizer",
)

print(f"Model uploaded to https://huggingface.co/{repo_name}")


No files have been modified since last commit. Skipping to prevent empty commit.


Model uploaded to https://huggingface.co/Uiji/llama3_sft_idioms_full


In [4]:
import pandas as pd
import os
import re
from collections import Counter

# 파일 경로 리스트
file_names = ["/data/uijih/dataset/none/jhe-en-dev.txt", 
              "/data/uijih/dataset/none/jhe-en-eval.txt", 
              "/data/uijih/dataset/none/jhe-ko-dev.txt", 
              "/data/uijih/dataset/none/jhe-ko-eval.txt"]

output_csv = "processed_texts.csv"  # 저장할 CSV 파일명

# 전처리 조건 함수
def preprocess_line(line, is_ko_file=False):
    # 10글자 이상인지 확인
    if len(line) < 10 or len(line) > 110:
        return None
    # 금지된 특수기호가 포함되었는지 확인
    if any(char in line for char in [")", "(", ":"]):
        return None
    # 한국어 파일일 경우 영어 텍스트가 포함된 줄 제외
    if is_ko_file and re.search(r"[a-zA-Z]", line):
        return None
    return line.strip()

data = []
for file_path in file_names:
    if os.path.exists(file_path):  # 파일이 존재하는지 확인
        with open(file_path, "r", encoding="utf-8") as file:
            lines = file.readlines()
            is_ko_file = "ko" in file_path  # 파일 경로에 'ko'가 포함되어 있으면 한국어 파일로 간주
            for line in lines:
                processed = preprocess_line(line, is_ko_file=is_ko_file)
                if processed:
                    data.append({"lan": "kr" if is_ko_file else "en", "text": processed})
    else:
        print(f"파일 {file_path}이(가) 존재하지 않습니다.")

# DataFrame 생성
df = pd.DataFrame(data)

# 언어별 데이터 개수 카운팅
language_counts = Counter(df["lan"])
print("언어별 데이터 개수:")
for lang, count in language_counts.items():
    print(f"{lang}: {count} 개")

# CSV로 저장
df.to_csv(output_csv, index=False, encoding="utf-8-sig")

print(f"전처리된 데이터가 {output_csv}로 저장되었습니다.")

언어별 데이터 개수:
en: 1219 개
kr: 1225 개
전처리된 데이터가 processed_texts.csv로 저장되었습니다.
