### 파일 불러오기

In [3]:
import os
import glob

def read_text_files(directory):
    # 모든 텍스트 파일의 경로를 찾습니다.
    file_paths = glob.glob(os.path.join(directory, '**/*.txt'), recursive=True)
    text_data = {}

    # 각 파일을 열고 내용을 읽습니다.
    for file_path in file_paths:
        with open(file_path, 'r', encoding='cp949') as file:
            text_data[file_path] = file.read()

    return text_data

# 함수를 호출하여 디렉토리 내의 모든 텍스트 파일을 읽습니다.
directory = './한국어 음성/한국어_음성'  # 대상 폴더 경로를 입력
all_texts = read_text_files(directory)

# 결과 출력 (예시로 몇 개의 파일 내용만 출력)
for path, content in list(all_texts.items())[:5]:  # 처음 5개 파일만 출력
    print(f'File: {path}\nContent: {content}')

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000001.txt
Content: 아/ 몬 소리야, 그건 또. b/

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000002.txt
Content: 나는 악습은 원래 없어진다+ 없어져야 된다고 생각하긴 했는데 근데 그/ 약간 필요악으로 하나 정도쯤은 있어야 되거든. 물 뜨러 가고.

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000003.txt
Content: b/ n/ 그래서 지호랑 계단 n/ 올라와서 b/ 막 위에 운동하는 기구 있대요. b/ 그서 그걸로 운동 할려구요. b/ n/

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000004.txt
Content: 뭐/ 정신과 병원도 그 약 타서 먹어보고, 그 한동안 연락이 안 된 적이 있었단 말이야. 그때가 언제였 언제였더라?

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000005.txt
Content: o/ b/ 그게 (0.1프로)/(영 점 일 프로) 가정의 아이들과 가정의 모습이야? b/



### 불필요한 문자 제거

In [4]:
import re

def remove_text(texts_dict):
    processed_texts = {}
    for file_path, text in texts_dict.items():
        # 소문자 알파벳 뒤에 /와 공백이 오는 형식 제거
        text = re.sub(r'[a-z]/\s', ' ', text)

        # 불필요한 문자 제거: 영문자, 숫자, 공백, 한글, 일부 문장부호만 남김
        text = re.sub(r'[^\w\s?.!가-힣]', ' ', text)

        processed_texts[file_path] = text
    return processed_texts

In [5]:
# 결과 출력
processed_texts = remove_text(all_texts)
for path, content in list(processed_texts.items())[:5]:
    print(f'File: {path}\nContent: {content}')

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000001.txt
Content: 아  몬 소리야  그건 또.  
File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000002.txt
Content: 나는 악습은 원래 없어진다  없어져야 된다고 생각하긴 했는데 근데 그  약간 필요악으로 하나 정도쯤은 있어야 되거든. 물 뜨러 가고.

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000003.txt
Content:   그래서 지호랑 계단  올라와서  막 위에 운동하는 기구 있대요.  그서 그걸로 운동 할려구요.   
File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000004.txt
Content: 뭐  정신과 병원도 그 약 타서 먹어보고  그 한동안 연락이 안 된 적이 있었단 말이야. 그때가 언제였 언제였더라?

File: ./한국어 음성/한국어_음성\KsponSpeech_01\KsponSpeech_0001\KsponSpeech_000005.txt
Content:   그게  0.1프로   영 점 일 프로  가정의 아이들과 가정의 모습이야?  


### 띄어쓰기 교정

In [None]:
# 라이브러리 설치
%pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [6]:
from pykospacing import Spacing

def correct_spacing(texts_dict):
    spacing = Spacing()
    corrected_texts = {}
    for file_path, text in texts_dict.items():
        # 띄어쓰기 교정 적용
        corrected_text = spacing(text)
        corrected_texts[file_path] = corrected_text
    return corrected_texts

In [11]:
# 결과 출력
corrected_texts = correct_spacing(processed_texts)
for path, content in list(corrected_texts.items())[:5]:
    print(f'File: {path}\nContent: {content}')

### 맞춤법 교정

In [None]:
# 라이브러리 설치
%pip install git+https://github.com/ssut/py-hanspell.git

In [None]:
from hanspell import spell_checker

def correct_spell(texts_dict):
    corrected_texts = {}
    for file_path, text in texts_dict.items():
        # 맞춤법 및 띄어쓰기 교정
        result = spell_checker.check(text)
        corrected_text = result.checked  # 교정된 텍스트
        corrected_texts[file_path] = corrected_text
    return corrected_texts

In [None]:
# 결과 추출
corrected_texts = correct_spell(processed_texts)
for path, content in list(corrected_texts.items())[:5]:
    print(f'File: {path}\nContent: {content}')

###  형태소 분석

In [None]:
from konlpy.tag import Okt

def analyze_morphology(texts_dict):
    okt = Okt()
    analyzed_texts = {}
    for file_path, text in texts_dict.items():
        # 형태소 분석
        morphs = okt.morphs(text)
        analyzed_texts[file_path] = morphs
    return analyzed_texts

In [None]:
# 결과 추출
analyzed_texts = analyze_morphology(corrected_texts)
for path, morphs in list(analyzed_texts.items())[:5]:
    print(f'File: {path}\nMorphs: {morphs}')