In [5]:
import os
import json
import pandas as pd

def load_and_create_dataframe(folder_path):
    if not os.path.exists(folder_path):
        raise FileNotFoundError(f"파일 없음: {folder_path}")
    
    all_data = []
    used_files = []

    for filename in os.listdir(folder_path):
        if filename.endswith('.json'):
            file_path = os.path.join(folder_path, filename)
            print(file_path)
            with open(file_path, 'r', encoding='utf-8') as f:
                data = json.load(f)
                all_data.extend(data.get('utterance', []))
                used_files.append(filename)
    
    for file in used_files:
        print(" -", file)
    
    row = []

    for i in all_data:
        row.append({
            'dialect_form': i.get('dialect_form', '').strip(),
            'standard_form': i.get('standard_form', '').strip()
        })
    
    df = pd.DataFrame(row)
    return df


In [6]:
df=load_and_create_dataframe(r'/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json')


/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000001.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000002.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000004.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000006.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000008.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000009.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000010.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000011.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000012.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000013.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000014.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000015.json
/mnt/c/Users/foq45/OneDrive/Documents/DL_project/all_json/DZES20000016.json
/mnt/c/Users

In [7]:
df

Unnamed: 0,dialect_form,standard_form
0,언니 만낭 반가워 아 오늘 제주 방언 에이 아이 데이터,언니 만나서 반가워 아 오늘 제주 방언 에이 아이 데이터
1,어 그거 대화 주제는 오늘 대화 주제는,어 그거 대화 주제는 오늘 대화 주제는
2,어 명절 설 명절 추석 명절 요로케 나누어서 해볼 거예,어 명절 설 명절 추석 명절 요로케 나누어서 해볼 거예요
3,자 그믄 이제부터 얘기해 보게예,자 그러면 이제부터 얘기해 봐요
4,어,어
...,...,...
254958,그런게 아니라 진짜 나한테만 그런거.,그런게 아니라 진짜 나한테만 그런거야.
254959,그리고 난 또 ((영문학관)) 또 싫었던거.,그리고 난 또 ((영문학관)) 또 긿었던거야.
254960,뭐.,뭐.
254961,솔직히 나도 이런거 뭐지?,솔직히 나도 이런거 뭐지?


In [8]:
df['dialect_form'] = df['dialect_form'].str.strip()
df['standard_form'] = df['standard_form'].str.strip()

In [9]:
shit_word = r'^[가-힣\s!?]*$'

df1 = df[df['dialect_form'].str.match(shit_word)]
df2 = df1[df1['standard_form'].str.match(shit_word)]

print('내가 허용한 언어 : 한글, 띄어쓰기, ?/!')
print(f'방언에 내가 허용한 언어 빼고 있는 행 수 : {len(df)-len(df1)}행')
print(f'표준어에 내가 허용한 언어 빼고 있는 행 수 : {len(df1)-len(df2)}행')

display(df2)

내가 허용한 언어 : 한글, 띄어쓰기, ?/!
방언에 내가 허용한 언어 빼고 있는 행 수 : 78228행
표준어에 내가 허용한 언어 빼고 있는 행 수 : 8568행


Unnamed: 0,dialect_form,standard_form
0,언니 만낭 반가워 아 오늘 제주 방언 에이 아이 데이터,언니 만나서 반가워 아 오늘 제주 방언 에이 아이 데이터
1,어 그거 대화 주제는 오늘 대화 주제는,어 그거 대화 주제는 오늘 대화 주제는
2,어 명절 설 명절 추석 명절 요로케 나누어서 해볼 거예,어 명절 설 명절 추석 명절 요로케 나누어서 해볼 거예요
3,자 그믄 이제부터 얘기해 보게예,자 그러면 이제부터 얘기해 봐요
4,어,어
...,...,...
254953,그거 너 새터 갈거야?,그거 너 새터 갈거야?
254956,그래서 난 진짜 완전 처음부터 너무 서슴럼없이 얘기하길래,그래서 난 진짜 완전 처음부터 너무 서슴럼없이 얘기하길래
254957,걔 완전 외향적인 줄 알았는데 그냥,그 아이 완전 외향적인 줄 알았는데 그냥
254961,솔직히 나도 이런거 뭐지?,솔직히 나도 이런거 뭐지?


In [10]:
df2.to_csv('sample_data.csv',index=False)