In [2]:
import os
import glob
from docx import Document
import kss
import pandas as pd
from tqdm import tqdm

# 키워드 설정
CD_KEYWORDS = ['클러스터', '디스플레이', '계기판']

# 분석 폴더 리스트
TARGET_DIRS = [
    "/Users/minjoong/Desktop/다나와자동차_리뷰2(150~끝)"
]

for WORD_DIR in TARGET_DIRS:
    extracted_data = []
    docx_files = glob.glob(os.path.join(WORD_DIR, "*.docx"))
    print(f"[{os.path.basename(WORD_DIR)}] 워드 파일 개수: {len(docx_files)}개")

    for file in tqdm(docx_files, desc=f"{os.path.basename(WORD_DIR)} 워드파일 처리"):
        filename = os.path.basename(file)
        # ~$(임시파일)은 스킵!
        if filename.startswith('~$'):
            continue
        try:
            doc = Document(file)
            all_paragraphs = [p.text.strip() for p in doc.paragraphs if p.text.strip()]
            for para in all_paragraphs:
                sents = kss.split_sentences(para)
                for sent in sents:
                    if any(kw in sent for kw in CD_KEYWORDS):
                        extracted_data.append([filename, sent.strip()])
        except Exception as e:
            print(f"{filename} 처리 중 에러 발생: {e}")
            continue

    # 데이터프레임 저장
    df = pd.DataFrame(extracted_data, columns=["파일명", "문장"])
    csv_path = os.path.join(WORD_DIR, "다나와자동차2_리뷰정리.csv")
    xlsx_path = os.path.join(WORD_DIR, "다나와자동차2_리뷰정리.xlsx")
    df.to_csv(csv_path, index=False, encoding="utf-8-sig")
    df.to_excel(xlsx_path, index=False)
    print(f"[{os.path.basename(WORD_DIR)}] CSV/엑셀 저장 완료:\n{csv_path}\n{xlsx_path}")

[다나와자동차_리뷰2(150~끝)] 워드 파일 개수: 262개


다나와자동차_리뷰2(150~끝) 워드파일 처리: 100%|█| 262/262 [01:00<00:00,  4.36it/

[다나와자동차_리뷰2(150~끝)] CSV/엑셀 저장 완료:
/Users/minjoong/Desktop/다나와자동차_리뷰2(150~끝)/다나와자동차2_리뷰정리.csv
/Users/minjoong/Desktop/다나와자동차_리뷰2(150~끝)/다나와자동차2_리뷰정리.xlsx





In [14]:
import os
import glob
from docx import Document
import kss
import pandas as pd
from tqdm import tqdm

# 키워드 설정
CD_KEYWORDS = ['클러스터', '디스플레이', '계기판']

# 분석 폴더 리스트
TARGET_DIRS = [
    "/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/김원웅/리뷰 모음 회사별/르노 코리아"
]

for WORD_DIR in TARGET_DIRS:
    extracted_data = []
    docx_files = glob.glob(os.path.join(WORD_DIR, "*.docx"))
    print(f"[{os.path.basename(WORD_DIR)}] 워드 파일 개수: {len(docx_files)}개")

    for file in tqdm(docx_files, desc=f"{os.path.basename(WORD_DIR)} 워드파일 처리"):
        filename = os.path.basename(file)
        # ~$(임시파일)은 스킵!
        if filename.startswith('~$'):
            continue
        try:
            doc = Document(file)
            all_paragraphs = [p.text.strip() for p in doc.paragraphs if p.text.strip()]
            for para in all_paragraphs:
                sents = kss.split_sentences(para)
                for sent in sents:
                    if any(kw in sent for kw in CD_KEYWORDS):
                        extracted_data.append([filename, sent.strip()])
        except Exception as e:
            print(f"{filename} 처리 중 에러 발생: {e}")
            continue

    # --- 중복 제거 부분 추가!
    df = pd.DataFrame(extracted_data, columns=["파일명", "문장"])
    df = df.drop_duplicates(subset=["문장"], keep="first").reset_index(drop=True)

    csv_path = os.path.join(WORD_DIR, "르노코리아_오너평가_문장모음.csv")
    xlsx_path = os.path.join(WORD_DIR, "르노코리아_오너평가_문장모음.xlsx")
    df.to_csv(csv_path, index=False, encoding="utf-8-sig")
    df.to_excel(xlsx_path, index=False)
    print(f"[{os.path.basename(WORD_DIR)}] CSV/엑셀 저장 완료:\n{csv_path}\n{xlsx_path}")

[르노 코리아] 워드 파일 개수: 6개


르노 코리아 워드파일 처리: 100%|██████████████████| 6/6 [00:01<00:00,  3.80it/s]

[르노 코리아] CSV/엑셀 저장 완료:
/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/김원웅/리뷰 모음 회사별/르노 코리아/르노코리아_오너평가_문장모음.csv
/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/김원웅/리뷰 모음 회사별/르노 코리아/르노코리아_오너평가_문장모음.xlsx





In [18]:
import pandas as pd
from docx import Document

# 엑셀 파일 읽기
excel_path = '/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa2/클러스터_디스플레이_계기판_문장추출_다나와2.xlsx'   # 업로드한 파일 경로를 사용하세요
df = pd.read_excel(excel_path)

# "문장" 컬럼만 추출
sentences = df['문장'].dropna().tolist()

# 워드 파일 생성
doc = Document()
for sentence in sentences:
    doc.add_paragraph(sentence)

# 저장
output_path = '/Users/minjoong/Desktop/labeling.docx'
doc.save(output_path)

print(f'워드 파일로 저장 완료: {output_path}')

워드 파일로 저장 완료: /Users/minjoong/Desktop/labeling.docx


In [3]:
import os
import glob
import pandas as pd

# 폴더 경로 지정
folder_path = "/Users/minjoong/Desktop/모든 리뷰"

# 해당 폴더 내 모든 xlsx 파일 리스트업
xlsx_files = glob.glob(os.path.join(folder_path, "*.xlsx"))
print("파일 목록:", xlsx_files)

# 모든 파일을 DataFrame으로 읽어 리스트에 저장
df_list = []
for file in xlsx_files:
    try:
        df = pd.read_excel(file)
        df_list.append(df)
        print(f"로딩 완료: {file}  (shape: {df.shape})")
    except Exception as e:
        print(f"오류 발생: {file}, {e}")

# DataFrame 합치기
if df_list:
    all_reviews = pd.concat(df_list, ignore_index=True)
    print("전체 합쳐진 shape:", all_reviews.shape)

    # CSV로 저장
    save_path = os.path.join(folder_path, "reviews.csv")
    all_reviews.to_csv(save_path, index=False, encoding="utf-8-sig")
    print(f"모든 xlsx가 합쳐져 {save_path}로 저장되었습니다.")
else:
    print("합칠 파일이 없습니다.")

파일 목록: ['/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_쉐보레_오너평가.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클리앙_문장정리.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_다나와2.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_bmw_오너평가.xlsx', '/Users/minjoong/Desktop/모든 리뷰/유튜브_리뷰문장.xlsx', '/Users/minjoong/Desktop/모든 리뷰/다나와자동차2_리뷰정리.xlsx', '/Users/minjoong/Desktop/모든 리뷰/르노코리아_오너평가_문장모음.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_현대_오너평가.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_테슬라_오너평가.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_다나와.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_기아_오너평가.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_아우디_오너평가.xlsx', '/Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_벤츠_오너평가.xlsx']
로딩 완료: /Users/minjoong/Desktop/모든 리뷰/클러스터_디스플레이_계기판_문장추출_쉐보레_오너평가.xlsx  (shape: (6, 3))
로딩 완료: /Users/minjoong/Des

속성키워드들을 풀어서 이진변수로 나타내는 코드

In [1]:
import pandas as pd
from sklearn.preprocessing import MultiLabelBinarizer

# 1. 엑셀 파일 읽기
file_path = "/Users/minjoong/Downloads/최종_엑셀파일.xlsx"
df = pd.read_excel(file_path)

# 2. 속성키워드를 리스트로 변환 (콤마로 여러개가 있는 경우)
df['속성키워드'] = df['속성키워드'].fillna("").apply(lambda x: [i.strip() for i in str(x).split(',') if i.strip()])

# 3. One-hot 인코딩
mlb = MultiLabelBinarizer()
attr_matrix = mlb.fit_transform(df['속성키워드'])
attr_df = pd.DataFrame(attr_matrix, columns=mlb.classes_)

# 4. 기존 데이터에 속성키워드별 칼럼 추가(파일명/문장/감정/감성점수/속성키워드/신뢰도 + 각각의 속성)
result = pd.concat([df.drop('속성키워드', axis=1), attr_df], axis=1)

# 5. 저장
save_path = "/Users/minjoong/Desktop/Sentiment_Analysis_Expanded2.xlsx"
result.to_excel(save_path, index=False)
print(f"변환 완료! :: {save_path}")

변환 완료! :: /Users/minjoong/Desktop/Sentiment_Analysis_Expanded2.xlsx
