In [2]:
import pandas as pd
import re

In [3]:
def preprocess_reviews_df(df, review_column):
    """
    DataFrame에서 리뷰 데이터를 전처리하고 글자 수 5 이하인 리뷰를 삭제하는 함수.

    Parameters:
        df (pd.DataFrame): 리뷰 데이터가 포함된 DataFrame
        review_column (str): 리뷰 텍스트가 포함된 열 이름

    Returns:
        pd.DataFrame: 전처리된 리뷰 데이터가 포함된 DataFrame
    """

    def clean_text(text):
        # "더보기" 텍스트 제거
        text = text.replace("더보기", " ")
        # 단자음/단모음 제거 (ㅎㅎㅎ, ㅋㅋㅋ, ㅠㅠ 제거)
        text = re.sub(r"[ㄱ-ㅎㅏ-ㅣ]+", " ", text)
        # 허용된 문자(한글, 숫자, .!?, 특정 이모티콘)만 남김
        text = re.sub(r"[^\w\s가-힣0-9.!?⭐️😍🥰🩷🧡❤️💛🖤🤍💖💗💕♥️🫶👍👏😂🥲👎]", " ", text)
        # 불필요한 공백 제거
        text = re.sub(r"\s+", " ", text).strip()
        return text

    # 리뷰 데이터 전처리
    df[review_column] = df[review_column].apply(clean_text)
    
    # 글자 수 5 이하인 리뷰 제거
    df = df[df[review_column].str.len() > 5].copy()
    
    # 중복 제거
    df = df.drop_duplicates(subset=[review_column]).reset_index(drop=True)
    
    return df

# # 예시 데이터
# data = {'review': ["이 제품 너무 좋아요!!😍", "더보기", "ㅎㅎㅎㅎ", "최고!", "가성비가 좋네요. ⭐️", "추천!"]}
# df = pd.DataFrame(data)

# # 전처리 수행
# preprocessed_df = preprocess_reviews_df(df, "review")

# # 결과 출력
# print(preprocessed_df)

In [4]:
df1 = pd.read_csv('naver_crawling/경희대_naver_review.csv')
df2 = pd.read_csv('aver_crawling/서강대_naver_review.csv')
df3 = pd.read_csv('naver_crawling/시립대_naver_review.csv')
df4 = pd.read_csv('naver_crawling/연세대_naver_review.csv')
df5 = pd.read_csv('naver_crawling/외대_naver_review.csv')
df6 = pd.read_csv('naver_crawling/이대_naver_review.csv')

In [5]:
naver = pd.concat([df1, df2, df3, df4, df5, df6])

In [6]:
preprocessed_naver = preprocess_reviews_df(naver, "content")

In [9]:
output_path = 'naver_review.csv'

In [10]:
preprocessed_naver.to_csv(output_path, index=False, encoding='utf-8-sig')