In [None]:
pip install pandas



In [None]:
pip install tqdm



In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


In [None]:
import pandas as pd
from tqdm import tqdm


def filter_date(csv_file_path, start_date=None, end_date=None, stopwords=None, output_file_path=None):
    """
    리뷰 데이터를 전처리하는 함수. 주어진 날짜 범위 내의 리뷰만 처리하여 새로운 CSV 파일로 저장합니다.
    :param csv_file_path: CSV 파일 경로
    :param start_date: 전처리할 시작 날짜 (형식: 'YYYY-MM-DD')
    :param end_date: 전처리할 종료 날짜 (형식: 'YYYY-MM-DD')
    :param output_file_path: 결과를 저장할 새로운 CSV 파일 경로
    :return: 전처리된 데이터 (DataFrame)
    """
    # CSV 파일을 pandas DataFrame으로 읽어오기
    df = pd.read_csv(csv_file_path)

    # DataFrame에서 'content', 'score', 'at' 컬럼만 선택하여 리스트로 변환
    tot_raw_reviews = df[['content', 'score', 'at']].values.tolist()

    # 날짜 범위 필터링을 위해 start_date와 end_date를 pandas의 datetime 형식으로 변환
    if start_date:
        start_date = pd.to_datetime(start_date)
    if end_date:
        end_date = pd.to_datetime(end_date)

    # 결과를 담을 리스트 초기화
    result_data = []

    # tqdm을 사용하여 진행 상태 표시
    for review in tqdm(tot_raw_reviews, desc="전처리 중...", ncols=100):
        content = review[0]  # 리뷰 내용
        score = review[1]  # 리뷰 점수
        at = review[2]  # 리뷰 작성 시간

        # 'at'을 datetime 형식으로 변환하여 날짜 필터링
        try:
            date = pd.to_datetime(at)  # 'at'을 datetime 형식으로 변환
        except Exception as e:
            date = None  # 만약 변환이 실패하면 None으로 처리

        # 날짜 범위 조건에 맞는 리뷰만 처리
        # start_date와 end_date가 None일 경우 날짜 범위를 고려하지 않음
        if (start_date and date < start_date) or (end_date and date > end_date) or (start_date is None and end_date is None):
            continue  # 해당 날짜 범위 밖의 리뷰는 전처리하지 않음

        # 결과에 추가
        result_data.append({
            'date': date,  # 'at' -> 'date'
            'content': content,
            'score': score,
        })

    # 전처리된 리뷰 개수 출력
    print(f'전처리된 리뷰 개수: {len(result_data)}')
    if len(result_data) > 0:
        print(f'첫 번째 리뷰: {result_data[0]}')

    # 전처리된 데이터를 DataFrame으로 변환
    result_data_df = pd.DataFrame(result_data)

    # 컬럼 순서 변경: 'date', 'content', 'score'
    result_data_df = result_data_df[['date', 'score', 'content']]

    # 결과를 새로운 CSV 파일로 저장
    if output_file_path:
        result_data_df.to_csv(output_file_path, index=False, encoding='utf-8-sig')
        print(f"전처리된 리뷰가 {output_file_path}에 저장되었습니다.")

    return result_data_df


In [None]:
# 날짜 범위를 설정하여 전처리 실행
start_date = '2023-12-18'  # 시작 날짜
end_date = None  # 종료 날짜

csv_file_path = '/content/drive/MyDrive/PML_PAPRER/data/0_Crawled_SuperSol.csv'
result_df = filter_date(csv_file_path,start_date=start_date, end_date=end_date)
result_df.to_csv('/content/drive/MyDrive/PML_PAPRER/data/1_1_DateFiltered_SuperSol.csv', index=False)  # 결과를 새로운 CSV 파일로 저장

전처리 중...: 100%|███████████████████████████████████████████| 7246/7246 [00:05<00:00, 1373.94it/s]


전처리된 리뷰 개수: 2412
첫 번째 리뷰: {'date': Timestamp('2024-10-16 01:40:07'), 'content': '통합은 했는데, 할 수 없는 기능들이 많아 결국 은행, 카드 어플 각각 다 가지고 있어야하는 아이러니. 이럴거면 통합어플은 왜 만들었나요? 슈퍼쏠에 챗봇, 상담원 채팅 상담 기능 좀 기존 어플들과 연동해서 사용할 수 있도록 해주세요. 슈퍼쏠에서 검색했는데 검색조차 안되어서 기존 각 어플들로 들어가서 처리한 기능들이 한두개가 아닙니다...', 'score': 1}


In [None]:
# 날짜 범위를 설정하여 전처리 실행
start_date = '2018-02-22'  # 시작 날짜
end_date = None  # 종료 날짜

csv_file_path = '/content/drive/MyDrive/PML_PAPRER/data/0_Crawled_SolBank.csv'
result_df = filter_date(csv_file_path, start_date=start_date, end_date=end_date)
result_df.to_csv('/content/drive/MyDrive/PML_PAPRER/data/1_1_DateFiltered_SolBank.csv', index=False)  # 결과를 새로운 CSV 파일로 저장


전처리 중...: 100%|█████████████████████████████████████████| 29180/29180 [00:18<00:00, 1610.01it/s]


전처리된 리뷰 개수: 20526
첫 번째 리뷰: {'date': Timestamp('2024-10-26 10:38:43'), 'content': '결제수단을 추가하려 하니 가입하기 버튼이 떴는데, 이걸 눌러도 최신버전으로 업데이트 후 가입해달라는 메세지만 뜨네요. 최신버전으로 업데이트 이미 한 상황인데 가입 자체를 못해서 이용을 못하고 있는 상태입니다. 오류 수정 부탁드려요', 'score': 1}


In [None]:
# 날짜 범위를 설정하여 전처리 실행
start_date = '2022-10-27'  # 시작 날짜
end_date = None  # 종료 날짜

csv_file_path = '/content/drive/MyDrive/PML_PAPRER/data/0_Crawled_KBstar.csv'
result_df = filter_date(csv_file_path, start_date=start_date, end_date=end_date)
result_df.to_csv('/content/drive/MyDrive/PML_PAPRER/data/1_1_DateFiltered_KBstar.csv', index=False)  # 결과를 새로운 CSV 파일로 저장


전처리 중...: 100%|█████████████████████████████████████████| 69555/69555 [00:44<00:00, 1573.76it/s]


전처리된 리뷰 개수: 11842
첫 번째 리뷰: {'date': Timestamp('2024-10-18 07:36:53'), 'content': '요즘들어 앱 실행이 안되네요. 계속로딩 화면만 나오다가 로딩도 안되고 그화면에서 멈춰버리네요. 그런데 특이한것은 알림문자가 왔을때 그걸 누르면 앱이 정상적으로 실행이되어 접속할 수 있다는 겁니다. 도대체 뭐가 문제인지 알수가 없네요. 요즘 제대로 접속이 안되 불편합니다. 알림 문자가 있어야 접속이 되니 확인요청 합니다.', 'score': 2}
