In [23]:
import pandas as pd
from dateutil import parser
import re
import os

# 입력 및 출력 폴더 경로 설정
input_folder = 'C:/fintech_service/final_project/전데이터'
output_folder = 'C:/fintech_service/final_project/data'

# 출력 폴더가 없으면 생성
os.makedirs(output_folder, exist_ok=True)

# 날짜 형식을 변환하는 함수
def convert_date(date_str):
    # '2023년 9월 1일 금요일' 형식을 '2023년 9월 1일'로 변경하기 위한 정규식
    date_str = re.sub(r'(\d{4}년 \d{1,2}월 \d{1,2}일) \w+', r'\1', date_str)
    
    # 다양한 형식을 명확하게 시도하여 변환
    formats = [
        "%Y년 %m월 %d일",       # 예시: 2023년 9월 1일
        "%Y/%m/%d",             # 예시: 2023/09/01
        "%Y-%m-%d",             # 예시: 2023-09-01
        "%Y.%m.%d",             # 예시: 2023.09.01
        "%Y%m%d"                # 예시: 20230901
    ]
    
    for fmt in formats:
        try:
            return pd.to_datetime(date_str, format=fmt).strftime('%Y-%m')
        except ValueError:
            continue
    
    # dateutil의 parser로 마지막 시도
    try:
        # 문자열 자동 감지로 변환
        return parser.parse(date_str).strftime('%Y-%m')
    except (ValueError, TypeError):
        # 모든 시도가 실패하면 예외 발생
        raise ValueError(f"Unsupported date format: {date_str}")

# 입력 폴더의 모든 CSV 파일 처리
for filename in os.listdir(input_folder):
    if filename.endswith('.csv'):
        # 파일 경로 설정
        input_file = os.path.join(input_folder, filename)
        output_file = os.path.join(output_folder, filename)

        # CSV 파일 불러오기
        df = pd.read_csv(input_file)

        # 'Index' 열 삭제
        if 'Index' in df.columns:
            df = df.drop(columns=['Index'])

        # 'Date' 열이 object 형식인 경우에만 변환
        if df['Date'].dtype == 'object':
            df['Date'] = df['Date'].apply(convert_date)

        # 변환된 데이터를 출력 폴더에 저장
        df.to_csv(output_file, index=False, encoding='utf-8-sig')


In [16]:
data = pd.read_csv('./전데이터/24시 하이들_reviews_추천순.csv')
data

Unnamed: 0,Index,Date,Review
0,1,2023년 9월 1일 금요일,.
1,2,2023년 7월 13일 목요일,.
2,3,2023년 7월 12일 수요일,.
3,4,2023년 5월 30일 화요일,.
4,5,2023년 5월 18일 목요일,.
5,6,2023년 5월 10일 수요일,.
6,7,2023년 4월 25일 화요일,.
7,8,2023년 4월 20일 목요일,.
8,9,2023년 4월 18일 화요일,.
9,10,2023년 4월 13일 목요일,.


In [19]:
data['Date'].dtype

dtype('O')