# review로딩 -> df 만들기

In [None]:
from datetime import datetime
import json
import pandas as pd

# file로딩 -> df 만드는 함수 : 1개의 파일을 전처리하는 함수
def load_data(data_path):
    # 파일로딩
    with open(f"{data_path}", "r", encoding="utf-8") as file:
        json_data = json.load(file)

    # 로딩 데이터 -> df로 만들기
    df = pd.DataFrame(json_data)
    # print(df.head())
    # 데이터 전처리
    df['date'] = df['date'].str.replace(".", "-")
    # date 형태(2025.05.06)가 아닌경우, 오늘날짜로 바꾸기
    # 문자열을 날짜로 변환, 오류가 나는 경우 NaT로 처리
    df['date'] = pd.to_datetime(df['date'], errors='coerce')
    # 오늘 날짜
    today = pd.Timestamp(datetime.today().date())
    # NaT인 경우 오늘 날짜로 대체
    df['date'] = df['date'].fillna(today)

    # df 리턴하기
    return df

In [11]:
datetime.today().date()

datetime.date(2025, 6, 5)

In [17]:
# 함수 호출부
data_path = "res/1.gangneung_mare.json"
df = load_data(data_path)
print(len(df))
df.head(10)

420


  df['date'] = pd.to_datetime(df['date'], errors='coerce')


Unnamed: 0,review,stars,date
0,"바닷가 바로앞이라 너무좋아요.\n객실도 깨끗하고, 샤워기 수압좋고 따뜻한물 잘 나오...",5,2025-06-05
1,오션뷰라 진짜 좋았어요!! ㅎㅎㅎ\n제 생일이라 남자친구하고 처음 오션뷰 예약해서 ...,5,2025-06-05
2,"황금연휴에 방문했는데 오션뷰가 정말 예쁘더라고요👍\n저는 2층에 머물렀는데, 창밖으...",5,2025-05-06
3,위치좋고 직원들 전부 친절하고 재방문의사100%입니다,5,2025-06-05
4,좋았습니다 수고하세요,5,2025-06-05
5,괜찬아요\n바다바로앞이라좋아요,5,2025-06-05
6,우선 바람이 불어서 예정보다 30분 숙소 입실을 허락해줌\n그런데 오션뷰 2층 20...,2,2025-06-05
7,"강원도를 좋아하는 여행자입니다.\n강릉 스카이베이,속초 카시아,롯데 다이용해봤지만\...",5,2025-05-27
8,강문해변 바로 앞이라 위치도 좋고 버스 정류장도 바로 근처라 이동이 너무 편리해서 ...,5,2025-05-24
9,내부가 깔끔했어요 \n전망도 해안뷰가 이뻤어요\n담에 또 오고싶네요,5,2025-05-24


# mysql DB 연결하기

In [29]:

from dotenv import load_dotenv
import os
import pandas as pd
from sqlalchemy import create_engine

# .env 파일을 찾아서 환경변수 로딩
load_dotenv('.env', override=True)

# 메모리에 로딩된 환경변수 값을 가져오기
USER = os.environ.get("USER")
PASSWORD = os.environ.get("PASSWORD")
HOST = os.environ.get("HOST")
DB_NAME = os.environ.get("DB_NAME")
PORT = 3306

# DB_URL = f"mysql+pymysql://{id}:{pw}@{서버ip}:{port}/{db}"
DB_URL = f"mysql+pymysql://{USER}:{PASSWORD}@{HOST}:{PORT}/{DB_NAME}"

# df -> mysql 테이블에 저장

In [30]:
def save_to_db(df, table_name):
    try:
        # sqlalchemy로 mysql엔진 생성
        engine = create_engine(DB_URL)    

        # df을 mysql 테이블에 저장
        df.to_sql(
            name = table_name,
            con = engine,
            if_exists = 'append',
            index = False,
            method="multi"
        )
        print(f"SQLAlchemy를 통해 {len(df)}개의 리뷰가 성공적으로 저장되었습니다.")
    except Exception as e:
        print(f"DB 저장시 {e}가 발생함")
    

# 숙소 정보 DB 저장하기

In [32]:
import pandas as pd
df = pd.read_csv('res/accommodation_info.csv', encoding='utf-8')
# df.head()
table_name = 'accommodation_info'
save_to_db(df, table_name)

SQLAlchemy를 통해 4개의 리뷰가 성공적으로 저장되었습니다.


# 리뷰데이터 저장하기

In [35]:
# 전처리
data_path = "res/1.gangneung_mare.json"
df = load_data(data_path)

# df에 accommodation_id 추가하기
# 강릉 마레는 accommodation_id = 1
df['accommodation_id'] = 1
# df.head()

# DB 테이블에 저장하기
table_name = "accommodation_review"
save_to_db(df, table_name)

SQLAlchemy를 통해 420개의 리뷰가 성공적으로 저장되었습니다.


  df['date'] = pd.to_datetime(df['date'], errors='coerce')


# 여러개의 파일을 일괄로 전처하기

- 함수 정의

In [38]:
from datetime import datetime
import json
import pandas as pd

# file로딩 -> df 만드는 함수 : 1개의 파일을 전처리하는 함수
def load_data_multi(acco_id, data_path):
    # 파일로딩
    with open(f"{data_path}", "r", encoding="utf-8") as file:
        json_data = json.load(file)

    # 로딩 데이터 -> df로 만들기
    df = pd.DataFrame(json_data)
    # print(df.head())
    # 데이터 전처리
    df['date'] = df['date'].str.replace(".", "-")
    # date 형태(2025.05.06)가 아닌경우, 오늘날짜로 바꾸기
    # 문자열을 날짜로 변환, 오류가 나는 경우 NaT로 처리
    df['date'] = pd.to_datetime(df['date'], errors='coerce')
    # 오늘 날짜
    today = pd.Timestamp(datetime.today().date())
    # NaT인 경우 오늘 날짜로 대체
    df['date'] = df['date'].fillna(today)

    # df에 accommodation_id 추가하기
    # 강릉 마레는 accommodation_id = 1
    df['accommodation_id'] = acco_id
    # df.head()

    # df 리턴하기
    return df

- 일괄 실행

In [39]:
# 전처리하고 저장해야하는 데이터 파일이 10
MAPPING = {
    # 1: './res/1.gangneung_mare.json',
    2: './res/2.insadong_ninetree.json',
    3: './res/3.kyongpo_the_hongc.json',
    # 4: './res/4.hongcheon_vivaldi.json'
}

for acco_id, data_path in MAPPING.items():
    # 전처리
    # data_path = "res/1.gangneung_mare.json"
    df = load_data_multi(acco_id, data_path)

    # DB 테이블에 저장하기
    table_name = "accommodation_review"
    save_to_db(df, table_name)

SQLAlchemy를 통해 420개의 리뷰가 성공적으로 저장되었습니다.
SQLAlchemy를 통해 420개의 리뷰가 성공적으로 저장되었습니다.


  df['date'] = pd.to_datetime(df['date'], errors='coerce')
