In [1]:
import pandas as pd
import mysql.connector

In [2]:
# MySQL 연결 설정
conn = mysql.connector.connect(
    host="localhost",
    user="root",
    password="0000",
    database="TravelDB"
)

In [3]:
#!pip install sqlalchemy mysql-connector-python

In [4]:
# 여행지 및 숙박지 데이터 불러오기
query_travel = "SELECT * FROM travel_locations;"
query_hotel = "SELECT * FROM accommodations;"
df_travel = pd.read_sql(query_travel, conn)
df_hotel = pd.read_sql(query_hotel, conn)
# 사용자-숙박지 평점 데이터 불러오기
query_rating = "SELECT user_id, location_id, rating FROM user_ratings;"
df_ratings = pd.read_sql(query_rating, conn)
conn.close()

  df_travel = pd.read_sql(query_travel, conn)
  df_hotel = pd.read_sql(query_hotel, conn)
  df_ratings = pd.read_sql(query_rating, conn)


In [5]:
df_travel.head(2)

Unnamed: 0,id,name,category,description,latitude,longitude,popularity_score,user_id
0,1,여행지_5390,문화유산,이곳은 아름다운 도시 여행지입니다.,42.392701,129.639052,89,30
1,2,여행지_2931,문화유산,이곳은 아름다운 문화유산 여행지입니다.,33.767876,126.830798,13,12


In [6]:
df_hotel.head(2)

Unnamed: 0,accommodation_id,accommodation_name,accommodation_type,location_id
0,1,해변 리조트,리조트,1
1,2,산장,로지,2


In [7]:
df_ratings.head(2)

Unnamed: 0,user_id,location_id,rating
0,32,7,2
1,31,8,3


In [8]:
df_travel.name.value_counts()

name
여행지_1807    2
여행지_5390    1
여행지_7992    1
여행지_4505    1
여행지_2603    1
           ..
여행지_9367    1
여행지_8578    1
여행지_9913    1
여행지_8294    1
여행지_3612    1
Name: count, Length: 179, dtype: int64

### 여행지 추천을 위한 콘텐츠 기반 필터링
- 여행지의 tags 또는 category 정보를 TF-IDF 벡터화하여 유사한 장소를 추천합니다.

In [9]:
# (TF-IDF 벡터화)
# TF-IDF (Term Frequency-Inverse Document Frequency)
# 텍스트 데이터를 숫자로 변환
# 주어진 문장에서 중요한 단어일수록 높은 가중치를 부여
# 단순 단어 빈도수(TF)만 고려하는 것이 아니라, 문서 전체에서 
# 얼마나 희귀한 단어인지(IDF)까지 반영하여 특징을 추출
from sklearn.feature_extraction.text import TfidfVectorizer

# cosine_similarity (코사인 유사도)
# 벡터화된 문장들 간의 **유사도(Similarity)**를 계산
# 두 개의 문장을 비교할 때, 각 단어의 빈도수나 중요도를 고려하여 
# 두 벡터가 얼마나 유사한 방향을 갖는지를 측정
from sklearn.metrics.pairwise import cosine_similarity

In [10]:
# 여행지의 태그 또는 설명을 벡터화
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df_travel['description']) 

In [11]:
# 코사인 유사도 계산
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

In [12]:
# 특정 여행지와 유사한 장소 추천 함수
def recommend_travel(destination_name, top_n=5):
    idx = df_travel[df_travel['name'] == destination_name].index[0]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:top_n+1]
    
    travel_indices = [i[0] for i in sim_scores]
    return df_travel.iloc[travel_indices][['name', 'category']]

In [13]:
recommend_travel("여행지_1807")

Unnamed: 0,name,category
12,여행지_144,해변
15,여행지_9716,문화유산
16,여행지_6062,문화유산
17,여행지_3445,자연
19,여행지_7482,자연


### 협업 필터링을 통한 숙박지 추천
- 사용자별 숙박지 평점을 기반으로 Surprise 라이브러리를 사용하여 추천 모델을 만듭니다.

In [14]:
#!pip install scikit-surprise

In [15]:
from surprise import Dataset, Reader, SVD
from surprise.model_selection import cross_validate

In [16]:
df_ratings.head(2)

Unnamed: 0,user_id,location_id,rating
0,32,7,2
1,31,8,3


In [17]:
# Surprise용 데이터 변환
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(df_ratings[['user_id', 'location_id', 'rating']], reader)

In [18]:
# SVD 알고리즘 적용
model = SVD()
cross_validate(model, data, cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    1.3897  1.4739  1.5008  1.4932  1.5773  1.4870  0.0600  
MAE (testset)     1.1635  1.2290  1.2772  1.2868  1.3198  1.2553  0.0543  
Fit time          0.00    0.00    0.00    0.00    0.00    0.00    0.00    
Test time         0.00    0.00    0.00    0.00    0.00    0.00    0.00    


{'test_rmse': array([1.38966164, 1.47392099, 1.50076673, 1.49318707, 1.5772587 ]),
 'test_mae': array([1.16349661, 1.22897431, 1.27718017, 1.28683442, 1.3197996 ]),
 'fit_time': (0.00299835205078125,
  0.0020072460174560547,
  0.0009996891021728516,
  0.0019991397857666016,
  0.002000093460083008),
 'test_time': (0.0, 0.0, 0.0009989738464355469, 0.0001780986785888672, 0.0)}

In [19]:
# 특정 사용자의 숙박지 추천
trainset = data.build_full_trainset()
model.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x1bb31e4f890>

In [20]:
def recommend_hotel(user_id, top_n=5):
    accommodation_ids = df_hotel['accommodation_id'].unique()
    predictions = [model.predict(user_id, aid) for aid in accommodation_ids]
    predictions.sort(key=lambda x: x.est, reverse=True)
    
    top_accommodations = [pred.iid for pred in predictions[:top_n]]
    return df_hotel[df_hotel['accommodation_id'].isin(top_accommodations)][['accommodation_name', 'location_id']]

In [21]:
# 테스트
print(recommend_hotel(32))

   accommodation_name  location_id
0              해변 리조트            1
2               중앙 호텔            3
3             공원 옆 여관            4
5              사파리 캠프            6
10              정원 빌라           11
