In [49]:
import pandas as pd 
from sklearn.cluster import KMeans # 군집분류를 위한 클러스터 라이브러리 
from sklearn.feature_extraction.text import TfidfVectorizer # 문자열 벡터화 라이브러리 
from sklearn.model_selection import train_test_split # 데이터 셋 분할 
from sklearn.naive_bayes import MultinomialNB # 텍스트 분류 
from sklearn.metrics import accuracy_score, classification_report # 데이터 정확도, 결과 보고서 라이브러리

In [50]:
# 크롤링한 일본 관광지 데이터 가져오기
placeData = pd.read_csv("일본 관광지 데이터.csv")

In [51]:
# 관광명소 데이터에서 결측치가 있는 문장 확인 
isNull = placeData.isnull().sum()
isNull

도시이름     0
관광지이름    0
관광지설명    1
별점       0
좋아요      0
카테고리     0
dtype: int64

In [52]:
nullData = placeData[placeData.isnull().any(axis=1)] # axis : 행, axis 열 
print("결측치가 있는 데이터:", nullData)

결측치가 있는 데이터:     도시이름    관광지이름 관광지설명   별점 좋아요          카테고리
48  시즈오카  후지노미야 역   NaN  4.0  69  관광명소 · 후지노미야


In [53]:
# 결측치 데이터 적절하게 변경  
placeData['관광지설명'] = placeData['관광지설명'].fillna('교통의 중심지 후지노미야 역')

In [54]:
# Step1) 관광지 설명으로 6개의 군집 카테고리를 분류 

# TF-IDF 벡터화 - 텍스트 데이터를 수치형 벡터로 변환한다. 
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(placeData['관광지설명'])

# K-평균 군집을 수행합니다 
k = 6
kmeans = KMeans(n_clusters=k, random_state=42)
placeData['군집1'] = kmeans.fit_predict(X)

# 군집 결과를 출력
print(placeData[['관광지이름', '군집1']])

           관광지이름  군집1
0        시부야 스카이    4
1            센소지    2
2          도쿄 타워    5
3           아사쿠사    5
4   시부야 스크램블 교차로    2
..           ...  ...
85       오우라 천주당    0
86       후쿠사야 본점    0
87          시카이로    0
88           데지마    5
89   나가사키 데지마 워프    1

[90 rows x 2 columns]


In [55]:
# 6개의 군집을 분석하기
cluster1 = placeData[placeData['군집1'] == 0]
cluster1

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,군집1
5,도쿄,도쿄 디즈니랜드,월트 디즈니가 창조한 동화 속 세상,4.6,25547,테마/체험,0
12,후쿠오카,후쿠오카 타워,하카타 만의 아름다운 오션뷰를 감상할 수 있는 랜드마크 타워,4.0,39575,관광명소 · 시사이드 모모치,0
17,후쿠오카,덴진 지하상가,덴진 지역의 쇼핑 플레이스들을 잇는 큰 규모의 지하상가,3.9,29274,쇼핑 · 덴진,0
21,오사카,유니버설 스튜디오 재팬,온가족 모두 즐거운 할리우드 영화 테마파크,4.7,55394,테마/체험 · 베이에어리어,0
22,오사카,오사카 성,오사카를 상징하는 랜드마크이자 필수 관광 코스,4.0,64052,관광명소,0
23,오사카,청수사,아름다운 사계절을 조망할 수 있는 교토 최고의 인기 사찰,4.2,41717,관광명소 · 교토 전체,0
24,오사카,산넨자카 니넨자카,사계절의 아름다운과 교토의 옛 모습을 간직한 거리,4.4,30466,관광명소 · 교토 전체,0
31,가고시마,덴몬칸,매년 수많은 축제가 열리는 가고시마 최대 규모의 번화가,4.4,493,관광명소 · 가고시마,0
32,가고시마,센간엔,사쿠라지마의 절경을 감상할 수 있는 아름다운 정원,4.4,488,관광명소 · 가고시마,0
34,가고시마,이부스키 역,매년 온천 축제가 열리는 이부스키 관광의 시작점,3.9,101,관광명소 · 이부스키,0


In [56]:
cluster2 = placeData[placeData['군집1'] == 1]
cluster2

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,군집1
25,오사카,헵파이브,빨간 대관람차로 유명한 대형 복합 쇼핑몰,4.2,48120,쇼핑 · 우메다,1
47,시즈오카,사와야카 신시즈오카 세노바 점,육즙 가득한 수제 햄버그스테이크로 유명한 체인 레스토랑,4.5,492,음식점 · 시즈오카,1
54,나고야,오아시스 21,야경 명소로 유명한 친환경 입체 도시 공원,4.0,3611,쇼핑 · 사카에 & 오스,1
56,나고야,노리타케의 숲,유명 도자기 브랜드 '노리타케'에서 운영하는 복합 시설,3.9,1994,관광명소,1
59,나고야,하브스 사카에 본점,핸드메이드 케이크로 유명한 베이커리,4.2,1571,카페/디저트 · 사카에 & 오스,1
67,삿포로,르타오 본점,10초에 한 개씩 팔리는 치즈 케이크가 유명한 디저트 전문점,4.3,9936,카페/디저트 · 오타루,1
71,오키나와,미하마 아메리칸 빌리지,볼거리와 즐길거리가 넘쳐나는 미국풍 복합 쇼핑 타운,4.0,17251,관광명소 · 차탄,1
79,오키나와,이온몰 오키나와 라이카무 점,220개 이상의 다양한 매장이 입점한 오키나와 최대 규모의 쇼핑몰,4.1,4989,쇼핑 · 차탄,1
83,나가사키,나가사키 신치 차이나타운,"하얀 국물의 '나가사키 짬뽕'으로 유명한, 일본 3대 차이나타운",4.1,344,관광명소 · 나가사키 시내,1
89,나가사키,나가사키 데지마 워프,운치 있는 항구의 풍경을 감상하며 시간 보내기 좋은 복합 시설,4.4,125,관광명소 · 나가사키 시내,1


In [57]:
cluster3 = placeData[placeData['군집1'] == 2]
cluster3

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,군집1
1,도쿄,센소지,"일본 전통 문화가 살아 숨쉬는, 도쿄에서 가장 오래된 사원",4.3,26114,관광명소 · 아사쿠사,2
4,도쿄,시부야 스크램블 교차로,"'사람 홍수'를 카메라에 담을 수 있는, 시부야 대표 포토 스팟",4.1,24946,관광명소 · 시부야,2
6,도쿄,메가 돈키호테 시부야 본점,24시간 영업하는 일본 대표 프랜차이즈 대형 생활 잡화 판매점,4.1,19448,쇼핑,2
7,도쿄,아키하바라,다양한 애니메이션 관련 제품을 만날 수 있는 일본 대표 오타로드,4.2,19270,관광명소 · 우에노,2
16,후쿠오카,돈키호테 덴진 본점,소소한 잡화와 실용적인 물건들을 구매하기 좋은 프랜차이즈 드럭 스토어,3.9,15261,쇼핑 · 덴진,2
18,후쿠오카,이치란 본사 총본점,일본을 대표하는 프랜차이즈 라멘 전문점,4.3,32401,음식점 · 하카타,2
27,오사카,돈키호테 도톤보리 점,세계 최초의 타원형 관람차가 있는 일본 대표 드럭스토어 체인,3.6,50325,쇼핑 · 난바,2
36,가고시마,돈키호테 가고시마 덴몬칸 점,먹거리부터 생필품까지 없는 게 없는 일본 대표 만물 잡화점,4.2,110,쇼핑 · 가고시마,2
50,나고야,나고야 성,일본 3대 성으로 손꼽히는 나고야의 상징,4.0,3592,관광명소 · 나고야 성 & 도쿠가와 정원,2
55,나고야,돈키호테 나고야 사카에 본점,다양한 의약품과 생활용품을 판매하는 일본 대표 생활 잡화점,4.1,1989,관광명소 · 사카에 & 오스,2


In [58]:
cluster4 = placeData[placeData['군집1'] == 3]
cluster4

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,군집1
28,오사카,구로몬 시장,다양한 먹거리가 있는 '오사카의 부엌',3.8,65662,쇼핑 · 난바,3
35,가고시마,기리시마 온천 시장,지역 특산품과 다양한 먹거리가 있는 시장,3.0,81,쇼핑 · 기리시마,3
51,나고야,오스 상점가,다양한 매장이 들어서 있는 아케이드 상점가,4.0,2945,관광명소 · 사카에 & 오스,3
62,삿포로,오도리 공원,다양한 축제와 이벤트가 있는 삿포로 대표 공원,4.1,17980,관광명소 · 삿포로 전체,3
63,삿포로,삿포로 역,다양한 즐길거리가 있는 홋카이도 교통의 중심,4.5,4381,관광명소 · 삿포로 전체,3
70,오키나와,오키나와 츄라우미 수족관,다양한 해양 생물과 더불어 돌고래 쇼를 볼 수 있는 대형 수족관,4.4,18866,테마/체험 · 북부,3


In [59]:
cluster5 = placeData[placeData['군집1'] == 4]
cluster5 

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,군집1
0,도쿄,시부야 스카이,넋을 놓고 바라보게 만드는 스카이 라인을 자랑하는 전망대,4.6,12229,관광명소 · 시부야,4
26,오사카,공중 정원 전망대,오사카 야경을 즐길 수 있는 우메다 스카이 빌딩의 옥외 전망대,4.2,31442,관광명소 · 우메다,4
29,오사카,한큐 백화점 우메다 본점,90여 년의 역사를 자랑하는 유명한 대규모 백화점,4.1,19279,쇼핑 · 우메다,4
38,가고시마,유노히라 전망대,사쿠라지마 화산을 가장 가까이에서 볼 수 있는 전망대,4.2,235,관광명소 · 가고시마,4


In [60]:
cluster6 = placeData[placeData['군집1'] == 5]
cluster6 

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,군집1
2,도쿄,도쿄 타워,아름다운 전망을 즐길 수 있는 도쿄의 상징,4.4,36266,관광명소 · 롯폰기,5
3,도쿄,아사쿠사,대도시 속에서 전통 문화를 느낄 수 있는 일본판 인사동,4.4,24646,관광명소 · 아사쿠사,5
8,도쿄,롯폰기 힐즈,도심 속 여유를 즐길 수 있는 롯폰기 최고의 명소,4.4,22571,관광명소 · 롯폰기,5
9,도쿄,도쿄 역,100년의 역사를 가지고 있는 '도쿄의 현관',4.1,7445,관광명소 · 긴자,5
10,후쿠오카,캐널시티 하카타,쇼핑과 엔터테인먼트를 동시에 즐길 수 있는 복합 상업시설,4.2,50390,쇼핑 · 하카타,5
11,후쿠오카,시사이드 모모치 해변공원,이국적인 휴양지 분위기를 가진 도심 속 해변 공원,4.0,40486,관광명소,5
13,후쿠오카,하카타 역,"쇼핑과 식사, 도심 전망까지 한번에 즐길 수 있는 규슈 최대 규모의 역",4.4,17273,관광명소 · 하카타,5
14,후쿠오카,나카스,일본식 포장마차 '야타이'가 몰려 있는 거리,3.6,34464,관광명소 · 하카타,5
15,후쿠오카,오호리 공원,도심 속 시민들의 휴식처로 사용되는 큰 규모의 호수 공원,4.4,30787,관광명소 · 시사이드 모모치,5
19,후쿠오카,덴진 다이묘 거리,맛집 탐방과 쇼핑을 함께 즐길 수 있는 번화가,3.9,17695,관광명소 · 덴진,5


In [61]:
# 분석한 데이터 라벨을 카테고리로 변경하기 
cluster_mapping = {0: '편의성', 1: '음식', 2: '쇼핑', 3: '관광', 4: '휴양', 5: '문화'}
placeData['카테고리1'] = placeData['군집1'].replace(cluster_mapping)

# 열 삭제 
placeData = placeData.drop('군집1', axis=1)
placeData

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,카테고리1
0,도쿄,시부야 스카이,넋을 놓고 바라보게 만드는 스카이 라인을 자랑하는 전망대,4.6,12229,관광명소 · 시부야,휴양
1,도쿄,센소지,"일본 전통 문화가 살아 숨쉬는, 도쿄에서 가장 오래된 사원",4.3,26114,관광명소 · 아사쿠사,쇼핑
2,도쿄,도쿄 타워,아름다운 전망을 즐길 수 있는 도쿄의 상징,4.4,36266,관광명소 · 롯폰기,문화
3,도쿄,아사쿠사,대도시 속에서 전통 문화를 느낄 수 있는 일본판 인사동,4.4,24646,관광명소 · 아사쿠사,문화
4,도쿄,시부야 스크램블 교차로,"'사람 홍수'를 카메라에 담을 수 있는, 시부야 대표 포토 스팟",4.1,24946,관광명소 · 시부야,쇼핑
...,...,...,...,...,...,...,...
85,나가사키,오우라 천주당,뾰족하게 솟은 연둣빛 탑과 신비로운 스테인드글라스가 매력적인 성당,3.8,220,관광명소 · 나가사키 시내,편의성
86,나가사키,후쿠사야 본점,숙련된 손기술로 바닥에 설탕이 박힌 나가사키식 카스텔라를 선보이는 가게,4.0,278,카페/디저트 · 나가사키 시내,편의성
87,나가사키,시카이로,대표적인 현지 음식 나가사키 짬뽕과 사라 우동의 원조 맛집,4.3,233,음식점 · 나가사키 시내,편의성
88,나가사키,데지마,에도 시대의 사무라이 복장을 한 가이드를 따라 걸어보는 역사 명소,3.3,113,관광명소 · 나가사키 시내,문화


In [62]:
# Step2) 데이터를 학습해서 관광지 설명을 분류하기 
# 데이터: 여행 명소 텍스트 설명과 해당 카테고리 1. 편의성, 2, 휴양, 3. 문화, 4. 관광, 5. 음식, 6. 쇼핑 
categoryData = pd.read_excel("카테고리 학습 문장.xlsx")

In [63]:
# 카테고리 데이터를 문장과 카테고리 레이블로 분리 

categoryLables = []
categoryText = []
num = 0

for i in categoryData['구분']:
    categoryLables.append(i)
    categoryText.append(categoryData['카테고리 문장'][num])
    num = num + 1

In [64]:
# 텍스트를 벡터화진행 
vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(categoryText)

In [65]:
# 레이블을 숫자로 변환
label_mapping = {label: idx for idx, label in enumerate(set(categoryLables))}
y = [label_mapping[label] for label in categoryLables]

In [66]:
# 데이터를 훈련 세트와 테스트 세트로 나눈다 
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [67]:
# 분류 모델 훈련
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# 테스트 세트에 대한 예측
y_pred = classifier.predict(X_test)# 레이블을 숫자로 변환
label_mapping = {label: idx for idx, label in enumerate(set(categoryLables))}
y = [label_mapping[label] for label in categoryLables]

In [68]:
# 정확도 및 분류 보고서 출력
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

Accuracy: 0.5
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         2
           1       1.00      0.67      0.80         3
           2       0.00      0.00      0.00         0
           3       1.00      0.50      0.67         2
           4       1.00      0.33      0.50         3
           5       1.00      1.00      1.00         2

    accuracy                           0.50        12
   macro avg       0.67      0.42      0.49        12
weighted avg       0.83      0.50      0.60        12



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [69]:
num = 0
placeData['카테고리2'] = "" # 카테고리2 생성

for i in placeData['관광지설명']:
    # 새로운 텍스트에 대한 분류
    textVectorized = vectorizer.transform([i])
    predictedCategory = classifier.predict(textVectorized)[0]

    # 예측된 카테고리 출력
    for label, idx in label_mapping.items():
        if idx == predictedCategory:
            placeData.loc[num,'카테고리2'] = label
            num = num + 1

In [70]:
placeData

Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리,카테고리1,카테고리2
0,도쿄,시부야 스카이,넋을 놓고 바라보게 만드는 스카이 라인을 자랑하는 전망대,4.6,12229,관광명소 · 시부야,휴양,문화
1,도쿄,센소지,"일본 전통 문화가 살아 숨쉬는, 도쿄에서 가장 오래된 사원",4.3,26114,관광명소 · 아사쿠사,쇼핑,문화
2,도쿄,도쿄 타워,아름다운 전망을 즐길 수 있는 도쿄의 상징,4.4,36266,관광명소 · 롯폰기,문화,편의성
3,도쿄,아사쿠사,대도시 속에서 전통 문화를 느낄 수 있는 일본판 인사동,4.4,24646,관광명소 · 아사쿠사,문화,관광
4,도쿄,시부야 스크램블 교차로,"'사람 홍수'를 카메라에 담을 수 있는, 시부야 대표 포토 스팟",4.1,24946,관광명소 · 시부야,쇼핑,문화
...,...,...,...,...,...,...,...,...
85,나가사키,오우라 천주당,뾰족하게 솟은 연둣빛 탑과 신비로운 스테인드글라스가 매력적인 성당,3.8,220,관광명소 · 나가사키 시내,편의성,문화
86,나가사키,후쿠사야 본점,숙련된 손기술로 바닥에 설탕이 박힌 나가사키식 카스텔라를 선보이는 가게,4.0,278,카페/디저트 · 나가사키 시내,편의성,문화
87,나가사키,시카이로,대표적인 현지 음식 나가사키 짬뽕과 사라 우동의 원조 맛집,4.3,233,음식점 · 나가사키 시내,편의성,음식
88,나가사키,데지마,에도 시대의 사무라이 복장을 한 가이드를 따라 걸어보는 역사 명소,3.3,113,관광명소 · 나가사키 시내,문화,휴양


In [43]:
# 데이터 분석이 완료된 카테고리 삭제 
placeData = placeData.drop('카테고리', axis=1)

# 카테고리1,2 로 분류된 데이터 엑셀파일로 다시 저장하기 
placeData.to_csv('분류된 일본명소.csv', index=False)
print("데이터 저장 완료")

placeData

데이터 저장 완료


Unnamed: 0,도시이름,관광지이름,관광지설명,별점,좋아요,카테고리1,카테고리2
0,도쿄,시부야 스카이,넋을 놓고 바라보게 만드는 스카이 라인을 자랑하는 전망대,4.6,12229,편의성,문화
1,도쿄,센소지,"일본 전통 문화가 살아 숨쉬는, 도쿄에서 가장 오래된 사원",4.3,26114,쇼핑,문화
2,도쿄,도쿄 타워,아름다운 전망을 즐길 수 있는 도쿄의 상징,4.4,36266,휴양,편의성
3,도쿄,아사쿠사,대도시 속에서 전통 문화를 느낄 수 있는 일본판 인사동,4.4,24646,편의성,관광
4,도쿄,시부야 스크램블 교차로,"'사람 홍수'를 카메라에 담을 수 있는, 시부야 대표 포토 스팟",4.1,24946,관광,문화
...,...,...,...,...,...,...,...
85,나가사키,오우라 천주당,뾰족하게 솟은 연둣빛 탑과 신비로운 스테인드글라스가 매력적인 성당,3.8,220,편의성,문화
86,나가사키,후쿠사야 본점,숙련된 손기술로 바닥에 설탕이 박힌 나가사키식 카스텔라를 선보이는 가게,4.0,278,편의성,문화
87,나가사키,시카이로,대표적인 현지 음식 나가사키 짬뽕과 사라 우동의 원조 맛집,4.3,233,음식,음식
88,나가사키,데지마,에도 시대의 사무라이 복장을 한 가이드를 따라 걸어보는 역사 명소,3.3,113,편의성,휴양
