## 1) 라이브러리&패키지 불러오기

In [50]:
import pandas as pd
import re
from pprint import pprint

## 2) 데이터셋 불러오기
- 제목: SNS 관광객리뷰웹문서
- 데이터 구간: 2010년 1월 ~ 2020년 12월
- 출처: 경기지역경제포털(URL: https://bigdata-region.kr/)

In [2]:
df = pd.read_csv('Datasets/TC_SN_TURIST_RVW__WEB_DOC_20210106220911.csv', encoding='UTF-8')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14836 entries, 0 to 14835
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   수집인덱스   14836 non-null  int64 
 1   기준년월    14836 non-null  object
 2   수집채널명   14836 non-null  object
 3   수집URL   14836 non-null  object
 4   제목      14836 non-null  object
 5   내용      14836 non-null  object
dtypes: int64(1), object(5)
memory usage: 695.6+ KB


In [4]:
df.head()

Unnamed: 0,수집인덱스,기준년월,수집채널명,수집URL,제목,내용
0,1,2010-02,TRIPADVISOR_고양 서오릉,https://www.tripadvisor.co.kr/Attraction_Revie...,一人で行くのは怖いかも・・,2009年6月に新たに世界遺産に登録された獻陵と仁陵をみてきました。 朝鮮王朝時代の国王...
1,2,2010-02,TRIPADVISOR_수원화성,https://www.tripadvisor.co.kr/Attraction_Revie...,世界遺産に包まれた町,世界遺産の水原の華城に行きました。水原の華城はとても広く、歩いて回るのは2-3時間はかかるの...
2,3,2010-02,TRIPADVISOR_수원화성,https://www.tripadvisor.co.kr/Attraction_Revie...,世界遺産。歴史ドラマが好きな人にはおススメ,ソウル市内から地下鉄に乗って約１時間。 水原（スウォン）駅で下車。 駅近くに観光案内所があり...
3,4,2010-03,TRIPADVISOR_DMZ,https://www.tripadvisor.co.kr/Attraction_Revie...,DMZ: A sad reality,The longest tourist trip I decided to take dur...
4,5,2010-03,TRIPADVISOR_수원화성,https://www.tripadvisor.co.kr/Attraction_Revie...,世界遺産です。,水原の華城に行ってきました。 正直、世界遺産？って感じでしたが、歴史好きには良いと思います。...


In [5]:
df.tail()

Unnamed: 0,수집인덱스,기준년월,수집채널명,수집URL,제목,내용
14831,14832,2020-12,TRIPADVISOR_독산성,https://www.tripadvisor.co.kr/Attraction_Revie...,맑은 공기를 마시며 산책하기 좋은 산성,오산시에 있는 높은 산으로 산책하기 좋은 곳입니다. 운동시설이 마련되어 있어 현지 ...
14832,14833,2020-12,TRIPADVISOR_행궁동 공예마을,https://www.tripadvisor.co.kr/Attraction_Revie...,Street with handicraft shop and restaurant,CY ( 20.12.26 ) This street was located near ...
14833,14834,2020-12,TRIPADVISOR_파주개성인삼축제,https://www.tripadvisor.co.kr/Attraction_Revie...,Ginseng and many more. Well-prepared and much ...,Taking place in early October; this is a ginse...
14834,14835,2020-12,TRIPADVISOR_행궁동 벽화마을,https://www.tripadvisor.co.kr/Attraction_Revie...,Small Mural Village near Haenggung.,CY ( 20.12.26 ) This mural village was near Su...
14835,14836,2020-12,TRIPADVISOR_물향기수목원,https://www.tripadvisor.co.kr/Attraction_Revie...,경기 근교에서 즐길 수 있는 수목원,1. 제가 최근에 방문했을 때는 가을이었는데 입구 앞에 댑싸리가 아름답게 데코되어있...


## 3) 데이터 전처리

#### 3-1. '제목'에 한글만 포함된 행 추출하기
- 한글로 된 리뷰만 분석하기 위함
- '내용' 컬럼에 비해 비교적 텍스트가 적어 빠른 처리 가능

In [6]:
name_reg = re.compile(r'[^ㄱ-ㅎ가-힣 ]')
name_reg

re.compile(r'[^ㄱ-ㅎ가-힣 ]', re.UNICODE)

In [7]:
name_reg.search(df['제목'].loc[0])

<re.Match object; span=(0, 1), match='一'>

In [8]:
name_reg.search(df['제목'].loc[0]) == None

False

In [9]:
def check_name(name):
    name_reg = re.compile(r'[^ㄱ-ㅎ가-힣 ]') # 한글과 공백
    name_reg_bool = name_reg.search(name) == None
    return name_reg_bool

In [10]:
name_reg_cond = df['제목'].apply(check_name)
print(len(name_reg_cond) - name_reg_cond.sum())
name_reg_cond

9312


0        False
1        False
2        False
3        False
4        False
         ...  
14831     True
14832    False
14833    False
14834    False
14835     True
Name: 제목, Length: 14836, dtype: bool

In [11]:
df_new = df[name_reg_cond].reset_index(drop=True)
print(df_new.shape)
df_new.head()

(5524, 6)


Unnamed: 0,수집인덱스,기준년월,수집채널명,수집URL,제목,내용
0,34,2010-09,TRIPADVISOR_영은미술관,https://www.tripadvisor.co.kr/Attraction_Revie...,미술 교육의 영은 미술관,아동에 대한 실험적인 프로그램을 많이 전개하고 있는 박물관이고; 가족 단위로 보러 ...
1,46,2010-10,TRIPADVISOR_한국민속촌,https://www.tripadvisor.co.kr/Attraction_Revie...,경치가매우훌륭했습니다,계속걷고 지루할거라고생각했는데 전혀아니더군요. 생각보다너무너무 재밌고뜻깊게 하루를...
2,202,2011-12,TRIPADVISOR_일산 호수 공원,https://www.tripadvisor.co.kr/Attraction_Revie...,일산호수공원에서 늦가을 만끽하기,일산 호수공원은 커플끼리 산책하기 참 좋은 곳이다. 자전거가 있다면 자전거를 타면...
3,262,2012-03,TRIPADVISOR_수원화성,https://www.tripadvisor.co.kr/Attraction_Revie...,정조의 천도 예정지,역사를 돌아보며 느낄 수있는 곳으로 아름답고 조용하다. 조선 정조대왕의 천도의 의지...
4,604,2013-01,TRIPADVISOR_아인스월드,https://www.tripadvisor.co.kr/Attraction_Revie...,미니어처로 세계여행,아인스월드는 세계각국의 관광 명소를 미니어처로하여 공원을 한바퀴를 돌면 외국에 나가...


#### 3-2. 필요한 컬럼 선별
- 컬럼명: '수집채널명', '내용'

In [12]:
df_new = df_new[['수집채널명', '내용']]
df_new.head()

Unnamed: 0,수집채널명,내용
0,TRIPADVISOR_영은미술관,아동에 대한 실험적인 프로그램을 많이 전개하고 있는 박물관이고; 가족 단위로 보러 ...
1,TRIPADVISOR_한국민속촌,계속걷고 지루할거라고생각했는데 전혀아니더군요. 생각보다너무너무 재밌고뜻깊게 하루를...
2,TRIPADVISOR_일산 호수 공원,일산 호수공원은 커플끼리 산책하기 참 좋은 곳이다. 자전거가 있다면 자전거를 타면...
3,TRIPADVISOR_수원화성,역사를 돌아보며 느낄 수있는 곳으로 아름답고 조용하다. 조선 정조대왕의 천도의 의지...
4,TRIPADVISOR_아인스월드,아인스월드는 세계각국의 관광 명소를 미니어처로하여 공원을 한바퀴를 돌면 외국에 나가...


#### 3-3. '수집채널명' 컬럼 "TRIPADVISOR_" 제거하기

In [13]:
def del_text(channel):
    channel = channel.replace('TRIPADVISOR_', '')
    return channel

In [14]:
df_new['수집채널명'] = df_new['수집채널명'].apply(del_text)
df_new.head()

Unnamed: 0,수집채널명,내용
0,영은미술관,아동에 대한 실험적인 프로그램을 많이 전개하고 있는 박물관이고; 가족 단위로 보러 ...
1,한국민속촌,계속걷고 지루할거라고생각했는데 전혀아니더군요. 생각보다너무너무 재밌고뜻깊게 하루를...
2,일산 호수 공원,일산 호수공원은 커플끼리 산책하기 참 좋은 곳이다. 자전거가 있다면 자전거를 타면...
3,수원화성,역사를 돌아보며 느낄 수있는 곳으로 아름답고 조용하다. 조선 정조대왕의 천도의 의지...
4,아인스월드,아인스월드는 세계각국의 관광 명소를 미니어처로하여 공원을 한바퀴를 돌면 외국에 나가...


#### 3-4. '내용' 컬럼 특수문자, 숫자 제거

In [15]:
def del_etc(content):
    content = re.sub(r'[^ㄱ-ㅎ가-힣 ]', '', content)
    return content

In [16]:
df_new['내용'] = df_new['내용'].apply(del_etc)
df_new.head()

Unnamed: 0,수집채널명,내용
0,영은미술관,아동에 대한 실험적인 프로그램을 많이 전개하고 있는 박물관이고 가족 단위로 보러 와...
1,한국민속촌,계속걷고 지루할거라고생각했는데 전혀아니더군요 생각보다너무너무 재밌고뜻깊게 하루를보...
2,일산 호수 공원,일산 호수공원은 커플끼리 산책하기 참 좋은 곳이다 자전거가 있다면 자전거를 타면 ...
3,수원화성,역사를 돌아보며 느낄 수있는 곳으로 아름답고 조용하다 조선 정조대왕의 천도의 의지를...
4,아인스월드,아인스월드는 세계각국의 관광 명소를 미니어처로하여 공원을 한바퀴를 돌면 외국에 나가...


#### 3-5. '수집채널명' 그룹화 및 '내용' 문자열 합치기

In [34]:
df_sum = df_new.groupby('수집채널명')['내용'].apply(lambda x: x.sum())

# 데이터프레임으로 만들기(df_sum 시리즈 타입)
df_sum = df_sum.to_frame()

# 인덱스 재설정
df_sum = df_sum.reset_index()

In [35]:
df_sum.head()

Unnamed: 0,수집채널명,내용
0,5.18 Archives,사실 광주는 트립어드바이져에는 왜 경기도 광주로 표시 되는지 알 수 없지만 제목에서...
1,DMZ,놀라운 할 이 나라들은 여전히 전쟁 이 곳은 북한 체제의 현실을 파악 관리함으로써 ...
2,Dae Jang Geum Theme Park,에게 정말 많은 것을 즐기고 놀러 식사 쿠폰은 그냥 기본 수준 완전 머물기에 필요한...
3,First Garden,커다란 정원에 조형물과 놀이공원이 있는 곳입니다 런닝맨이나 각종 드라마 촬영지이기도...
4,Gift_accessory #,연인과 커플에게 추천합니다 합리적인 가격과 잘 디자인 된 목걸이와 팔찌 부천 근처...


## 4) 1차 전처리 된 데이터 저장(csv)

In [56]:
df_sum.to_csv('Datasets/01_Preprocessing.csv', encoding='UTF-8')