# 환경 준비

In [None]:
# jieba 설치하기
!pip install jieba



In [None]:
# jieba 실행하기
import jieba
## pandas을 실행하기, 단 실행 별명을 pd로
import pandas as pd

# 데이터 불러오기

In [None]:
# 구글 드라이브 연결을 위한 기본 세팅
!pip install -U -q PyDrive

from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [None]:
# 문서 ID로 실제 파일 불러오기
# https://drive.google.com/file/d/1zWNLt5RhU-edz_OqjnF4JIIty_YZ-8gR/view?usp=sharing

rawdata_downloaded = drive.CreateFile({'id': '1zWNLt5RhU-edz_OqjnF4JIIty_YZ-8gR'})
rawdata_downloaded.GetContentFile('rawdata.tsv')

In [None]:
# "rawdata.tsv" 파일의 내용을 "원본데이터" 변수로 불러오기
원본데이터 = pd.read_csv('rawdata.tsv', sep="\t")

In [None]:
# "원본데이터" 변수 내용 확인하기
원본데이터

Unnamed: 0,id,text
0,1,穿上一件破旧的长衫 径直来到鲁镇酒店 叫来伙计 温两碗酒 一碟茴香豆九文大钱 我说着之乎者也...
1,2,脱下身上破旧的长衫 再次来到鲁镇酒店 叫来伙计温两碗酒 一碗茴香豆九文大钱 我说着帐号被封 ...
2,3,今夜是个晴朗的夜晚 哥们几个刚要下班 突然传来一声咆哮 谁TM的灰没打完 包工头压低帽檐开始...
3,4,"从来没下過班, 社保醫保也没有 坐在电腦前，喝几瓶打折啤酒 如此生活七八年，直到帳號被封 酝..."
4,5,孔乙己是站着喝酒 而穿长衫的唯一的人 穿的虽然是长衫 可是又脏又破的 似乎十多年没有补也没有...
5,6,哎孔乙己 哎孔乙己 你为嘛老穿着长衫呢? 那些高高在上的人 冷漠着 那些旁观的人 讥讽着 温...
6,7,掌柜是一副凶脸孔 主顾也没有好生气 叫人活泼不得 只有孔乙己到店 才可以笑几声 所以至今还记...
7,8,咸亨酒馆 来往吃喝 常有一人 气氛快活 之乎者也引得众人 嫌弃不得 君子固穷巧言窃书不谓夺 ...
8,9,一群单纯的小孩儿 围绕着我夜饮 我微笑回应 从来不啬吝 茴香豆 分发我的怜悯 只一碟 十年寒...


# 형태소 분석

In [None]:
# jieba(중국어형태소분석기) 중 품사태깅 요소를 pseg 별명으로 실행하기
import jieba
import jieba.posseg as pseg

In [None]:
# "원본데이터"를 대상으로 "jieba"를 사용해서 형태소 분석하기
저장공간  = [] ## 모든 결과를 저장할 빈 공간으로 "저장공간" 설정
for index, row in 원본데이터.iterrows():# 원본데이터의 컬럼(열)을 불러와서 반복할 준비!
    textdata = row[1]  # 분석에서 사용할 텍스트 정보가 있는 열을 지정해준다. 주의! python은 0부터 시작한다!
    type = row[0]  # 분석에서 사용할 분류 정보가 있는 열을 지정해준다. 주의! python은 0부터 시작한다!
    형태소 = pseg.cut(textdata)  # jieba의 pos 기능을 활용해서 대상 텍스트를 형태소 분리한다.
    for word in 형태소:  # jieba로 도출된 개별 형태소에 추가 정보를 기입하기 위해서 반복해준다.
      형태소종합 = [word.word,word.flag,type,1]  # 형태소종합에 분류정보와 카운트정보를 추가한다.
      저장공간.append(형태소종합) # 형태소종합의 내용을 종합하여 저장한다.

Building prefix dict from the default dictionary ...
DEBUG:jieba:Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
DEBUG:jieba:Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.899 seconds.
DEBUG:jieba:Loading model cost 0.899 seconds.
Prefix dict has been built successfully.
DEBUG:jieba:Prefix dict has been built successfully.


In [None]:
# "형태소" 변수의 저장 내용 확인
형태소

<generator object cut at 0x7e927eafef10>

In [None]:
# "형태소종합" 변수의 저장 내용 확인
형태소종합

['遮蔽', 'v', 9, 1]

In [None]:
# "저장공간" 변수의 저장 내용 확인
저장공간

[['穿', 'v', 1, 1],
 ['上', 'f', 1, 1],
 ['一件', 'm', 1, 1],
 ['破旧', 'z', 1, 1],
 ['的', 'uj', 1, 1],
 ['长衫', 'n', 1, 1],
 [' ', 'x', 1, 1],
 ['径直', 'd', 1, 1],
 ['来到', 'v', 1, 1],
 ['鲁镇', 'nr', 1, 1],
 ['酒店', 'n', 1, 1],
 [' ', 'x', 1, 1],
 ['叫', 'v', 1, 1],
 ['来', 'v', 1, 1],
 ['伙计', 'n', 1, 1],
 [' ', 'x', 1, 1],
 ['温', 'nr', 1, 1],
 ['两碗', 'm', 1, 1],
 ['酒', 'n', 1, 1],
 [' ', 'x', 1, 1],
 ['一碟', 'n', 1, 1],
 ['茴香豆', 'n', 1, 1],
 ['九文', 'nz', 1, 1],
 ['大钱', 'n', 1, 1],
 [' ', 'x', 1, 1],
 ['我', 'r', 1, 1],
 ['说', 'v', 1, 1],
 ['着', 'uz', 1, 1],
 ['之乎者也', 'i', 1, 1],
 [' ', 'x', 1, 1],
 ['惹', 'v', 1, 1],
 ['来', 'v', 1, 1],
 ['嘲笑', 'v', 1, 1],
 [' ', 'x', 1, 1],
 ['不知不觉', 'i', 1, 1],
 ['涨红了脸', 'n', 1, 1],
 [' ', 'x', 1, 1],
 ['你', 'r', 1, 1],
 ['怎么', 'r', 1, 1],
 ['这样', 'r', 1, 1],
 ['污', 'ng', 1, 1],
 ['我', 'r', 1, 1],
 ['的', 'uj', 1, 1],
 ['清白', 'a', 1, 1],
 [' ', 'x', 1, 1],
 ['喝', 'vg', 1, 1],
 ['口', 'q', 1, 1],
 ['酒', 'n', 1, 1],
 ['与', 'p', 1, 1],
 ['他们', 'r', 1, 1],
 ['继续', 'v', 1

In [None]:
# 단일 데이터프레임 구조로 변환
분석통합 = pd.DataFrame(저장공간)

In [None]:
# "분석통합" 변수의 저장 내용 확인
분석통합

Unnamed: 0,0,1,2,3
0,穿,v,1,1
1,上,f,1,1
2,一件,m,1,1
3,破旧,z,1,1
4,的,uj,1,1
...,...,...,...,...
2758,字里行间,n,9,1
2759,阴影,n,9,1
2760,间,f,9,1
2761,的,uj,9,1


In [None]:
# "분석통합" 변수의 컬럼(열) 이름 변경
분석통합.columns = ["형태소", "품사", "분류", "카운트"]

In [None]:
# "분석통합" 변수의 저장 내용 확인
분석통합

Unnamed: 0,형태소,품사,분류,카운트
0,穿,v,1,1
1,上,f,1,1
2,一件,m,1,1
3,破旧,z,1,1
4,的,uj,1,1
...,...,...,...,...
2758,字里行间,n,9,1
2759,阴影,n,9,1
2760,间,f,9,1
2761,的,uj,9,1


In [None]:
# "분석통합" 변수의 내용을 형태소, 품사, 분류가 같은 것을 합치고, 카운트의 총합을 구해서 "그룹통합" 변수에 저장한다.
그룹통합 = 분석통합.groupby(['형태소', '품사', "분류"])['카운트'].sum()

In [None]:
# "그룹통합" 변수의 저장 내용 확인
그룹통합

형태소  품사  분류
     x   1     92
         2     35
         3     35
         4     16
         5     67
               ..
黑暗   z   4      1
鼓掌   v   1      1
龙卷风  nr  6      1
，    x   4     15
         7      3
Name: 카운트, Length: 1379, dtype: int64

In [None]:
# "그룹통합" 변수의 내용을 데이터프레임 형식으로 변환해서 "그룹통합" 변수에 저장한다.
그룹통합 = pd.DataFrame(그룹통합)

In [None]:
# "그룹통합" 변수의 저장 내용 확인
그룹통합

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,카운트
형태소,품사,분류,Unnamed: 3_level_1
,x,1,92
,x,2,35
,x,3,35
,x,4,16
,x,5,67
...,...,...,...
黑暗,z,4,1
鼓掌,v,1,1
龙卷风,nr,6,1
，,x,4,15


In [None]:
# "그룹통합" 변수의 내용을 "형태소분석결과.csv" 파일로 저장한다.
# header는 컬럼(열) 정보의 포함 여부이다.
# encoding은 문자코드를 선택하는 것이다. python에서는 기본적으로 utf-8(유니코드)를 사용한다.

그룹통합.to_csv('형태소분석결과.csv', header='true', encoding='utf-8')