# 0. 데이터

## 데이터 소개

이 과제에서 사용할 데이터는 당시(唐詩: 중국 당나라 시대의 한시) 160편에 사람이 붙인 감정(긍정·부정) 범주가 추가된 코퍼스이다. 이 코퍼스는 아래의 논문에서 발표되었다.

> Hou, Y., & Frank, A. (2015). Analyzing sentiment in classical Chinese poetry. In *Proceedings of the 9th SIGHUM Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH)* (pp. 15-24). http://www.aclweb.org/anthology/W15-3703

## 파일 가져오기

### 파일 내려받기

Colab 환경에서 위의 코퍼스 파일을 다운로드하자.



In [None]:
!wget https://www.cl.uni-heidelberg.de/~hou/resources/sentiLexicon.zip

--2021-11-25 16:50:36--  https://www.cl.uni-heidelberg.de/~hou/resources/sentiLexicon.zip
Resolving www.cl.uni-heidelberg.de (www.cl.uni-heidelberg.de)... 147.142.207.78
Connecting to www.cl.uni-heidelberg.de (www.cl.uni-heidelberg.de)|147.142.207.78|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 137995 (135K) [application/zip]
Saving to: ‘sentiLexicon.zip’


2021-11-25 16:50:38 (386 KB/s) - ‘sentiLexicon.zip’ saved [137995/137995]



### 압축 풀기

다운로드한 파일명은 `sentiLexicon.zip`이다. 파일 확장자에서 알 수 있듯이 압축 파일이므로, 압축을 풀어야 한다. 아래와 같이 `unzip` 명령을 사용하면 압축을 풀 수 있다.

In [None]:
!unzip sentiLexicon.zip

Archive:  sentiLexicon.zip
   creating: sentiLexicon/
  inflating: sentiLexicon/poems_sentiAnnotation  
  inflating: sentiLexicon/sentiDataset  
  inflating: sentiLexicon/imageryDataset  
  inflating: sentiLexicon/poetrySentimentLexicon  


### 파일 살펴보기

압축을 풀고 나면 `sentimentLexicon`이라는 폴더가 생성된다. 이 폴더 안에 들어 있는 파일의 목록을 확인해 보자.

In [None]:
!ls sentiLexicon

imageryDataset	poems_sentiAnnotation  poetrySentimentLexicon  sentiDataset


위에서 살펴볼 수 있듯이 폴더 안에는 총 네 개의 파일이 들어 있다. 이 중에서 우리가 사용할 것은 `poems_sentiAnnotation`라는 이름의 파일이다. 아래와 같이 `head` 명령을 사용하면 파일의 첫 10라인을 미리 볼 수 있다.

In [None]:
!head sentiLexicon/poems_sentiAnnotation

sentiment#author#title#content
1	虞世南	蝉	垂緌饮清露，流响出疏桐。居高声自远，非是藉秋风。
-1	王绩	野望	东皋薄暮望，徙倚欲何依。树树皆秋色，山山唯落晖。牧人驱犊返，猎马带禽归。相顾无相识，长歌怀采薇。
1	王绩	秋夜喜遇王处士	北场芸藿罢，东皋刈黍归。相逢秋月满，更值夜萤飞。
-1	王梵志	吾富有钱时	吾富有钱时，妇儿看我好。吾若脱衣裳，与吾叠袍袄。吾出经求去，送吾即上道。将钱入舍来，见吾满面笑。绕吾白鸽旋，恰似鹦鹉鸟。邂逅暂时贫，看吾即貌哨。人有七贫时，七富还相报。图财不顾人，且看来时道。
-1	王梵志	诗（二首）	我有一方便，价值百匹练。相打长伏弱，至死不入县。他人骑大马，我独跨驴子。回顾担柴汉，心下较些子。
-1	寒山	杳杳寒山道	杳杳寒山道，落落冷涧滨。啾啾常有鸟，寂寂更无人。淅淅风吹面，纷纷雪积身。朝朝不见日，岁岁不知春。
1	上官仪	入朝洛堤步月	脉脉广川流，驱马历长洲。鹊飞山月曙，蝉噪野风秋。
-1	骆宾王	咏蝉	西陆蝉声唱，南冠客思深。不堪玄鬓影，来对白头吟。露重飞难进，风多响易沉。无人信高洁，谁为表予心？
-1	骆宾王	于易水送人一绝	此地别燕丹，壮士发冲冠。昔时人已没，今日水犹寒。


## 데이터프레임으로 가져오기

### 파이썬에서 파일 읽기

위에서 미리 본 파일의 내용을 살펴보면, 우선 첫 번째 라인은 필드명(sentiment#author#title#content)으로 이루어져 있다. 두 번째 라인부터 데이터의 내용이 들어 있다. 라인 한 개가 1편의 시에 해당하며, 감정 범주(sentiment), 저자의 이름(author), 시의 제목(title), 시의 본문(content) 네 개의 값이 탭(`\t`) 문자로 구분되어 있음을 알 수 있다.

이러한 규칙성을 바탕으로, 파이썬에서 pandas 라이브러리를 사용하여 위의 파일을 DataFrame 자료형에 해당하는 객체로 읽고자 한다. 아래의 코드를 실행하면 `data`라는 변수명에 데이터가 저장된다. `data.head()`로 5개 행의 내용을 확인할 수 있다.

In [None]:
import pandas as pd
data = pd.read_csv(
    'sentiLexicon/poems_sentiAnnotation',
    sep='\t',
    skiprows=1,
    names=('sentiment', 'author', 'title', 'content')
    )
data.head()

Unnamed: 0,sentiment,author,title,content
0,1,虞世南,蝉,垂緌饮清露，流响出疏桐。居高声自远，非是藉秋风。
1,-1,王绩,野望,东皋薄暮望，徙倚欲何依。树树皆秋色，山山唯落晖。牧人驱犊返，猎马带禽归。相顾无相识，长歌怀采薇。
2,1,王绩,秋夜喜遇王处士,北场芸藿罢，东皋刈黍归。相逢秋月满，更值夜萤飞。
3,-1,王梵志,吾富有钱时,吾富有钱时，妇儿看我好。吾若脱衣裳，与吾叠袍袄。吾出经求去，送吾即上道。将钱入舍来，见吾满面...
4,-1,王梵志,诗（二首）,我有一方便，价值百匹练。相打长伏弱，至死不入县。他人骑大马，我独跨驴子。回顾担柴汉，心下较些子。


### 데이터 가공하기

위의 코드에서 우리가 관심을 가질 것은 sentiment와 content 두 개 열이다. 이 두 개의 열을 사용할 수 있도록 가공해 보자.

먼저 sentiment의 값은 1일 때 긍정, -1일 때 부정에 해당한다. 1과 -1을 각각 'pos'와 'neg'로 변환할 수 있도록 `convert()`라는 함수를 만들었다.

다음으로 content의 값은 문자열로 이루어져 있다. 이것을 단어들의 리스트로 바꾸고자 한다. 일반적으로 단어는 공백(whitespace)에 의해 분리되지만, 한시의 경우 띄어쓰기가 없으므로 여기에서는 문장 부호를 포함하여 1글자를 1단어로 취급하기로 한다. 문자열을 `list()` 함수로 형변환하면 문자들의 리스트가 나온다.

In [None]:
def convert(sentiment):
  if sentiment == 1:
    return 'pos'
  elif sentiment == -1:
    return 'neg'
  else:
    return 'unk'

# sentiment 열에 convert 함수 적용하기
data['class'] = data['sentiment'].apply(convert)
# content 열의 list 함수 적용하기
data['document'] = data['content'].apply(list)

### 데이터 섞기

sentiment 값이 골고루 분포하게 만들기 위해 행을 섞어 주자. `data.sample()` 메소드로 행을 무작위로 섞을 수 있다.

In [None]:
data = data.sample(frac=1, random_state=1111) # 바꾸지 말 것!
data.head()

Unnamed: 0,sentiment,author,title,content,class,document
134,-1,郑谷,中年,漠漠秦云淡淡天，新年景象入中年。情多最恨花无语，愁破方知酒有权。苔色满墙寻故第，雨声一夜忆春...,neg,"[漠, 漠, 秦, 云, 淡, 淡, 天, ，, 新, 年, 景, 象, 入, 中, 年, ..."
59,1,孟浩然,春晓,春眠不觉晓，处处闻啼鸟。夜来风雨声，花落知多少？,pos,"[春, 眠, 不, 觉, 晓, ，, 处, 处, 闻, 啼, 鸟, 。, 夜, 来, 风, ..."
12,1,王勃,咏风,肃肃凉风生，加我林壑清。驱烟寻涧户，卷雾出山楹。去来固无迹，动息如有情。日落山水静，为君起松声。,pos,"[肃, 肃, 凉, 风, 生, ，, 加, 我, 林, 壑, 清, 。, 驱, 烟, 寻, ..."
92,-1,柳中庸,听筝,抽弦促柱听秦筝，无限秦人悲怨声。似逐春风知柳态，如随啼鸟识花情。谁家独夜愁灯影？何处空楼思月...,neg,"[抽, 弦, 促, 柱, 听, 秦, 筝, ，, 无, 限, 秦, 人, 悲, 怨, 声, ..."
127,1,张槟,登单于台,边兵春尽回，独上单于台。白日地中出，黄河天外来。沙翻痕似浪，风急响疑雷。欲向阴关度，阴关晓不开。,pos,"[边, 兵, 春, 尽, 回, ，, 独, 上, 单, 于, 台, 。, 白, 日, 地, ..."


### 데이터 분할하기

섞어 준 데이터를 9:1의 비율로 훈련 집합과 실험 집합으로 분할하여 각각 `train`, `test`라는 이름으로 저장하자.

In [None]:
boundary = int(len(data)*0.9)
train = data[:boundary]
test = data[boundary:]

# 단순 베이즈 분류기 (기본점수 7점)

한문을 해독하지 못하는 사람도 단순 베이즈 분류기를 사용하여 한시의 정서를 예측할 수 있다.

## 훈련

이 과제에서는 SLP3 4장 6페이지 Figure 4.2에 나오는 알고리듬과 표기법을 따른다.

In [None]:
# D: 훈련 집합 내의 모든 문서들의 집합
D = train['document']

In [None]:
# C: 모든 범주들의 집합
C = train['class'].unique().tolist()
print(C)

['neg', 'pos']


### `logprior`: 로그사전확률 구하기

In [None]:
# Ndoc: D에 포함된 모든 문서의 개수
Ndoc = len(D)
print(Ndoc)

144


In [None]:
# Nc: 범주 c에 속하는 모든 문서의 개수
Nc = train['class'].value_counts()
print(Nc)

neg    73
pos    71
Name: class, dtype: int64


**Q1. 아래의 코드를 수정하여 로그사전확률 logP(neg) 및 logP(pos)의 값을 추정한다. (0.5점)**

In [None]:
# logprior[c]: c의 로그사전확률 logP(c)
import numpy as np
logprior = np.log(Nc/Ndoc) ## edit this line
print(logprior)

neg   -0.679354
pos   -0.707133
Name: class, dtype: float64


### `loglikelihood`: 로그가능도 구하기

**Q2. 아래의 코드를 수정하여 훈련집합의 어휘 목록 V를 만들고 인덱스 20:21에 해당하는 문자를 찾는다. (0.5점)**

In [None]:
# V: 훈련 집합의 어휘
V = []
for doc in D:
  for w in doc:
    if w in V:
      continue
    V.append(w)

print(V[20:21])

['愁']


In [None]:
# bigdoc[c]: c에 속하는 모든 문서를 합친 것
bigdoc = D.groupby(data['class']).sum()
print(bigdoc)

class
neg    [漠, 漠, 秦, 云, 淡, 淡, 天, ，, 新, 年, 景, 象, 入, 中, 年, ...
pos    [春, 眠, 不, 觉, 晓, ，, 处, 处, 闻, 啼, 鸟, 。, 夜, 来, 风, ...
Name: document, dtype: object


In [None]:
# count[c][w]: 범주 c에서 단어 w가 출현한 횟수
from collections import Counter
count = bigdoc.apply(Counter)
print(count)

class
neg    {'漠': 3, '秦': 4, '云': 9, '淡': 3, '天': 10, '，':...
pos    {'春': 22, '眠': 4, '不': 20, '觉': 2, '晓': 4, '，'...
Name: document, dtype: object


아래의 예시와 같이 긍정적인 문서에서만 출현한 단어와 부정적인 문서에서만 출현한 단어가 모두 존재한다. 긍정적인 문서에만 출현했다고 하더라도 부정적인 경우의 확률을 0보다 큰 값으로 구할 수 있어야 하므로, 평탄화(smoothing)가 필요함을 알 수 있다.

In [None]:
# 예시
# '想'(생각할 상): 긍정적인 문서에서만 1회 출현한 단어.
# '哀'(슬플 애): 부정적인 문서에서만 1회 출현한 단어.
words = ('想', '哀')
for word in words:
  for c in C:
    print(word, c, count[c][word])

想 neg 0
想 pos 1
哀 neg 1
哀 pos 0


**Q3. 모든 범주 $c\in C$ 및 모든 단어 $w\in V$에 대하여 아래의 등식을 만족하도록 하는 딕셔너리의 딕셔너리 loglikelihood를 만든다. (0.5점)**

`loglikelihood[c][w]` = $\log P(w|c)$

In [None]:
# loglikelihood[c][w] = logP(w|c)
from collections import defaultdict
loglikelihood = defaultdict(dict)
for c in C:
  for w in V:
    loglikelihood[c][w] = np.log((count[c][w]+1)/(sum(count[c].values())+len(V)))


loglikelihood = pd.DataFrame(loglikelihood)
loglikelihood.head()

Unnamed: 0,neg,pos
漠,-7.149328,-8.407378
秦,-6.926184,-8.407378
云,-6.233037,-5.842429
淡,-7.149328,-7.714231
天,-6.137727,-5.574165


아래의 코드에서 $w=乡$(고향 향)일 때는 $\log P(w|neg)=-6.338398$ 및 $\log P(w|pos)=-8.407378$가 나와야 한다. 부정적인 범주의 가능도가 더 큰 값을 가지므로, 긍정적인 감정일 때보다는 부정적인 감정을 가질 때 고향을 더 많이 언급한다는 것을 알 수 있다.

In [None]:
print(loglikelihood.loc['乡'])

neg   -6.338398
pos   -8.407378
Name: 乡, dtype: float64


아래의 코드에서 $w=坐$(앉을 좌)일 때는 $\log P(w|neg)=-8.535622$ 및 $\log P(w|pos)=-6.327937$가 나와야 한다. 이번에는 긍정적인 범주의 가능도가 더 큰 값을 가진다. 기분이 좋을 때 편안히 앉아 있는 것이 더 쉬운 것 같다.

In [None]:
print(loglikelihood.loc['坐'])

neg   -8.535622
pos   -6.327937
Name: 坐, dtype: float64


아래의 코드에서 $w=酒$(술 주)일 때는 $\log P(w|neg)=-6.589712$ 및 $\log P(w|pos)=-6.615619$가 나와야 한다. 두 값의 크기가 비슷하므로, 시인들은 기쁠 때나 슬플 때나 항상 술을 찾는다는 것을 알 수 있다.

In [None]:
print(loglikelihood.loc['酒'])

neg   -6.589712
pos   -6.615619
Name: 酒, dtype: float64


**Q4. 아래의 코드에서 $w=愁$(근심할 수)일 때 $\log P(w|neg)$ 및 $\log P(w|pos)$의 값을 구하여 크기를 비교한다. (0.5점)**

In [None]:
print(loglikelihood.loc['愁'])

neg   -5.645251
pos   -7.714231
Name: 愁, dtype: float64


w=愁 (근심할 수)일 때 logP(w|neg)는 -5.645251이고,  logP(w|pos)는 -7.714231이다.  부정적인범주가능도가 더 큰값을 가진다. 따라서 부정적인 감정을 가질때 근심에 관한 내용을 더 많이 언급한다.

## 실험 및 평가

훈련 집합에서 로그사전확률과 $\log P(c)$와 로그가능도 $\log P(w|c)$을 모두 구했으므로, 실험 집합의 각 문서 $testdoc$에 대하여 로그사후확률 $\log P(c|testdoc)$의 값을 비교할 수 있다.

먼저 정답을 `true`라는 변수명으로 저장하자.

In [None]:
# 정답
true = test['class']
true.head()

42     pos
61     neg
105    pos
136    pos
86     neg
Name: class, dtype: object

**Q5. 아래의 코드를 수정하여 로그사전확률과 로그가능도의 합을 계산한 뒤 최댓값에 해당하는 범주를 반환하는 함수 `predict()`를 만든다. (0.5점)**

In [None]:
# 문서가 주어졌을 때 범주를 예측하는 함수
def predict(testdoc):
  sums = logprior.copy()
  for c in C:
    for word in testdoc:
      if word in V:
        sums[c] += loglikelihood[c][word]
  return sums.idxmax()

위에서 만든 `predict` 함수를 실험 집합의 각 문서에 적용하여 예측한 결과를 `pred`라는 변수명으로 저장하자.

42번은 `true`에서 pos였으나 `pred`에서 neg의 값을 가진다. 즉, 원래는 긍정적인 시인데 단순 베이즈 분류기가 부정적이라고 잘못 분류한 것이다.

In [None]:
# 예측
pred = test['document'].apply(predict)
pred.head()

42     neg
61     neg
105    pos
136    neg
86     neg
Name: document, dtype: object

**Q6. 아래의 코드를 실행하여 나오는 정확도의 값을 쓴다. (0.5점)**

In [None]:
# 정확도
from sklearn.metrics import accuracy_score
accuracy_score(true, pred)

0.75