# MLB 트윗 분석을 통한 한국 메이저리거에 대한 인식 추론

## < 하고자 하는 성능 측정 방식 > 
 - <b> MLB Tweet 분석을 Naive Bayes 및 SVM 분류기를 이용하여 수행 후 비교 분석을 통한 성능 측정 </b>
 - 지난 중간 과제로 제출한 Naive Bayes를 이용하여 MLB Tweet 분석을 통해 나타난 성능 측정 결과
 - 이번 기말 과제로 제출하는 SVM을 이용하여 MLB Tweet 분석을 통해 나타난 성능 측정 결과 비교 분석

## 1. Introduction

* MajorLeagueBaseball과 관련된 트윗 분석 및 Youtube 동영상 시청 후 관련 댓글들을 분석 
* 실제 메이저리거에 대한 현지 여론을 학습 (현재 여론 조사 표본 데이터 활용) 
* 한국 메이저리거들의 현지 평가를 위한 트위터 내 트윗 검색
* 수업시간에 활용하였던 Python 기반 나이브 베이지안 방법을 이용하여 메이저리거 현지 여론 학습 및 평가
* 실제 수행한 학습된 분류기를 이용하여 비판 여론이면 ClassVector 0, 긍정 여론이면 ClassVector 1로 분류 

## 2. Proposed Method
* 가설) 트위터 내에 #MLB 및 MLB와 관련된 해쉬태그 검색을 통한 키워드 중심의 검색을 통해 현지 메이저리그 여론에 대한 트윗을 모아 저장하고, 이를 기반으로 하여 실제 한국 메이저리거에 대한 현재 여론 판단

* 한계 1.) 실제 트위터만을 이용하여 메이저리거에 대한 여론을 판단하는 문장이 많이 나오지 않음
* 한계 2.) 여론 판단을 위한 문장보다 아무런 의미 없는 문장들이 대다수인 것으로 파악됨

* 해결책) 트위터 이외에 MLB 관련 Youtube 동영상의 댓글 중에서 여론 판단에 대한 문장을 함께 분석하고 수집하여 표본 데이터를 많이 모을 수 있도록 설정  

### 2.1 DataSet

* 트위터 내 MLB 관련 트윗 및 Youtube 동영상 댓글을 분석하여 Sentiment Sentence라고 생각되는 표본 데이터 수집
* Test Data (표본 데이터)는 메이저리그 관련 글에서 긍정 문구 100개, 부정 문구 100개 총 200개의 데이터 수집
* 긍정 문구 100개에 대해서는 ClassVector 1로 설정하고, 부정 문구 100개에 대해서는 ClassVector 0으로 설정하여 긍정 및 부정 문구 분류
* 이후 Validation Data는 실제 한국 메이저리거에 대한 현지 여론 학습을 위해 15개의 문구 수집하여 최종적으로 각 문구에 대한 Sentiment Analysis를 이루고자 함~!!

In [22]:
import numpy as np
import re

SentenSe = []
ClassVec = []
DocList = []
regEx = re.compile('\\W*')

file = open('Sentiment_Sentences.txt')
for i in file.readlines():
    SentenSe.append(i)
idx = len(SentenSe)

file = open('ClassVector.txt')
for i in file.readlines():
    ClassVec.append(i.rstrip('\n'))
    
for i in range(idx):
    temp = regEx.split(SentenSe[i])
    DocList.append(temp)

### 2.1.1 Sentiment_Sentences 
* (총 200개의 표본 데이터)

In [23]:
print DocList

[['Little', 'nervous', 'watching', 'the', 'Twins', 'on', 'TV', 'today', 'Hopefully', 'the', 'game', 'is', 'closer', 'than', 'it', 'was', 'last', 'night', 'cmontwins', 'sundayfunday', 'park', 'sa', ''], ['', 'hyunsookim', 'will', 'surly', 'be', 'booed', 'running', 'down', 'carpet', 'during', 'opening', 'day', 'if', 'he', 's', 'on', 'the', 'roster', 'orioles', 'openingday', ''], ['The', 'fact', 'that', 'HyunSooKim', 'has', 'a', 'clause', 'in', 'his', 'contract', 'that', 'says', 'he', 'can', 'refuse', 'being', 're', 'signed', 'to', 'the', 'minor', 'leagues', 'is', 'complete', 'horseshit', ''], ['Hyun', 'Soo', 'Kim', 's', 'Agency', 'Says', 'He', 'Won', 't', 'Accept', 'Minors', 'BaltimoreOrioles', 'HyunsooKim', 'Newsstand', 'mlb', 'fantasybaseball', ''], ['Baltimore', 'Orioles', 'Korean', 'OF', 'HyunSooKim', 'On', 'the', 'Bubble', 'onthebubble', 'MLB', ''], ['', 'HyunSooKim', 'still', 'hitless', '0', 'for', '21', 'Orioles', 'winless', '0', '9', ''], ['', 'SteveDavisBmore', 'isn', 't', 'too'

### 2.1.2 ClassVector.txt 
* (총 200개 표본 데이터의 부정 및 긍정을 분류하는 0, 1의 벡터)

In [24]:
print ClassVec

['0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1']

## 3. Experiments

### 3.1 Removing for Nonsense words
* 본 프로젝트에서는 한국 메이저리거에 대한 인식 추론을 목적으로 하기 때문에, 한국 메이저리거와 관련된 이름 및 소속팀에 대한 명명은 의미 없는 단어로 분류하여 제거하기 위해 Exceptwordlist로 분류함

In [25]:
Exceptwordlist = ["hyunjinryu", "hyunjin", "ryu", "la", "dodgers", "ladodgers",   
                 "byeonghopark", "byeongho", "park", "twins", "minnesota", "minnesotatwins",
                 "hyunsookim", "hyunsoo", "kim", "orioles", "baltimore", "baltimoreorioles",
                 "daeholee", "daeho", "lee", "mariners", "seattle", "seattlemariners",
                 "junghokang", "jungho", "kang", "pirates", "pittsburgh", "pittsburghpirtes",
                 "sinsoochoo", "sinsoo", "choo", "rangers", "texas", "texasrangers", " "]

for i in range(idx):
    t = []
    for word in DocList[i]:
        word = word.upper().lower()
        if word not in Exceptwordlist:
            t.append(word)
   
    DocList[i] = t

print DocList

[['little', 'nervous', 'watching', 'the', 'on', 'tv', 'today', 'hopefully', 'the', 'game', 'is', 'closer', 'than', 'it', 'was', 'last', 'night', 'cmontwins', 'sundayfunday', 'sa', ''], ['', 'will', 'surly', 'be', 'booed', 'running', 'down', 'carpet', 'during', 'opening', 'day', 'if', 'he', 's', 'on', 'the', 'roster', 'openingday', ''], ['the', 'fact', 'that', 'has', 'a', 'clause', 'in', 'his', 'contract', 'that', 'says', 'he', 'can', 'refuse', 'being', 're', 'signed', 'to', 'the', 'minor', 'leagues', 'is', 'complete', 'horseshit', ''], ['hyun', 'soo', 's', 'agency', 'says', 'he', 'won', 't', 'accept', 'minors', 'newsstand', 'mlb', 'fantasybaseball', ''], ['korean', 'of', 'on', 'the', 'bubble', 'onthebubble', 'mlb', ''], ['', 'still', 'hitless', '0', 'for', '21', 'winless', '0', '9', ''], ['', 'stevedavisbmore', 'isn', 't', 'too', 'worried', 'about', 's', 'start', 'for', 'the', 'during', 'spring', 'training', 'yet', ''], ['tyler', 'tyler', 'collins', 'do', 'you', 'understand', 'you', 'w

### 3.2 Naive Bayes Classifier Learning

In [26]:
import bayes
reload(bayes)

myVocabList = bayes.createVocabList(DocList)

trainMat=[]
int_classVec = []

for postinDoc in DocList:
    trainMat.append(bayes.setOfWords2Vec(myVocabList, postinDoc))

for str_class in ClassVec:
    int_class = int(str_class)
    int_classVec.append(int_class)

p0V,p1V,pAb=bayes.trainNB0(trainMat,int_classVec)

### 3.3 SVM Classifier Learning

In [27]:
import svmMLiA
reload(svmMLiA)

SVMclassArr = []

# SVM 적용을 위해 class 1 or -1 형태로 반환하는 함수
for strVec in ClassVec:
    intVec = int(strVec)
    if intVec == 1:
        SVMclassArr.append(int(1))
    else:
        SVMclassArr.append(int(-1))
        
b, alphas = svmMLiA.smoP(trainMat, SVMclassArr, 200, 0.001, 1000) #linear version
print b, alphas

fullSet, iter: 0 i:0, pairs changed 1
fullSet, iter: 0 i:1, pairs changed 2
fullSet, iter: 0 i:2, pairs changed 3
fullSet, iter: 0 i:3, pairs changed 4
fullSet, iter: 0 i:4, pairs changed 5
fullSet, iter: 0 i:5, pairs changed 6
fullSet, iter: 0 i:6, pairs changed 7
fullSet, iter: 0 i:7, pairs changed 8
fullSet, iter: 0 i:8, pairs changed 9
fullSet, iter: 0 i:9, pairs changed 10
fullSet, iter: 0 i:10, pairs changed 11
fullSet, iter: 0 i:11, pairs changed 12
fullSet, iter: 0 i:12, pairs changed 13
fullSet, iter: 0 i:13, pairs changed 14
fullSet, iter: 0 i:14, pairs changed 14
fullSet, iter: 0 i:15, pairs changed 15
fullSet, iter: 0 i:16, pairs changed 16
fullSet, iter: 0 i:17, pairs changed 17
fullSet, iter: 0 i:18, pairs changed 18
fullSet, iter: 0 i:19, pairs changed 18
fullSet, iter: 0 i:20, pairs changed 19
L==H
fullSet, iter: 0 i:21, pairs changed 19
L==H
fullSet, iter: 0 i:22, pairs changed 19
L==H
fullSet, iter: 0 i:23, pairs changed 19
L==H
fullSet, iter: 0 i:24, pairs changed 19

In [29]:
# Extracting "d(x) = wx + b" througth training results in Classifier 
ws = svmMLiA.calcWs(alphas, trainMat, SVMclassArr) # Calculate w in Classifier
trainMat = np.mat(trainMat)
SVMclassMat = np.mat(SVMclassArr).transpose()

svInd = np.nonzero(alphas.A > 0)[0] 
sVs = trainMat[svInd]
labelSV = SVMclassMat[svInd]

print "There are %d Supprot Vectors" % np.shape(sVs)[0]

There are 134 Supprot Vectors


In [30]:
# Calcuating training errors
errorCnt = 0
m = np.shape(trainMat)[0]
for i in range(m):
    predict = trainMat[i] * np.mat(ws) + b # linear version
    if np.sign(predict) != np.sign(int(SVMclassArr[i])):
        errorCnt += 1
    print 'class is ', SVMclassArr[i], 'classified as ', np.sign(predict), '\n'

print 'Total error rate : ', float(errorCnt)/ m

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1 classified as  [[-1.]] 

class is  -1

### 3.4 Analysis Results of Local Assesment for Korean Majorleager

#### Validation_KoreanMLB.txt - 긍정(10개) 및 부정(5개)에 대한 Sentense 분석

* Positive Sentences (10)

1. Byung Ho Park. What a guy. Favorite player on the entire very successful Twins Roster
2. Byung Ho #Park's another moon shot (Korean call)
3. Byung Ho Park's monster home run on Korean play-by-play. Very cool!  
4. Seung-hwan Oh has emerged as 1  of the most reliable pitchers in this bullpen. 
5. Good to see Seung Hwan Oh pitch two scoreless today in the 7th and 8th for the Cardinals.  The Korean is effective. 
6. Seung Hwan Oh really impressing in his "rookie" season. Has not allowed a hit
7. Congratulations to Seung Hwan Oh on his first career Major League win! 
8. Scoreless innings streak snapped for Cardinals' Oh Seung-hwan 
9. Good to see Seung Hwan Oh pitch two scoreless today in the 7th and 8th for the Cardinals.  The Korean is effective
10. In 2006, Dae Ho Lee was a triple crown winner in KBO but lost out on the MVP award to a 19 year-old rookie named Hyun-Jin Ryu.

* Negative Sentences (5)

1. Hyun Soo Kim’s Agency Says He Won’t Accept Minors…
2. Jeong Ho Kang is hurt ~ fuck
3. Choo is sufferred from injury for a long time
4. Coach has not trust by hyun soo kim yet~!!
5. jeonghokang can not get out of injury  

#### 3.4.1 Analysis Results by Naive Bayes

In [33]:
import numpy

file =open('Validation_KoreanMLB.txt')

NaiveBayesTestDoc = []
regEx = re.compile('\\W*')

for i in file.readlines():
    NaiveBayesTestDoc.append(i)
    
for doc in NaiveBayesTestDoc:
    testEntry = regEx.split(doc)
    thisDoc = numpy.array(bayes.setOfWords2Vec(myVocabList, testEntry))
    print 'classified as: ', bayes.classifyNB(thisDoc, p0V, p1V, pAb)
    print doc

the word: Byung is not in my Vocabulary!
the word: Ho is not in my Vocabulary!
the word: Park is not in my Vocabulary!
the word: What is not in my Vocabulary!
the word: Favorite is not in my Vocabulary!
the word: Twins is not in my Vocabulary!
the word: Roster is not in my Vocabulary!
classified as:  1
Byung Ho Park. What a guy. Favorite player on the entire very successful Twins Roster

the word: Byung is not in my Vocabulary!
the word: Ho is not in my Vocabulary!
the word: Park is not in my Vocabulary!
the word: Korean is not in my Vocabulary!
classified as:  1
Byung Ho #Park's another moon shot (Korean call)

the word: Byung is not in my Vocabulary!
the word: Ho is not in my Vocabulary!
the word: Park is not in my Vocabulary!
the word: Korean is not in my Vocabulary!
the word: Very is not in my Vocabulary!
classified as:  1
Byung Ho Park's monster home run on Korean play-by-play. Very cool!  

the word: Seung is not in my Vocabulary!
the word: Oh is not in my Vocabulary!
classified 

#### 3.4.2 Analysis Results by SVM

In [39]:
SVMTestDoc = []

for doc in NaiveBayesTestDoc:
    temp = numpy.array(bayes.setOfWords2Vec(myVocabList, testEntry))
    SVMTestDoc.append(doc)
testMat = numpy.mat(SVMTestDoc)

the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!
the word: jeonghokang is not in my Vocabulary!


## 4. Conclusions

#### Validation Data 15개 중 잘 분류된 케이스 : 14개 & 잘못 분류된 케이스 : 1개

* 잘 분류된 케이스(14개)는 200개의 표본 데이터를 기반으로 했을 때 문장 내 단어 선정이 명확하고, 확실하기 때문에 잘 분류된 것으로 판단함
* 하지만,
  14번째 문장 "Coach has not trust by hyun soo kim yet~!!"는 200개의 표본 데이터를 기반으로 했을 때 문장 내 단어 선정이 명확하지 않았고, Validation Data의 문장 내 단어들이 불명확하기 때문에 잘못 분류된 것으로 판단함~!!
* 결론적으로, 15개 중에 14개의 잘 분류된 케이스를 통해 93.33%의 정확률을 나타냄
* 실제 200개의 표본 데이터만을 이용하여 MLB의 현지 여론을 정확하게 분석할 수는 없지만, 이를 기반으로 조금 더 많은 표본 데이터 및 조금 더 정확한 MLB 여론에 대한 긍정 및 부정 Sentences를 수집하여 재조사한다면 더욱 더 의미있는 결론을 도출할 수 있을 것이라 생각됨ᅠᅠ

## SVM 성능 분석

In [43]:
import svmMLiA
reload(svmMLiA)

myVocabList_ = bayes.createVocabList(DocList)

trainMat=[]
int_classVec = []

for postinDoc in DocList:
    trainMat.append(bayes.setOfWords2Vec(myVocabList, postinDoc))

for str_class in ClassVec:
    int_class = int(str_class)
    int_classVec.append(int_class)

p0V,p1V,pAb=svmMLiA.smoSimple(trainMat,int_classVec, 0.6, 0.001, 40)

L==H
L==H
L==H
L==H
L==H
j not moving enough
L==H
j not moving enough
j not moving enough
j not moving enough
j not moving enough
L==H
j not moving enough
L==H
j not moving enough
j not moving enough
j not moving enough
j not moving enough
j not moving enough
L==H
j not moving enough
L==H
L==H
j not moving enough
j not moving enough
j not moving enough
L==H
j not moving enough
j not moving enough
j not moving enough
j not moving enough
j not moving enough
j not moving enough
j not moving enough
j not moving enough
j not moving enough
j not moving enough
L==H
L==H
L==H
j not moving enough
j not moving enough
L==H
j not moving enough
L==H
j not moving enough
L==H
j not moving enough
j not moving enough
L==H
j not moving enough
L==H
L==H
j not moving enough
L==H
j not moving enough
L==H
j not moving enough
j not moving enough
L==H
L==H
j not moving enough
j not moving enough
j not moving enough
L==H
L==H
L==H
L==H
j not moving enough
L==H
j not moving enough
j not moving enough
L==H
j not

ValueError: need more than 2 values to unpack

In [30]:
import bayes
reload(bayes)

myVocabList_ = bayes.createVocabList(DocList)

trainMat=[]
int_classVec = []

for postinDoc in DocList:
    trainMat.append(bayes.setOfWords2Vec(myVocabList, postinDoc))

for str_class in ClassVec:
    int_class = int(str_class)
    int_classVec.append(int_class)

p0V,p1V,pAb=bayes.trainNB0(trainMat,int_classVec)

In [31]:
b, alphas = smoP(trainMat, int_classVec, 0.6, 0.001, 40)

NameError: global name 'kernelTrans' is not defined

In [7]:
mySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon.'
mySent.split()

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M.L.',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon.']

In [8]:
import re 
regEx = re.compile('\\W*')
listOfTokens = regEx.split(mySent)
listOfTokens

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M',
 'L',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon',
 '']