# 쿠다 과제 1

- **임의의 영문 기사를 스크랩**하여 해당 본문에서 나타나는 단어들의 유사도 및 문맥&타깃의 정답 확률을 파악해보는 과제입니다.
- 각 단계별로 유사도 측정에서 어떤 차이가 있는지 비교 분석 해볼 수 있습니다.
- 추론 기반 기법에서 문맥을 통해 타깃을 얼마나 정확하게 맞출 수 있는지 파악해볼 수 있습니다.

---

### 예시 기사 본문

https://www.nasdaq.com/articles/what-are-consensus-estimates-and-why-are-they-important

Why do stocks go up?

There are a number of reasons.

One is this: a stock often goes up if it beats expectations.

By expectations, we don’t mean in a general sense, but in a quantifiable sense, i.e. Consensus. Consensus is, essentially, the average of earnings estimates made by professionals.

You may notice that occasionally articles in the financial press refer to earnings estimates. Publishing earnings estimates is one of the functions of analysts, whose job is to research stocks. They are employed by companies such as J.P. Morgan, Goldman Sachs, Barclays, and many others and cater mostly to large, institutional investors.

Putting Consensus into Practice
Let’s start with an example and take a look at Apple (AAPL).

AAPL consensus
That refers to the average of analyst earnings estimates for the particular quarter we are in. Notice that the number is $1.00. This number will likely fluctuate as analysts adjust their numbers as the earnings date approaches.

If you are a trader, you may seek to determine whether Apple will beat or miss that $1.00. You can do that by reading research reports, following the news, reviewing management appearances, and if possible looking into scuttlebutt. You would consider laterals. And you will distill all that information into a viewpoint on earnings — perhaps Apple will make $1.05 in the quarter. Maybe you’ve found evidence that sales for laptops are higher than expected. Or perhaps you conclude that Apple will make $0.90 instead because of chip shortages.

And if you do determine that Apple will make $1.05, and Consensus remains at $1.00, all things equal, Apple stock may go up if you’re correct. However, there are exogenous factors. What if inflation skyrockets? What if interest rates rise?

Important Considerations
A company beating Consensus estimates does not *guarantee* that their stock will go up. There are times when a company will beat the Consensus earnings estimate, but its stock goes down.

That may be because the Consensus estimate may not be a “true” reflection of the actual expectations of all market participants. Analyst estimates can be stale, so what’s listed as Consensus may be higher (or lower) than it should be. For example, Consensus for Apple may be higher than it should be because not all analysts have adjusted their estimates downward for chip shortages.

Moreover, a company may beat quarterly Consensus and its stock go down because of forward-looking comments that miss expectations. To go back to Apple, the company may beat the current quarter, but provide comments that suggest they will miss expectations for the following quarter, and, as a consequence, the stock goes down. If a trader anticipated this scenario, they may want to trim their position.

While one should pay close attention to quarterly earnings reports, Consensus is also applicable to a longer-term, investor-oriented mindset. You may have noticed in the company profile “Fwd EPS (Curr Yr).” That pertains to this year’s Consensus earnings estimate, which is $5.16. Maybe you don’t care about the chip shortages temporarily impacting the stock and subscribe to a longer-term view that Apple’s on-going revenue shift toward software and services is not fully appreciated, and that will drive earnings beats over time. That could manifest in Apple exceeding $5.16 in earnings this year, as well as next year’s expectations.

The bottom line? Whether you decide to undertake short-term trades or invest with a long-term mindset, Consensus is a useful framework for understanding stock price dynamics.

Originally published on Tornado.com: What are Consensus Estimates and Why are they Important?

## 데이터 전처리
 - NLTK를 활용해 스크랩한 기사 본문을 전처리 해야합니다. 
 - 앞으로 항상 데이터 전처리 과정은 기본이 될 것입니다.
 - 데이터 분석, AI, NLP에서 전처리에 소모되는 시간이 70%가 넘습니다.
 - 전처리 절차 전 python 가상환경을 미리 구축해 추후 실습에 지장이 없도록 합니다.
 - 구글 코랩을 사용해도 무방합니다.

먼저 기사에서 가져온 본문을 토큰화, 불용어 제거, 일정 길이 이하의 단어 제거, 소문자화, 표제어 추출, 어간 추출 등의 과정을 거칩니다.

https://blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=qbxlvnf11&logNo=221434157182 (출처)

In [None]:
# import
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# 초기 다운로드
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

In [None]:
# Data Preprocessing (제공됨)
def preprocessing(text):
    # tokenize into words
    tokens = [word for sent in nltk.sent_tokenize(text)
              for word in nltk.word_tokenize(sent)]

    print( "- tokenize into words -" )
    print( tokens )
    print()
    
    # remove stopwords
    stop = stopwords.words('english')
    tokens = [token for token in tokens if token not in stop]

    print( "- remove stopwords -" )
    print( tokens )
    print()
    
    # remove words less than three letters
    tokens = [word for word in tokens if len(word) >= 3]

    print( "- remove words less than three letters -" )
    print( tokens )
    print()
    
    # lower capitalization
    tokens = [word.lower() for word in tokens]

    print( "- lower capitalization -" )
    print( tokens )
    print()
    
    # lemmatization
    lmtzr = WordNetLemmatizer()
    tokens = [lmtzr.lemmatize(word) for word in tokens]

    print( "- lemmatization -" )
    print( tokens )
    print()

    tokens = [lmtzr.lemmatize(word, 'v') for word in tokens]

    print( "- lemmatization/verb -" )
    print( tokens )
    print()

    # stemming
    stemmer = PorterStemmer()
    tokens = [ stemmer.stem(word) for word in tokens ]

    print( "- stemming -" )
    print(tokens)
    print()
    
    preprocessed_text= ' '.join(tokens)
    return preprocessed_text

1. 파일 입출력

In [None]:
# 파일 입출력

# Code

2. 전처리 완료된 기사 본문을 변수에 저장

In [None]:
# 전처리 완료된 기사 본문

# Code

### 시소러스

- NLTK를 활용해서 WordNet 시소러스를 통해 단어 유사도를 확인해봅시다.

3. 2번에 수행한 변수를 리스트로 쪼개기

In [None]:
# 문장을 리스트로 쪼개기

# Code

4. 본문 중 관계가 궁금한 단어 2개를 임의로 골라 유사도 측정

In [None]:
from nltk.corpus import wordnet as wn

# 두 단어 사이의 NLTK 기준 유사도를 구하기

# Code

### python import

**아래 셀부터는 common 및 model을 import 함으로써 함수들을 분리하겠습니다.
코드 작성에 참고 바랍니다.**

## 통계 기반 기법

- 통계 기반 기법을 활용해 코사인 유사도를 확인합니다.
- 성능을 개선하기 전과 후(PPMI, SVD)로 비교해 어떤 차이가 있는지 비교합니다.
- 시소러스의 유사도와 같은 값을 지향하고 있는지 비교합니다.

5. create_co_matrix 함수를 util.py에 만들기

In [None]:
import sys
sys.path.append('..') # 부모 디렉토리도 포함
from common.util import preprocess, create_co_matrix, cos_similarity
corpus, word_to_id, id_to_word = preprocess(text)

window_size = 1
vocab_size = len(id_to_word)

C = create_co_matrix(corpus, vocab_size, window_size=1) # 해당 함수를 common.util.py에 만드세요.

c0 = C[word_to_id['stock']]  # "you"의 단어 벡터
c1 = C[word_to_id['earn']]  # 'i'의 단어 벡터
print("두 단어 사이의 코사인 유사도", cos_similarity(c0, c1)) # 해당 함수를 common.util.py에 만드세요.

6. most_similar 함수를 만들고 util.py에 복사하기

In [None]:
# 가장 비슷한 단어를 찾는 함수
# 구현해보고 common/util.py에 복사합니다.

# Code
def most_similar(query, word_to_id, id_to_word, word_matrix, top=5):

7. 6에서 만든 함수로 기사 본문에 등장하는 임의의 단어가 어떤 단어와 비슷한지 테스트

In [None]:
# 특정 단어가 어떤 단어와 비슷한지 직접 경험해봅시다.

# Code

8. ppmi 함수를 util.py에 만들기

In [None]:
import sys
sys.path.append('..')
import numpy as np
from common.util import preprocess, create_co_matrix, cos_similarity, ppmi

corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)
W = ppmi(C) # 해당 함수를 common.util.py에 만드세요.

np.set_printoptions(precision=3)  # 유효 자릿수를 세 자리로 표시
print('Co-occurrence Matrix')
print(C)
print('-'*50)
print('PPMI')
print(W)

In [None]:
from common.util import most_similar
most_similar('you', word_to_id, id_to_word, W, top=5)

In [None]:
# count_method_small.py
%matplotlib inline
import sys
sys.path.append('..')
import numpy as np
import matplotlib.pyplot as plt
from common.util import preprocess, create_co_matrix, ppmi

corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)
W = ppmi(C)

# SVD
U, S, V = np.linalg.svd(W)

9. 행렬의 시각화

In [None]:
print(C[0])  # 동시발생 행렬
print(W[0])  # PPMI 행렬
print(U[0])  # SVD
# 2차원으로 차원 축소하기
print(U[0, :2])

# 플롯
# Code

---

## 추론 기반 기법

### CBOW 모델

- CBOW 모델을 구현하기 위해 맥락, 타깃을 설정하고 One-Hot 인코딩을 수행합니다.
- 구현한 모델을 평가합니다.
- 만약 성능이 좋지 않다면 어떻게 개선해야할 지 생각해보고 해당 행위를 수행합니다.

10. convert_one_hot 함수를 만들고 util.py에도 복사하기

In [None]:
def convert_one_hot(corpus, vocab_size):
    '''원핫 표현으로 변환
    :param corpus: 단어 ID 목록(1차원 또는 2차원 넘파이 배열)
    :param vocab_size: 어휘 수
    :return: 원핫 표현(2차원 또는 3차원 넘파이 배열)
    '''
    
# 해당 함수를 만들고 util.py에도 복사하세요.
# Code

11. create_contexts_target 함수를 util.py에 만들기

In [None]:
corpus, word_to_id, id_to_word = preprocess(text)
contexts, target = create_contexts_target(corpus, window_size=1) # 해당 함수를 common.util.py에 만드세요.

vocab_size = len(word_to_id)
target = convert_one_hot(target, vocab_size)
contexts = convert_one_hot(contexts, vocab_size)

12. simple_cbow.py에 SimpleCBOW Class를 만들기

In [None]:
# chap03/train.py
import sys
sys.path.append('..')
from common.trainer import Trainer # 제공합니다.
from common.optimizer import Adam # 제공합니다.
from simple_cbow import SimpleCBOW # simple_cbow.py에 해당 클래스를 만드세요.
from common.util import preprocess, create_contexts_target, convert_one_hot

window_size = 1
hidden_size = 5
batch_size = 3
max_epoch = 1000

corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id) # cbow 학습 데이터셋 생성

contexts, target = create_contexts_target(corpus, window_size) # Input에 맞는 one-hot 표현 변환
target = convert_one_hot(target, vocab_size)
contexts = convert_one_hot(contexts, vocab_size)

# 모델 초기화
model = SimpleCBOW(vocab_size, hidden_size)
optimizer = Adam()
trainer = Trainer(model, optimizer)

In [None]:
# 학습
trainer.fit(contexts, target, max_epoch, batch_size)

In [None]:
trainer.plot()

13. 모델에서 저장한 Word Embedding의 입력층 값 살펴보기

In [None]:
# Word Embedding 살펴보기 simple_cobw의 word_vec 참고
# W_in 입니다.

# Code

14. 모델에서 저장한 Word Embedding의 출력층 값 살펴보기

In [None]:
# Word Embedding 살펴보기, simple_cobw의 word_vec 참고
# W_out 입니다.

# Code

In [None]:
%matplotlib inline
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
mpl.rcParams['axes.unicode_minus'] = False

tsne = TSNE(n_components=2)

# 100개의 단어에 대해서만 시각화
X_tsne = tsne.fit_transform(word_vecs2)

In [None]:
vocab = list(id_to_word.values())

In [None]:
df = pd.DataFrame(X_tsne, index=vocab, columns=['x', 'y'])
df.shape

In [None]:
df.head()

In [None]:
fig = plt.figure()
fig.set_size_inches(20, 10)
ax = fig.add_subplot(1, 1, 1)

ax.scatter(df['x'], df['y'])

for word, pos in df.iterrows():
    ax.annotate(word, pos, fontsize=30)
plt.show()

### skip-gram 모델

- CBOW 모델 구현에 성공했으면 skip-gram 모델로도 평가합니다. 둘의 성능이 어떻게 다른지 비교해봅니다.

15. simple_skip_gram.py에 SimpleSkipGram Class 구현하기

In [None]:
# chap03/train.py
import sys
sys.path.append('..')
from common.trainer import Trainer
from common.optimizer import Adam
from simple_skip_gram import SimpleSkipGram # 해당 클래스를 구현하세요.
from common.util import preprocess, create_contexts_target, convert_one_hot

window_size = 1
hidden_size = 5
batch_size = 3
max_epoch = 1000

corpus, word_to_id, id_to_word = preprocess(preprocessed)
vocab_size = len(word_to_id) # cbow 학습 데이터셋 생성

contexts, target = create_contexts_target(corpus, window_size) # Input에 맞는 one-hot 표현 변환
target = convert_one_hot(target, vocab_size)
contexts = convert_one_hot(contexts, vocab_size)

# 모델 초기화
model = SimpleSkipGram(vocab_size, hidden_size)
optimizer = Adam()
trainer = Trainer(model, optimizer)

In [None]:
# 학습
trainer.fit(contexts, target, max_epoch, batch_size)

In [None]:
trainer.plot()

In [None]:
# Word Embedding 살펴보기
word_vecs = model.word_vecs
for word_id, word in id_to_word.items():
    print(word, word_vecs[word_id])

In [None]:
%matplotlib inline
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
mpl.rcParams['axes.unicode_minus'] = False

tsne = TSNE(n_components=2)

# 100개의 단어에 대해서만 시각화
X_tsne = tsne.fit_transform(word_vecs)

In [None]:
vocab = list(id_to_word.values())

In [None]:
df = pd.DataFrame(X_tsne, index=vocab, columns=['x', 'y'])
df.shape

In [None]:
df.head()

In [None]:
fig = plt.figure()
fig.set_size_inches(20, 10)
ax = fig.add_subplot(1, 1, 1)

ax.scatter(df['x'], df['y'])

for word, pos in df.iterrows():
    ax.annotate(word, pos, fontsize=30)
plt.show()

과제가 끝났습니다. 해당 모델을 이용해 다른 것들을 해보시고 싶으신 분들은 자유롭게 구현해주시면 되겠습니다.

수고하셨습니다.