# 동시출현행렬
.
.
.
.
.
.
.
.

In [20]:
import pandas as pd
from konlpy.tag import Okt
import math

In [3]:
docs = [
    '오늘 날씨가 매우 좋다',
    '오늘 기분이 정말 좋다',
    '내일 날씨가 조금 흐리다',
    '기분이 매우 나쁘다'
    ]

In [4]:
# 좌우 단어 검색의 범위를 지정
window_size = 1

In [5]:
# 토큰화 함수를 정의
okt = Okt()

def tokenize(text):
    result = []
    # stem=True를 사용하여 동사/형용사를 원형으로 변환
    tagged_tokens = okt.pos(text, stem=True)
    for token, tag in tagged_tokens:
        if tag in ['Noun', 'Verb', 'Adjective', 'Adverb', 'Josa']:
            result.append(token)
    return result

In [6]:
tokens = [tokenize(doc) for doc in docs]
tokens

[['오늘', '날씨', '가', '매우', '좋다'],
 ['오늘', '기분', '이', '정말', '좋다'],
 ['내일', '날씨', '가', '조금', '흐리다'],
 ['기분', '이', '매우', '나쁘다']]

In [7]:
# tokens 데이터에서 나오는 단어들의 목록을 생성
# 중복 데이터를 제거하고 리스트의 형태로 변환
# 2차원 리스트를 1차원으로 변경 -> set()을 이용해 집합의 형태로 변환 -> 다시 리스트 형태로 변환
vocab = sorted( list( set( sum(tokens, []) ) ) )

# sorted와 sort의 차이
vocab2 = ( list( set( sum(tokens, []) ) ) ).sort()

In [8]:
print(vocab)
print(vocab2)

print('\n수정 후')

# list.sort() : list class 객체 안의 변수를 변경 (return None)
# 위의 코드에서 vocab2에 저장되는 데이터는 None
# 아래처럼 바꾸면 제대로 출력됨
vocab2 = list(set(sum(tokens, [])))
vocab2.sort()
print(vocab2)

['가', '기분', '나쁘다', '날씨', '내일', '매우', '오늘', '이', '정말', '조금', '좋다', '흐리다']
None

수정 후
['가', '기분', '나쁘다', '날씨', '내일', '매우', '오늘', '이', '정말', '조금', '좋다', '흐리다']


In [9]:
# 단어들의 목록을 인덱스와 저장
vocab_index = { word : idx for idx, word in enumerate(vocab) }
vocab_index

{'가': 0,
 '기분': 1,
 '나쁘다': 2,
 '날씨': 3,
 '내일': 4,
 '매우': 5,
 '오늘': 6,
 '이': 7,
 '정말': 8,
 '조금': 9,
 '좋다': 10,
 '흐리다': 11}

In [10]:
# 동시출현 행렬 생성 -> 기본값으로 행렬을 먼저 생성
# len(vocab) 만큼 행렬 생성 -> 12 * 12 2차원 리스트 생성
co_metrix = [ [0] * len(vocab) for i in range(len(vocab)) ]
co_metrix

[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

In [11]:
# window_size를 기반으로 하여 동시출현 카운트
for token in tokens:
    # token: tokens의 각각의 원소 (1차원 리스트)
    # print(token)    # 확인
    for idx, word in enumerate(token):  # 총 19번 반복됨
        # idx : token에서 각각의 인덱스의 값
        # word: token에서 각각의 원소의 값
        # word의 인덱스 값
        center_idx = vocab_index[word]
        # 윈도우의 범위 지정
        start = max(0, idx - window_size)
        end = min(len(token), idx, idx + window_size + 1)
        # range() 함수에서 end를 종료값으로 이용하면 해당 값은 미포함이므로 +1
        for i in range(start, end):
            # 동일한 데이터인 경우에는 카운터 증가 X
            if idx != i:
                context = token[i]  # 단어 선택
                context_idx = vocab_index[context]  # 선택한 단어의 인덱스 값
                # context_idx : 동시출현 행렬에서 idx의 값
                co_metrix[center_idx][context_idx] += 1

In [12]:
co_metrix

[[0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0]]

In [13]:
co_df = pd.DataFrame(co_metrix, index=vocab, columns=vocab)
co_df

Unnamed: 0,가,기분,나쁘다,날씨,내일,매우,오늘,이,정말,조금,좋다,흐리다
가,0,0,0,2,0,0,0,0,0,0,0,0
기분,0,0,0,0,0,0,1,0,0,0,0,0
나쁘다,0,0,0,0,0,1,0,0,0,0,0,0
날씨,0,0,0,0,1,0,1,0,0,0,0,0
내일,0,0,0,0,0,0,0,0,0,0,0,0
매우,1,0,0,0,0,0,0,1,0,0,0,0
오늘,0,0,0,0,0,0,0,0,0,0,0,0
이,0,2,0,0,0,0,0,0,0,0,0,0
정말,0,0,0,0,0,0,0,1,0,0,0,0
조금,1,0,0,0,0,0,0,0,0,0,0,0


In [14]:
# PMI, PPMI 계산

# co_df의 value 총 합계를 구하려면?
# 방법 1
sum(sum(co_df.values))

np.int64(15)

In [15]:
# 다른 방법
total_count = sum( sum(row) for row in co_metrix )

In [16]:
# 각 단어별 동시 등장 횟수의 합계
# total_count()
p_word = [ sum(row) / total_count for row in co_metrix ]
p_word

[0.13333333333333333,
 0.06666666666666667,
 0.06666666666666667,
 0.13333333333333333,
 0.0,
 0.13333333333333333,
 0.0,
 0.13333333333333333,
 0.06666666666666667,
 0.06666666666666667,
 0.13333333333333333,
 0.06666666666666667]

In [19]:
p_context = [
    sum( co_metrix[i][j] for i in range (len(vocab)) )
    / total_count for j in range( len(vocab) )
]
p_context

[0.13333333333333333,
 0.13333333333333333,
 0.0,
 0.13333333333333333,
 0.06666666666666667,
 0.13333333333333333,
 0.13333333333333333,
 0.13333333333333333,
 0.06666666666666667,
 0.06666666666666667,
 0.0,
 0.0]

In [None]:
# PMI 계산식
def calc_pmi(i, j):
    p_wc = co_metrix[i][j] / total_count
    if p_wc == 0:
        result = 0
    else:
        result = math.log2( p_wc / (p_word[i] * p_context[j]) + 1e-12 )
    return result

pmi_metrix = [ [calc_pmi(i, j) for i in range(len(vocab))] for j in range(len(vocab)) ]
pmi_metrix

[[0, 0, 0, 0, 0, 1.9068905956089033, 0, 0, 0, 2.906890595608711, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 2.906890595608711, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [2.906890595608711, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 2.906890595608711, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 2.906890595608711, 0, 0, 0, 0, 0, 0, 0, 1.9068905956089033, 0],
 [0, 2.906890595608711, 0, 1.9068905956089033, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 1.9068905956089033, 0, 0, 2.906890595608711, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2.906890595608711, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3.9068905956086146],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

In [None]:
pmi_df = pd.DataFrame(pmi_metrix, index=vocab, columns=vocab)
pmi_df.style.background_gradient(cmap='Blues')