# 문서 단어 행렬 만들기

In [1]:
import numpy as np
import pandas as pd

documents = ["누구나 한번 쯤은 사랑 에 울고",
             "누구나 한번 쯤은 사랑 에 웃고",
             "그것이 바로 사랑 사랑 사랑이야"]

In [2]:
# 토크나이징
def tokenizer(text):
    return text.split()

docs_tokenized = [tokenizer(d) for d in documents]
docs_tokenized

[['누구나', '한번', '쯤은', '사랑', '에', '울고'],
 ['누구나', '한번', '쯤은', '사랑', '에', '웃고'],
 ['그것이', '바로', '사랑', '사랑', '사랑이야']]

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(tokenizer=tokenizer)
m = vectorizer.fit_transform(documents)
m.toarray() # 희소행렬을 넘파이 배열로 # 희소행렬 : 0이 많이 들어 있는 행렬

array([[0, 1, 0, 1, 0, 1, 1, 0, 1, 1],
       [0, 1, 0, 1, 0, 1, 0, 1, 1, 1],
       [1, 0, 1, 2, 1, 0, 0, 0, 0, 0]], dtype=int64)

In [4]:
# 딕셔너리의 key가 가나다 순으로 정렬되어 있습니다.
vectorizer.vocabulary_

{'누구나': 1,
 '한번': 9,
 '쯤은': 8,
 '사랑': 3,
 '에': 5,
 '울고': 6,
 '웃고': 7,
 '그것이': 0,
 '바로': 2,
 '사랑이야': 4}

In [5]:
# 문서-단어 행렬이 의미하는 바는 아래와 같습니다.
pd.DataFrame(m.toarray(), 
             columns=sorted(vectorizer.vocabulary_, key=lambda x: vectorizer.vocabulary_[x]),
             dtype=int)

Unnamed: 0,그것이,누구나,바로,사랑,사랑이야,에,울고,웃고,쯤은,한번
0,0,1,0,1,0,1,1,0,1,1
1,0,1,0,1,0,1,0,1,1,1
2,1,0,1,2,1,0,0,0,0,0


In [6]:
# CountVectorizer를 이용하면 n-gram도 간단하게 구현할 수 있습니다.
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(tokenizer=tokenizer, ngram_range=(1, 2)) # ngram이 하나의 토큰을 만들어 줌
m = vectorizer.fit_transform(documents)
pd.DataFrame(m.toarray(), 
             columns=sorted(vectorizer.vocabulary_, key=lambda x: vectorizer.vocabulary_[x]),
             dtype=int)

Unnamed: 0,그것이,그것이 바로,누구나,누구나 한번,바로,바로 사랑,사랑,사랑 사랑,사랑 사랑이야,사랑 에,사랑이야,에,에 울고,에 웃고,울고,웃고,쯤은,쯤은 사랑,한번,한번 쯤은
0,0,0,1,1,0,0,1,0,0,1,0,1,1,0,1,0,1,1,1,1
1,0,0,1,1,0,0,1,0,0,1,0,1,0,1,0,1,1,1,1,1
2,1,1,0,0,1,1,2,1,1,0,1,0,0,0,0,0,0,0,0,0


In [13]:
text = '''“딸에게 미안하다. 감정조절을 못 해 그런 일이 생기게 된 것을 후회한다.”
부모로부터 학대를 받은 정황이 드러나 창녕 초등학교 4학년 A양(9)의 친모 C씨(27)가 경찰 조사에서 이런 취지로 이야기한 것으로 드러났다.

22일 경남지방경찰청에 따르면 창녕경찰서는 이날 A양의 계부 B씨(35·구속)와와 친모 C씨를 아동복지법 위반 및 아동학대처벌법상 상습특수상해 혐의로 검찰에 송치했다.

경찰에 따르면 계부 B씨는 프라이팬으로 A양의 손을 지진 혐의를 받고 있다. 또 여러 차례 A양을 때린 혐의도 받고 있다. 친모 C씨는 쇠사슬로 된 목줄을 A양에게 채운 혐의다. B씨·C씨는 A양의 몸에 난 상처와 관련해서는 대부분 혐의를 인정했으나 일부 혐의를 부인한 것도 있다. 친모 C씨는 A양의 발등과 발바닥을 글루건과 달궈진 젓가락으로 지진 혐의도 받고 있으나 이 부분에 대해서는 혐의를 부인하고 있다.'''

In [31]:
import re

text2 = "abcd 가나다라"
re.sub("[ac]", "", text2) # a 또는 c

'bd 가나다라'

In [None]:
re.sub("[^ac]", "", text2) # a 또는 c를 제외하고

In [33]:
re.sub("[^가-힣 ]","", text) # 한글, 띄어쓰기 제외하고 삭제

'딸에게 미안하다 감정조절을 못 해 그런 일이 생기게 된 것을 후회한다부모로부터 학대를 받은 정황이 드러나 창녕 초등학교 학년 양의 친모 씨가 경찰 조사에서 이런 취지로 이야기한 것으로 드러났다일 경남지방경찰청에 따르면 창녕경찰서는 이날 양의 계부 씨구속와와 친모 씨를 아동복지법 위반 및 아동학대처벌법상 상습특수상해 혐의로 검찰에 송치했다경찰에 따르면 계부 씨는 프라이팬으로 양의 손을 지진 혐의를 받고 있다 또 여러 차례 양을 때린 혐의도 받고 있다 친모 씨는 쇠사슬로 된 목줄을 양에게 채운 혐의다 씨씨는 양의 몸에 난 상처와 관련해서는 대부분 혐의를 인정했으나 일부 혐의를 부인한 것도 있다 친모 씨는 양의 발등과 발바닥을 글루건과 달궈진 젓가락으로 지진 혐의도 받고 있으나 이 부분에 대해서는 혐의를 부인하고 있다'

In [34]:
text3 = "A(9)의 친모 C씨(27)가"

In [36]:
re.sub("\(.*?\)", " ", text3) # 괄호 없애기

'A 의 친모 C씨 가'

In [56]:
text1 = "살아 있는 모든 것은 기억한다"
text2 = "살아 있는 모든 것이 기억된다"

def jaccard_similarity(d1, d2):
    s1 = set(d1.split())
    s2 = set(d2.split())
    union = set(s1).union(set(s2))
    return len(s1&s2) / len(s1|s2)

jaccard_similarity(text1, text2)

0.42857142857142855

In [41]:
set(text1.split())

{'것은', '기억한다', '모든', '살아', '있는'}

In [63]:
import numpy as np

v1 = np.array([1, 1, 0, 0])
v2 = np.array([0, 1, 1, 1])

def jaccard_similarity(v1, v2):
    i = np.dot(v1, v2) # 같은 위치에 있는 거 비교
    u = np.sum(v1) + np.sum(v2) - i # 합집합
    return i / u

jaccard_similarity(v1, v2)

0.25

In [73]:
v1 = np.array([[1, 1, 0, 0, 0],
              [1, 1, 0, 0, 0]])
v2 = np.array([[1, 0, 1, 1, 0],
              [0, 1, 1, 1, 0],
              [0, 1, 1, 1, 0]])

def jaccard_similarity(v1, v2):
    m = np.dot(v1, v2.T) # 교집합의 갯수
    s= np.sum(v1, axis=1, keepdims=True) + np.sum(v2.T, axis=0, keepdims=True) -m #합집합
    return m/s

jaccard_similarity(v1, v2)

array([[0.25, 0.25, 0.25],
       [0.25, 0.25, 0.25]])

In [66]:
from sklearn.metrics.pairwise import cosine_similarity
# cosine_similarity
v1 = np.array([[1, 1, 0, 0, 0],
              [1, 0, 1, 0, 0]])

v2 = np.array([[1, 0, 1, 1, 0],
              [0, 1, 1, 1, 0],
              [0, 1, 1, 1, 0]])

cosine_similarity(v1, v2)

array([[0.40824829, 0.40824829, 0.40824829],
       [0.81649658, 0.40824829, 0.40824829]])