In [1]:
from mlxtend.preprocessing import TransactionEncoder
import mlxtend #apiori알고리즘 관련 라이브러리
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings(action='ignore')

In [3]:
!pip install mlxtend

Collecting mlxtend
  Downloading https://files.pythonhosted.org/packages/2a/4f/11a257bc17f675691080219c6fe3525e49c7077535c3d64c0c2afc79cfc9/mlxtend-0.19.0-py2.py3-none-any.whl (1.3MB)
Installing collected packages: mlxtend
Successfully installed mlxtend-0.19.0


In [2]:
data = np.array([
    ['우유', '기저귀', '쥬스'],
    ['양상추', '기저귀', '맥주'],
    ['우유', '양상추', '기저귀', '쥬스'],
    ['양상추', '맥주']
])

In [3]:
te = TransactionEncoder()

In [4]:
te_ary = te.fit(data).transform(data)
te_ary

array([[ True, False, False,  True,  True],
       [ True,  True,  True, False, False],
       [ True, False,  True,  True,  True],
       [False,  True,  True, False, False]])

In [5]:
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,False,True,True,True
3,False,True,True,False,False


In [6]:
from mlxtend.frequent_patterns import apriori

In [7]:
result = apriori(df, min_support=0.5, use_colnames=True)
result

Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.5,(맥주)
2,0.75,(양상추)
3,0.5,(우유)
4,0.5,(쥬스)
5,0.5,"(기저귀, 양상추)"
6,0.5,"(우유, 기저귀)"
7,0.5,"(기저귀, 쥬스)"
8,0.5,"(양상추, 맥주)"
9,0.5,"(우유, 쥬스)"


### 쥬스 + 우유를 함께 산 사람에게 추천을 해준다고 한다면, <br>맥주보다는 기저귀를 추천해야함 <br> 지지도 기반으로 판단!

In [8]:
apriori(df, min_support=0.7, use_colnames=True)

Unnamed: 0,support,itemsets
0,0.75,(기저귀)
1,0.75,(양상추)


### 실제로 one-hot 인코딩 방식의 테이블이 필요<br>실제로는 물건의 개수가 아주 많음.
### 아이템 수 => 1조 : 38441개의 여행지, 2조 : 388개 정도의 물건<br>user 수 => 1조 : 70000명, 2조 : 800명<br>1조 : 70000 * 38441, 2조 : 800 * 388<br>1조인 경우 한 사람이 간 곳이 10개라고 한다면, 나머지는 0
### ==> 0이 2차원 데이터  : 희소행렬(sparse matrix)
### TF-IDF, CounterVectorizor, TransactionEncoder

In [9]:
type(result)

pandas.core.frame.DataFrame

# result에서 마지막 itemsets 컬럼값 추출
## 쥬스, 우유와 함께 추천하면 좋을 item은??

In [10]:
choice = result.iloc[10, :]
choice

support               0.5
itemsets    (우유, 기저귀, 쥬스)
Name: 10, dtype: object

In [11]:
items = choice['itemsets']

In [12]:
items

frozenset({'기저귀', '우유', '쥬스'})

In [13]:
list(items)[0]

'우유'

# 임베딩

In [14]:
!pip install gensim

Collecting gensim
  Using cached https://files.pythonhosted.org/packages/8a/6f/a690547cb7089d4019465bfbfbbb8bea5b3e52969cd2d6005049e6678ec4/gensim-4.2.0-cp37-cp37m-win_amd64.whl
Collecting smart-open>=1.8.1 (from gensim)
  Using cached https://files.pythonhosted.org/packages/09/db/fab79b619923e26cecc5fb460c80f71f99666fe19182d5bb600ec4d6ff10/smart_open-6.0.0-py3-none-any.whl
Collecting Cython==0.29.28 (from gensim)
  Using cached https://files.pythonhosted.org/packages/9f/79/311cfbca90332ab37ef8ea08f1af3266f20a9a0e7a1d652842db832226bb/Cython-0.29.28-py2.py3-none-any.whl
Installing collected packages: smart-open, Cython, gensim
  Found existing installation: Cython 0.29.13
    Uninstalling Cython-0.29.13:
      Successfully uninstalled Cython-0.29.13
Successfully installed Cython-0.29.28 gensim-4.2.0 smart-open-6.0.0


In [15]:
from gensim.models import Word2Vec

## 자연어에서 특정한 단어(word)를 중심으로 앞 뒤의 단어를 유추(예측, 추론)할 때 사용됨

In [16]:
doc = [
    'you say goodbye and I say hello', 
    'i say happy or he said white',
    'we say unhappy and angry black'
]

In [17]:
doc2 = [
    '나는 굿바이라고 했고, 너는 헬로우라고 했어.', 
    '나는 기쁘다고 했고, 너는 하얗게 슬프다고 했어.',
    '우리는 행복하지 않고, 블랙으로 슬퍼'
]

## 문장을 토큰으로 끊어내자

In [18]:
sentences = [sentence.split(' ') for sentence in doc]

In [20]:
sentences2 = [sentence.split(' ') for sentence in doc2]
sentences2

[['나는', '굿바이라고', '했고,', '너는', '헬로우라고', '했어.'],
 ['나는', '기쁘다고', '했고,', '너는', '하얗게', '슬프다고', '했어.'],
 ['우리는', '행복하지', '않고,', '블랙으로', '슬퍼']]

In [23]:
model = Word2Vec(window=1, min_count=1) ## 특정한 단어의 앞뒤 단어를 유추가능
## window : 유추하는 계산을 할 때 특정한 단어의 앞뒤 몇개를 가지고 계산을 할지의 단위
## min_count : 특정한 패턴의 출현 횟수

In [24]:
model.build_vocab(sentences) # 영문문장을 가지고 계산을 함

## 특정한 단어를 주고 앞뒤 단어를 추론해보자

In [26]:
model.wv.most_similar('say') ## 비지도 

[('or', 0.21617144346237183),
 ('hello', 0.0931011438369751),
 ('said', 0.09291724115610123),
 ('i', 0.07963485270738602),
 ('happy', 0.06285079568624496),
 ('you', 0.05433369055390358),
 ('he', 0.027057476341724396),
 ('white', 0.016134709119796753),
 ('and', -0.010839181020855904),
 ('unhappy', -0.02775038219988346)]

In [27]:
model.wv.most_similar('or') 

[('say', 0.21617144346237183),
 ('he', 0.04468921199440956),
 ('happy', 0.015025189146399498),
 ('you', 0.010695194825530052),
 ('white', 0.0019510550191625953),
 ('black', -0.032843127846717834),
 ('goodbye', -0.045522768050432205),
 ('hello', -0.04568907991051674),
 ('i', -0.0742427259683609),
 ('said', -0.09326909482479095)]

### or 단어 앞으로는 say가 나올 가능성이 제일 크고, or 단어 뒤로는 black 단어가 나올 가능성이 제일 큰 것을 알 수 있다.

In [32]:
model2 = Word2Vec(window=1, min_count=1)

In [34]:
model2.build_vocab(sentences2)

In [35]:
model2.wv.most_similar('너는')

[('굿바이라고', 0.13725270330905914),
 ('나는', 0.06797593832015991),
 ('우리는', 0.03364057466387749),
 ('블랙으로', 0.009391184896230698),
 ('기쁘다고', 0.008315940387547016),
 ('슬퍼', 0.004503006115555763),
 ('헬로우라고', -0.003644464071840048),
 ('했어.', -0.010839183814823627),
 ('했고,', -0.023671666160225868),
 ('슬프다고', -0.09575348347425461)]

### '너는' 한글 단어 앞으로 나올 단어로는 굿바이라고를 추천, <br> '너는' 한글 단어 뒤로 나올 단어로는 헬로우라고를 추천

# TF-IDF

In [36]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances

### 불용어 처리 가능한 ifidf객체 생성
#### ifidf는 빈도수를 구하긴 하지만, 문서마다 자주 등장하는 문서는 각 문서를 구분할 단어로 사용하기는 부적합하여 가중치를 낮추어 계산

In [44]:
tfidf = TfidfVectorizer(stop_words='english') 

#### 3 x 9에서<br> 3은 문서의 개수<br> 9는 단어의 개수

In [39]:
tfidf_maxtrix = tfidf.fit_transform(doc)
tfidf_maxtrix

<3x9 sparse matrix of type '<class 'numpy.float64'>'
	with 11 stored elements in Compressed Sparse Row format>

In [40]:
tfidf_maxtrix.toarray()

array([[0.        , 0.        , 0.54270061, 0.        , 0.54270061,
        0.        , 0.64105545, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.54645401, 0.        ,
        0.54645401, 0.32274454, 0.        , 0.54645401],
       [0.54645401, 0.54645401, 0.        , 0.        , 0.        ,
        0.        , 0.32274454, 0.54645401, 0.        ]])

## 문서간의 유사도를 구해보기

In [41]:
cosine_similarity(tfidf_maxtrix, tfidf_maxtrix)

array([[1.        , 0.20689715, 0.20689715],
       [0.20689715, 1.        , 0.10416404],
       [0.20689715, 0.10416404, 1.        ]])

### 행은 문서1, 문서2, 문서3<br>열도 문서1, 문서2, 문서3
### 문서1 + 문서2 : 0.2
### 문서1 + 문서3 : 0.2
### 문사2 + 문서3 : 0.1
### 문서1과 2, 문서1과 3이 유사하다<br> 문서2와 3은 유사하지 않다.
--------------------------------------

## 1. 장바구니 유사도를 구해보기

In [86]:
cosine_similarity(te_ary, te_ary)

array([[1.        , 0.33333333, 0.8660254 , 0.        ],
       [0.33333333, 1.        , 0.57735027, 0.81649658],
       [0.8660254 , 0.57735027, 1.        , 0.35355339],
       [0.        , 0.81649658, 0.35355339, 1.        ]])

## 2. 장바구니 1번과 제일 유사도가 높은 장바구니를 찾아서

#### 장바구니 1번과 제일 유사도가 높은 장바구니는 0.86의 유사도를 가진 3번 장바구니이다.

## 3. 장바구니 1번에게 추천해주고 싶은 item을 추천해주기

In [87]:
df

Unnamed: 0,기저귀,맥주,양상추,우유,쥬스
0,True,False,False,True,True
1,True,True,True,False,False
2,True,False,True,True,True
3,False,True,True,False,False


### 양상추 추천