In [None]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

In [None]:
!pip install konlpy

In [None]:
!pip install soykeyword

In [None]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Okt
from tqdm import tqdm
import re
from soykeyword.proportion import CorpusbasedKeywordExtractor

In [None]:
df = pd.read_excel('/content/gdrive/MyDrive/싼데비스탄/비버웍스_샘플데이터_open.xlsx', sheet_name=None)
dirty = pd.read_excel('/content/gdrive/MyDrive/싼데비스탄/해커톤참고자료(dirty).xlsx')

In [None]:
# # local
# df = pd.read_excel('/Users/badro97/NLP/NLP_Practice/비버웍스_샘플데이터_open.xlsx', sheet_name=None)
# dirty = pd.read_excel('/Users/badro97/NLP/NLP_Practice/해커톤참고자료(dirty).xlsx')

In [None]:
orderQueen = df['오더퀸']
unos = df['우노스']

# 전처리
### 모든 데이터에 적용 가능해야 함
- 동일한 데이터프레임 Form으로 변경
- 취사선택 기능 (제거할 특수문자 입력)
- 동일한 기준 설정 (영어, 단위 제거)
- 오탈자 교정 (자모 단위)
- 띄어쓰기 교정 (soynlp - soyspacing)



**1/16 아이디어**

doc2vec or word2vec kmeans(elbow method)가 줄어들때 까지

태그로 뽑은 단어 제목에 추가(빈도 수 기준(뒷 단어 기준))

스캐터플롯으로 밀집도 변화 관찰

마지막에 메뉴명 최종 전처리(자모 교정, 토큰화, pororo, 외래어 표기법)

In [None]:
## 데이터프레임 form 통일
def form(df, brand, title, category=''):
  data = pd.DataFrame()
  data['brand'] = df[brand]
  data['title'] = df[title]
  data['category'] = df[category] if category else np.nan
  return data

In [None]:
o = form(orderQueen, '브랜드명', 'MENU_FULL_NM')
u = form(unos, '매장명', '메뉴명', '카테고리명')
d = form(dirty, '상점명', '상품명', '카테고리명')

df_list = [o, u, d]
df = pd.concat(df_list, ignore_index=True)
df

In [None]:
df[df['category'].isnull()]

In [None]:
df['category'].unique()

In [None]:
df.columns

In [None]:
## 토큰들 문자열로 결합
def tokenToString(token_list):
    res = []
    for token in token_list:
      s = ' '.join(token)
      res.append(s)
    return res

In [None]:
## []안에 문자가 있다? (브랜드명), ()안에 한글이 있다? or 숫자뒤에 한글/영어가 온다? (단위)
pat = re.compile("\[[^)]*\]|\([가-힣]\)|[0-9]+[a-zA-Z가-힣]*") 
## 특수문자 제외
sp = re.compile("[^가-힣a-zA-Z\s]")

## 지우는 전처리
def remove_eda(df, col):
  token_list = []
  for t in tqdm(df[col]):
    if t:
      t1 = pat.sub("", str(t))
      text = sp.sub(" ", t1).lower()
      res = text.split()
      token_list.append(res)
    else:
      token_list.append(t)
  result = tokenToString(token_list)
  df[col] = result
  return df

In [None]:
for col in df.columns:
  df2 = remove_eda(df, col)

In [None]:
df2

In [None]:
df2['brand'].unique()

In [None]:
df2['category'].unique()

In [None]:
df2[df2['category'] == 'non coffee'] # 나중에 채워 넣어주기

In [None]:
df2.loc[df2['category'] == 'non coffee','category'] = 'nan'
df2['category'].unique()

In [None]:
data = df2.copy()

In [None]:
## 카테고리명split 한 값이 두 개 이상이고 영어가 섞여있다면 한글을 선택
def E_or_K(input):
  k = 0
  e = 0
  for c in input:
    if ord('가') <= ord(c) <= ord('힣'):
      k+=1
    elif ord('a') <= ord(c.lower()) <= ord('z'):
      e+=1
    return "korean" if k > e else "english"

cats = []
for cat in data['category']:
  l = cat.split()
  if len(l) >= 2:
    for text in l:
      ke = E_or_K(text)
      if ke == 'english':
        l.remove(text)
  s = ' '.join(l)
  cats.append(s)

data['category'] = cats

In [None]:
## 브랜드명 지점위치 제거
brands = []
for brand in data['brand']:
  b = brand.split()
  brands.append(b[0])

data['brand'] = brands

In [None]:
data['brand'].unique()

In [None]:
data['category'].unique()

## 카테고리는 메뉴와 가장 가까운 값으로 선택

pororo 제로샷 분류

In [None]:
!pip install --upgrade pip
!git clone https://github.com/kakaobrain/pororo.git

In [None]:
cd pororo

In [None]:
!pip install -e .

In [None]:
from pororo import Pororo

In [None]:
# Pororo 제로샷 분류모델
topic_cls = Pororo(task='zero-topic', lang='ko')

In [None]:
## 카테고리 토큰이 두 개 이상일 경우 메뉴명과 가장 가까운 토큰 선택
def cat_eda(title, cats):
  choice = []
  for i, cats in tqdm(enumerate(cats)):
    cat = cats.split()
    if len(cat) >= 2:
      result = topic_cls(title[i], cat)
      close = max(result, key=(lambda k: result[k]))
      choice.append(close)
    else:
      choice.append(cats)
  return choice

In [None]:
cat_choice = cat_eda(data['title'], data['category'])
data['category'] = cat_choice

In [None]:
data['category'].unique()

In [None]:
## 카테고리가 영어일 경우는 따로 빼놓고 replace로 한글화 해주는 방법이 가장 정신 건강에 좋을 듯 싶다.

In [None]:
trash = data['category'].value_counts().to_frame()

In [None]:
## 카테고리 값이 5 미만인 경우 삭제
t_idx = list(trash[trash['category'] < 5].index)

In [None]:
def trash_rm(df, what, trash):
  for t in trash:
    df = df[df[what] != t]
  df.reset_index(drop=True, inplace=True)
  return df

In [None]:
data = trash_rm(data, 'category', t_idx)
data['category'].unique()

In [None]:
## 카테고리 수동 변경 (영어->한국어)
def jojung(df, before, after):
  for idx, value in enumerate(before):
    df.loc[df['category'] == value,'category'] = after[idx] 
  return df
  
eng = ['coffee']
kor = ['커피']

data = jojung(data, eng, kor)

In [None]:
data['category'].unique()

In [None]:
## 그럼에도 걸러지지 않은 이상한 값들은 수동으로 찾아서 지우기
data[data['category'] == '테스트계정']

In [None]:
## 이상치 수동으로 확인 후 리스트에 저장
weird_brand = ['커피']
weird_cat = ['테스트계정']
weird_title = ['', '배달비', '배달료', '기본배달료', '어진동 배송비', '박스포장', '비닐포장', '비닐 포장', '보냉팩 추가', '보냉백추가', '초', '테스트계정입니다']

In [None]:
## 이상치 제거
data = trash_rm(data, 'brand', weird_brand)
data = trash_rm(data, 'title', weird_title)
data = trash_rm(data, 'category', weird_cat)

In [None]:
data

In [None]:
data.isnull().sum()

In [None]:
data.duplicated().sum()

In [None]:
data.drop_duplicates(inplace=True)

In [None]:
data = data.sort_values('brand')
data.reset_index(drop=True, inplace=True)

In [None]:
data.to_csv('비버웍스.csv', index=False)

In [None]:
data

# 카테고리 시각화, 채워 넣기

In [None]:
## 전체적인 파이프라인

# 메뉴명 벡터화(fasttext(자모단위로 해야함))하고 박스플롯 그려보기(카테고리 기준) 또는 kmeans
# section1/2 시각화, 군집화 찾아보기
# 어느정도의 밀집도를 보이는지 시각화
# 카테고리의 nan의 메뉴명 벡터값들 LSA잠재의미분석 후 태그 부여. 안될거같으면 메뉴 속성 추출 값을 태그로 
# 박스플롯에 대입하여 비교 후 최초 카테고리 생성
# 메뉴명 뒤에 카테고리 그대로 붙여주고 시각화 or kmeans(elbowmethod 최적값이 카테고리 개수(잠재의미분석 태그 수)와 같아질 때까지)반복 -> 명확한 밀집도 형성?
# 밀집도 확정 후 최종 카테고리 지정

# 같은 방법을 반복하여 중분류, 대분류 지정(optional)

# 메뉴 속성 추출
# 오탈자 검사(자모 단위)
# 외래어 표기법 적용

# 임베딩
# FastText 모델 학습
# 예측 결과 비교

# 키워드?
### soynlp - soykeword

In [None]:
## 키워드 뽑기 (빈도수)
from soykeyword.proportion import CorpusbasedKeywordExtractor
corpusbased_extractor = CorpusbasedKeywordExtractor(
    min_tf=2,
    min_df=1,
    tokenize=lambda x:x.strip().split(),
    verbose=True
)

# docs: list of str like
corpusbased_extractor.train(df2['title'])

In [None]:
keywords = corpusbased_extractor.extract_from_word(
    '카모마일',
    min_score=0.5,
    min_frequency=0
)

In [None]:
keywords

## OrderQueen

In [None]:
orderQueen.info()

In [None]:
orderQueen.duplicated().sum()

In [None]:
orderQueen.head()

In [None]:
orderQueen.tail()

# Unos

In [None]:
unos.info()

In [None]:
unos[unos['카테고리명'].isnull()]

In [None]:
unos['메뉴코드'].duplicated().sum()

In [None]:
unos.head()

In [None]:
unos.tail()

# Dirty Sample

In [None]:
dirty.info()

In [None]:
dirty