In [1]:
import scipy as sp 
import pandas as pd
from tqdm import tqdm
from konlpy.tag import Hannanum
from sklearn.feature_extraction.text import CountVectorizer

# [1] Label dictionary

In [2]:
dic = {'tv': [62],
 '가방': [24, 26],
 '가위': [76],
 '간식': [52, 53, 54, 55],
 '강아지': [16],
 '개': [16],
 '거실': [57],
 '견종': [16],
 '경마': [17],
 '고속열차': [6],
 '고양이': [15],
 '곰': [21],
 '곰돌이': [21],
 '곰인형': [77],
 '공': [32],
 '공항': [4],
 '과일': [46, 47, 49],
 '교통': [9],
 '그릇': [45],
 '글라스': [40],
 '기린': [23],
 '기차': [6],
 '까치': [14],
 '꽃': [58, 75],
 '꽃병': [75],
 '나이프': [43],
 '냉장고': [72],
 '넥타이': [27],
 '노트북': [63],
 '당근': [51],
 '대중교통': [5],
 '도넛': [54],
 '도로': [9],
 '도서관': [73],
 '독서': [73],
 '동물': [15, 16, 17, 18, 19, 20, 21, 22, 23],
 '드라이기': [78],
 '디저트': [54, 55],
 '라켓': [38],
 '랩탑': [63],
 '리모컨': [65],
 '리모콘': [65],
 '마우스': [64],
 '말': [17],
 '멍멍': [16],
 '멍멍이': [16],
 '목장': [19],
 '문구': [76],
 '물병': [39],
 '물컵': [41],
 '미니백': [26],
 '바나나': [46],
 '밥그릇': [45],
 '방망이': [34],
 '배': [8],
 '배낭': [24],
 '배달': [3],
 '배트': [34],
 '백': [26],
 '백팩': [24],
 '버스': [5],
 '벤치': [13],
 '변기': [61],
 '변기통': [61],
 '병': [39],
 '병류': [39],
 '보드': [31, 36],
 '보트': [8],
 '볼': [32, 45],
 '부엌': [71, 72],
 '북극곰': [21],
 '브로콜리': [50],
 '비둘기': [14],
 '비행기': [4],
 '빵': [48, 54, 55],
 '사과': [47],
 '사람': [0],
 '사람들': [0],
 '새': [14],
 '샌드위치': [48],
 '생일': [55],
 '서프': [37],
 '서프보드': [37],
 '서핑': [37],
 '세면대': [61],
 '소': [19],
 '소떼': [19],
 '소파': [57],
 '소화기': [10],
 '소화전': [10],
 '숄더백': [26],
 '수저': [44],
 '숟가락': [44],
 '술병': [39],
 '술잔': [40],
 '스노우보드': [31],
 '스마트폰': [67],
 '스케이트': [36],
 '스케이트보드': [36],
 '스키': [30],
 '스키보드': [30],
 '스키장': [30, 31],
 '스포츠공': [32],
 '스푼': [44],
 '승마': [17],
 '승마장': [17],
 '승용차': [2],
 '시계': [74],
 '식기류': [42],
 '식사': [40, 41, 42, 43, 44, 45, 48, 52, 53, 60],
 '식탁': [60],
 '신호등': [9],
 '싱크': [71],
 '싱크대': [71],
 '안방': [59],
 '야구': [34, 34, 35],
 '야구방망이': [34],
 '야구장갑': [35],
 '야옹': [15],
 '야옹이': [15],
 '야채': [50, 51],
 '양': [18],
 '양떼': [18],
 '양치': [79],
 '얼룩말': [22],
 '여행': [28],
 '여행가방': [28],
 '연': [33],
 '연날리기': [33],
 '열차': [6],
 '오렌지': [49],
 '오븐': [69],
 '오토바이': [3],
 '와인잔': [40],
 '요리': [50, 51, 68, 69],
 '요트': [8],
 '우산': [25],
 '운동': [32, 34, 35, 36, 37],
 '운전': [2],
 '원반': [29],
 '원반던지기': [29],
 '유리컵': [41],
 '음메': [19],
 '음식': [45, 48, 52, 53, 54, 55],
 '의자': [13, 56],
 '인간': [0],
 '인형': [77],
 '일': [63],
 '자동차': [2],
 '자전거': [1],
 '작업': [63],
 '잠': [59],
 '장갑': [35],
 '전동차': [3],
 '전자레인지': [68],
 '전화' : [67],
 '접시': [45],
 '정지': [11],
 '정지 신호': [11],
 '조류': [14],
 '주스병': [39],
 '주차': [12],
 '주차 미터기': [12],
 '주차장': [12],
 '차': [2],
 '차량': [2],
 '참새': [14],
 '채소': [50, 51],
 '책': [73],
 '책방': [73],
 '책장': [73],
 '출국': [28],
 '치약': [79],
 '침대': [59],
 '침실': [59],
 '칫솔': [79],
 '칼': [43],
 '캐리어': [28],
 '컴퓨터': [63],
 '컵': [41],
 '케이크': [55],
 '코끼리': [20],
 '키보드': [66],
 '타이': [27],
 '타자': [34],
 '테니스': [38],
 '테니스 라켓': [38],
 '테디베어': [77],
 '텔레비전': [62],
 '토스터': [70],
 '토스트': [48, 70],
 '토스트기': [70],
 '투수': [35],
 '트럭': [7],
 '티비': [62],
 '포수': [35],
 '포크': [42],
 '폰': [67],
 '프리스비': [29],
 '프리즈비': [29],
 '피자': [53],
 '핫도그': [52],
 '항공': [4],
 '해양스포츠': [37],
 '핸드백': [26],
 '핸드폰': [67],
 '화병': [75],
 '화분': [58],
 '화장실': [61, 79],
 '화초': [58],
 '휴대폰': [67]}

# [2] Object lebels (from Yolo) 불러오기 

In [3]:
# object lebels 불러오기 
od_raw = pd.read_csv('./산꾼도시여자들_i.csv', header=None, index_col=False, names=['drop', 'start', 'end', 'object_nums', 4, 5, 6, 7])
od_raw.drop(['drop'], axis=1, inplace=True)
od_raw

Unnamed: 0,start,end,object_nums,4,5,6,7
0,0.1,1.4,41_0,0.4453|0.2884|0.2701|0.2746|0.2561|0.2666|0.28...,0.6484|0.4937|0.4937|0.4953|0.65|0.65|0.5312|0...,0.5889|0.7556|0.7583|0.7583|0.5889|0.5889|0.58...,0.025|0.0297|0.0312|0.0297|0.0234|0.0234|0.025...
1,0.1,1.4,0_3,0.821|0.7939|None|0.772|0.7847|0.6011|0.7851|0...,0.2437|0.2437|None|0.2437|0.2438|0.1859|0.2437...,0.3583|0.3611|None|0.3528|0.3556|0.3694|0.3528...,0.1859|0.1844|None|0.2594|0.2547|0.1187|0.2594...
2,0.1,2.6,45_0,0.2955|0.3002|0.2575|0.4519|0.4559|0.446|0.488...,0.7953|0.7953|0.7953|0.625|0.625|0.625|0.6266|...,0.1861|0.1861|0.1861|0.6639|0.6639|0.6639|0.66...,0.0484|0.0484|0.0484|0.0484|0.0484|0.0484|0.04...
3,0.9,2.3,45_1,0.4615|0.4611|0.483|0.4757|0.4367|0.4523|0.488...,0.6266|0.6266|0.6266|0.625|0.6266|0.6266|0.625...,0.6639|0.6639|0.6639|0.6639|0.6639|0.6639|0.66...,0.0484|0.0469|0.0469|0.0484|0.0484|0.0484|0.04...
4,0.1,2.6,0_1,0.7199|0.7009|0.6159|0.6151|0.6061|0.3024|0.57...,0.6703|0.6688|0.6719|0.3578|0.6625|0.6641|0.35...,0.3917|0.3889|0.3889|0.3472|0.3917|0.3917|0.36...,0.1625|0.1672|0.1562|0.1641|0.1672|0.1734|0.14...
...,...,...,...,...,...,...,...
1295,908.9,909.6,60_0,0.3787|0.519|0.5369|0.4306|0.6151|0.5435|0.418...,0.2984|0.2953|0.2969|0.3016|0.2844|0.2563|0.25...,0.4806|0.4972|0.4833|0.4722|0.4722|0.4833|0.47...,0.3609|0.3578|0.3719|0.3688|0.3766|0.4|0.4281|...
1296,908.9,909.2,33_0,0.6875|0.5516|0.5087|0.5862,0.0531|0.0547|0.0531|0.0562,0.1472|0.125|0.1278|0.15,0.2297|0.2266|0.2313|0.2297
1297,909.4,909.6,29_0,0.5011|0.6282|0.4383,0.0547|0.0609|0.0609,0.2583|0.2722|0.2722,0.2391|0.1797|0.1766
1298,910.4,912.6,62_0,0.3101|0.425|0.4864|0.5926|0.2842|0.3072|0.533...,0.9719|0.9719|0.9688|0.9672|0.9703|0.9688|0.96...,0.0417|0.0444|0.0417|0.0417|0.4889|0.4917|0.03...,0.0281|0.0281|0.0312|0.0328|0.0297|0.0312|0.03...


# [3] 3초 안에 잡히는 object 모아서 DataFrame

In [6]:
detector = []

for time in tqdm(range(0, 920, 3)): # 3초 단위
    tmp = []
    for i in range(len(od_raw)) :
        if (time < od_raw.iloc[i,0] <= time+3) or (time < od_raw.iloc[i,1] <= time+3):
            dect_num = int(od_raw.iloc[i,2].split('_')[0])
            for key, val in dic.items():
                # print(key, val, dect_num)
                if val.count(dect_num) != 0:
                    # print(f'{time} ~ {time+3} : {key}')
                    tmp.append(key)
    if tmp == []:   # 빈 list는 안담음
        continue
    else:
        detector.append({
        "start" : time,
        "end" : time+3,
        "detect" : ' '.join(list(set(tmp))) # 중복 제거
        })

df_detector = pd.DataFrame(detector)
df_detector.head(10)

100%|██████████| 307/307 [00:19<00:00, 15.92it/s]


Unnamed: 0,start,end,detect
0,0,3,컵 식사 밥그릇 병류 배낭 볼 유리컵 tv 그릇 병 사람들 술병 티비 접시 물병 음...
1,3,6,컵 식사 부엌 밥그릇 의자 병류 도넛 볼 식탁 유리컵 간식 tv 그릇 병 사람들 술...
2,6,9,컵 식사 부엌 밥그릇 병류 볼 차량 유리컵 tv 그릇 키보드 병 사람들 술병 티비 ...
3,9,12,휴대폰 핸드폰 티비 키보드 tv 사람 인간 컴퓨터 랩탑 작업 폰 사람들 전화 스마트...
4,12,15,휴대폰 컵 핸드폰 식사 술병 사람 물병 인간 병류 주스병 폰 전화 스마트폰 병 물컵...
5,15,18,컵 식사 밥그릇 의자 병류 볼 식탁 유리컵 요리 tv 그릇 오븐 병 사람들 술병 티...
6,18,21,식사 술병 접시 밥그릇 사람 물병 인간 의자 음식 그릇 병류 주스병 볼 식탁 병 사람들
7,21,24,휴대폰 식사 핸드폰 밥그릇 의자 병류 폰 볼 식탁 스마트폰 요리 tv 그릇 오븐 병...
8,24,27,컵 식사 부엌 밥그릇 병류 볼 식탁 유리컵 tv 그릇 병 사람들 술병 티비 접시 물...
9,27,30,술병 식사 티비 부엌 tv 물병 사람 의자 인간 병류 냉장고 텔레비전 식탁 사람들 ...


# [4] detector vectorize

In [7]:
contents_for_vectorize = []
for idx, row in df_detector.iterrows():
    contents_for_vectorize.append(row[2])

contents_for_vectorize

['컵 식사 밥그릇 병류 배낭 볼 유리컵 tv 그릇 병 사람들 술병 티비 접시 물병 음식 텔레비전 사람 인간 가방 백팩 물컵 주스병',
 '컵 식사 부엌 밥그릇 의자 병류 도넛 볼 식탁 유리컵 간식 tv 그릇 병 사람들 술병 티비 접시 물병 음식 텔레비전 빵 사람 인간 싱크대 싱크 물컵 디저트 주스병',
 '컵 식사 부엌 밥그릇 병류 볼 차량 유리컵 tv 그릇 키보드 병 사람들 술병 티비 접시 물병 음식 텔레비전 차 운전 자동차 승용차 사람 인간 싱크대 싱크 물컵 주스병',
 '휴대폰 핸드폰 티비 키보드 tv 사람 인간 컴퓨터 랩탑 작업 폰 사람들 전화 스마트폰 텔레비전 일 노트북',
 '휴대폰 컵 핸드폰 식사 술병 사람 물병 인간 병류 주스병 폰 전화 스마트폰 병 물컵 유리컵 사람들',
 '컵 식사 밥그릇 의자 병류 볼 식탁 유리컵 요리 tv 그릇 오븐 병 사람들 술병 티비 접시 물병 음식 텔레비전 사람 인간 물컵 주스병',
 '식사 술병 접시 밥그릇 사람 물병 인간 의자 음식 그릇 병류 주스병 볼 식탁 병 사람들',
 '휴대폰 식사 핸드폰 밥그릇 의자 병류 폰 볼 식탁 스마트폰 요리 tv 그릇 오븐 병 사람들 티비 술병 접시 물병 음식 텔레비전 전화 사람 인간 주스병',
 '컵 식사 부엌 밥그릇 병류 볼 식탁 유리컵 tv 그릇 병 사람들 술병 티비 접시 물병 음식 텔레비전 사람 인간 냉장고 물컵 주스병',
 '술병 식사 티비 부엌 tv 물병 사람 의자 인간 병류 냉장고 텔레비전 식탁 사람들 병 주스병',
 '휴대폰 테니스 리모콘 핸드폰 사람 의자 인간 라켓 폰 전화 스마트폰 테니스 라켓 리모컨 사람들',
 '휴대폰 핸드폰 원반던지기 의자 폰 리모콘 스마트폰 연 테니스 사람들 연날리기 전화 프리즈비 프리스비 테니스 라켓 원반 사람 인간 라켓 리모컨',
 '원반 테니스 원반던지기 사람 의자 인간 라켓 테니스 라켓 연날리기 프리즈비 연 프리스비 사람들',
 '라켓 테니스 테니스 라켓 의자',
 '휴대폰 리모콘 컵 핸드폰 식사 테니스 사람 의자 인간 라켓 테니스 

# [5] ConutVectorizer fit_transform

In [11]:
stop_words = ['소리', '장면']
vectorizer = CountVectorizer(stop_words=stop_words)
X = vectorizer.fit_transform(contents_for_vectorize);
X.toarray().transpose()

array([[1, 1, 1, ..., 1, 1, 0],
       [1, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

# [6] input query

In [12]:
hannanum = Hannanum()
input = "사람이 물병을 들고 있는 장면"
new_post_tokens = hannanum.nouns(input)
new_post_for_vectorize = [' '.join(new_post_tokens)]
print(f'input query의 토큰화 ==> {new_post_for_vectorize}')

input query의 토큰화 ==> ['사람 물병 장면']


# [7] query_vector transform

In [17]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)
for idx, val in enumerate(new_post_vec.toarray().tolist()[0]):
    if val != 0:
        print(f'query_vector로 모델에서 인식한 단어 : {vectorizer.get_feature_names()[idx]}');

query_vector로 모델에서 인식한 단어 : 물병
query_vector로 모델에서 인식한 단어 : 사람


# [8] 유사도 분석 : vector 내적으로 

In [55]:
def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

In [56]:
dist = [dist_raw(each, new_post_vec) for each in X]

print('-'*50)
print(f'Best post is {dist.index(min(dist))}, dist = {min(dist)}')
print(f'input query ==> "{input}"')
print(f'Test post is ==> {new_post_tokens}')
print()
print(f"""Best dist post is ==> {df_detector['start'][dist.index(min(dist))]}초 ~ {df_detector['end'][dist.index(min(dist))]}초
                                : {contents_for_vectorize[dist.index(min(dist))]}""");

--------------------------------------------------
Best post is 50, dist = 2.449489742783178
input query ==> "컵 그릇 티비 물 음식 가방 물컵"
Test post is ==> ['컵', '그릇', '티비', '음식', '가방', '물컵']

Best dist post is ==> 153초 ~ 156초
                                : 의자


# [9] 정확도가 너무 낮아서, 실험으로 0번째 row 라벨 넣어보기
- (1) 라벨 모두 넣기
- (2) 일부만 넣기

### [9-1] 라벨 모두 넣기

In [42]:
df_detector.iloc[0,2]

'컵 식사 밥그릇 병류 배낭 볼 유리컵 tv 그릇 병 사람들 술병 티비 접시 물병 음식 텔레비전 사람 인간 가방 백팩 물컵 주스병'

In [43]:
input = df_detector.iloc[0,2]
new_post_tokens = hannanum.nouns(input)
new_post_for_vectorize = [' '.join(new_post_tokens)]
print(f'input query의 토큰화 ==> {new_post_for_vectorize}')

new_post_vec = vectorizer.transform(new_post_for_vectorize)
for idx, val in enumerate(new_post_vec.toarray().tolist()[0]):
    if val != 0:
        print(f'query_vector로 모델에서 인식한 단어 : {vectorizer.get_feature_names()[idx]}');

def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

dist = [dist_raw(each, new_post_vec) for each in X]

print('-'*50)
print(f'Best post is {dist.index(min(dist))}, dist = {min(dist)}')
print(f'input query ==> "{input}"')
print(f'Test post is ==> {new_post_tokens}')
print()
print(f"""Best dist post is ==> {df_detector['start'][dist.index(min(dist))]}초 ~ {df_detector['end'][dist.index(min(dist))]}초
                                : {contents_for_vectorize[dist.index(min(dist))]}""");

input query의 토큰화 ==> ['컵 식사 밥그릇 병 배낭 유리컵 그릇 병 사람들 술병 티비 접시 물병 음식 텔레비전 사람 인간 가방 백팩 물컵 주스병']
query_vector로 모델에서 인식한 단어 : 가방
query_vector로 모델에서 인식한 단어 : 그릇
query_vector로 모델에서 인식한 단어 : 물병
query_vector로 모델에서 인식한 단어 : 물컵
query_vector로 모델에서 인식한 단어 : 밥그릇
query_vector로 모델에서 인식한 단어 : 배낭
query_vector로 모델에서 인식한 단어 : 백팩
query_vector로 모델에서 인식한 단어 : 사람
query_vector로 모델에서 인식한 단어 : 사람들
query_vector로 모델에서 인식한 단어 : 술병
query_vector로 모델에서 인식한 단어 : 식사
query_vector로 모델에서 인식한 단어 : 유리컵
query_vector로 모델에서 인식한 단어 : 음식
query_vector로 모델에서 인식한 단어 : 인간
query_vector로 모델에서 인식한 단어 : 접시
query_vector로 모델에서 인식한 단어 : 주스병
query_vector로 모델에서 인식한 단어 : 텔레비전
query_vector로 모델에서 인식한 단어 : 티비
--------------------------------------------------
Best post is 0, dist = 1.4142135623730951
input query ==> "컵 식사 밥그릇 병류 배낭 볼 유리컵 tv 그릇 병 사람들 술병 티비 접시 물병 음식 텔레비전 사람 인간 가방 백팩 물컵 주스병"
Test post is ==> ['컵', '식사', '밥그릇', '병', '배낭', '유리컵', '그릇', '병', '사람들', '술병', '티비', '접시', '물병', '음식', '텔레비전', '사람', '인간', '가방', '백팩', '물컵', '주스병']

Best dist post



### [9-2] 일부만 넣기

In [44]:
input = '컵 그릇 티비 물 음식 가방 물컵'
new_post_tokens = hannanum.nouns(input)
new_post_for_vectorize = [' '.join(new_post_tokens)]
print(f'input query의 토큰화 ==> {new_post_for_vectorize}')

new_post_vec = vectorizer.transform(new_post_for_vectorize)
for idx, val in enumerate(new_post_vec.toarray().tolist()[0]):
    if val != 0:
        print(f'query_vector로 모델에서 인식한 단어 : {vectorizer.get_feature_names()[idx]}');

def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

dist = [dist_raw(each, new_post_vec) for each in X]

print('-'*50)
print(f'Best post is {dist.index(min(dist))}, dist = {min(dist)}')
print(f'input query ==> "{input}"')
print(f'Test post is ==> {new_post_tokens}')
print()
print(f"""Best dist post is ==> {df_detector['start'][dist.index(min(dist))]}초 ~ {df_detector['end'][dist.index(min(dist))]}초
                                : {contents_for_vectorize[dist.index(min(dist))]}""");

input query의 토큰화 ==> ['컵 그릇 티비 음식 가방 물컵']
query_vector로 모델에서 인식한 단어 : 가방
query_vector로 모델에서 인식한 단어 : 그릇
query_vector로 모델에서 인식한 단어 : 물컵
query_vector로 모델에서 인식한 단어 : 음식
query_vector로 모델에서 인식한 단어 : 티비
--------------------------------------------------
Best post is 50, dist = 2.449489742783178
input query ==> "컵 그릇 티비 물 음식 가방 물컵"
Test post is ==> ['컵', '그릇', '티비', '음식', '가방', '물컵']

Best dist post is ==> 153초 ~ 156초
                                : 의자


# [10] 정확도가 떨어지는 이유?

In [45]:
num_samples, num_features = X.shape
num_samples, num_features  # samples = 3초단위 문장 갯수, features = 말뭉치 갯수

(288, 104)

In [46]:
for i in range(0,5):
    print(X.getrow(i).toarray())

[[1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 1 1 0
  0 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1
  0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0]]
[[1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 1 0 0 0
  0 1 1 1 1 0 0 0 0 0 0 1 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
  0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0]]
[[1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 0
  0 1 1 1 1 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 1 0 0 0 0 0 0 0 0 1 0 0 1 1 0 1
  0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0]]
[[1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
  0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 1]]
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0
  0 1 0 1 1 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 

~~~
1) feature는 104개 인데, 실제 검색에서 나오는 토큰화될 형태소는 보통 2~3개이기 때문에, 나머지 100개 가량의 '0' 이 유사도 측정을 방해
~~~

In [48]:
for key, val in dic.items():
    if val.count(0) != 0:
        print(key)
        

사람
사람들
인간


~~~
2) 0번 라벨은 '사람', '사람들', '인간' 모두 검출되다 보니, 0번으로 만들어지는 벡터가 3개로 가중치에 영향을 줄 것 같음
~~~

In [57]:
def dist_raw(v1, v2):
    delta = v1*100 - v2*100
    return sp.linalg.norm(delta.toarray())

dist = [dist_raw(each, new_post_vec) for each in X]

print('-'*50)
print(f'Best post is {dist.index(min(dist))}, dist = {min(dist)}')
print(f'input query ==> "{input}"')
print(f'Test post is ==> {new_post_tokens}')
print()
print(f"""Best dist post is ==> {df_detector['start'][dist.index(min(dist))]}초 ~ {df_detector['end'][dist.index(min(dist))]}초
                                : {contents_for_vectorize[dist.index(min(dist))]}""");

--------------------------------------------------
Best post is 50, dist = 244.94897427831782
input query ==> "컵 그릇 티비 물 음식 가방 물컵"
Test post is ==> ['컵', '그릇', '티비', '음식', '가방', '물컵']

Best dist post is ==> 153초 ~ 156초
                                : 의자


~~~
3) 벡터 유사도 측정시 라벨 1개당 가중치를 100배로 해주면, 1~3개만 맞춰도 유사도가 높아지지 않을까?? ==> 실패
~~~