In [7]:
!pip install opensearch-py
!pip install konlpy
!pip install mecab-python3

Looking in indexes: https://pypi.org/simple, https://pip.repos.neuron.amazonaws.com
Looking in indexes: https://pypi.org/simple, https://pip.repos.neuron.amazonaws.com
Looking in indexes: https://pypi.org/simple, https://pip.repos.neuron.amazonaws.com


In [None]:
import os
import boto3
from opensearchpy import OpenSearch
import pandas as pd
from konlpy.tag import Mecab
mecab = Mecab()


In [30]:
text = "애완동물은"
mecab.pos(text)

[('애완동물', 'NNG'), ('은', 'JX')]

In [9]:
######################### S3 채널 리스트 불러오기
AWS_ACCESS_KEY_ID= os.getenv("AWS_ACCESS_KEY_ID")
AWS_SECRET_ACCESS_KEY= os.getenv("AWS_SECRET_ACCESS_KEY")
AWS_REGION_NAME = os.getenv("AWS_REGION_NAME")
S3_BUCKET= os.getenv("S3_BUCKET")
CHANNEL_LIST_PATH= os.getenv("CHANNEL_LIST_PATH")

s3 = boto3.client('s3', aws_access_key_id=AWS_ACCESS_KEY_ID, \
                        aws_secret_access_key=AWS_SECRET_ACCESS_KEY, \
                        region_name=AWS_REGION_NAME)
# S3에서 파일 가져오기
response = s3.get_object(Bucket=S3_BUCKET,   \
                        Key=CHANNEL_LIST_PATH)

file_content = response['Body'].read().decode('utf-8')
use_channels = file_content[1:].split("\n")

In [12]:
# OpenSearch 클라이언트 객체 생성

OPENSEARCH_HOST= os.getenv("OPENSEARCH_HOST")
OPENSEARCH_ID= os.getenv("OPENSEARCH_ID")
OPENSEARCH_PW= os.getenv("OPENSEARCH_PW")


client = OpenSearch(
    hosts=[OPENSEARCH_HOST],
    http_auth="%s:%s"%(OPENSEARCH_ID, OPENSEARCH_PW),
    scheme="https",
    verify_certs=False,
    timeout=30
)




In [35]:
# 사용컬럼
use_col = ["video_id", "channel_id", "video_title", "video_description", "video_tag", "video_published"]

# 검색할 쿼리 작성
# 전체 가져오기
query = {
    "query": {
        "match_all": {
        }
    },
    "_source": use_col,
    "size":1000
}




In [36]:
# 검색 실행 및 결과 가져오기
response = client.search(index="video", body=query, scroll='1m')

# 검색 결과를 처리합니다.
scroll_id = response['_scroll_id']
# total_hits = response['hits']['total']['value']
scroll_size = len(response['hits']['hits'])

df = pd.DataFrame(columns=use_col)

while scroll_size > 0:
    # 현재 페이지의 검색 결과를 처리합니다.
    # for hit in response['hits']['hits']:
    #     df.loc[len(df)] = hit['_source']

    hits = response['hits']['hits']
    df = pd.concat([df, pd.DataFrame([hit['_source'] for hit in hits])], ignore_index=True)
    
    # 다음 페이지의 검색 결과를 가져옵니다.
    response = client.scroll(scroll_id=scroll_id, scroll='1m')
    scroll_id = response['_scroll_id']
    scroll_size = len(response['hits']['hits'])
    
df = df.sort_values('video_published').reset_index(drop=True)
df



Unnamed: 0,video_id,channel_id,video_title,video_description,video_tag,video_published
0,_1woqfVMggc,UCfak21UYFUer7Nhucu3CuJA,"Treehouse 분위기 | 수면, 공부 및 휴식을위한 실내 빗소리","Hello, Hello!\n\nTonight you’ll sleep better w...","['cozy ambience', 'ambience', 'asmr ambience',...",2020-03-12
1,_1p_bMB8uIo,UCSGaYi9TQDx7D69Hqe8VAdw,"모리의 정원 (Mori, The Artist's Habitat) 메인 예고편","30년 동안 정원을 벗어난 적 없는, 작은 것들의 화가 모리카즈\n아내 히데코와 조...","['모리의 정원', '오키타 슈이치', 'モリのいる場所', 'Mori', ""The ...",2020-03-17
2,_0MqNWPtrgU,UCZ6UHYBQFBe14WUgxlgmYfg,"실시간 필터링이 가능한 만능 함수, FILTER 함수 드디어 공개! | 엑셀 필터 ...",??예제파일은 아래 링크를 클릭하세요\nhttps://www.oppadu.com/F...,"['FITLER함수', '엑셀FILTER함수', '엑셀필수함수', '엑셀함수강의',...",2020-03-18
3,__EjdA7ennE,UC1MO5uem_t8lRgvIBF9u83w,"둠 이터널, 악마로 플레이 해보기",둠 이터널 정식 한글판 출시 게임플레이\n\nhttps://youtu.be/31qY...,['yt:cc=on'],2020-03-20
4,_3o23ubaUiU,UCZYdaIT8mgcW_J0-zWiIB6w,【법원 경매 중고차】 대체 왜이렇게 가격이 싼걸까? 중고차 매입시 주의사항,이번 영상은 법원 경매 중고차를 포함한 중고차 매입시 주의해야 될 것들에 대해 다뤄...,"['중고차', '중고차 차라리요', '차라리요', '법원 경매 중고차', '법원 경...",2020-03-22
...,...,...,...,...,...,...
3057,_0Nyn4oEUV0,UC0BZcD_RGc0z3MnvlKp-4Jg,돌반지 제품 선호도가 좋은! 추천해드려요 추천 TOP10,❤️❤️❤️제품 선호도가 좋은! 돌반지 추천해드려요❤️❤️❤️\n\n[00:06]\...,[],2023-04-13
3058,_2iyGD4eL-8,UC1IUAVtX8GfDWXsZqeKU-0g,샤오미로봇청소기 추천 2023년 가성비 최고 추천해요 추천순위 TOP10,❤️❤️❤️추천 2023년 가성비 최고 샤오미로봇청소기 추천해요❤️❤️❤️\n이 포...,[],2023-04-14
3059,_5J5vGFOJu0,UC-6kb1YOJJzNqOmGXx3-GSg,[코스모신소재]▶긴급속보◀ 드디어 터졌습니다!꼭 보셔야 합니다 #코스모신소재 #코스...,#코스모신소재 #코스모신소재주가 #코스모신소재주가전망 #코스모신소재목표가 #코스모신...,[],2023-04-16
3060,_4i_KUOk8p0,UC_XWwhidm1-GY08dZXWLE3g,[종목분석] -박셀바이오 /주가전망과 핵심 모멘텀 체크! 이젠 대응입니다,#박셀바이오 #박셀바이오주가 #박셀바이오주가전망 #주식 #상한가 #종목추천 #급등주...,"['종목추천', '급등주추천', '급등주매매', '급등주발굴', '무료종목추천', ...",2023-04-16


In [39]:
for text in df["video_title"]:
    print(text)
    print(mecab.pos(text))

Treehouse 분위기 | 수면, 공부 및 휴식을위한 실내 빗소리
[('Treehouse', 'SL'), ('분위기', 'NNG'), ('|', 'SY'), ('수면', 'NNG'), (',', 'SC'), ('공부', 'NNG'), ('및', 'MAJ'), ('휴식', 'NNG'), ('을', 'JKO'), ('위한', 'VV+ETM'), ('실내', 'NNG'), ('빗소리', 'NNG')]
모리의 정원 (Mori, The Artist's Habitat) 메인 예고편
[('모리', 'NNG'), ('의', 'JKG'), ('정원', 'NNG'), ('(', 'SSO'), ('Mori', 'SL'), (',', 'SC'), ('The', 'SL'), ('Artist', 'SL'), ("'", 'SY'), ('s', 'SL'), ('Habitat', 'SL'), (')', 'SSC'), ('메인', 'VV+ETM'), ('예고편', 'NNG')]
실시간 필터링이 가능한 만능 함수, FILTER 함수 드디어 공개! | 엑셀 필터 함수 총정리 | 엑셀고급 11강
[('실시간', 'NNG'), ('필터링', 'NNP'), ('이', 'JKS'), ('가능', 'NNG'), ('한', 'XSA+ETM'), ('만능', 'NNG'), ('함수', 'NNG'), (',', 'SC'), ('FILTER', 'SL'), ('함수', 'NNG'), ('드디어', 'MAG'), ('공개', 'NNG'), ('!', 'SY'), ('|', 'SY'), ('엑셀', 'NNP'), ('필터', 'NNG'), ('함수', 'NNG'), ('총', 'MM'), ('정리', 'NNG'), ('|', 'SY'), ('엑셀', 'NNP'), ('고급', 'NNG'), ('11', 'SN'), ('강', 'NNG')]
둠 이터널, 악마로 플레이 해보기
[('둠', 'NNP'), ('이터널', 'NNP'), (',', 'SC'), ('악마', 'NNG'), ('로', 'JKB'), ('플레이'

In [43]:
from konlpy.tag import Mecab
mecab = Mecab(dicpath='/root/Mecab/mecab-ko-dic-2.1.1-20180720')
text = "풀버전"
mecab.pos(text)

[('풀버전', 'NNG')]