## Youtube 댓글 크롤링


댓글 추출한 동영상 링크 : https://www.youtube.com/watch?v=l9_i-LmBK_Y

### 라이브러리

pandas와 googleapiclient.discovery의 build사용 <br><br>

이때, **googleapiclient.discovery의 build**는 Google API를 호출하기 위한 객체를 지원하는 라이브러리

In [1]:
import pandas
from googleapiclient.discovery import build

#### utc 시간대를 추후에 편집하기 용이하게 하고자 만듬

In [2]:
def utc_change(df) :
    Year = df[0:4]
    Month = df[5:7]
    Day = df[8:10]
    hour = df[11:13]
    minute = df[14:16]
    second = df[17:19]
    
    return Year+'-'+Month+'-'+Day +' '+hour+':'+minute+':'+second

### 토큰화

고유명사와 보통명사를 모두 살리는게 목적이다. + 불용어 없애기(불용어 사전 :https://www.ranks.nl/stopwords/korean 참고)

In [3]:
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt
from konlpy.tag import Kkma, Hannanum, Komoran, Mecab, Twitter

In [4]:
def df_nouns(df) :
    okt = Okt()
    ndd = []
    car_names = ['eg80','eG80','Eg80','EG80','Gv80','GV80','gv80','gV80','Gv70','gv70','gV70','GV70']
    df['nouns_token'] = 0
    for car_name in car_names :
        for idx,value in enumerate(df.comment) :
            ndd.append(okt.nouns(value))
            if car_name in value :
                ndd[idx].append(car_name)
    ndd = ndd[0:len(df)]
    df['nouns_token'] = ndd
    
    return df

**YouTube Data API**는 다양한 정보를 지원한다(자세한 정보는 https://developers.google.com/youtube/v3/docs/commentThreads/list)


현재 예시는 4가지 정보만 활용
***
**textDisplay :** 댓글의 내용<br><br>
**authorDisplayName:** 댓글 작성자<br><br>
**publishedAt:** 댓글 작성 시간<br><br>
**likeCount:** 좋아요 수<br><br>
***
## Youtube 크롤링 코드 


In [5]:
def give_me_comment(developerKey, videoid) :
    comments = list()
    api_obj = build('youtube', 'v3', developerKey= developerKey)
    response = api_obj.commentThreads().list(part='snippet,replies', videoId=videoid, maxResults=100).execute()

    while response:
        for item in response['items']:
            comment = item['snippet']['topLevelComment']['snippet']
            comments.append([comment['textDisplay'], comment['authorDisplayName'], comment['publishedAt'], comment['likeCount']])
 
            if item['snippet']['totalReplyCount'] > 0:
                for reply_item in item['replies']['comments']:
                    reply = reply_item['snippet']
                    comments.append([reply['textDisplay'], reply['authorDisplayName'], reply['publishedAt'], reply['likeCount']])
 
        if 'nextPageToken' in response:
            response = api_obj.commentThreads().list(part='snippet,replies', videoId=videoid, pageToken=response['nextPageToken'], maxResults=100).execute()
        else:
            break
    cols = ['comment', 'user name','Time','Thums Up']
    df = pandas.DataFrame(comments, columns = cols)
    df['Time'] = df['Time'].apply(lambda x : utc_change(x))
    
    # 토큰화 함수 추가
    df = df_nouns(df)
    return df

#### 최종 결과 : 28개의 댓글(대댓글 포함)

In [6]:
df1 = give_me_comment('google api', 'l9_i-LmBK_Y')
df1

Unnamed: 0,comment,user name,Time,Thums Up,nouns_token
0,"✔ 선물용 끝판왕 차량용 방향제! 마일론 방향제!\r<br><a href=""http...",남자들의 자동차 motorsjason,2021-07-21 13:39:14,3,"[선물, 용, 끝판, 차량, 용, 방향, 제, 마일, 론, 방향, 제, 차량, 제보..."
1,전기차 안나온다고 다들 이야기 했지만 나올줄 알았다 돈빨이 현다이라,BB K,2021-07-22 22:45:42,0,"[전기차, 이야기, 돈빨, 다이라]"
2,전기차를 살거면 아예 전기차 전용플랫폼으로 만든차를 사야하지않을까...,G man,2021-07-22 10:56:54,1,"[전기차, 아예, 전기차, 전용, 플랫폼, 차]"
3,GV 70 은근 SUV답게 든든하네요. Electrified GV70 아주 만족스...,Sour Lemon,2021-07-22 07:52:52,1,"[은근, 답, 아주, GV70]"
4,제네시스 수소차 나오면 구입 할 생각있음 전기보다 장거리로 사용할거,Jinwoo Kim,2021-07-22 05:51:52,0,"[제네시스, 수소차, 구입, 생각, 전기, 장거리, 사용]"
5,반도체때메 차도 빨리 못만들면서 왜이렇게 신차들은 주구장창나오는걸까요 어차피또 7~...,최정윤,2021-07-22 05:11:27,0,"[반도체, 때메, 차도, 왜, 신차, 장창, 어차피, 또, 개월, 사이, 또, 신차..."
6,기업이 그런것까지 고려해주면 좋은기업이겠지만 기업이 굳이 고려할필요는 없죠? 짐 현...,뱅뱅뱅,2021-07-22 09:49:40,0,"[기업, 것, 고려, 기업, 기업, 굳이, 고려, 필요, 짐, 현대, 프리미엄, 전..."
7,저도 저차 찍어서 올리기는 했는데 솔직히 찍을 때 쫄림ㅋㅋ,"아이즈원,에스파는나야 둘이 될순없어",2021-07-22 04:26:16,1,"[저, 차, 리기, 찍, 때, 쫄림]"
8,깔끔하게 7500 만원 시작가 예상합니다.,도르마무,2021-07-22 03:52:16,3,"[만원, 시작, 예상]"
9,아니야 아직은 전기차는,이대길,2021-07-22 03:34:03,1,"[은, 전기차]"


In [7]:
# 엑셀 저장 코드
# df1.to_excel('sample.xlsx', header=['comment', 'user name','Time','Thums Up'], index=None)

#### 혹시 몰라 댓글 100개 이상인 링크 댓글 개수도 뽑아봤다.(https://www.youtube.com/watch?v=7vmdwdRJkIA)

In [7]:
give_me_comment('google api','7vmdwdRJkIA')

Unnamed: 0,comment,user name,Time,Thums Up,nouns_token
0,밴츠 영업사원 같다,가야왕자,2021-07-23 09:24:32,0,"[밴츠, 영업, 사원]"
1,EQA 는 이미 정평(?) 나 있는데 이렇게 비교를;;;,Claus Max,2021-07-23 08:59:43,0,"[정평, 나, 비교]"
2,유익했음,L Kh,2021-07-23 08:37:29,0,[]
3,망가져간다는 차 엄마한테 드린다는 클라스 ㅋㅋ,십억,2021-07-23 08:31:16,0,"[간다, 차, 엄마, 클라스]"
4,저런허접한 차를 6천씩,정에브리,2021-07-23 08:20:25,0,"[저런, 접, 차]"
...,...,...,...,...,...
475,참지마시고 풀 시청!ㅋ,재뻘TV,2021-07-19 13:26:01,0,"[풀, 시청]"
476,안녕하세요~,김수민,2021-07-19 13:25:30,3,[]
477,안녕하세요^^,재뻘TV,2021-07-19 13:26:11,1,[]
478,1,우 진,2021-07-19 13:24:40,1,[]


#### 100개 이상도 잘나온다