## Naver 지식인 크롤링
* https://www.inflearn.com/pages/newyear-event-20200102
* 영상 튜토리얼 : [댓글 수백 수천개 분석하기?! [1/5] 이벤트 데이터 크롤링 feat. 인프런 새해 다짐 이벤트 - YouTube](https://www.youtube.com/watch?v=OUSwQk79H8I&list=PLaTc2c6yEwmohRzCxWQqJ7Z9aqc-sQ5gC)


## 필요한 라이브러리 설치
* 아나콘다 사용시 다음의 프롬프트 창을 열어 conda 명령어로 설치합니다.
* pip 사용시 아래에 있는 명령어를 터미널로 설치합니다.
<img src="https://i.imgur.com/Sar4gdw.jpg">

### BeautifulSoup
* `conda install -c anaconda beautifulsoup4`
* [Beautifulsoup4 :: Anaconda Cloud](https://anaconda.org/anaconda/beautifulsoup4)

* pip 사용시 : `pip install beautifulsoup4`

### tqdm
* `conda install -c conda-forge tqdm`
* [tqdm/tqdm: A Fast, Extensible Progress Bar for Python and CLI](https://github.com/tqdm/tqdm)
* `pip install tqdm`

In [1]:
# 라이브러리 로드
# requests는 작은 웹브라우저로 웹사이트 내용을 가져온다.
import requests
# BeautifulSoup 을 통해 읽어 온 웹페이지를 파싱한다.
from bs4 import BeautifulSoup as bs
# 크롤링 후 결과를 데이터프레임 형태로 보기 위해 불러온다.
import pandas as pd
from pandas import read_excel
from selenium import webdriver
from selenium.webdriver.common.by import By

import time
from tqdm import tqdm

def get_posts(post_urls, interval=1):

    questions = []
    answers = []
    viewnums = []
    dates = []

    for post_url in tqdm(post_urls):    

        # 크롤링 할 사이트
        try:
            res = requests.get( post_url[0], headers=headers )
            res.raise_for_status()

            time.sleep(interval) 

            post_soup = bs(res.text, 'html.parser')
            q = post_soup.find_all('h3', attrs={"class":"heading"})[0].get_text()
            post_soup.find_all('div', attrs={"class":"article_content content_lv1 _questionContentsArea"})[0]
            q_detail = post_soup.find_all('div', attrs={"class":"user_content"})[0].get_text()
            question = (q + q_detail).strip()

            date = post_soup.find('span', attrs={"class":"date"}).get_text().strip()
            viewnum = post_soup.find('em', attrs={"class":"num"}).get_text().strip()
            answer = post_soup.find('div', attrs={"class":"se-main-container"}).get_text().strip()

            questions.append(question)
            answers.append(answer)
            viewnums.append(viewnum)
            dates.append(date)
        except:
            pass

    post_df = pd.DataFrame({"question": questions, "answer": answers, "viewnum": viewnums, "date": dates})
    
    return post_df
        
        
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36"}

keywords = ['외식', '식사', '메뉴', '식당', '레스토랑', '가성비', '트렌드', '배달', '맛집', '비대면']

for keyword in keywords:
    filename = "./urls/" + "kin-posts_" + keyword.replace(" ","") + ".csv"
    print(filename)
    
    # 파일 읽기
    df_postURLs = pd.read_csv(filename)
    post_urls = df_postURLs.values.tolist()
    try:
        # 파일 쓰기
        post_df = get_posts(post_urls, 1)
        output_filename = "./scraps/" + "kin-posts-scrapped_" + keyword.replace(" ","") + ".csv"
        print(output_filename)
        post_df.to_csv(output_filename, date_format='%Y%m%d', encoding='utf-8-sig') 
    except:
        continue

  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./urls/kin-posts_외식.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [32:15<00:00,  1.29s/it]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_외식.csv
./urls/kin-posts_식사.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [07:15<00:00,  3.44it/s]
  0%|▏                                                                   | 3/1500 [00:00<01:10, 21.31it/s]

./scraps/kin-posts-scrapped_식사.csv
./urls/kin-posts_메뉴.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [30:42<00:00,  1.23s/it]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_메뉴.csv
./urls/kin-posts_식당.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [05:35<00:00,  4.47it/s]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_식당.csv
./urls/kin-posts_레스토랑.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [31:59<00:00,  1.28s/it]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_레스토랑.csv
./urls/kin-posts_가성비.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [20:41<00:00,  1.21it/s]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_가성비.csv
./urls/kin-posts_트렌드.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [21:34<00:00,  1.16it/s]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_트렌드.csv
./urls/kin-posts_배달.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [23:26<00:00,  1.07it/s]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_배달.csv
./urls/kin-posts_맛집.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [30:35<00:00,  1.22s/it]
  0%|                                                                            | 0/1500 [00:00<?, ?it/s]

./scraps/kin-posts-scrapped_맛집.csv
./urls/kin-posts_비대면.csv


100%|█████████████████████████████████████████████████████████████████| 1500/1500 [08:07<00:00,  3.08it/s]

./scraps/kin-posts-scrapped_비대면.csv



