# Web Crawling Project 2
## '뉴스 기사 크롤링하기'

In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

# naver 뉴스

In [None]:
%%time

# chrome 드라이버 키고 naver 접속
driver = webdriver.Chrome('chromedriver.exe')
driver.get('http://naver.com')

driver.find_element_by_id('query').send_keys('일양약품') # 검색어 입력
driver.find_element_by_id('search_btn').click() # 검색 클릭

driver.find_element_by_css_selector('div.lnb_menu').find_element_by_link_text('뉴스').click() # 뉴스 카테고리 클릭


driver.find_element_by_id('_search_option_btn').click() # 검색조건 변경하는 옵션 켜기
menu = driver.find_elements_by_css_selector('ul.option_menu > li.menu')
menu[2].click()
menu[2].find_element_by_link_text('제목').click() # 검색유형을 제목으로 변경

current_window = driver.current_window_handle # 원하는 페이지를 driver주소로 설정

data = {'title': [], 'date': [], 'context': []}
for i in range(398):
    for naver_news in driver.find_elements_by_link_text('네이버뉴스'):
        naver_news.click()
        driver.switch_to.window(driver.window_handles[1])
        html = driver.page_source
        soup = bs(html, 'html.parser')
        if len(soup.select('h3.tts_head')) == 0: # 아무 context가 없을 때 해당 iteration은 건너뛰기
            driver.close()
            driver.switch_to.window(current_window)
            continue
        if soup.find('div', id='articleBodyContents').script == None:
            driver.close()
            driver.switch_to.window(current_window)
            continue
        data['title'].append(soup.select('h3.tts_head')[0].text.strip())
        data['date'].append(soup.select('span.t11')[0].text.strip())
        soup.find('div', id='articleBodyContents').script.extract()
        data['context'].append(
            soup.find('div', id='articleBodyContents').text.strip())
        driver.close()
        driver.switch_to.window(current_window)
    driver.find_element_by_link_text('다음페이지').click()

## 크롤링 중간에 오류발생 시 실행

In [None]:
driver.switch_to.window(current_window)

for i in range(400):
    for naver_news in driver.find_elements_by_link_text('네이버뉴스'):
        naver_news.click()
        driver.switch_to.window(driver.window_handles[1])
        html = driver.page_source
        soup = bs(html, 'html.parser')
        if len(soup.select('h3.tts_head')) == 0: # 아무 context가 없을 때 해당 iteration은 건너뛰기
            driver.close()
            driver.switch_to.window(current_window)
            continue
        if soup.find('div', id='articleBodyContents').script == None:
            driver.close()
            driver.switch_to.window(current_window)
            continue
        data['title'].append(soup.select('h3.tts_head')[0].text.strip())
        data['date'].append(soup.select('span.t11')[0].text.strip())
        soup.find('div', id='articleBodyContents').script.extract()
        data['context'].append(
            soup.find('div', id='articleBodyContents').text.strip())
        driver.close()
        driver.switch_to.window(current_window)
    if i == 400:
        break
    driver.find_element_by_link_text('다음페이지').click()

## 동성제약

In [None]:
df.drop_duplicates('context', keep = 'first', inplace = True)
df.reset_index(inplace = True, drop = True)
df.to_csv('동성제약_naver_news.csv')
df.tail()

## 일양약품

In [None]:
df = pd.DataFrame(data, columns = ['title', 'date', 'context'])
df.drop_duplicates('context', keep = 'first', inplace = True)
df.reset_index(drop = True, inplace = True)
df.to_csv('일양약품_naver_news.csv')
df.tail()

## 대웅제약

In [None]:
df2 = pd.DataFrame(data2, columns = ['title', 'date', 'context'])
df2.drop_duplicates('context', keep = 'first', inplace = True)
df2.reset_index(drop = True, inplace = True)
df2.to_csv('대웅제약_naver_news.csv')
df2.tail()

## JW중외제약

In [None]:
df[df['context'] == 'a']

In [None]:
df = pd.DataFrame(data, columns = ['title', 'date', 'context'])
df.drop_duplicates('context', keep = 'first', inplace = True)
df.reset_index(drop = True, inplace = True)
df.to_csv('JW중외제약_naver_news.csv')
df.tail()

## 부광약품

In [None]:
df = pd.DataFrame(data, columns = ['title', 'date', 'context'])
df.drop_duplicates('context', keep = 'first', inplace = True)
df.reset_index(drop = True, inplace = True)
df.to_csv('부광약품_naver_news.csv')
df.tail()

## 영진약품

In [None]:
df = pd.DataFrame(data, columns = ['title', 'date', 'context'])
df.drop_duplicates('context', keep = 'first', inplace = True)
df.reset_index(drop = True, inplace = True)
df.to_csv('영진약품_naver_news.csv')
df.tail()

## 일양약품

In [None]:
df = pd.DataFrame(data, columns = ['title', 'date', 'context'])
df.drop_duplicates('context', keep = 'first', inplace = True)
df.reset_index(inplace = True, drop = True)
df.to_csv('일양약품_naver_news.csv')
df.tail()

## 원하는 회사에 대해 전부 크롤링하기

### 1. Data load

In [None]:
company = pd.read_csv('company_names.csv')
company_list = set(company['name'].unique())
company_names = company_list - set(['동성제약', '일양약품', '대웅제약', 'JW중외제약', '부광약품'])
print('before : %d \n' % len(company_list), 'after : %d \n' % len(company_names))
len(company_names)

### 2. Crawling

In [None]:
%%time

data = {'title': [], 'date': [], 'context': [], 'company' : []}
# chrome 드라이버 키고 naver 접속
for name in ['CJ', 'GS']:    
    driver = webdriver.Chrome('chromedriver.exe')
    driver.get('http://naver.com')


    driver.find_element_by_id('query').send_keys('{}'.format(name)) # 검색어 입력
    driver.find_element_by_id('search_btn').click() # 검색 클릭

    driver.find_element_by_css_selector('div.lnb_menu').find_element_by_link_text('뉴스').click() # 뉴스 카테고리 클릭


    driver.find_element_by_id('_search_option_btn').click() # 검색조건 변경하는 옵션 켜기
    menu = driver.find_elements_by_css_selector('ul.option_menu > li.menu')
    menu[2].click()
    menu[2].find_element_by_link_text('제목').click() # 검색유형을 제목으로 변경

    current_window = driver.current_window_handle # 원하는 페이지를 driver주소로 설정


    for i in range(1):
        for naver_news in driver.find_elements_by_link_text('네이버뉴스'):
            naver_news.click()
            driver.switch_to.window(driver.window_handles[1])
            html = driver.page_source
            soup = bs(html, 'html.parser')
            if len(soup.select('h3.tts_head')) == 0: # 아무 context가 없을 때 해당 iteration은 건너뛰기
                driver.close()
                driver.switch_to.window(current_window)
                continue
            if soup.find('div', id='articleBodyContents').script == None:
                driver.close()
                driver.switch_to.window(current_window)
                continue
            data['company'].append(name)
            data['title'].append(soup.select('h3.tts_head')[0].text.strip())
            data['date'].append(soup.select('span.t11')[0].text.strip())
            soup.find('div', id='articleBodyContents').script.extract()
            data['context'].append(soup.find('div', id='articleBodyContents').text.strip())
            driver.close()
            driver.switch_to.window(current_window)
        if i == 1:
            break
        driver.find_element_by_link_text('다음페이지').click()
    driver.close()

In [None]:
df = pd.DataFrame(data, columns = ['title', 'date', 'context', 'company'])
df.drop_duplicates('context', keep = 'first', inplace = True)
df.reset_index(drop = True, inplace = True)
df.to_csv('naver_news_company_all.csv')

# 발생한 오류
### 1. 인터넷 뉴스 회사마다 html형식이 달라 크롤링에 제약이 생겼다.
 - 해결 못 함

### 2. pd.read_csv() 과정에서 'Initializing from file failed' 오류가 발생
 - pandas의 자체 버그이며 해결방법으로는 engine = 'python' 옵션을 추가해주면 된다.
 
### 3. for구문 중간에 자꾸 list Index out of range 오류가 발생
 - 이거는 단지 select된 element내에 아무것도 없었기 때문에 [0]에서 오류가 발생
 - for구문 안에 coutinue를 추가해서 오류 발생 시 해당 iteration은 건너뛰도록 조치
 
### 4. 크롤링 과정에서 None값이 뜨는 경우
- 이거 또한 if구문으로 조건을 걸어 건네뛰도록 조치하엿다.

# 새로 배운 것
### 1. Multiple class인 element 찾기
 - css_selector(.class.class)

### 2. BeautifulSoup를 통해 parsing된 문서에서 id로 찾기(select 말고)
 - soup.find('tag', id = '')
 - 참고https://stackoverflow.com/questions/25614702/get-contents-of-div-by-id-with-beautifulsoup
 
### 3. 글 중간에 있는 특정 tag를 제외한 상태로 긁어오기
 - soup.find().tag.extract() : tag를 extract()한 상태가 된다.(soup 안에서 해당 tag가 삭제됨)
 - 참고https://stackoverflow.com/questions/48877343/exclude-tags-with-beautifulsoup
 - 제외한다는 말을 'exclude'라고 표현함
 
### 4. DataFrame 내에 중복되는 row 삭제하기
 - pd.drop_duplicates(column_label, keep = 'first')
 - https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html