<h1> Web Crawling & NLP Preprocessing : Cornell University Computer Science Paper Abstract  </h1>

---
<h2> 1. 논문 사이트 선정 및 검색법 </h2>

이용한 논문 사이트는 [Cornell Univerity Library](https://arxiv.org/) 이용했습니다. 위 사이트에는 Physics, Mathematics, Computer Science, Statistics 등등 카테고리별로 분리되어있다. Advanced Search를 이용해 Computer Science 관련된 모든 논문을 검색해보자.

    A. Title -> All fields로 바꾼다.
    B. Subject를 Computer Science(cs)로 바꾼다.
    C. 날짜는 All dates
    D. Abstract를 추출할 것이므로 Show abstracts를 클릭
    E. Search 클릭


---
<h2> 2. 웹크롤링 만들기 </h2>

참고한 사이트는 [네이버 실시간 검색어 웹크롤링하기](https://medium.com/@katekim720/%EB%84%A4%EC%9D%B4%EB%B2%84-%EC%8B%A4%EC%8B%9C%EA%B0%84-%EA%B2%80%EC%83%89%EC%96%B4-%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%A7%81%ED%95%98%EA%B8%B0-9d6abf5a7296) 와 PYNEER ITrend 팀 스터디 공유 자료를 참고했다.
    
+) 쉽게 CSS Selector 만드는 법

    A. Ctrl + Shift + C 를 눌러 Parsing 하고자 하는 부분을 클릭한다.
    
    B - 1. 해당 태그 오른쪽 버튼 COPY - COPY selector을 클릭한다. 참고 사이트 [나만의 웹 크롤러 만들기 with Requests/BeatufiulSoup]
           (https://beomi.github.io/2017/01/20/HowToMakeWebCrawler/)
           
    B - 2. B - 1 방법으로 제대로된 selector을 만들 수 없다면 해당 태그를 누룬 후Styles, Event Listeners 탭들 중 Properties를 클릭한 후 첫번째 요소를 참고한다.
          ex) 이번 예시에서는 #span#1810.03599v1-abstract-full.abstract-full.has-text-grey-dark.mathjax 가 해당된다.
          
    C. 원하는 부분을 잘 골라낼 수 있도록 약간 편집한다. 
       ex) #span#1810.03599v1-abstract-full.abstract-full.has-text-grey-dark.mathjax  => abstract-full.has-text-grey-dark.mathjax

In [14]:
import requests
from bs4 import BeautifulSoup

#웹크롤링하기 위한 사이트 소스를 받아온다.
req = requests.get('https://arxiv.org/search/advanced?advanced=&terms-0-operator=AND&terms-0-term=&terms-0-field=all&classification-computer_science=y&classification-physics_archives=all&date-filter_by=all_dates&date-year=&date-from_date=&date-to_date=&date-date_type=submitted_date&abstracts=show&size=200&order=-announced_date_first')
html = req.text

#html.parser란 html 문법 규칙에 따라 문자열의 단어 의미나 구조를 분석하는 것이다.
soup = BeautifulSoup(html, 'html.parser')

#CSS Selector를 통한 원하는 부분 추출
csPaperAbstract = soup.select('span.abstract-full.has-text-grey-dark.mathjax')#abstract-short가 아닌 abstract-full로 가져올 것!
csPaperId = soup.select('p.list-title.level-left')#논문 아이디번호 같이 추출

In [17]:
import re

#Abstract 과 id 별로 list를 만들어준다.
abstract_list = [abstract.text for abstract in csPaperAbstract]

id_list = []
for ids in csPaperId:
    id_list.append('.'.join(re.findall(r'\b\d+\b', ids.text)[:2]))

In [18]:
import pandas as pd

#Abstract과 id 별로 DataFrame을 만든다.
ids = pd.DataFrame(id_list, columns=['id'])
abstracts = pd.DataFrame(abstract_list, columns=['raw_text'])

#abstract와 id 를 같이 묶어서 DataFrame을 만듣다.
dp = pd.concat([ids, abstracts], axis = 1)
dp

Unnamed: 0,id,raw_text
0,1810.04158,\n While convolutional neural networks ...
1,1810.04152,\n Deep latent variable models have bec...
2,1810.04150,\n The success of the exascale supercom...
3,1810.04147,\n Building on the success of deep lear...
4,1810.04146,"\n In this work, we consider the integr..."
5,1810.04144,\n Advanced driver assistance systems a...
6,1810.04142,\n We address fine-grained multilingual...
7,1810.04133,\n Significant advances have been made ...
8,1810.04125,\n We present new algorithms for the ra...
9,1810.04119,\n Cartesian Genetic Programming (CGP) ...


---
<h2> 3. 전처리 과정 </h2>

참고 사이트 [인프라 IMDB 영화리뷰 NLP](https://beomi.github.io/2017/01/20/HowToMakeWebCrawler/) 와 [corazzon KaggleStruggle Git](https://github.com/corazzon/KaggleStruggle/blob/master/word2vec-nlp-tutorial/tutorial-part-1.ipynb)

In [20]:
import nltk
from nltk.corpus import stopwords

def review_to_words( raw_review ):
    #1단계는 여기서 하지 않음
    # 1. HTML 제거
    #review_text = BeautifulSoup(raw_review, 'html.parser').get_text()
    
    # 2. 영문자가 아닌 문자는 공백으로 변환
    letters_only = re.sub('[^a-zA-Z]', ' ', raw_review)
    # 3. 소문자 변환
    words = letters_only.lower().split()
    # 4. 파이썬에서는 리스트보다 세트로 찾는게 훨씬 빠르다.
    # stopwords 를 세트로 변환한다.
    stops = set(stopwords.words('english'))
    # 5. Stopwords 불용어 제거
    meaningful_words = [w for w in words if not w in stops]
    # 6. 어간추출
    stemmer = nltk.stem.PorterStemmer()
    stemming_words = [stemmer.stem(w) for w in meaningful_words]
    # 7. 공백으로 구분된 문자열로 결합하여 결과를 반환
    return( ' '.join(stemming_words) )

#전처리한 내용을 DataFrame에 붙이기
dp['preprossed'] = dp['raw_text'].map(review_to_words)
print(dp)

#CSV 파일로 저장
dp.to_csv('output.csv')

             id                                           raw_text  \
0    1810.04158  \n        While convolutional neural networks ...   
1    1810.04152  \n        Deep latent variable models have bec...   
2    1810.04150  \n        The success of the exascale supercom...   
3    1810.04147  \n        Building on the success of deep lear...   
4    1810.04146  \n        In this work, we consider the integr...   
5    1810.04144  \n        Advanced driver assistance systems a...   
6    1810.04142  \n        We address fine-grained multilingual...   
7    1810.04133  \n        Significant advances have been made ...   
8    1810.04125  \n        We present new algorithms for the ra...   
9    1810.04119  \n        Cartesian Genetic Programming (CGP) ...   
10   1810.04118  \n        Smart services are an important elem...   
11   1810.04114  \n        We propose a general-purpose approac...   
12   1810.04111  \n        News editors need to find the photos...   
13   1810.04110  \n 