# 1. 뉴스 홈페이지 분류

- 신문사 홈페이지별로 기사 내용이 서로 다른 형태의 html로 구성되어 있을 것이다.
- rawdata에 있는 기사들의 홈페이지 목록을 정리한다.
- 이를 바탕으로 각 홈페이지별 크롤링 방법을 정의할 예정이다.

<br>

## 1.1 rawdata 디렉토리 탐색

- `rawdata` 경로 안에 있는 모든 `.md` 파일 안에 포함된 기사 링크를 얻기 위해 먼저 확장자로 `.md`를 갖는 파일의 경로 및 파일명을 얻는다.

In [73]:
import os

ROOT_PATH = "..\\rawdata\\기업별 관련기사"
file_list = []

for (path, dir, files) in os.walk(ROOT_PATH):
    
    for file in files:
        ext = os.path.splitext(file)[-1]
        
        if ext == ".md":
            file_list.append(os.path.join(path, file))
            
file_list[:10]

['..\\rawdata\\기업별 관련기사\\IT\\네이버\\20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 '..\\rawdata\\기업별 관련기사\\IT\\우리에프아이에스\\20200421 창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융.md',
 '..\\rawdata\\기업별 관련기사\\IT\\카카오\\20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 "..\\rawdata\\기업별 관련기사\\_공통\\20200204 보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까.md",
 "..\\rawdata\\기업별 관련기사\\_공통\\20200206 '디지털' 속도 내는 보험업계…디지털보험사 줄잇는다.md",
 '..\\rawdata\\기업별 관련기사\\_공통\\20200206 ‘역대 호황’ 누린 은행들의 고민…“올해는 힘들다”.md',
 '..\\rawdata\\기업별 관련기사\\_공통\\20200206 “길 잃은 돈 잡아라”… 은행·핀테크 ‘소액 자산관리 전쟁’.md',
 '..\\rawdata\\기업별 관련기사\\_공통\\20200206 김정태의 승부수…금융지주 초대형IB경쟁 본격화.md',
 "..\\rawdata\\기업별 관련기사\\_공통\\20200219 '신탁상품' 못키운 한국…노인들 'DLF'로 몰았다.md",
 "..\\rawdata\\기업별 관련기사\\_공통\\20200219 '지수 ETF'로 피신하는 외국인·기관.md"]

<br>

## 1.2 파일명 추출

- 기사 작성일자와 기사 제목이 포함된 파일명을 추출한다.

In [86]:
filename_list = [file.split("\\")[-1] for file in file_list]
filename_list[:10]

['20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 '20200421 창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융.md',
 '20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 "20200204 보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까.md",
 "20200206 '디지털' 속도 내는 보험업계…디지털보험사 줄잇는다.md",
 '20200206 ‘역대 호황’ 누린 은행들의 고민…“올해는 힘들다”.md',
 '20200206 “길 잃은 돈 잡아라”… 은행·핀테크 ‘소액 자산관리 전쟁’.md',
 '20200206 김정태의 승부수…금융지주 초대형IB경쟁 본격화.md',
 "20200219 '신탁상품' 못키운 한국…노인들 'DLF'로 몰았다.md",
 "20200219 '지수 ETF'로 피신하는 외국인·기관.md"]

<br>

## 1.3 기사 작성일자 및 제목 분리

- 파일명에서 기사 작성일자와 기사제목을 분리한다.

In [87]:
filename_list[0][:8]

'20200416'

In [88]:
filename_list[0][9:]

'네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md'

In [91]:
news_date = [filename[:8] for filename in filename_list]
news_date[:10]

['20200416',
 '20200421',
 '20200416',
 '20200204',
 '20200206',
 '20200206',
 '20200206',
 '20200206',
 '20200219',
 '20200219']

In [93]:
import os

news_title = [os.path.splitext(filename[9:])[0] for filename in filename_list]
news_title[:10]

['네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분',
 '창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융',
 '네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분',
 "보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까",
 "'디지털' 속도 내는 보험업계…디지털보험사 줄잇는다",
 '‘역대 호황’ 누린 은행들의 고민…“올해는 힘들다”',
 '“길 잃은 돈 잡아라”… 은행·핀테크 ‘소액 자산관리 전쟁’',
 '김정태의 승부수…금융지주 초대형IB경쟁 본격화',
 "'신탁상품' 못키운 한국…노인들 'DLF'로 몰았다",
 "'지수 ETF'로 피신하는 외국인·기관"]

<br>

## 1.4 데이터프레임 생성

- 뉴스 작성일자, 뉴스 제목, 파일 경로를 포함하는 데이터프레임 생성

In [95]:
import pandas as pd

df = pd.DataFrame({"NewsDate": news_date, "NewsTitle": news_title, "Path": file_list})
df.head()

Unnamed: 0,NewsDate,NewsTitle,Path
0,20200416,"네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분","..\rawdata\기업별 관련기사\IT\네이버\20200416 네이버 먹거리, 우..."
1,20200421,창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융,..\rawdata\기업별 관련기사\IT\우리에프아이에스\20200421 창업부터 ...
2,20200416,"네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분","..\rawdata\기업별 관련기사\IT\카카오\20200416 네이버 먹거리, 우..."
3,20200204,"보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까",..\rawdata\기업별 관련기사\_공통\20200204 보험업계는 '제로성장'이...
4,20200206,'디지털' 속도 내는 보험업계…디지털보험사 줄잇는다,..\rawdata\기업별 관련기사\_공통\20200206 '디지털' 속도 내는 보...


In [96]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 343 entries, 0 to 342
Data columns (total 3 columns):
NewsDate     343 non-null object
NewsTitle    343 non-null object
Path         343 non-null object
dtypes: object(3)
memory usage: 8.2+ KB
