# 1. 뉴스 URL 얻기

- rawdata에 있는 기사들의 URL 주소를 가져온다.

<br>

## 1.1 rawdata 디렉토리 탐색

- `rawdata` 경로 안에 있는 모든 `.md` 파일 안에 포함된 기사 링크를 얻기 위해 먼저 확장자로 `.md`를 갖는 파일의 경로 및 파일명을 얻는다.

In [1]:
import os

ROOT_PATH = "..\\rawdata\\기업별 관련기사"
file_list = []

for (path, dir, files) in os.walk(ROOT_PATH):
    
    for file in files:
        ext = os.path.splitext(file)[-1]
        
        if ext == ".md":
            file_list.append(os.path.join(path, file))
            
file_list[:10]

['..\\rawdata\\기업별 관련기사\\IT\\네이버\\20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 '..\\rawdata\\기업별 관련기사\\IT\\우리에프아이에스\\20200421 창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융.md',
 '..\\rawdata\\기업별 관련기사\\IT\\카카오\\20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 "..\\rawdata\\기업별 관련기사\\_공통\\20200204 보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까.md",
 "..\\rawdata\\기업별 관련기사\\_공통\\20200206 '디지털' 속도 내는 보험업계…디지털보험사 줄잇는다.md",
 '..\\rawdata\\기업별 관련기사\\_공통\\20200206 ‘역대 호황’ 누린 은행들의 고민…“올해는 힘들다”.md',
 '..\\rawdata\\기업별 관련기사\\_공통\\20200206 “길 잃은 돈 잡아라”… 은행·핀테크 ‘소액 자산관리 전쟁’.md',
 '..\\rawdata\\기업별 관련기사\\_공통\\20200206 김정태의 승부수…금융지주 초대형IB경쟁 본격화.md',
 "..\\rawdata\\기업별 관련기사\\_공통\\20200219 '신탁상품' 못키운 한국…노인들 'DLF'로 몰았다.md",
 "..\\rawdata\\기업별 관련기사\\_공통\\20200219 '지수 ETF'로 피신하는 외국인·기관.md"]

<br>

## 1.2 파일명 추출

- 기사 작성일자와 기사 제목이 포함된 파일명을 추출한다.

In [2]:
filename_list = [file.split("\\")[-1] for file in file_list]
filename_list[:10]

['20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 '20200421 창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융.md',
 '20200416 네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분.md',
 "20200204 보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까.md",
 "20200206 '디지털' 속도 내는 보험업계…디지털보험사 줄잇는다.md",
 '20200206 ‘역대 호황’ 누린 은행들의 고민…“올해는 힘들다”.md',
 '20200206 “길 잃은 돈 잡아라”… 은행·핀테크 ‘소액 자산관리 전쟁’.md',
 '20200206 김정태의 승부수…금융지주 초대형IB경쟁 본격화.md',
 "20200219 '신탁상품' 못키운 한국…노인들 'DLF'로 몰았다.md",
 "20200219 '지수 ETF'로 피신하는 외국인·기관.md"]

<br>

## 1.3 기사 작성일자 및 제목 분리

- 파일명에서 기사 작성일자와 기사제목을 분리한다.

In [3]:
# 작성 일자
news_date = [filename[:8] for filename in filename_list]
news_date[:10]

['20200416',
 '20200421',
 '20200416',
 '20200204',
 '20200206',
 '20200206',
 '20200206',
 '20200206',
 '20200219',
 '20200219']

In [4]:
import os

# 기사 제목
news_title = [os.path.splitext(filename[9:])[0] for filename in filename_list]
news_title[:10]

['네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분',
 '창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융',
 '네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분',
 "보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까",
 "'디지털' 속도 내는 보험업계…디지털보험사 줄잇는다",
 '‘역대 호황’ 누린 은행들의 고민…“올해는 힘들다”',
 '“길 잃은 돈 잡아라”… 은행·핀테크 ‘소액 자산관리 전쟁’',
 '김정태의 승부수…금융지주 초대형IB경쟁 본격화',
 "'신탁상품' 못키운 한국…노인들 'DLF'로 몰았다",
 "'지수 ETF'로 피신하는 외국인·기관"]

<br>

## 1.4 데이터프레임 생성

- 뉴스 작성일자, 뉴스 제목, 파일 경로를 포함하는 데이터프레임 생성

In [5]:
import pandas as pd

df = pd.DataFrame({"NewsDate": news_date, "NewsTitle": news_title, "Path": file_list})
df.head()

Unnamed: 0,NewsDate,NewsTitle,Path
0,20200416,"네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분","..\rawdata\기업별 관련기사\IT\네이버\20200416 네이버 먹거리, 우..."
1,20200421,창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융,..\rawdata\기업별 관련기사\IT\우리에프아이에스\20200421 창업부터 ...
2,20200416,"네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분","..\rawdata\기업별 관련기사\IT\카카오\20200416 네이버 먹거리, 우..."
3,20200204,"보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까",..\rawdata\기업별 관련기사\_공통\20200204 보험업계는 '제로성장'이...
4,20200206,'디지털' 속도 내는 보험업계…디지털보험사 줄잇는다,..\rawdata\기업별 관련기사\_공통\20200206 '디지털' 속도 내는 보...


<br>

## 1.5 (테스트) 뉴스 기사 `md` 파일 읽기

In [8]:
path = df['Path'][0]
data = ""

with open(path, 'r', encoding='utf-8') as f:
    data = f.read()
    print(data[:300])

# 20200416 네이버 "먹거리, 우리가 키운다" vs 카카오 "같이 키우실 분~"

[기사링크](<https://www.hankyung.com/it/article/202004151310i>)



> **양대 포털, 엇갈린 '미래 먹거리 전략'** 
>
> 
>
> **네이버, 현금 4兆 보유로 '넉넉'**
> **알짜 자회사에 수천억 쏟아부어**
>
> 
>
> **카카오, 벤처캐피털 등서 자금조달** 
> **카카오M 2100억 투자 받기도**  



인터넷업계 양대 맞수인 네이버와 카카오가 각기 다른 투자 방식으로 미래


<br>

## 1.6 (테스트) 정규 표현식 이용 URL 주소 획득

In [9]:
import re

data = ""
path = df['Path'][0]

with open(path, 'r', encoding='utf-8') as f:
    data = f.read()

#urlRgx = "(http|https):\/\/(([\xA1-\xFEa-z0-9_\-]+\.[\xA1-\xFEa-z0-9:;&#@=_~%\?\/\.\,\+\-]+))"
urlRgx = r"(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'\".,<>?«»“”‘’]))"

urls = re.findall(urlRgx, data)
[x[0] for x in urls][0]

'https://www.hankyung.com/it/article/202004151310i'

<br>

## 1.8 (테스트) 파일에 있는 기사 링크 가져오기

- 기사 링크는 파일 내용 중 `[기사링크](<https://www.hankyung.com/it/article/202004151310i>)` 형태로 들어 있다.
- 파일의 상단 제목 아래에 위치해 있다.

In [50]:
# 수정 필요 경로 확인

import re

urlRgx = r"(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'\".,<>?«»“”‘’]))"

mod_list = []

for path in df['Path']:
    with open(path, 'r', encoding='utf-8') as f:
        data = f.read()
        if "기사링크" not in data:
            mod_list.append(path)
            
mod_list

[]

<br>

## 1.8 모든 파일에 있는 기사 링크 가져오기

In [58]:
import re
urlRgx = r"(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'\".,<>?«»“”‘’]))"
url_list = []

for path in df['Path']:
    with open(path, 'r', encoding='utf-8') as f:
        
        url = ""
        
        lines = f.readlines()
        for line in lines:
            if "기사링크" in line:
                urls = re.findall(urlRgx, line)
                url = urls[0][0]
                url_list.append(url)
                break

url_list[:10]

['https://www.hankyung.com/it/article/202004151310i',
 'https://www.hankyung.com/economy/article/2020042027491',
 'https://www.hankyung.com/it/article/202004151310i',
 'https://n.news.naver.com/article/025/0002972080',
 'http://news1.kr/articles/?3833484',
 'http://www.donga.com/news/article/all/20200204/99535656/1',
 'http://news.kmib.co.kr/article/view.asp?arcid=0924121031&code=11151300&cp=nv',
 'http://news.heraldcorp.com/view.php?ud=20200205000286',
 'https://www.mk.co.kr/news/economy/view/2020/02/168288/',
 'https://www.hankyung.com/finance/article/202002183788i']

<br>

## 1.9 데이터프레임에 기사 링크 추가

- 획득한 기사 링크를 데이터프레임에 `URL` 컬럼으로 추가

In [62]:
df['URL'] = url_list
df.head()

Unnamed: 0,NewsDate,NewsTitle,Path,URL
0,20200416,"네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분","..\rawdata\기업별 관련기사\IT\네이버\20200416 네이버 먹거리, 우...",https://www.hankyung.com/it/article/202004151310i
1,20200421,창업부터 독립까지 밀어준다…사내벤처 3곳 키우는 우리금융,..\rawdata\기업별 관련기사\IT\우리에프아이에스\20200421 창업부터 ...,https://www.hankyung.com/economy/article/20200...
2,20200416,"네이버 먹거리, 우리가 키운다 vs 카카오 같이 키우실 분","..\rawdata\기업별 관련기사\IT\카카오\20200416 네이버 먹거리, 우...",https://www.hankyung.com/it/article/202004151310i
3,20200204,"보험업계는 '제로성장'이라는데, 은행들은 왜 보험사를 사들일까",..\rawdata\기업별 관련기사\_공통\20200204 보험업계는 '제로성장'이...,https://n.news.naver.com/article/025/0002972080
4,20200206,'디지털' 속도 내는 보험업계…디지털보험사 줄잇는다,..\rawdata\기업별 관련기사\_공통\20200206 '디지털' 속도 내는 보...,http://news1.kr/articles/?3833484


<br>

## 1.10 `csv` 파일 저장

- 위와 같이 생성한 데이터프레임을 `csv` 파일로 저장

In [65]:
# 날짜 기준으로 정렬 후 저장
df.sort_values(by=['NewsDate'], axis=0, inplace=True)
df.to_csv('news_info.csv', index=False)

<br>

## 1.11 전체 코드

In [67]:
import os
import pandas as pd
import re

ROOT_PATH = "..\\rawdata\\기업별 관련기사"

# 기사 파일 경로
file_list = []

for (path, dir, files) in os.walk(ROOT_PATH):
    for file in files:
        ext = os.path.splitext(file)[-1]
        if ext == ".md":
            file_list.append(os.path.join(path, file))
            
#file_list[:10]

# 작성 일자와 기사 제목 정보가 포함된 파일명
filename_list = [file.split("\\")[-1] for file in file_list]
#filename_list[:10]

# 작성 일자
news_date = [filename[:8] for filename in filename_list]
#news_date[:10]

# 기사 제목
news_title = [os.path.splitext(filename[9:])[0] for filename in filename_list]
#news_title[:10]


# 데이터프레임 생성
df = pd.DataFrame({"NewsDate": news_date, "NewsTitle": news_title, "Path": file_list})
#df.head()

# 기사 링크(URL)
urlRgx = r"(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'\".,<>?«»“”‘’]))"
url_list = []

for path in df['Path']:
    with open(path, 'r', encoding='utf-8') as f:
        url = ""
        lines = f.readlines()
        for line in lines:
            if "기사링크" in line:
                urls = re.findall(urlRgx, line)
                url = urls[0][0]
                url_list.append(url)
                break

#url_list[:10]

# 데이터프레임에 기사 링크 추가
df['URL'] = url_list
#df.head()

# 날짜 기준으로 정렬
df.sort_values(by=['NewsDate'], axis=0, inplace=True)

# 데이터프레임 csv로 저장
try:
    df.to_csv('news_info.csv', index=False)
    print("Saved")
except:
    print("Save Error")

Saved
