# Unique Providers

In [1]:
from pathlib import Path
import os

os.chdir(Path(os.getcwd()).parent)

In [2]:
from os.path import join

import pandas as pd

## Load news data

In [3]:
root_path = os.getcwd()
data_path = join(os.getcwd(), "data")
raw_data_path = join(data_path, "raw")
pre_data_path = join(data_path, "preprocessing")

In [4]:
news_df = pd.read_csv(join(raw_data_path, "news_data_20000.csv"))

In [5]:
providers = news_df["provider"].unique()

In [6]:
providers

array(['헤럴드경제', '울산매일', '아시아경제', '세계일보', '전자신문', '부산일보', '서울경제', '전북도민일보',
       '중부매일', 'YTN', 'MBC', '충청일보', '중앙일보', '한겨레', '국민일보', '머니투데이',
       '한국경제', '중도일보', '제민일보', '동아일보', '강원일보', '한라일보', '경상일보', '아주경제',
       '경인일보', 'KBS', '파이낸셜뉴스', 'OBS', '강원도민일보', '광주일보', '대구일보', '경기일보',
       '중부일보', '디지털타임스', '서울신문', '매일신문', '충청투데이', '전남일보', '경향신문', '대전일보',
       '조선일보', '문화일보', '전북일보', '충북일보', '광주매일신문', '경남도민일보', '내일신문', '영남일보',
       '무등일보', '국제신문', 'SBS', '경남신문'], dtype=object)

In [7]:
len(providers)

52

## Load Naver Providers

In [8]:
naver_df = pd.read_csv(join(raw_data_path, "providers.csv"))

In [9]:
naver_providers = naver_df["이름"].unique()

## 네이버 / 빅카인즈 언론사 비교

In [10]:
for provider in providers:
    if provider not in naver_providers:
        print(provider)

울산매일
한라일보


## 빅카인즈 언론사 저장

In [11]:
provider_df = pd.DataFrame(columns=["이름", "분류", "지역"])

In [12]:
for provider in providers:
    if provider in naver_providers:
        naver_row = naver_df[naver_df["이름"] == provider]
        provider_df = pd.concat([provider_df, naver_row], ignore_index=True)

울산매일, 한라일보 추가 저장

In [13]:
add1 = {"이름": "울산매일", "분류": "지역지", "지역": "울산"}
add2 = {"이름": "한라일보", "분류": "지역지", "지역": "제주"}

provider_df = pd.concat([provider_df, pd.DataFrame([add1, add2])], ignore_index=True)

In [14]:
provider_df.head()

Unnamed: 0,이름,분류,지역
0,헤럴드경제,경제/IT,
1,아시아경제,경제/IT,
2,세계일보,일간지,
3,전자신문,경제/IT,
4,부산일보,지역지,부산


In [15]:
provider_df.shape

(52, 3)

In [16]:
provider_df.to_csv(join(pre_data_path, "providers.csv"), index=False, encoding="utf-8-sig")