# 뉴스 카테고리

In [1]:
from pathlib import Path
import os

os.chdir(Path(os.getcwd()).parent)

In [2]:
from os.path import join
from collections import defaultdict
import ast

import pandas as pd

## Load news data

In [3]:
root_path = os.getcwd()
data_path = join(os.getcwd(), "data")

In [4]:
news_df = pd.read_csv(join(data_path, "news_data_20000.csv"))

In [5]:
categories = news_df["category"].unique()
categories[:5]

array(["['사회>노동_복지', '경제>자동차', '경제>취업_창업']",
       "['사회>의료_건강', '지역>울산', '지역>강원']",
       "['IT_과학>보안', 'IT_과학>모바일', '경제>금융_재테크']", "['사회>사건_사고', '사회>미디어']",
       "['경제>금융_재테크', '경제>자동차']"], dtype=object)

In [6]:
category_set = set()

for category in categories:
    category_list = ast.literal_eval(category)
    for elem in category_list:
        category_set.add(elem)

categories = list(category_set)

In [7]:
len(categories)

78

In [8]:
categories[:5]

['경제>부동산', '스포츠>월드컵', '문화>요리_여행', '문화>미술_건축', 'IT_과학>과학']

## 대/중/소 카테고리 분류

In [9]:
majors = set()

for category in categories:
    elems = category.split(">")
    majors.add(elems[0])

majors = list(majors)

In [10]:
len(majors)

7

In [11]:
majors

['경제', '사회', '지역', '문화', 'IT_과학', '국제', '스포츠']

In [12]:
category_dict = defaultdict(set)

In [13]:
for category in categories:
    elems = category.split(">")
    category_dict[elems[0]].add(elems[1])

In [14]:
for major_category, minors in category_dict.items():
    print(major_category)
    print(minors)
    print()

경제
{'외환', '국제경제', '무역', '유통', '자동차', '서비스_쇼핑', '금융_재테크', '경제일반', '부동산', '취업_창업', '산업_기업', '반도체', '증권_증시', '자원'}

스포츠
{'농구_배구', '축구', '골프', '월드컵', '야구', '스포츠일반', '올림픽_아시안게임'}

문화
{'영화', '전시_공연', '생활', '종교', '미술_건축', '방송_연예', '문화일반', '음악', '요리_여행', '학술_문화재', '출판'}

IT_과학
{'IT_과학일반', '인터넷_SNS', '모바일', '콘텐츠', '과학', '보안'}

지역
{'경남', '강원', '충남', '지역일반', '경기', '경북', '제주', '대전', '충북', '전북', '대구', '광주', '울산', '전남', '부산'}

사회
{'미디어', '장애인', '교육_시험', '환경', '날씨', '노동_복지', '여성', '사건_사고', '사회일반', '의료_건강'}

국제
{'중동_아프리카', '중국', '미국_북미', '러시아', '유럽_EU', '아시아', '국제일반', '중남미', '일본'}



## 대분류/중분류 저장

In [19]:
category_df = pd.DataFrame(columns=["대분류", "중분류"])

In [21]:
for major_category, minors in category_dict.items():
    for minor in list(minors):
        category_df = pd.concat([category_df, pd.DataFrame([{"대분류": major_category, "중분류": minor}])], ignore_index=True)

In [22]:
category_df.head()

Unnamed: 0,대분류,중분류
0,경제,외환
1,경제,국제경제
2,경제,무역
3,경제,유통
4,경제,자동차


In [24]:
category_df.to_csv(join(data_path, "categories.csv"), index=False, encoding="utf-8-sig")