# 라이브러리

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from konlpy.tag import Okt
import seaborn as sns
import re

plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['font.size'] = 20

# 사용자 정의함수

In [None]:
# 특수문자와 영어 & 조사, 복수관사 제거
okt = Okt()

def prepro_text(text):
    
    text = re.sub(r'[^가-힣0-9]', ' ', str(text))

    prepro_words = []
    for word, tag in okt.pos(text):
        if tag not in ['Josa', 'Suffix']:
            prepro_words.append(word)

    result = ' '.join(prepro_words)

    return result 


# 빈도 분석
def count_analyze(text, vec, cnt, color, title):
    vec.fit(text)

    word_dict = sorted(vec.vocabulary_.items())
    idx2word = {idx:word for word, idx in word_dict}

    total_text = []
    total_text.append(' '.join(text.values))

    matrix = vec.transform(total_text)

    count_word = []
    count_vec = []

    for i in range(cnt, 0, -1):
        count_word.append(idx2word[(-matrix.toarray()[0]).argsort()[i-1]])
        count_vec.append(matrix.toarray()[0][(-matrix.toarray()[0]).argsort()[i-1]])

    print(count_word)
    print(count_vec)

    plt.barh(count_word, count_vec, color=color)
    plt.yticks(count_word)
    plt.title(f'{title} 빈도 분석')
    plt.show()

    return count_word, count_vec



# 데이터 로드

In [None]:
df = pd.read_csv('./1-8월 뉴스.csv', encoding='utf-8-sig')
df.head()

In [None]:
df.tail()

# EDA

In [None]:
df.info()

In [None]:
# 언론사별 분포
df['media'].value_counts()

In [None]:
media_df = pd.DataFrame(
    columns=['media', 'count'],
    )
media_df['media'] = df['media'].value_counts().index
media_df['count'] = df['media'].value_counts().values
media_df

In [None]:
plt.figure(figsize=(16,8))
bar_graph = sns.barplot(data=media_df, x='media', y='count')
ax = bar_graph

for p in ax.patches:
    ax.annotate(int(p.get_height()),
                (p.get_x() + p.get_width()/2, p.get_height()*1.02),
                ha='center',
                va='center',
                fontsize=15)

plt.xticks(fontsize=15)
plt.show()

In [None]:
# 언론사별 기사 개수 
plt.figure(figsize=(16,8))
sns.barplot(df['media'].value_counts().index, df['media'].value_counts().values)
plt.rc('font', size=15)
plt.show()

In [None]:
df['title_len'] = [len(prepro_title) for prepro_title in [title.replace(' ', '') for title in  df['title']]]
df['text_len'] = [len(prepro_title) for prepro_title in [title.replace(' ', '') for title in  df['text']]]

In [None]:
# 언론사별 title, text 글자 수 확인

plt.figure(figsize=(16,8))
plt.title('언론사별 title 길이')
sns.boxplot(
    x=df['media'],
    y=df['title_len'],
    data=df)
plt.show()

In [None]:
plt.figure(figsize=(16,8))
plt.title('언론사별 text 길이')
sns.boxplot(
    x=df['media'],
    y=df['text_len'],
    data=df)
plt.show()

In [None]:
# 각 언론사별 title, text 길이 평균값
for media in df['media'].value_counts().index:
    title_mean = df['title_len'][df['media']==media].describe()['mean']
    text_mean = df['text_len'][df['media']==media].describe()['mean']

    print(f'{media} title 평균 : {round(title_mean,2)}')
    print(f'{media} text 평균 : {round(text_mean,2)}')
    print()

# 데이터 전처리

In [None]:
df['title'] = df['title'].map(prepro_text)
df['text'] = df['text'].map(prepro_text)

# 데이터 분리

In [None]:
# 보수 언론 - 
# 중도 언론 - 
# 진보 언론 - 

# 빈도 분석 & 워드 클라우드

# TF-IDF (n_gram 적용)

# 로그오즈비

In [None]:
# 정치 성향에 따른 분류 후 로그오즈비

# LDA

In [None]:
# 언론사 정치성향별 Topic 분류 

# Word2Vec

In [None]:
# 네트워크 관계도 처럼 특정 단어와 연관돼 있는