# 과제
### 2022235027 민현기

# 1. 첨부된 DASC705001_HW1_News-1.csv를 이용하여 아래 질문에 답하라.

In [1]:
import pandas as pd
import numpy as np
import re

from nltk import FreqDist
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

import tqdm

In [2]:
df = pd.read_csv('DASC705001_HW1_News-1.csv', encoding='latin1', low_memory=False)
df = df.iloc[:, :5]

In [3]:
def custom_nlp(pandas_text_columns):

    clean = re.compile("[^A-Za-z ]")
    lemmatizer = WordNetLemmatizer()
    stop_words = stopwords.words('english')
    
    # 특수문자, 숫자 제거
    preprocessing_text = pandas_text_columns.apply(lambda x: clean.sub('', str(x)))
    # 영소문자 변경
    preprocessing_text = preprocessing_text.apply(lambda x: x.lower()).to_list()
    
    result = []
    
    for words in tqdm.tqdm(preprocessing_text):
        # 단어 토큰화
        for word in words.split():
            # 의미있는 단어를 추출하기 위하여 명사, 형용사 순으로 표제어 추출 진행
            lemma = lemmatizer.lemmatize(word, pos='n')
            lemma = lemmatizer.lemmatize(word, pos='a')            
            # 불용어 및 단어길이 2이하 제거
            if lemma not in stop_words and len(lemma) > 2:
                result.append(lemma)
    
    return result

In [4]:
# 가장 많이 등장한 상위 25개 단어 선정
def custom_most_common(words):
    return [i[0] for i in FreqDist(words).most_common(25)]

In [5]:
# title
title = custom_nlp(pandas_text_columns=df['title'])
title = custom_most_common(title)

# text
text = custom_nlp(pandas_text_columns=df['text'])
text = custom_most_common(text)

# subject_worldnews_title
worldnews_title = custom_nlp(pandas_text_columns=df[df['subject'] == 'worldnews']['title'])
worldnews_title = custom_most_common(worldnews_title)

# subject_worldnews_text
worldnews_text = custom_nlp(pandas_text_columns=df[df['subject'] == 'worldnews']['text'])
worldnews_text = custom_most_common(worldnews_text)

# subject_US_news_title
USnews_title = custom_nlp(pandas_text_columns=df[df['subject'] != 'worldnews']['title'])
USnews_title = custom_most_common(USnews_title)

# subject_US_news_text
USnews_text = custom_nlp(pandas_text_columns=df[df['subject'] != 'worldnews']['text'])
USnews_text = custom_most_common(USnews_text)

100%|██████████████████████████████████████████████████████████████████████████| 31460/31460 [00:05<00:00, 5998.66it/s]
100%|███████████████████████████████████████████████████████████████████████████| 31460/31460 [01:40<00:00, 313.06it/s]
100%|███████████████████████████████████████████████████████████████████████████| 7087/7087 [00:00<00:00, 10952.29it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7087/7087 [00:21<00:00, 331.95it/s]
100%|██████████████████████████████████████████████████████████████████████████| 24373/24373 [00:03<00:00, 7901.19it/s]
100%|███████████████████████████████████████████████████████████████████████████| 24373/24373 [01:19<00:00, 307.88it/s]


## 1-1. "title"과 "text"에서 가장 많이 등장하는 단어는 무엇인가? 본인이 제시할 수 있는 가장 유의미한 상위 10개의 단어를 각각 제시하라.

In [6]:
print(f'title 상위 20개 단어: {title}')
print(f'text 상위 20개 단어: {text}\n')

# 'video', 'says', 'watch', 'reuters' 등 뉴스 그 자체와 연관된 단어 및 'state' 등 의미파악이 힘든 단어 위주로 제외 후 상위 10개 선정
select_title = ['trump', 'obama', 'house', 'hillary', 'white', 'president', 'clinton', 'bill', 'russia', 'republican']
select_text = ['trump', 'president', 'people', 'house', 'government', 'clinton', 'republican', 'obama', 'united', 'white']

print(f'----- title 선정 단어: {select_title}')
print(f'----- text 선정 단어: {select_text}')

title 상위 20개 단어: ['trump', 'video', 'says', 'obama', 'trumps', 'house', 'watch', 'hillary', 'new', 'white', 'president', 'clinton', 'bill', 'state', 'russia', 'donald', 'republican', 'north', 'court', 'black', 'election', 'news', 'media', 'senate', 'breaking']
text 상위 20개 단어: ['said', 'trump', 'would', 'president', 'people', 'one', 'state', 'also', 'new', 'reuters', 'donald', 'house', 'states', 'government', 'clinton', 'republican', 'could', 'obama', 'united', 'told', 'white', 'like', 'campaign', 'last', 'two']

----- title 선정 단어: ['trump', 'obama', 'house', 'hillary', 'white', 'president', 'clinton', 'bill', 'russia', 'republican']
----- text 선정 단어: ['trump', 'president', 'people', 'house', 'government', 'clinton', 'republican', 'obama', 'united', 'white']


## 1-2. "subject"가 "worldnews"인 경우와 "US_New"의 경우 1-1의 답변은 어떻게 달라지는가? 

In [7]:
print(f'worldnews_title 상위 20개 단어: {worldnews_title}')
print(f'worldnews_text 상위 20개 단어: {worldnews_text}\n')

select_worldnews_title = ['north', 'korea', 'trump', 'china', 'minister', 'brexit', 'south', 'police', 'iran', 'russia']
select_worldnews_text = ['government', 'president', 'people', 'party', 'minister', 'united', 'north', 'military', 'country']

print(f'----- worldnews_title 선정 단어: {select_worldnews_title}')
print(f'----- worldnews_text 선정 단어: {select_worldnews_text}')

worldnews_title 상위 20개 단어: ['says', 'north', 'korea', 'trump', 'new', 'china', 'minister', 'talks', 'brexit', 'south', 'police', 'state', 'iran', 'russia', 'election', 'may', 'court', 'vote', 'president', 'syria', 'leader', 'deal', 'government', 'turkey', 'opposition']
worldnews_text 상위 20개 단어: ['said', 'reuters', 'government', 'would', 'president', 'state', 'people', 'party', 'minister', 'also', 'told', 'united', 'last', 'two', 'north', 'one', 'new', 'military', 'year', 'could', 'states', 'country', 'trump', 'security', 'korea']

----- worldnews_title 선정 단어: ['north', 'korea', 'trump', 'china', 'minister', 'brexit', 'south', 'police', 'iran', 'russia']
----- worldnews_text 선정 단어: ['government', 'president', 'people', 'party', 'minister', 'united', 'north', 'military', 'country']


In [8]:
print(f'USnews_title 상위 20개 단어: {USnews_title}')
print(f'USnews_text 상위 20개 단어: {USnews_text}\n')

select_USnews_title = ['trump', 'obama', 'house', 'hillary', 'white', 'clinton', 'president', 'bill', 'republican', 'black']
select_USnews_text = ['trump', 'president', 'people', 'house', 'clinton', 'republican', 'obama', 'white', 'campaign', 'united']

print(f'----- USnews_title 선정 단어: {select_USnews_title}')
print(f'----- USnews_text 선정 단어: {select_USnews_text}')

USnews_title 상위 20개 단어: ['trump', 'video', 'obama', 'says', 'trumps', 'house', 'watch', 'hillary', 'white', 'clinton', 'new', 'president', 'bill', 'donald', 'republican', 'black', 'breaking', 'news', 'senate', 'republicans', 'media', 'russia', 'gop', 'campaign', 'state']
USnews_text 상위 20개 단어: ['trump', 'said', 'would', 'president', 'people', 'one', 'donald', 'house', 'new', 'clinton', 'republican', 'also', 'obama', 'state', 'states', 'white', 'like', 'campaign', 'could', 'news', 'united', 'time', 'told', 'hillary', 'even']

----- USnews_title 선정 단어: ['trump', 'obama', 'house', 'hillary', 'white', 'clinton', 'president', 'bill', 'republican', 'black']
----- USnews_text 선정 단어: ['trump', 'president', 'people', 'house', 'clinton', 'republican', 'obama', 'white', 'campaign', 'united']


## 1-3. 위 1-1과 1-2에서 찾은 60개(중복 포함)의 단어의 TF-IDF는 얼마인가?

In [9]:
corpus = [(' ').join(i) for i in [select_title, select_text,select_worldnews_title, select_worldnews_text, select_USnews_title, select_USnews_text]]
tfidfv = TfidfVectorizer().fit(corpus)

In [10]:
print(f'tf-idf 결과: {tfidfv.transform(corpus).toarray()}\n')
print(f'tf-idf 벡터 사이즈: {tfidfv.transform(corpus).toarray().shape}\n')
print(tfidfv.vocabulary_)

tf-idf 결과: [[0.39535363 0.         0.         0.         0.         0.28602813
  0.         0.         0.39535363 0.28602813 0.         0.
  0.         0.         0.         0.28602813 0.         0.
  0.         0.24700817 0.28602813 0.39535363 0.         0.24700817
  0.         0.28602813]
 [0.         0.         0.         0.         0.         0.29980346
  0.         0.41439416 0.         0.29980346 0.         0.
  0.         0.         0.         0.29980346 0.         0.34986002
  0.         0.25890427 0.29980346 0.         0.         0.25890427
  0.34986002 0.29980346]
 [0.         0.         0.34752929 0.         0.34752929 0.
  0.         0.         0.         0.         0.34752929 0.34752929
  0.         0.28497899 0.28497899 0.         0.         0.
  0.34752929 0.         0.         0.28497899 0.34752929 0.17804854
  0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.40037358 0.32831206 0.         0.         0.         0.
  0.40037358 0.328

## 2. 본인이 1 분석을 수행하기 위해 이용한 Library를 명시하고 해당 Library에서 사용하고 있는 TF-IDF는 어떤 공식을 따르는지 제시하라.

- 단어 토큰화, 표제어 추출 및 불용어 제거 등 기본 전처리는 nltk에서 수행 
- TF-IDF는 scikit learn에서 제공하는 함수를 사용함

![](https://miro.medium.com/max/1400/1*cYuqqICc7nyNGBEn4Fg4Ag.png)


- $Tf(t,d)$: 특정한 단어의 빈도 수

![](https://miro.medium.com/max/1400/1*tOMCF5_plhul9yAS8eSl9g.png)
    
- $idf(t)$: 특정한 단어가 들어 있는 문서의 수에 반비례하는 수

![](https://miro.medium.com/max/1400/1*dAv0xsTO24_ywJOuJM_ObA.png)
    
    
- Sklearn에서는 Idf를 계산하는 방식이 표준 방법과는 다름

![](https://miro.medium.com/max/1400/1*8TT1FmB6Kvl5PoDvozbWtQ.png)

    - Sklearn에서는 0으로 나누는 것을 피하기 위하여 분자와 분모 모두에 1을 더하고, 추가적으로 상수 1을 더함
    - 그리고, log의 밑수로 자연상수를 활용하는 자연로그를 활용하며, 표준화된 방법에서는 log의 밑으로 10을 활용
    - 또한, 원시 tf-idf 벡터가 주어지면 L2 정규화를 수행하여 값을 조정하여 TF-idf를 구함