### 각 정보별 그래프 및 각 단어 분석

이 파일 내 데이터
- 게시판 종류
- 제목
- 날짜 및 시간
- 본문
- 댓글
- 조회수

위의 데이터를 가지고 그래프 분석이 가능하며,
단어 빈도 추출이 가능한 파일입니다.


환경 
**google colab 내에서만 실행 가능**

In [None]:
# 설치 후, 세션 다시 시작 (그래프에 한글이 추력될 수 있도록 하는 것)
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
!pip install konlpy

In [27]:
import pandas as pd
import matplotlib.pyplot as plt

import re
from collections import Counter

# from nltk.tokenize import word_tokenize
# from nltk import ngrams
# import nltk
from konlpy.tag import Okt # 형태소 추출

In [3]:
plt.rc('font', family='NanumBarunGothic')

### 파일 불러오기

1. 왼쪽 중앙 파일 이모지 선택 후, 드라이브 마운트 클릭
2. 불러올 파일 선택 후, 우클릭 후 경로 복사하기

In [None]:
# 경로 붙여넣기
file_path = "test_data_analysis.csv"
df = pd.read_csv(file_path, encoding="cp949")
df.head(5)

In [5]:
# 결과 출력
print("게시글 개수:", len(df))

게시글 개수: 45


### 각 빈도수 체크

게시글 빈도 수 체크

1. 게시판 종류
2. 시간별 (hour)
3. 월별
4. 일별

In [6]:
# 게시글 빈도
board_counts = df['board'].value_counts()

In [None]:
plt.figure(figsize=(12, 6))
bars = plt.bar(board_counts.index, board_counts.values, color='skyblue')

plt.title('게시판별 게시물 빈도')
plt.xlabel('게시판')
plt.ylabel('게시물 빈도')

for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=10)

plt.show()

In [8]:
# 시간(hour) 빈도
time_hours = df['time'].str.split(':').str[0].astype(int)
time_counts = time_hours.value_counts()

In [None]:
plt.figure(figsize=(12, 8))
sorted_time_counts = time_counts.sort_index()
plt.bar(sorted_time_counts.index, sorted_time_counts.values, color='salmon')

plt.title('시간별 게시물 빈도수')
plt.xlabel('시간')
plt.ylabel('게시물 빈도')

for i, bar in enumerate(plt.bar(sorted_time_counts.index, sorted_time_counts.values, color='salmon')):
    yval = sorted_time_counts.values[i]
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=10)

plt.show()

In [10]:
# 날짜 빈도 (월/일)
month_counts = df['date'].str.split('.').str[1].value_counts()
month_day_counts = df['date'].str[-6:-1].value_counts()

In [None]:
# 월별 빈도수 그래프
plt.figure(figsize=(12, 8))
sorted_month_counts = month_counts.sort_index()
plt.bar(sorted_month_counts.index, sorted_month_counts.values, color='lightgreen')

plt.title('월별 게시물 빈도수')
plt.xlabel('월')
plt.ylabel('게시물 빈도수')

for i, bar in enumerate(plt.bar(sorted_month_counts.index, sorted_month_counts.values, color='lightgreen')):
    yval = sorted_month_counts.values[i]
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=10)

plt.show()

In [None]:
# 월/일 빈도수 그래프
plt.figure(figsize=(14, 6)) # 크기 조정 가능 (가로, 세로)
sorted_month_day_counts = month_day_counts.sort_index()
plt.bar(sorted_month_day_counts.index, sorted_month_day_counts.values, color='lightcoral')

plt.title('날짜별 게시물 빈도수')
plt.xlabel('날짜(월/일)')
plt.ylabel('게시물 빈도수')

plt.xticks(rotation=45) # x축(글씨) 기울기 45도 회전

# 막대 위에 빈도수 표시
for i, bar in enumerate(plt.bar(sorted_month_day_counts.index, sorted_month_day_counts.values, color='lightcoral')):
    yval = sorted_month_day_counts.values[i]
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=8)

plt.show()

게시판별 조회수 체크

1. 게시판 종류
2. 게시물 업로드 시간별 (hour)

→ 평균 추출

In [None]:
board_average_counts = df.groupby('board')['view'].mean()

plt.figure(figsize=(12, 8))
plt.plot(board_average_counts.index, board_average_counts.values, marker='o', color='skyblue', linestyle='-', linewidth=2)

plt.title('게시판별 평균 조회수')
plt.xlabel('게시판')
plt.ylabel('평균 조회수')

for i, value in enumerate(board_average_counts.values):
    plt.text(i, value + 5,
             f'{value:.1f}',
             ha='center',
             va='bottom',
             fontsize=10,
             color='blue')

plt.show()

In [None]:
time_average_counts = df.groupby(df['time'].str.split(':').str[0].astype(int))['view'].mean()

plt.figure(figsize=(12, 8))
plt.plot(time_average_counts.index.astype(int), time_average_counts.values, marker='o', color='salmon', linestyle='-', linewidth=2)

plt.title('시간별 평균 조회수')
plt.xlabel('시간')
plt.ylabel('평균 조회수')

plt.xticks(time_average_counts.index.astype(int), rotation=0)  # x축 정보 표시

for i, value in enumerate(time_average_counts.values):
    plt.text(time_average_counts.index[i], value + 5,
             f'{value:.1f}',
             ha='center',
             va='bottom',
             fontsize=10,
             color='red')

plt.show()

### 데이터 전처리

1. 제목
2. 본문
3. 댓글
4. 제목 + 본문 + 댓글

In [15]:
# 정규화
def text_clean(text):
    pattern = '([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)'  # E-mail 제거
    text = re.sub(pattern, '', text)
    pattern = '(http|ftp|https)://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'  # URL 제거
    text = re.sub(pattern, '', text)
    pattern = '[a-zA-Z0-9]'    # 숫자와 알파벳 제거
    text = re.sub(pattern, '', text)
    pattern = '([ㄱ-ㅎㅏ-ㅣ]+)'  # 한글 자음, 모음 제거
    text = re.sub(pattern, '', text)
    pattern = '<[^>]*>'         # HTML 태그 제거
    text = re.sub(pattern, '', text)
    pattern = '[^\w\s]'         # 특수기호 제거
    text = re.sub(pattern, '', text)
    pattern = '\s+'             # 여러 개의 공백을 하나로
    text = re.sub(pattern, ' ', text)
    text = text.replace('\n', '').replace('\r', '')  # 줄바꿈 문자 제거
    return text.strip()  # 양쪽 공백 제거

In [16]:
title_pp = df['title'].apply(text_clean)
content_pp = df['content'].apply(text_clean)
comment_pp = df['comment'].apply(text_clean)

### 토큰화

In [None]:
titles_list = title_pp.tolist()
titles = ' '.join(titles_list)
print(titles[:100])

In [None]:
content_list = content_pp.tolist()
contents = ' '.join(content_list)
print(contents[:100])

In [None]:
comments_list = comment_pp.tolist()
comments = ' '.join(comments_list)
print(comments[:100])

In [None]:
combined_text = ' '.join(title_pp.tolist() + content_pp.tolist() + comment_pp.tolist())
print(combined_text[:100])

### 품사 태깅

제목, 내용, 댓글 따로 정보 추출 가능

In [None]:
tokenizer = Okt()
# raw_pos_tagged = tokenizer.pos(titles, norm=True, stem=True)
# raw_pos_tagged = tokenizer.pos(contents, norm=True, stem=True)
# raw_pos_tagged = tokenizer.pos(comments, norm=True, stem=True)
raw_pos_tagged = tokenizer.pos(combined_text, norm=True, stem=True)
print(raw_pos_tagged)

In [57]:
# 불용어 설정 (이는 txt 파일로 시중에 많음)
stopwords = ['를', '이', '은', '는', '있다', '하다', '에', "이다", "이후", "없다", "대해", "되다"]

In [58]:
# ## 조사, 어미, 구두점, 외국어를 제외한 모든 품사
# word_clean = []
# for word in raw_pos_tagged:
#   # 조사, 어미, 구두점, 외국어인 경우 제거
#     if not word[1] in ["Josa", "Eomi", "Punctuation", "Foreign"]:
#         # 단어의 길이가 1이 아니며, stopwords에 해당되지 않는 단어들
#         if (len(word[0]) != 1) & (word[0] not in stopwords):
#             word_clean.append(word[0])

# print("정제된 단어 개수: ", len(word_clean))
# print("단어 예시: ", word_clean[:5])

In [None]:
## 명사 품사만 추출
word_clean = []
for word in raw_pos_tagged:
    # 명사인 경우만 추가
    if word[1] == "Noun":
        # 단어의 길이가 1이 아니며, stopwords에 해당되지 않는 단어들
        if (len(word[0]) != 1) & (word[0] not in stopwords):
            word_clean.append(word[0])

print("정제된 명사 개수: ", len(word_clean))
print("명사 예시: ", word_clean[:5])

In [60]:
# ## 명사, 형용사 품사만 추출
# word_clean_nouns_adjectives = []
# for word in raw_pos_tagged:
#     # 명사 또는 형용사인 경우 추가 (이 외에도 코드에 "Verb" 같은 품사들 추가 가능)
#     if word[1] in ["Noun", "Adjective"]:
#         # 단어의 길이가 1이 아니며, stopwords에 해당되지 않는 단어들
#         if (len(word[0]) != 1) & (word[0] not in stopwords):
#             word_clean_nouns_adjectives.append(word[0])

# print("정제된 명사와 형용사 개수: ", len(word_clean_nouns_adjectives))
# print("명사와 형용사 예시: ", word_clean_nouns_adjectives[:5])

#### 단어 빈도 카운트

In [None]:
result = Counter(word_clean)
word_dic = dict(result)
print(word_dic)

In [None]:
sorted_word_dic = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)
print(sorted_word_dic)

In [None]:
# # csv 저장 가능
# df_sorted = pd.DataFrame(sorted_word_dic, columns=['Word', 'Frequency'])
# df_sorted.to_csv('sorted_word_frequencies.csv', index=False, encoding='utf-8-sig')
# print("CSV 파일로 저장되었습니다.")
# df_sorted.head(5)

### 빈도수 시각화

line plot

In [None]:
word_counted = nltk.Text(word_clean)
plt.figure(figsize=(15,7))
word_counted.plot(50)

bar plot

In [None]:
word_frequency = nltk.FreqDist(word_clean)
df = pd.DataFrame(list(word_frequency.values()), word_frequency.keys())

result = df.sort_values([0], ascending = False)
result = result[:50]
result.plot(kind='bar', legend=False, figsize=(15,5))
plt.show()

#### 단어 빈도수에 맞게 표로 정리

In [None]:
# count 뒤 숫자는 원하는대로 설정
filtered_word_dic = [(word, count) for word, count in sorted_word_dic if count >= 5]

# dataframe 생성
# columns명은 원하는대로 설정
df_filtered = pd.DataFrame(filtered_word_dic, columns=['Word', 'Frequency'])
df_filtered.head(5)

In [None]:
## csv 파일 저장
df_filtered.to_csv('filtered_word_frequencies.csv', index=False, encoding='utf-8-sig')
print("CSV 파일로 저장되었습니다.")