### 각 정보별 그래프 분석

이 파일 내 데이터
- 게시판 종류
- 제목
- 날짜 및 시간
- 조회수

위의 데이터를 가지고 그래프 분석을 한 파일입니다.

환경 
VSCODE 내에서 실행 가능
(google colab에서는 안 돌아갈 수 있음)

In [40]:
import pandas as pd
import matplotlib.pyplot as plt

In [41]:
import matplotlib.font_manager as fm
font_path = 'C:/Windows/Fonts/NanumGothic.ttf'  # Windows에서 한글 폰트 경로
fontprop = fm.FontProperties(fname=font_path, size=12)

In [None]:
# 경로 붙여넣기
file_path = "test_info_analysis.csv"
df = pd.read_csv(file_path)
df.head(5)

In [None]:
# 결과 출력
print("게시글 개수:", len(df))

### 각 빈도수 체크

게시글 빈도 수 체크

1. 게시판 종류
2. 시간별 (hour)
3. 월별
4. 일별

게시글 종류별 빈도

In [44]:
board_counts = df['board'].value_counts()

In [None]:

plt.figure(figsize=(12, 6))
bars = plt.bar(board_counts.index, board_counts.values, color='skyblue')

plt.title('게시판별 게시물 빈도', fontproperties=fontprop)
plt.xlabel('게시판', fontproperties=fontprop)
plt.ylabel('게시물 빈도', fontproperties=fontprop)

for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=10)

plt.xticks(fontproperties=fontprop)  # x축 레이블에 한글 폰트 적용
plt.yticks(fontproperties=fontprop)  # y축 레이블에 한글 폰트 적용
plt.show()

시간별(hour)별 빈도

In [46]:
time_hours = df['time'].str.split(':').str[0].astype(int)
time_counts = time_hours.value_counts()

In [58]:
# 원하는 건수 지정
over_views = df[df['view'] > 30] 
time_over_views = over_views['time'].str.split(':').str[0].astype(int)
over_views_counts = time_over_views.value_counts().sort_index()


In [None]:
plt.figure(figsize=(12, 6))

# 첫 번째: 시간별 게시물 빈도수 (막대 그래프)
bars = plt.bar(time_counts.index, time_counts.values, color='salmon', label='게시물 빈도수')

# 두 번째: 시간별 조회수 1000건 넘는 게시글 빈도수 (선 그래프)
plt.plot(over_views_counts.index, over_views_counts.values, color='blue', marker='o', label='조회수 ()건 넘는 게시물', linewidth=2)

# 제목과 축 라벨 설정
plt.title('시간별 게시물 빈도수 및 조회수 ()건 넘는 게시글', fontproperties=fontprop)
plt.xlabel('시간', fontproperties=fontprop)
plt.ylabel('빈도수', fontproperties=fontprop)

# 막대 위에 값 표시
for i, bar in enumerate(bars):
    yval = time_counts.values[i]
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=10)

# 선 위에 값 표시
for i, value in enumerate(over_views_counts.values):
    plt.text(over_views_counts.index[i],
             value,
             int(value),
             ha='center',
             va='bottom',
             fontsize=10,
             color='blue')

# xticks, yticks 적용
plt.xticks(fontproperties=fontprop)
plt.yticks(fontproperties=fontprop)

# 범례 표시 (prop 사용)
plt.legend(prop=fontprop)

plt.tight_layout()
plt.show()


월별 빈도

In [49]:
month_counts = df['date'].str.split('.').str[1].value_counts()
month_day_counts = df['date'].str[-6:-1].value_counts()

In [None]:
# 월별 빈도수 그래프
plt.figure(figsize=(12, 8))
sorted_month_counts = month_counts.sort_index()
plt.bar(sorted_month_counts.index, sorted_month_counts.values, color='lightgreen')

plt.title('월별 게시물 빈도수', fontproperties=fontprop)
plt.xlabel('월', fontproperties=fontprop)
plt.ylabel('게시물 빈도수', fontproperties=fontprop)

for i, bar in enumerate(plt.bar(sorted_month_counts.index, sorted_month_counts.values, color='lightgreen')):
    yval = sorted_month_counts.values[i]
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=10)
    
plt.xticks(fontproperties=fontprop) 
plt.yticks(fontproperties=fontprop) 

plt.show()

날짜별 빈도

In [None]:
plt.figure(figsize=(14, 6)) # 크기 조정 가능 (가로, 세로)
sorted_month_day_counts = month_day_counts.sort_index()
plt.bar(sorted_month_day_counts.index, sorted_month_day_counts.values, color='lightcoral')

plt.title('날짜별 게시물 빈도수', fontproperties=fontprop)
plt.xlabel('날짜(월/일)', fontproperties=fontprop)
plt.ylabel('게시물 빈도수', fontproperties=fontprop)

plt.xticks(rotation=45) # x축(글씨) 기울기 45도 회전

# 막대 위에 빈도수 표시
for i, bar in enumerate(plt.bar(sorted_month_day_counts.index, sorted_month_day_counts.values, color='lightcoral')):
    yval = sorted_month_day_counts.values[i]
    plt.text(bar.get_x() + bar.get_width()/2,
             yval,
             int(yval),
             ha='center',
             va='bottom',
             fontsize=8)
    
plt.xticks(fontproperties=fontprop) 
plt.yticks(fontproperties=fontprop) 

plt.show()

#### 게시판별 조회수 체크

1. 게시판 종류
2. 게시물 업로드 시간별 (hour)

→ 평균 추출

게시판 종류별 평균 조회수

In [None]:
board_average_counts = df.groupby('board')['view'].mean()

plt.figure(figsize=(12, 8))
plt.plot(board_average_counts.index, board_average_counts.values, marker='o', color='skyblue', linestyle='-', linewidth=2)

plt.title('게시판별 평균 조회수', fontproperties=fontprop)
plt.xlabel('게시판', fontproperties=fontprop)
plt.ylabel('평균 조회수', fontproperties=fontprop)

for i, value in enumerate(board_average_counts.values):
    plt.text(i, value + 5,
             f'{value:.1f}',
             ha='center',
             va='bottom',
             fontsize=10,
             color='blue')
    
plt.xticks(fontproperties=fontprop) 
plt.yticks(fontproperties=fontprop) 

plt.show()

시간별 평균 조회수 

In [None]:
time_average_counts = df.groupby(df['time'].str.split(':').str[0].astype(int))['view'].mean()

plt.figure(figsize=(12, 8))
plt.plot(time_average_counts.index.astype(int), time_average_counts.values, marker='o', color='salmon', linestyle='-', linewidth=2)

plt.title('시간별 평균 조회수', fontproperties=fontprop)
plt.xlabel('시간', fontproperties=fontprop)
plt.ylabel('평균 조회수', fontproperties=fontprop)

plt.xticks(time_average_counts.index.astype(int), rotation=0)  # x축 정보 표시

for i, value in enumerate(time_average_counts.values):
    plt.text(time_average_counts.index[i], value + 5,
             f'{value:.1f}',
             ha='center',
             va='bottom',
             fontsize=10,
             color='red')
    
plt.xticks(fontproperties=fontprop) 
plt.yticks(fontproperties=fontprop) 

plt.show()