In [3]:
# !pip install pandas
# !pip install wordcloud
# !pip install plotly

In [4]:
import csv
import matplotlib.pyplot as plt
import plotly.express as px
import pandas as pd
from wordcloud import WordCloud
from collections import Counter

## 더미 데이터

In [5]:
socar_path = './socar_data.csv'
line_path = './line_data.csv'

socar_df = pd.read_csv(socar_path)
line_df = pd.read_csv(line_path)

dummy_df = pd.concat([socar_df, line_df], ignore_index=True)

In [6]:
new_dummy_df = dummy_df[['date', 'tags', 'company']]
print(new_dummy_df.shape)

(228, 3)


## 태그 빈도수 시각화(전체, 기업별)

### 전체 기업 - barchart

In [7]:
tags_list = new_dummy_df['tags'].dropna().str.split(', ').tolist()
tags_list = sum(tags_list, [])
tag_counts = Counter(tags_list)
tags_df = pd.DataFrame(tag_counts.most_common(20), columns=['Tag', 'Count'])

In [8]:
fig = px.bar(
    tags_df,
    x='Count',
    y='Tag',
    title='Top 20 Tags in All posts',
    labels={'Tag': 'Tags', 'Count': 'Frequency'},  # 축 라벨 정의
    color='Tag',  # 태그별 다른 색상으로 표시
)
fig.update_layout(
    width = 1000,
    height = 800,
    xaxis={'categoryorder':'total descending'},  # 빈도수가 높은 순으로 정렬
    yaxis_title='Tags'  # y축 제목 설정
)
fig.show()

In [9]:
fig = px.bar(
    tags_df,
    x='Tag',
    y='Count',
    title='Top 20 Tags in All posts',
    labels={'Count': 'Frequency', 'Tag': 'Tags'},
    color='Tag',
)
fig.update_layout(
    width = 1000,
    height = 800,
    xaxis={'categoryorder':'total descending'},
    yaxis_title='Frequency'
)
fig.show()

### 기업별 - barchart

In [10]:
company_tags_list = new_dummy_df[new_dummy_df['company'] == '쏘카']['tags'].dropna().str.split(', ').tolist()
company_tags_list = sum(company_tags_list, [])
company_tag_counts = Counter(company_tags_list)
company_tags_df = pd.DataFrame(company_tag_counts.most_common(20), columns=['Tag', 'Count'])

In [11]:
fig = px.bar(
    company_tags_df,
    x='Count',
    y='Tag',
    title='Top 20 Tags in All posts',
    labels={'Tag': 'Tags', 'Count': 'Frequency'},  # 축 라벨 정의
    color='Tag',  # 태그별 다른 색상으로 표시
)
fig.update_layout(
    width = 1000,
    height = 800,
    xaxis={'categoryorder':'total descending'},  # 빈도수가 높은 순으로 정렬
    yaxis_title='Tags'  # y축 제목 설정
)
fig.show()

In [12]:
fig = px.bar(
    company_tags_df,
    x='Tag',
    y='Count',
    title='Top 20 Tags in All posts',
    labels={'Count': 'Frequency', 'Tag': 'Tags'},
    color='Tag',
)
fig.update_layout(
    width = 1000,
    height = 800,
    xaxis={'categoryorder':'total descending'},
    yaxis_title='Frequency'
)
fig.show()

### 전체 기업 - piechart(태그별 보다는 태그를 카테고리화 해서 시각화하는 것이 좋을 것 같음)

In [13]:
tags_list = new_dummy_df['tags'].dropna().str.split(', ').tolist()
tags_list = sum(tags_list, [])
tag_counts = Counter(tags_list)
top_tags = tag_counts.most_common(20)
tags_df = pd.DataFrame(top_tags, columns=['Tag', 'Count'])

fig = px.pie(
    tags_df,
    values='Count',  # 파이조각의 value 값
    names='Tag',  # 파이조각의 라벨
    title='Top 20 Tags in All posts'
)
fig.update_layout(
    width = 1000,
    height = 800
)
fig.update_traces(
    textinfo='percent+label',  # 수치와 라벨 표시
    # pull=0.2 # 파이 조각들 간의 간격(사용하지 않아도 라벨이 조각안에 정상적으로 보임)
)
fig.show()

### 기업별 - piechart(태그별 보다는 태그를 카테고리화 해서 시각화하는 것이 좋을 것 같음)

In [14]:
company_tags_list = new_dummy_df[new_dummy_df['company'] == '쏘카']['tags'].dropna().str.split(', ').tolist()
company_tags_list = sum(company_tags_list, [])
company_tag_counts = Counter(company_tags_list)
company_top_tags = company_tag_counts.most_common(20)
company_top_tags = pd.DataFrame(company_top_tags, columns=['Tag', 'Count'])

fig = px.pie(
    company_top_tags,
    values='Count',
    names='Tag',
    title='Top 20 Tags in company posts'
)
fig.update_layout(
    width = 1000,
    height = 800
)
fig.update_traces(
    textinfo='percent+label',
)
fig.show()

### 전체 기업 - 워드클라우드

In [15]:
# 저장되는 해상도가 좋아야 화질이 안깨지는 것 같음
# 꼭 plotly로 읽어와서 시각화할 이유가 없어 보임
tags_list = new_dummy_df['tags'].dropna().str.split(', ').tolist()
tags_list = sum(tags_list, [])
tag_counts = Counter(tags_list)
wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(tag_counts)

# 워드클라우드 이미지 저장
wordcloud.to_file('./all_wc.png')

# plotly로 저장된 이미지 시각화
img = plt.imread('./all_wc.png')
fig = px.imshow(img)
fig.update_layout(
    width = 1000,
    height = 600,
    coloraxis_showscale=False # 색상 축 스케일 표시 안 함
)
# x,y 라벨 숨김
fig.update_xaxes(showticklabels=False)
fig.update_yaxes(showticklabels=False)
fig.show()

### 기업별 - 워드클라우드

In [16]:
company_tags_list = new_dummy_df[new_dummy_df['company'] == '쏘카']['tags'].dropna().str.split(', ').tolist()
company_tags_list = sum(company_tags_list, [])
company_tag_counts = Counter(company_tags_list)
wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(company_tag_counts)
wordcloud.to_file('./socar_wc.png')

img = plt.imread('./socar_wc.png')
fig = px.imshow(img)
fig.update_layout(
    width = 1000,
    height = 600,
    coloraxis_showscale=False
)
fig.update_xaxes(showticklabels=False)
fig.update_yaxes(showticklabels=False)
fig.show()

## 시간에 따른 작성글 추이 시각화

### 전체 기업 - linechart

In [17]:
date_dummy_df = dummy_df[['date', 'company']]
date_dummy_df['date'] = pd.to_datetime(date_dummy_df['date'])
date_dummy_df['year_month'] = date_dummy_df['date'].dt.strftime('%Y-%m')
grouped_df = date_dummy_df.groupby(['company', 'year_month']).size().reset_index(name='posts_count')
# plotly는 문자열 형식의 날짜를 사용
grouped_df['year_month'] = grouped_df['year_month'].astype(str)

fig = px.line(
    grouped_df,
    x='year_month',
    y='posts_count',
    color='company',
    title='회사별 월별 게시글 수',
    labels={'year_month': '날짜', 'posts_count': '게시글 수'}  # 축 라벨 정의
)
fig.update_layout(
    width = 1200,
    height = 700,
    xaxis_title='날짜',
    yaxis_title='게시글 수',
    xaxis=dict(tickangle=-45)  # x축 라벨 회전
)
# marker표시가 안됨...
# fig.update_traces(
#     marker=dict(size=10, color='Navy')
# )
fig.update_yaxes(range=[0, grouped_df['posts_count'].max() + 1])

fig.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



### 기업별 - linechart

In [18]:
company_date_df = dummy_df[dummy_df['company'] == '쏘카'][['date', 'company']]
company_date_df['date'] = pd.to_datetime(company_date_df['date'])
company_date_df['year_month'] = company_date_df['date'].dt.strftime('%Y-%m')
company_grouped_df = company_date_df.groupby(['year_month']).size().reset_index(name='posts_count')
company_grouped_df['year_month'] = company_grouped_df['year_month'].astype(str)

fig = px.line(
    company_grouped_df,
    x='year_month',
    y='posts_count',
    title='회사별 월별 게시글 수',
    labels={'year_month': '날짜', 'posts_count': '게시글 수'}
)
fig.update_layout(
    width = 1200,
    height = 700,
    xaxis_title='날짜',
    yaxis_title='게시글 수',
    xaxis=dict(tickangle=-45)
)
fig.update_yaxes(range=[0, company_grouped_df['posts_count'].max() + 1])

fig.show()

## Django

In [None]:
# Django views.py

# 시각화 관련된 라이브러리 import

def visualization_view(request):
    
    # 그래프 생성(제일 아래 시각화 코드로 사용)
    company_date_df = dummy_df[dummy_df['company'] == '쏘카'][['date', 'company']]
    company_date_df['date'] = pd.to_datetime(company_date_df['date'])
    company_date_df['year_month'] = company_date_df['date'].dt.strftime('%Y-%m')
    company_grouped_df = company_date_df.groupby(['year_month']).size().reset_index(name='posts_count')
    company_grouped_df['year_month'] = company_grouped_df['year_month'].astype(str)

    fig = px.line(
        company_grouped_df,
        x='year_month',
        y='posts_count',
        title='회사별 월별 게시글 수',
        labels={'year_month': '날짜', 'posts_count': '게시글 수'}
    )
    fig.update_layout(
        width = 1200,
        height = 700,
        xaxis_title='날짜',
        yaxis_title='게시글 수',
        xaxis=dict(tickangle=-45)
    )
    fig.update_yaxes(range=[0, company_grouped_df['posts_count'].max() + 1])
    
    # 그래프를 HTML 문자열로 변환
    plot_div = fig.to_html(full_html=False, include_plotlyjs=True)
    
    # 컨텍스트에 plot_div 추가
    return render(request, "my_template.html", context={'plot_div': plot_div})

In [None]:
# Django templets -> html
'''
<!-- template.html -->
<html>
<head>
    <title>Plotly Visualization</title>
</head>
<body>
    <!-- 변환된 그래프 HTML 삽입 -->
    <div>{{ plot_div|safe }}</div>
</body>
</html>
'''