# 목적<br>
- 전국 문화축제, 공연행사 데이터를 통해 컨설팅 목적으로 데이터를 가공하여 시각화 함
#### 목차<br>
    - 원본 데이터 확인
    - 데이터 전처리
    - 데이터 시각화 및 결과 도출

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import font_manager,rc
import folium
import random
import json
from folium import Marker
from folium.plugins import MarkerCluster
from folium.plugins import HeatMap

font_location = "C:\Windows\Fonts\malgun.ttf"
font_name = font_manager.FontProperties(fname=font_location).get_name()
rc('font',family=font_name)
plt.rcParams['axes.unicode_minus'] = False

In [2]:
def open_json(file_name, encoding):
    with open(file_name, encoding=encoding) as json_file: 
        json_object = json.load(json_file)
        json_string = json.dumps(json_object)
        json_data = json.loads(json_string)
    return json_data

In [3]:
json_data = open_json('전국문화축제표준데이터.json','utf-8')
json_data

{'fields': [{'id': '축제명'},
  {'id': '개최장소'},
  {'id': '축제시작일자'},
  {'id': '축제종료일자'},
  {'id': '축제내용'},
  {'id': '주관기관'},
  {'id': '주최기관'},
  {'id': '후원기관'},
  {'id': '전화번호'},
  {'id': '홈페이지주소'},
  {'id': '관련정보'},
  {'id': '소재지도로명주소'},
  {'id': '소재지지번주소'},
  {'id': '위도'},
  {'id': '경도'},
  {'id': '데이터기준일자'},
  {'id': '제공기관코드'},
  {'id': '제공기관명'}],
 'records': [{'축제명': '[SEMI 예천곤충엑스포] 2022예천곤충축제',
   '개최장소': '곤충생태원+예천읍시가지',
   '축제시작일자': '2022-08-06',
   '축제종료일자': '2022-08-15',
   '축제내용': '살아있는 곤충세상 속으로+전시체험+공식행사+학술행사+연계행사',
   '주관기관': '(재)예천문화관광재단',
   '주최기관': '경상북도 예천군',
   '후원기관': '문화체육관광부+경상북도+경상북도 예천군',
   '전화번호': '054-650-6037',
   '홈페이지주소': 'http://www.insect-expo.org/',
   '관련정보': '',
   '소재지도로명주소': '경상북도 예천군 효자면 은풍로 1045',
   '소재지지번주소': '경상북도 예천군 효자면 고항리 577',
   '위도': '36.82443597',
   '경도': '128.4586463',
   '데이터기준일자': '2022-09-08',
   '제공기관코드': '5230000',
   '제공기관명': '경상북도 예천군'},
  {'축제명': '용궁순대축제',
   '개최장소': '용궁면',
   '축제시작일자': '2022-08-13',
   '축제종료일자': '2022-08-14',
   '축제

In [4]:
column_list=[]
all_data=[]
is_first=True
for student in json_data['records']:
    row_data_list=[]
    for key, value in student.items():
        if is_first:
            column_list.append(key)
        row_data_list.append(value)
    all_data.append(row_data_list)
    is_first=False
    
df = pd.DataFrame(all_data, columns=column_list)
df.to_csv('전국문화축제표준데이터.csv',encoding='utf-8')

In [5]:
party = pd.read_csv('전국문화축제표준데이터.csv',encoding='utf-8')
party = party.drop(['후원기관','데이터기준일자','제공기관코드','제공기관명','관련정보'],axis=1)

In [6]:
show = pd.read_csv('전국공연행사정보표준데이터.csv',encoding='cp949')

In [7]:
show.head(1)

Unnamed: 0,행사명,장소,행사내용,행사시작일자,행사종료일자,행사시작시각,행사종료시각,요금정보,주관기관,주최기관,...,홈페이지주소,예매정보,주차장보유여부,소재지도로명주소,소재지지번주소,위도,경도,데이터기준일자,제공기관코드,제공기관명
0,12월 기획연주회 크리스마스에는 축복을,성남아트센터 콘서트홀,공연,2021-12-21,2021-12-21,19:30,23:59,유료,성남시립합창단,성남시립합창단,...,www.snart.or.kr/,http://www.interpark.com,Y,경기도 성남시 분당구 성남대로 808,경기도 성남시 분당구 야탑동 757,37.402956,127.130558,2022-07-26,3780000,경기도 성남시


In [8]:
show.columns

Index(['행사명', '장소', '행사내용', '행사시작일자', '행사종료일자', '행사시작시각', '행사종료시각', '요금정보',
       '주관기관', '주최기관', '전화번호', '후원기관', '객석수', '관람요금', '입장연령', '할인정보', '유의사항',
       '홈페이지주소', '예매정보', '주차장보유여부', '소재지도로명주소', '소재지지번주소', '위도', '경도',
       '데이터기준일자', '제공기관코드', '제공기관명'],
      dtype='object')

In [9]:
show = show.drop(['행사종료시각','요금정보','예매정보','주차장보유여부','데이터기준일자','제공기관코드','제공기관명','입장연령','관람요금','할인정보','유의사항','객석수','행사시작시각'],axis=1)

In [10]:
show.head(3)

Unnamed: 0,행사명,장소,행사내용,행사시작일자,행사종료일자,주관기관,주최기관,전화번호,후원기관,홈페이지주소,소재지도로명주소,소재지지번주소,위도,경도
0,12월 기획연주회 크리스마스에는 축복을,성남아트센터 콘서트홀,공연,2021-12-21,2021-12-21,성남시립합창단,성남시립합창단,031-729-4807,,www.snart.or.kr/,경기도 성남시 분당구 성남대로 808,경기도 성남시 분당구 야탑동 757,37.402956,127.130558
1,2022년 신년음악회,성남아트센터 콘서트홀,공연,2022-01-20,2022-01-20,성남시립교향악단,성남시립교향악단,031-729-4809,,www.snart.or.kr/,경기도 성남시 분당구 성남대로 808,경기도 성남시 분당구 야탑동 757,37.402956,127.130558
2,2월 기획연주회,성남아트센터 콘서트홀,공연,2022-02-10,2022-02-10,성남시립합창단,성남시립합창단,031-729-4807,,www.snart.or.kr/,경기도 성남시 분당구 성남대로 808,경기도 성남시 분당구 야탑동 757,37.402956,127.130558


In [11]:
party.columns

Index(['Unnamed: 0', '축제명', '개최장소', '축제시작일자', '축제종료일자', '축제내용', '주관기관', '주최기관',
       '전화번호', '홈페이지주소', '소재지도로명주소', '소재지지번주소', '위도', '경도'],
      dtype='object')

In [12]:
party.head(3)

Unnamed: 0.1,Unnamed: 0,축제명,개최장소,축제시작일자,축제종료일자,축제내용,주관기관,주최기관,전화번호,홈페이지주소,소재지도로명주소,소재지지번주소,위도,경도
0,0,[SEMI 예천곤충엑스포] 2022예천곤충축제,곤충생태원+예천읍시가지,2022-08-06,2022-08-15,살아있는 곤충세상 속으로+전시체험+공식행사+학술행사+연계행사,(재)예천문화관광재단,경상북도 예천군,054-650-6037,http://www.insect-expo.org/,경상북도 예천군 효자면 은풍로 1045,경상북도 예천군 효자면 고항리 577,36.824436,128.458646
1,1,용궁순대축제,용궁면,2022-08-13,2022-08-14,용궁순대 시식회+체험프로그램+연계행사,예천용궁순대축제추진위원회,경상북도 예천군,054-650-6276,https://www.ycg.kr/open.content/tour/festivals...,,경상북도 예천군 용궁면 읍부리 175-4,36.6063,128.276901
2,2,삼강주막나루터축제,예천삼강문화단지,2022-09-10,2022-09-12,체험 및 소풍 프로그램+무대공연+원도심 연계프로그램,예천문화사업단,경상북도 예천군,054-650-6912,https://www.ycg.kr/open.content/tour/festivals...,경상북도 예천군 풍양면 삼강리길 33,경상북도 예천군 풍양면 삼강리 145,36.56389,128.299296


In [13]:
party.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1060 entries, 0 to 1059
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  1060 non-null   int64  
 1   축제명         1060 non-null   object 
 2   개최장소        1060 non-null   object 
 3   축제시작일자      1060 non-null   object 
 4   축제종료일자      1060 non-null   object 
 5   축제내용        1060 non-null   object 
 6   주관기관        1060 non-null   object 
 7   주최기관        1060 non-null   object 
 8   전화번호        962 non-null    object 
 9   홈페이지주소      624 non-null    object 
 10  소재지도로명주소    963 non-null    object 
 11  소재지지번주소     797 non-null    object 
 12  위도          904 non-null    float64
 13  경도          904 non-null    float64
dtypes: float64(2), int64(1), object(11)
memory usage: 116.1+ KB


In [14]:
party.shape

(1060, 14)

In [15]:
party.isnull().sum()

Unnamed: 0      0
축제명             0
개최장소            0
축제시작일자          0
축제종료일자          0
축제내용            0
주관기관            0
주최기관            0
전화번호           98
홈페이지주소        436
소재지도로명주소       97
소재지지번주소       263
위도            156
경도            156
dtype: int64

In [16]:
party[['위도','경도','소재지지번주소']].isnull().sum()

위도         156
경도         156
소재지지번주소    263
dtype: int64

In [17]:
party.fillna('정보없음',inplace=True)
party = party[party.위도 != '정보없음']

In [18]:
party.isnull().sum()

Unnamed: 0    0
축제명           0
개최장소          0
축제시작일자        0
축제종료일자        0
축제내용          0
주관기관          0
주최기관          0
전화번호          0
홈페이지주소        0
소재지도로명주소      0
소재지지번주소       0
위도            0
경도            0
dtype: int64

In [19]:
party.shape

(904, 14)

In [20]:
party.isnull().sum()

Unnamed: 0    0
축제명           0
개최장소          0
축제시작일자        0
축제종료일자        0
축제내용          0
주관기관          0
주최기관          0
전화번호          0
홈페이지주소        0
소재지도로명주소      0
소재지지번주소       0
위도            0
경도            0
dtype: int64

In [21]:
show.shape

(9901, 14)

In [22]:
show.isnull().sum()

행사명            0
장소             0
행사내용           0
행사시작일자         0
행사종료일자         0
주관기관           0
주최기관           0
전화번호        1733
후원기관        8541
홈페이지주소      1698
소재지도로명주소     116
소재지지번주소     2153
위도           857
경도           857
dtype: int64

In [23]:
show.fillna('정보없음',inplace=True)
show = show[show.위도 != '정보없음']

In [24]:
show_tmp = show[['행사명','장소','주관기관','위도','경도','행사내용','전화번호','소재지지번주소','행사시작일자','홈페이지주소']]
show_tmp.reset_index(inplace=True)

In [25]:
show_tmp = show_tmp.drop(['index'],axis=1)
show_tmp.head(3)

Unnamed: 0,행사명,장소,주관기관,위도,경도,행사내용,전화번호,소재지지번주소,행사시작일자,홈페이지주소
0,12월 기획연주회 크리스마스에는 축복을,성남아트센터 콘서트홀,성남시립합창단,37.402956,127.130558,공연,031-729-4807,경기도 성남시 분당구 야탑동 757,2021-12-21,www.snart.or.kr/
1,2022년 신년음악회,성남아트센터 콘서트홀,성남시립교향악단,37.402956,127.130558,공연,031-729-4809,경기도 성남시 분당구 야탑동 757,2022-01-20,www.snart.or.kr/
2,2월 기획연주회,성남아트센터 콘서트홀,성남시립합창단,37.402956,127.130558,공연,031-729-4807,경기도 성남시 분당구 야탑동 757,2022-02-10,www.snart.or.kr/


In [None]:
show_tmp['시도'] = ''
for i in show_tmp.index:
    show_tmp.iloc[i,10] = show_tmp['소재지지번주소'].str.split()[i][0]

In [None]:
party.reset_index(inplace=True)

In [None]:
party = party.drop(['index'],axis=1)

In [None]:
party.head(5)

In [None]:
party['시도'] = ''
for i in party.index:
    party.iloc[i,14] = party['소재지지번주소'].str.split()[i][0]

In [None]:
party_tmp = party[['축제명','개최장소','위도','경도','축제내용','전화번호','소재지지번주소','축제시작일자','시도','홈페이지주소']]

party_tmp.columns = ['행사명', '장소', '주관기관', '위도', '경도', '행사내용', '전화번호', '소재지지번주소', '시도']

In [None]:
show_tmp = show_tmp.drop(['주관기관'],axis=1)

In [None]:
party_tmp.columns = ['행사명', '장소', '위도', '경도', '행사내용', '전화번호', '소재지지번주소', '행사시작일자', '시도','홈페이지주소']

In [None]:
new_data = pd.concat([show_tmp,party_tmp],axis=0, join='inner')

In [None]:
party_tmp.head(5)

In [None]:
new_data.loc[new_data['홈페이지주소']=='정보없음',:]

In [None]:
new_data.head(5)

In [None]:
new_data.reset_index(inplace=True,drop=True)

In [None]:
for i in new_data.index:
    new_data.iloc[i,7] = new_data['행사시작일자'].str.split('-')[i][1]

In [None]:
new_data.loc[new_data['소재지지번주소'] == '인천광역시중구인현동5','시도'] = '인천광역시'
new_data.loc[new_data['시도'] == '용인시','시도'] = '경기도'
new_data.loc[new_data['시도'] == '경북','시도'] = '경상북도'
new_data = new_data[new_data.시도 != '정보없음']

In [None]:
party_cnt=new_data.groupby('시도')['행사명'].count()

In [None]:
party_cnt3=party_cnt.sort_values(ascending= False)

In [None]:
party_cnt2 = pd.DataFrame(party_cnt)

In [None]:
party_cnt2=party_cnt2.sort_values(by = '행사명', ascending=False )

In [None]:
party_cnt2

In [None]:
colors = sns.color_palette('Blues_r',len(party_cnt2))
explode = (0.01,0.01,0.025,0.05,0.075,0.1,0.2,0.3,0.41,0.52,0.63,0.74,0.85,1,1.2,1.4)
plt.pie(party_cnt2['행사명'], labels=party_cnt2.index,autopct='%.1f%%',explode=explode,colors=colors)
plt.legend(loc=(1.9,0.1))
plt.show()

In [None]:
x=range(0,16)
y = party_cnt2['행사명'].sort_values(ascending=False)

xtick_label_position = list(range(len(x)))    
plt.plot(xtick_label_position, y, color='C4',linestyle='--', marker='^') ## 선 그래프 출력
la=party_cnt3.index.values
plt.bar(x,party_cnt.sort_values(ascending=False),color=colors)
plt.xticks(x, la, rotation = -45)

for i, v in enumerate(x):
    plt.text(v, y[i]+100, y[i],                 # 좌표 (x축 = v, y축 = y[0]..y[1], 표시 = y[0]..y[1])
             fontsize = 9, 
             color='k',
             horizontalalignment='center',  # horizontalalignment (left, center, right)
             verticalalignment='top')    # verticalalignment (top, center, bottom)
plt.show()

In [None]:
party_count = new_data.groupby(['행사시작일자','시도'])['행사명'].count()
party_count = pd.DataFrame(party_count)

In [None]:
party_count = party_count.unstack()

In [None]:
party_count

In [None]:
columns = party_count['행사명'].columns.values
columns

In [None]:
party_count.fillna(0,inplace=True)

In [None]:
party_count.index.values

In [None]:
plt.figure(figsize=(20,20), facecolor='powderblue')
k=1
for i in party_count.index:
    k2=0
    explode = []
    colors2 = []
    for j in range(0,len(party_count['행사명'].columns)):
        if party_count.loc[i,'행사명'][k2] == party_count.loc[i,'행사명'].max():
            explode.append(0.1)
            colors2.append('w')
        else:
            explode.append(0.04)
            colors2.append('c')
        k2=k2+1
    plt.subplot(4,3,k)
    plt.pie(party_count.loc[i,'행사명'], labels=columns,autopct='%.1f%%',explode=explode, colors=colors2)
    plt.title(f'{i}월 행사 빈도',pad=10)
    k=k+1
plt.show()

In [None]:
# from folium import plugins
# from folium.plugins import HeatMap

m4 = folium.Map(location=[36, 127], zoom_start=8,
                tiles = 'Cartodb Positron')

# heat_df = target_df[['Y', 'X']]
heat_df = party_tmp[['위도', '경도']]

# List comprehension to make out list of lists
heat_data = [[row['위도'],row['경도']] for index, row in heat_df.iterrows()]

# Plot it on the map
HeatMap(heat_data).add_to(m4)

# Display the map
m4

In [None]:
party_cnt.index = ['Gangwon-do', 'Gyeonggi-do', 'Gyeongsangnam-do', 'Gyeongsangbuk-do', 'Gwangju', 'Daegu', 'Daejeon', 'Busan',
       'Seoul', 'Ulsan', 'Incheon', 'Jeollanam-do', 'Jeollabuk-do', 'Jeju', 'Chungcheongnam-do', 'Chungcheongbuk-do']

m3 = folium.Map(location=[37.55, 126.98], zoom_start=7, tiles='cartodbpositron')

with open('skorea-provinces-geo.json' , mode='rt', encoding='utf-8') as f:
   geo = json.loads(f.read())
   f.close()
  
folium.GeoJson(geo, name='seoul').add_to(m3)

m3.choropleth(geo_data=geo,
              data=party_cnt,
              fill_opacity=0.5,
              line_opacity=0.2,
              key_on='feature.properties.NAME_1',
              fill_color='BuPu',legend_name="지역구별 행사" )
m3

In [None]:
m2 = folium.Map(location=[35.74, 127.77],
               zoom_start=7, 
#                width=750, 
#                height=650,
            tiles='Stamen Terrain'
              )
# coords = new_data[['위도','경도','행사명','전화번호']]
coords = party_tmp[['위도','경도','행사명','전화번호']]

marker_cluster = MarkerCluster().add_to(m2)
for lat, long, name, tel in zip(coords['위도'], coords['경도'], coords['행사명'], coords['전화번호']):
    folium.Marker([lat, long],tooltip=name, icon = folium.Icon(color="green")).add_to(marker_cluster)
m2

In [None]:
input_month = input('조회할 월을 입력 하세요 : ')
m2 = folium.Map(location=[36.44, 127.77],
               zoom_start=7, 
#                width=800, 
#                height=570,
                tiles='Stamen Toner'
              )
coords = new_data[['위도','경도','행사명','전화번호','행사시작일자','행사내용','홈페이지주소']]
for lat, long, name, tel, month,comment,page in zip(coords['위도'], coords['경도'], coords['행사명'], coords['전화번호'],
                                               coords['행사시작일자'],coords['행사내용'],coords['홈페이지주소']):
    html = """<!DOCTYPE html>
    <table width="240" height="50">
    <tr><h5><b>{}""".format(name) + """</b></h5></tr>
    <tr><td><b>전화번호</b></td><td>{}</td>""".format(tel) + """</tr>
    <tr><td><b>행사내용</b></td><td>{}</td>""".format(comment) + """</tr>
    <tr><td><b>홈페이지</b></td><td><a href="{}">{}""".format(page,page) + """</a></td></tr>
    </table>"""
    if (month == input_month) or (input_month == 'all'):
        folium.Marker([lat, long], popup=html, tooltip=name, icon = folium.Icon(color="red", icon='bookmark')).add_to(m2)
        
m2