In [4]:
### 라이브러리 호출

from matplotlib import font_manager, rc
import matplotlib
import matplotlib.pyplot as plt
import plotly.graph_objs as go
import plotly.express as px
import seaborn as sns
import pandas as pd
import numpy as np
import platform
import re

In [5]:
### 한글 폰트 설정

import platform
from matplotlib import font_manager, rc

if platform.system() == 'Windows':  # 현재 운영체제가 Windows인 경우
    # 폰트 파일 경로를 지정
    # 해당 폰트 파일의 이름 호출
    font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf"
                                            ).get_name()
    # 폰트 이름과 크기를 설정
    rc('font', family=font_name, size=8)
    plt.rcParams['axes.unicode_minus'] = False

<hr>

<h2>2021. 하반기 시도별 공장면적(제조업설비 현황) 그래프 시각화</h2>

In [10]:
### 공장면적 데이터 DataFrame Load

df = pd.read_csv("2010_2021_반기별_시도별_건축면적_제조부대시설.csv", encoding="cp949")
df

Unnamed: 0,시도별,2010.1/2,2010.2/2,2011.1/2,2011.2/2,2012.1/2,2012.2/2,2013.1/2,2013.2/2,2014.1/2,...,2017.1/2,2017.2/2,2018.1/2,2018.2/2,2019.1/2,2019.2/2,2020.1/2,2020.2/2,2021.1/2,2021.2/2
0,시도별,합계,합계,합계,합계,합계,합계,합계,합계,합계,...,합계,합계,합계,합계,합계,합계,합계,합계,합계,합계
1,계,140132,142580,146176,149271,152026,154023,156928,161709,163822,...,184736,187106,189374,192244,194545,196251,195357,197420,200035,202146
2,서울특별시,10188,10377,10549,10618,10675,10689,10837,11024,10604,...,11546,11460,11584,11697,11688,11557,11550,11657,11651,11632
3,부산광역시,8215,8348,8550,8732,8972,8939,9190,9538,9762,...,10793,10669,10333,10435,10353,10378,10393,10506,10667,10729
4,대구광역시,6152,6351,6553,6618,6816,6937,7094,7263,7372,...,8181,8036,7931,8025,7980,8059,8013,8096,8203,8251
5,인천광역시,9140,9255,9509,9676,9744,9680,9621,9878,9998,...,11220,11466,11536,11690,11984,12057,12200,12199,12492,12616
6,광주광역시,3025,3059,3176,3245,3353,3454,3456,3594,3622,...,4366,4466,4543,4504,4542,4592,4256,4370,4435,4504
7,대전광역시,1924,2001,2077,2138,2182,2254,2266,2348,2348,...,2747,2828,2903,2982,3028,3136,3117,3257,3359,3469
8,울산광역시,1978,2028,2096,2136,2203,2272,2293,2366,2389,...,2729,2774,2820,2857,2882,2866,2839,2901,2925,2959
9,세종특별자치시,-,-,-,-,-,626,658,677,690,...,766,775,781,787,799,802,787,760,762,774


In [35]:
### 본 데이터는 기간 설정이 반기임.
# 우선 지역별 면적 자체가 중요하므로 합계는 반영하지 않음.

df_drop1 = df.drop([0,1])
df_reind1 = df_drop1.reset_index()
df_drop2 = df_reind1.drop("index", axis=1)
df_set = df_drop2.set_index('시도별')
df_reind2 = df_set.reset_index()
df_reind2.columns

Index(['시도별', '2010.1/2', '2010.2/2', '2011.1/2', '2011.2/2', '2012.1/2',
       '2012.2/2', '2013.1/2', '2013.2/2', '2014.1/2', '2014.2/2', '2015.1/2',
       '2015.2/2', '2016.1/2', '2016.2/2', '2017.1/2', '2017.2/2', '2018.1/2',
       '2018.2/2', '2019.1/2', '2019.2/2', '2020.1/2', '2020.2/2', '2021.1/2',
       '2021.2/2'],
      dtype='object')

In [40]:
### 이 시점에서 2010 ~ 2021 기간 전체를 반영할 필요가 있는지 고민하였고,
# 공장면적은 사실상 줄어들기 어렵다는 점을 감안하여 2021. 하반기의 '현황'을 확인하는 것이 나으리라 판단함.
# 이유 : 본 데이터 분석은 "제조업이 활성화된 지역의 전력소비량이 상대적으로 높을 것이다"라는 가설을 검증하기 위한 것이므로.

df_2021 = df_reind2.drop({'2010.1/2', '2010.2/2', '2011.1/2', '2011.2/2', '2012.1/2',
       '2012.2/2', '2013.1/2', '2013.2/2', '2014.1/2', '2014.2/2', '2015.1/2',
       '2015.2/2', '2016.1/2', '2016.2/2', '2017.1/2', '2017.2/2', '2018.1/2',
       '2018.2/2', '2019.1/2', '2019.2/2', '2020.1/2', '2020.2/2', '2021.1/2'}, axis=1)
df_fact1 = df_2021.rename(columns={'2021.2/2' : '공장면적'})
df_fact1

Unnamed: 0,시도별,공장면적
0,서울특별시,11632
1,부산광역시,10729
2,대구광역시,8251
3,인천광역시,12616
4,광주광역시,4504
5,대전광역시,3469
6,울산광역시,2959
7,세종특별자치시,774
8,경기도,72189
9,강원도,3846


In [41]:
# 관광객 column의 데이터타입을 object에서 int32로 변경
df_fact = df_fact1.astype({'공장면적':'int32'})
df_fact.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   시도별     17 non-null     object
 1   공장면적    17 non-null     int32 
dtypes: int32(1), object(1)
memory usage: 332.0+ bytes


<h3> 전력소비량 데이터 추출</h3>

In [54]:
### 전력소비량 csv파일 로드
df_elec = pd.read_csv('201001_202112_월별_시도별_전력사용량.csv')
df_elec.columns

Index(['Unnamed: 0', '연도', '시도', '1월', '2월', '3월', '4월', '5월', '6월', '7월',
       '8월', '9월', '10월', '11월', '12월'],
      dtype='object')

In [55]:
df_elec[{'연도' : 2021}]

TypeError: Passing a dict as an indexer is not supported. Use a list instead.

In [44]:
# 연도 column을 기준으로 그룹화, 동시에 평균값을 dataframe에 출력
df_group = df_drop11.groupby('연도').mean()
df_mean = df_group.T # 행렬변환
df_mean

연도,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
1월,2335103.0,2535240.0,2498216.0,2616024.0,2574024.0,2671959.0,2625319.0,2658644.0,2844805.0,2861434.0,2725112.0,2867974.0
2월,2188708.0,2343108.0,2465632.0,2411552.0,2423945.0,2459326.0,2562954.0,2613082.0,2749987.0,2609034.0,2617551.0,2658115.0
3월,2091419.0,2260802.0,2371065.0,2323784.0,2389529.0,2403517.0,2485011.0,2503443.0,2525663.0,2534628.0,2521800.0,2533786.0
4월,2115786.0,2218604.0,2263786.0,2294385.0,2309050.0,2356720.0,2360203.0,2400651.0,2472501.0,2496506.0,2380894.0,2464687.0
5월,1988779.0,2085555.0,2139747.0,2203519.0,2198684.0,2227999.0,2249152.0,2279053.0,2384145.0,2394589.0,2254566.0,2402487.0
6월,1989683.0,2102778.0,2152759.0,2197991.0,2226014.0,2254742.0,2333418.0,2333686.0,2414450.0,2389401.0,2338405.0,2472463.0
7월,2090517.0,2193162.0,2243204.0,2304199.0,2352646.0,2316382.0,2387664.0,2541676.0,2589997.0,2527423.0,2474575.0,2704223.0
8월,2191269.0,2256481.0,2346241.0,2391003.0,2354869.0,2466411.0,2612461.0,2667867.0,2913653.0,2797555.0,2623483.0,2878233.0
9월,2131955.0,2168204.0,2227551.0,2281235.0,2244794.0,2335535.0,2423760.0,2490357.0,2572296.0,2567605.0,2653576.0,2636405.0
10월,1973165.0,2094313.0,2052624.0,2173317.0,2224439.0,2203005.0,2267599.0,2256988.0,2351616.0,2389578.0,2297959.0,2461072.0


In [45]:
df_mean.columns

Index([2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021], dtype='int64', name='연도')

In [46]:
df_reset = df_mean.reset_index()

In [47]:
# 데이터를 세로로 이어붙이기(melt 사용)
df_melt = pd.melt(df_reset,
                    id_vars=['index'],
                    value_vars=[2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021])
df_melt

Unnamed: 0,index,연도,value
0,1월,2010,2.335103e+06
1,2월,2010,2.188708e+06
2,3월,2010,2.091419e+06
3,4월,2010,2.115786e+06
4,5월,2010,1.988779e+06
...,...,...,...
139,8월,2021,2.878233e+06
140,9월,2021,2.636405e+06
141,10월,2021,2.461072e+06
142,11월,2021,2.519389e+06


In [48]:
# 연도 column 삭제
df_drop22 = df_melt.drop('연도', axis=1)
df_type = df_drop22.astype({'value':'int64'})

In [49]:
df_type = df_type.rename(columns={'index':'기간', 'value':'전력소비량'})
df_type # 전력소비량 변수

Unnamed: 0,기간,전력소비량
0,1월,2335102
1,2월,2188707
2,3월,2091419
3,4월,2115785
4,5월,1988778
...,...,...
139,8월,2878232
140,9월,2636404
141,10월,2461071
142,11월,2519389


In [50]:
### 두 데이터프레임 합치기

df_con1 = df_type.rename(columns={'index' : '기간', 'value' : '전력소비량'}, inplace=False)
df_con2 = df_con1['전력소비량']
result = pd.concat([df_astype,df_con2],axis=1)
result ### 시각화 대상 변수

NameError: name 'df_astype' is not defined

<hr>

<h1>평균 전력소비량 추이 VS 입국 관광객 추이 시각화</h1>

In [None]:
# 그래프 크기 설정
plt.figure(figsize=(19, 6))

# 데이터프레임을 이용하여 그래프 그리기
plt.plot(df_type["전력소비량"], marker='o', markersize=1)

# y축에 그리드 추가
plt.grid(axis='y', linestyle='-', alpha=0.5)

# 그래프 범례를 그래프 밖에 위치
plt.legend(df_type.columns, loc='center left', bbox_to_anchor=(1, 0.5))

# 그래프 제목 설정
plt.title('평균 전력소비량')

# x축 레이블 설정
plt.xlabel('2010 ~ 2021')

# y축 레이블 설정
# plt.ylabel('')

# x, y축 범위 자동으로 설정
plt.autoscale(axis='x', tight=True)
plt.autoscale(axis='y', tight=True)

# 그래프 출력
plt.show()

In [None]:
# 그래프 크기 설정
plt.figure(figsize=(19, 6))

# 데이터프레임을 이용하여 그래프 그리기
plt.plot(df_astype["관광객"], marker='o', markersize=1)

# y축에 그리드 추가
plt.grid(axis='y', linestyle='-', alpha=0.5)

# 그래프 범례를 그래프 밖에 위치
plt.legend(df_astype.columns, loc='center left', bbox_to_anchor=(1, 0.5))

# 그래프 제목 설정
plt.title('입국 관광객 수')

# x축 레이블 설정
plt.xlabel('2010 ~ 2021')

# y축 레이블 설정
# plt.ylabel('')

# x, y축 범위 자동으로 설정
plt.autoscale(axis='x', tight=True)
plt.autoscale(axis='y', tight=True)

# 그래프 출력
plt.show()

In [None]:
plt.rcParams['font.family'] = 'Malgun Gothic'  
plt.rcParams['font.size'] = 15
plt.rcParams['axes.unicode_minus']=False

In [None]:
fig, ax1 = plt.subplots(figsize=(15,6),nrows=1,ncols=1)

color_1 = 'tab:blue'
ax1.set_title('2010~2021 평균 전력소비량 대비 입국 관광객 수', fontsize=12)
ax1.set_xlabel('기간')
ax1.set_ylabel('전력소비량', fontsize=12, color=color_1)
ax1.plot(result.index, result.전력소비량 , marker='o', color=color_1,linewidth=3)
ax1.tick_params(axis='y', labelcolor=color_1)


ax2 = ax1.twinx() 
color_2 = 'tab:red'
ax2.set_ylabel('입국 관광객 수', fontsize=12, color=color_2)
ax2.plot(result.index, result.관광객, marker='o', color=color_2,linewidth=3)
ax2.tick_params(axis='y', labelcolor=color_2)

fig.tight_layout()
plt.show()

위 그래프에서 입국 관광객 수가 급격하게 줄어드는 시점 = 코로나19 판데믹이 시작된 시점과 일치
But, 이 그래프만으로는 입국 관광객 수가 국내 전체 전력소비량에 '절대적인' 영향을 미친다고 보기는 어려울 듯 함.