In [1]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import plotly.express as px

In [2]:
# 그래프 한글 출력
matplotlib.rcParams['font.family'] ='Malgun Gothic'

# warning 제거
import warnings
warnings.filterwarnings('ignore')

In [3]:
# 해법수학 지점 데이터

hme = pd.read_csv('./data/hme_preprocessed.csv')

In [4]:
# 사교육비 데이터
# 2014~2021년만

edu = pd.read_csv('./data/시도별__학생_1인당_월평균_사교육비.csv', encoding = 'cp949')

# 불필요한 데이터 정리
edu = edu.drop(index = [0, 1])

edu1 = edu.iloc[:, 0]
edu2 = edu.iloc[:, 6:-1]

edu = pd.concat([edu1, edu2], axis = 1)

# 시도별 컬럼 띄어쓰기 없애기
edu['시도별'] = edu['시도별'].apply(lambda x: x.replace(' ', ''))

# 저장
edu.to_csv('./data/시도별_학생_1인당_월평균_사교육비.csv', index = False)

필요한 데이터 로드

In [5]:
# 2014-2021 시.도별 1인당 개인소득
grdp = pd.read_csv('./data/시도별_1인당_개인소득.csv')

# 2014-2021 시.도별 학생 1인당 월평균 사교육비
edu = pd.read_csv('./data/시도별_학생_1인당_월평균_사교육비.csv')

### 3D plot 
- 연도 / 1인당 개인소득 / 1인당 사교육비

##### 연도를 그래프로 이용하기 쉽도록 DF 변환
- 연도별 1인당 개인소득 데이터

In [6]:
grdp

Unnamed: 0,시도별,2014,2015,2016,2017,2018,2019,2020,2021
0,서울,19832,20857,21295,22237,23323,23978,24226,25256
1,부산,16147,17044,17525,18189,18868,19723,20460,21352
2,대구,16031,17226,17848,18350,18555,19196,20229,21046
3,인천,15507,16598,17222,17884,18659,19582,20310,21317
4,광주,16225,17459,18232,18926,19868,20791,21591,22472
5,대전,16946,18229,18741,19314,19649,20648,21707,22730
6,울산,20142,21348,21422,21956,21655,22617,23863,25165
7,세종,22944,21957,21000,21404,20990,20674,21407,22061
8,경기,16969,18069,18611,19375,19907,20746,21220,21937
9,강원,15152,16311,16798,17484,18450,19174,20267,21038


In [7]:
grdp_TP = pd.DataFrame()

for idx, column in enumerate(grdp):
    if idx == 0:
        continue
    df = grdp.iloc[:, [0, idx]]
    df.columns = ['시도별','1인당_개인소득(천 원)']
    df['year'] = column
    grdp_TP = pd.concat([grdp_TP, df])

In [8]:
grdp_TP

Unnamed: 0,시도별,1인당_개인소득(천 원),year
0,서울,19832,2014
1,부산,16147,2014
2,대구,16031,2014
3,인천,15507,2014
4,광주,16225,2014
...,...,...,...
12,전북,20862,2021
13,전남,20881,2021
14,경북,20667,2021
15,경남,20650,2021


- 연도별 1인당 사교육비 데이터 합치기

In [9]:
edu_TP = pd.DataFrame()

for idx, column in enumerate(edu):
    if idx == 0:
        continue
    df = edu.iloc[:, [0, idx]]
    df.columns = ['시도별','1인당_사교육비(만 원)']
    edu_TP = pd.concat([edu_TP, df])

In [10]:
grdp_TP['1인당_사교육비(만 원)'] = edu_TP['1인당_사교육비(만 원)']

In [11]:
grdp_TP

Unnamed: 0,시도별,1인당_개인소득(천 원),year,1인당_사교육비(만 원)
0,서울,19832,2014,34.9
1,부산,16147,2014,26.8
2,대구,16031,2014,26.7
3,인천,15507,2014,22.6
4,광주,16225,2014,27.3
...,...,...,...,...
12,전북,20862,2021,30.0
13,전남,20881,2021,25.6
14,경북,20667,2021,31.6
15,경남,20650,2021,29.8


- 3D scatter plot 그리기

In [12]:
fig = px.scatter_3d(grdp_TP, x='year', y='1인당_개인소득(천 원)', z='1인당_사교육비(만 원)', 
                    color='시도별', width=640, height=480,
                    size_max=18, opacity=0.7)
fig.show()

### 2D plot
- 지역별 인구수 및 지점수
- 지역별 1인당 사교육비 및 10만명 당 지점 수
- 지역별 1인당 개인소득 및 10만명 당 지점 수

##### 2021년 기준으로 데이터 정리

In [13]:
df2021 = grdp_TP[grdp_TP['year'] == '2021']

In [14]:
df2021

Unnamed: 0,시도별,1인당_개인소득(천 원),year,1인당_사교육비(만 원)
0,서울,25256,2021,52.6
1,부산,21352,2021,42.1
2,대구,21046,2021,42.2
3,인천,21317,2021,38.9
4,광주,22472,2021,37.4
5,대전,22730,2021,35.3
6,울산,25165,2021,34.0
7,세종,22061,2021,40.6
8,경기,21937,2021,42.2
9,강원,21038,2021,28.9


In [15]:
# year 컬럼 제거
df2021 = df2021.drop(columns = 'year')

# 시도별 컬럼 기준으로 정렬
df2021_sorted = df2021.sort_values(by = '시도별').reset_index(drop=True)

# 지역별 지점 수 컬럼 합치기
df2021_sorted['지점수'] = hme.groupby('시도').size().to_frame().reset_index()[0]

In [16]:
df2021_sorted

Unnamed: 0,시도별,1인당_개인소득(천 원),1인당_사교육비(만 원),지점수
0,강원,21038,28.9,48
1,경기,21937,42.2,861
2,경남,20650,29.8,159
3,경북,20667,31.6,123
4,광주,22472,37.4,46
5,대구,21046,42.2,85
6,대전,22730,35.3,35
7,부산,21352,42.1,155
8,서울,25256,52.6,386
9,세종,22061,40.6,25


##### 인구수 데이터
- 데이터 전처리

In [17]:
# 데이터 로드
pop2021 = pd.read_csv('./data/시도별_인구_2021.csv', encoding = 'cp949')

# 불필요한 행 정리
pop2021 = pop2021.drop(index = 0).reset_index(drop=True).rename(columns={'행정구역별(읍면동)':'시도별'})

# 시도별 컬럼 기준으로 정렬
pop2021 = pop2021.sort_values(by = '시도별').reset_index(drop=True)

- 인구수 데이터 합치기

In [18]:
df2021_sorted['인구수'] = pop2021['2021']

df2021_sorted['인구수'] = df2021_sorted['인구수'].apply(lambda x: int(x))

In [19]:
df2021_sorted

Unnamed: 0,시도별,1인당_개인소득(천 원),1인당_사교육비(만 원),지점수,인구수
0,강원,21038,28.9,48,1521890
1,경기,21937,42.2,861,13652529
2,경남,20650,29.8,159,3305931
3,경북,20667,31.6,123,2635314
4,광주,22472,37.4,46,1475262
5,대구,21046,42.2,85,2387911
6,대전,22730,35.3,35,1479740
7,부산,21352,42.1,155,3324335
8,서울,25256,52.6,386,9472127
9,세종,22061,40.6,25,366227


In [20]:
df2021_sorted['인구대비_지점수'] = df2021_sorted['지점수'] / (df2021_sorted['인구수']/100000)

In [21]:
df2021_sorted = df2021_sorted.rename(columns = {'인구대비_지점수':'10만명당_지점수'})

In [22]:
df2021_sorted

Unnamed: 0,시도별,1인당_개인소득(천 원),1인당_사교육비(만 원),지점수,인구수,10만명당_지점수
0,강원,21038,28.9,48,1521890,3.153973
1,경기,21937,42.2,861,13652529,6.306524
2,경남,20650,29.8,159,3305931,4.809538
3,경북,20667,31.6,123,2635314,4.667376
4,광주,22472,37.4,46,1475262,3.11809
5,대구,21046,42.2,85,2387911,3.559597
6,대전,22730,35.3,35,1479740,2.36528
7,부산,21352,42.1,155,3324335,4.662587
8,서울,25256,52.6,386,9472127,4.075114
9,세종,22061,40.6,25,366227,6.826367


In [23]:
fig = px.scatter(df2021_sorted, x = '인구수', y = '지점수', trendline="ols")

fig.show()

In [24]:
fig = px.scatter(df2021_sorted, x = '1인당_사교육비(만 원)', y = '10만명당_지점수', trendline="ols")

fig.show()

In [25]:
fig = px.scatter(df2021_sorted, x = '1인당_개인소득(천 원)', y = '10만명당_지점수', trendline="ols")

fig.show()

In [26]:
df2021_sorted

Unnamed: 0,시도별,1인당_개인소득(천 원),1인당_사교육비(만 원),지점수,인구수,10만명당_지점수
0,강원,21038,28.9,48,1521890,3.153973
1,경기,21937,42.2,861,13652529,6.306524
2,경남,20650,29.8,159,3305931,4.809538
3,경북,20667,31.6,123,2635314,4.667376
4,광주,22472,37.4,46,1475262,3.11809
5,대구,21046,42.2,85,2387911,3.559597
6,대전,22730,35.3,35,1479740,2.36528
7,부산,21352,42.1,155,3324335,4.662587
8,서울,25256,52.6,386,9472127,4.075114
9,세종,22061,40.6,25,366227,6.826367


In [27]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go




fig = make_subplots(rows = 3, cols = 1)

fig.add_trace(go.Scatter(x = df2021_sorted['인구수'], y = df2021_sorted['지점수'], mode='markers'),
              row = 1, col = 1)

fig.add_trace(go.Scatter(x = df2021_sorted['1인당_사교육비(만 원)'], y = df2021_sorted['10만명당_지점수'], mode='markers'),
              row = 2, col = 1)

fig.add_trace(go.Scatter(x = df2021_sorted['1인당_개인소득(천 원)'], y = df2021_sorted['10만명당_지점수'], mode='markers'),
              row = 3, col = 1)

fig.update_layout(height=800, width=1000)
fig.update_xaxes(title_text='인구 수', row=1, col=1)
fig.update_yaxes(title_text='지점 수', row=1, col=1)
fig.update_xaxes(title_text='1인당_사교육비(만 원)', row=2, col=1)
fig.update_yaxes(title_text='10만명당_지점수', row=2, col=1)
fig.update_xaxes(title_text='1인당_개인소득(천 원)', row=3, col=1)
fig.update_yaxes(title_text='10만명당_지점수', row=3, col=1)

fig.show()

##### 상관계수 검정

In [28]:
import scipy.stats as stats
stats.spearmanr(df2021_sorted['인구수'],df2021_sorted['지점수'])

SignificanceResult(statistic=0.985294117647059, pvalue=6.341615043472023e-13)

In [29]:
stats.spearmanr(df2021_sorted['1인당_사교육비(만 원)'],df2021_sorted['10만명당_지점수'])

SignificanceResult(statistic=0.4488044988263006, pvalue=0.07075248072667742)

In [30]:
stats.spearmanr(df2021_sorted['1인당_개인소득(천 원)'],df2021_sorted['10만명당_지점수'])

SignificanceResult(statistic=-0.03186274509803922, pvalue=0.9033768447188891)

### 22년 시군구별 인구 수 대비 지점 수

In [66]:
pop_2022 = pd.read_csv('./data/시군구/시군구_인구_2022.csv', encoding = 'cp949').drop(index = [0,1]).reset_index(drop=True)

In [67]:
pop_2022

Unnamed: 0,행정구역(시군구)별,2022
0,종로구,140477
1,중구,119206.5
2,용산구,215891
3,성동구,280685
4,광진구,335712.5
...,...,...
224,함양군,37851
225,거창군,60550.5
226,합천군,42252.5
227,제주시,490397


In [68]:
pop_2022['시도'] = 0

In [69]:
pop_2022['시도'][:25] = '서울'
pop_2022['시도'][25:41] = '부산'
pop_2022['시도'][41:49] = '대구'
pop_2022['시도'][49:59] = '인천'
pop_2022['시도'][59:64] = '광주'
pop_2022['시도'][64:69] = '대전'
pop_2022['시도'][69:74] = '울산'
pop_2022['시도'][74:75] = '세종'
pop_2022['시도'][75:106] = '경기'
pop_2022['시도'][106:124] = '강원'
pop_2022['시도'][124:135] = '충북'
pop_2022['시도'][135:150] = '충남'
pop_2022['시도'][150:164] = '전북'
pop_2022['시도'][164:186] = '전남'
pop_2022['시도'][186:209] = '경북'
pop_2022['시도'][209:227] = '경남'
pop_2022['시도'][227:] = '제주'

In [70]:
pop_2022

Unnamed: 0,행정구역(시군구)별,2022,시도
0,종로구,140477,서울
1,중구,119206.5,서울
2,용산구,215891,서울
3,성동구,280685,서울
4,광진구,335712.5,서울
...,...,...,...
224,함양군,37851,경남
225,거창군,60550.5,경남
226,합천군,42252.5,경남
227,제주시,490397,제주


In [71]:
# 통합창원시로 변경된 도시명을 창원시로.
pop_2022['행정구역(시군구)별'] = pop_2022['행정구역(시군구)별'].apply(lambda x: '창원시' if x == '통합창원시' else  x)

# 컬럼명 변경
pop_2022 = pop_2022.rename(columns = {'행정구역(시군구)별':'시군구', '2022': '인구'})

# 시도명과 시군구명을 합친 지역 컬럼 생성
pop_2022['지역'] = pop_2022['시도'] + ' ' + pop_2022['시군구']

In [72]:
# 컬럼 순서 변경
pop_2022 = pop_2022[['시도','시군구','지역','인구']]

# 인구에 소수 제거
pop_2022['인구'] = pop_2022['인구'].apply(lambda x: round(float(x)))

In [73]:
pop_2022

Unnamed: 0,시도,시군구,지역,인구
0,서울,종로구,서울 종로구,140477
1,서울,중구,서울 중구,119206
2,서울,용산구,서울 용산구,215891
3,서울,성동구,서울 성동구,280685
4,서울,광진구,서울 광진구,335712
...,...,...,...,...
224,경남,함양군,경남 함양군,37851
225,경남,거창군,경남 거창군,60550
226,경남,합천군,경남 합천군,42252
227,제주,제주시,제주 제주시,490397


In [74]:
hme2 = hme.copy()

In [75]:
for i in range(len(hme2)):
    if hme2['시도'][i] == '세종':
        hme2['시군구'][i] = '세종시'
    else:
        pass

In [76]:
hme2['지역'] = hme2['시도'] + ' ' + hme2['시군구']
hme2

Unnamed: 0,지점명,주소,시도,시군구,지역
0,효천점,"전북 전주시 완산구 효천중앙로 57 (효자동2가, 모악빌딩)",전북,전주시,전북 전주시
1,효천우미린2차점,전북 전주시 완산구 효천서로 20,전북,전주시,전북 전주시
2,효천연세수학점,전북 전주시 완산구 효천서로 20,전북,전주시,전북 전주시
3,효자포스코,전북 전주시 완산구 봉곡로 132,전북,전주시,전북 전주시
4,효자세븐팰리스점,"전북 전주시 완산구 호암로 75-11 (효자동2가, 7단지아파트상가)",전북,전주시,전북 전주시
...,...,...,...,...,...
2291,sk view,"서울 영등포구 여의대방로35가길 19 (신길동, 보라매 SK VIEW)",서울,영등포구,서울 영등포구
2292,DMC스마트해법학원,서울 서대문구 증가로 150 (남가좌동),서울,서대문구,서울 서대문구
2293,스마트해법수학 왕지점,"전남 순천시 연동남길 39 (조례동, 서영옥머리마당)",전남,순천시,전남 순천시
2294,스마트해법 북아현점,서울 서대문구 북아현동 180-27,서울,서대문구,서울 서대문구


In [77]:
pop_2022['해법수학_지점수'] = 0

In [78]:
for i in range(len(hme2)):
    for j in range(len(pop_2022)):
        if hme2.iloc[i,4] == pop_2022.iloc[j,2]:
            pop_2022.iloc[j, 4] += 1

In [79]:
Competitors = pd.read_csv('./data/경쟁사.csv')

In [80]:
pop_2022['경쟁사_지점수'] = 0

In [81]:
for i in range(len(Competitors)):
    for j in range(len(pop_2022)):
        if Competitors.iloc[i, 3] == pop_2022.iloc[j, 2]:
            pop_2022.iloc[j, 5] += 1

In [82]:
pop_2022

Unnamed: 0,시도,시군구,지역,인구,해법수학_지점수,경쟁사_지점수
0,서울,종로구,서울 종로구,140477,2,1
1,서울,중구,서울 중구,119206,3,0
2,서울,용산구,서울 용산구,215891,4,1
3,서울,성동구,서울 성동구,280685,14,0
4,서울,광진구,서울 광진구,335712,11,5
...,...,...,...,...,...,...
224,경남,함양군,경남 함양군,37851,0,0
225,경남,거창군,경남 거창군,60550,1,1
226,경남,합천군,경남 합천군,42252,0,1
227,제주,제주시,제주 제주시,490397,10,13


In [83]:
pop_hme0 = pop_2022[(pop_2022['해법수학_지점수']==0) & (pop_2022['경쟁사_지점수']!=0)]

In [84]:
pop_hme0

Unnamed: 0,시도,시군구,지역,인구,해법수학_지점수,경쟁사_지점수
71,울산,동구,울산 동구,152418,0,7
82,경기,동두천시,경기 동두천시,91671,0,2
104,경기,가평군,경기 가평군,61879,0,1
110,강원,태백시,강원 태백시,39892,0,1
112,강원,삼척시,강원 삼척시,63242,0,1
120,강원,양구군,강원 양구군,21516,0,2
121,강원,인제군,강원 인제군,32134,0,2
136,충남,공주시,충남 공주시,102482,0,2
137,충남,보령시,충남 보령시,97494,0,3
145,충남,서천군,충남 서천군,50170,0,1


In [85]:
fig = px.scatter(pop_2022, x = '인구', y = '해법수학_지점수', trendline = 'ols')

fig.show()

In [86]:
fig = px.scatter(pop_2022, x = '인구', y = '경쟁사_지점수', trendline = 'ols')

fig.show()

In [87]:
stats.shapiro(pop_2022['인구'])

ShapiroResult(statistic=0.8189647197723389, pvalue=1.2914938986890892e-15)

In [88]:
stats.spearmanr(pop_2022['인구'],pop_2022['해법수학_지점수'])

SignificanceResult(statistic=0.8944944965180148, pvalue=2.562236091716654e-81)

In [89]:
stats.spearmanr(pop_2022['인구'],pop_2022['경쟁사_지점수'])

SignificanceResult(statistic=0.7782256948465996, pvalue=9.23745330663562e-48)

### 두 상관관계 간에 유의미한 차이가 있는가?

In [90]:
r1 = stats.spearmanr(pop_2022['인구'],pop_2022['해법수학_지점수'])[0]
r2 = stats.spearmanr(pop_2022['인구'],pop_2022['경쟁사_지점수'])[0]

##### Fisher Transformation

In [91]:
def fishertransform(r):
    return 0.5 * np.log((1 + r) / (1 - r))

In [92]:
r1f = fishertransform(r1)
r2f = fishertransform(r2)

In [93]:
r1f, r2f

(1.4439721041071314, 1.0408555621076732)

##### Fisher Transformation 결과를 통해 Z-test

In [94]:
n1 = len(pop_2022)
n2 = len(pop_2022)

In [95]:
def z_test(r1f, r2f, n1, n2):
    return (r1f - r2f) / np.sqrt((1 / (n1 - 3)) + (1 / (n2 - 3)))

In [96]:
z = z_test(r1f, r2f, n1, n2)

In [97]:
print(z)

4.285187620979612


##### Z값 통해서 p-value 구하기

In [98]:
# importing packages
import scipy.stats
  
# finding p-value
p_value = scipy.stats.norm.sf(abs(z))
print('p value is : ' + str(p_value))

p value is : 9.129251660567152e-06
