# 다변량 데이터 분석 시나리오

## 분석 주제:
- 해법수학이 진짜로 잘나가는 이유가 무엇인가 분석
- 해법수학 벤치마킹
- 해법수학과 경쟁사를 비교 분석
- 향후 해법수학이 들어가면 좋을 입지 지역 선택
## 분석 목표:
- 다변량 시각화를 한다.
- 향후 추세 예측을 한다.
- 경쟁사와 비교 분석을 한다.
## 사용 데이터:
1. 해법수학 입지 정보 :크롤링
1. 푸르넷, 한솔플러스 입지 정보: 크롤링
2. 지역별 소득 수준: 통계청 데이터
3. 지역별 사교육비 지출 현황: 통계청 데이터
## 제출 양식:
- 보고서
    - 입력 데이터 및 처리방법 안내
    - 데이터 시각화 자료
    - 검정값을 포함 (선택사항) 한 추세 예측 결과와 이에 대한 견해
    - 경쟁사 정보를 이용한 분석 리포트 (팀별 중복 없게) -> <b>푸르넷, 한솔플러스수학교실</b>
    - 재현이 가능한 작성 코드 (GitHub 링크 첨부, 크롤링 결과 데이터는 첨부x)
- 발표자료 ppt 파일
## 마감 기한:
- 8/11 금요일 오후 4시 20분

### 3차원 산점도 그려보기
- 지역별 지점수, 소득수준, 사교육비 지출 현황 

#### 전처리

In [11]:
import pandas as pd
import numpy as np

In [12]:
df1 = pd.read_csv('./data/(최종)해법수학결과.csv')
df2 = pd.read_csv('./data/(최종)미래엔수학결과.csv')
cost = pd.read_csv('./data/시도별_1인당_지역내총생산__지역총소득__개인소득_20230809130801.csv',encoding='cp949')
education = pd.read_csv('./data/학교급_및_시도별__학생_1인당_월평균_사교육비_20230809151542.csv',encoding='cp949')

## 미래엔 데이터 전처리

In [13]:
df2['지역']=df2['주소'].apply(lambda x: x[0:2])

In [14]:
df2['지역'].value_counts()

경기    378
서울    111
경남     88
인천     69
부산     60
충남     57
대구     55
경북     45
전남     41
전북     35
충북     32
제주     19
대전     17
울산     16
광주     16
강원     12
용인      2
김해      2
오산      1
2층      1
큐엘      1
대영      1
동구      1
충청      1
세종      1
북구      1
남동      1
사천      1
양산      1
더올      1
Name: 지역, dtype: int64

In [15]:
# 주소가 이상한 행들은 다 삭제
df2.drop(df2[df2['지역'] == '용인'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '김해'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '2층'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '큐엘'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '대영'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '동구'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '충청'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '북구'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '남동'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '사천'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '양산'].index,axis=0, inplace=True)
df2.drop(df2[df2['지역'] == '더올'].index,axis=0, inplace=True)

In [17]:
df2['지역'].value_counts()

경기    378
서울    111
경남     88
인천     69
부산     60
충남     57
대구     55
경북     45
전남     41
전북     35
충북     32
제주     19
대전     17
광주     16
울산     16
강원     12
오산      1
세종      1
Name: 지역, dtype: int64

In [7]:
df2.drop(df2[df2['지역'] == '오산'].index,axis=0, inplace=True)

In [8]:
num = df2['지역'].value_counts()
num=pd.DataFrame(num)
num.rename(columns={'지역':'지점수(미래엔)'},inplace=True)

In [9]:
# 해법 데이터 전처리

In [10]:
df1['지역']=df1['주소'].apply(lambda x: x[0:2])

In [11]:
df1['지역'].value_counts()

경기    861
서울    386
경남    159
부산    155
경북    123
인천    112
대구     85
충남     67
전북     59
전남     55
충북     49
강원     48
광주     46
대전     35
세종     25
울산     16
제주     15
Name: 지역, dtype: int64

In [12]:
num2 = df1['지역'].value_counts()
num2=pd.DataFrame(num2)
num2.rename(columns={'지역':'지점수(해법)'},inplace=True)

## 개인소득 데이터 전처리

In [14]:
cost.drop([0,1],inplace=True)

In [15]:
cost

Unnamed: 0,시도별,2021 p),2021 p).1,2021 p).2,2021 p).3
2,서울특별시,49648,54209,25256,22613
3,부산광역시,29649,32014,21352,18693
4,대구광역시,25492,29353,21046,18378
5,인천광역시,33287,35818,21317,17170
6,광주광역시,29583,32999,22472,18829
7,대전광역시,31362,33810,22730,19146
8,울산광역시,69133,59346,25165,19211
9,세종특별자치시,37958,39730,22061,17198
10,경기도,38720,41011,21937,17743
11,강원도,33319,30858,21038,17077


In [16]:
cost.set_index('시도별', drop=False, inplace=True)

In [17]:
cost = cost.rename(index={
    '서울특별시':'서울', '부산광역시':'부산', '대구광역시':'대구', '인천광역시':'인천', '광주광역시':'광주',
    '대전광역시':'대전', '울산광역시':'울산', '세종특별자치시':'세종', '경기도':'경기', '강원도':'강원','제주특별자치도':'제주',
    '충청북도':'충북', '충청남도':'충남', '전라북도':'전북','전라남도':'전남', '경상북도':'경북','경상남도':'경남'})

In [18]:
num3=pd.DataFrame(cost['2021 p).2'])
num3

Unnamed: 0_level_0,2021 p).2
시도별,Unnamed: 1_level_1
서울,25256
부산,21352
대구,21046
인천,21317
광주,22472
대전,22730
울산,25165
세종,22061
경기,21937
강원,21038


## 사교육 지출 데이터 전처리

In [20]:
education=education[['시도별','2021.1']]
education.drop([0,1],inplace=True)

education

education['시도별'] = education['시도별'].iloc[0:19].apply(lambda x: x.replace(' ',''))

education.set_index('시도별', drop=False, inplace=True)

num4=pd.DataFrame(education['2021.1'])
num4

## 데이터 결합

In [None]:
df = pd.concat([num, num2],axis=1)

df2 = pd.concat([num3, num4],axis=1)

df_final = pd.concat([df, df2],axis=1)

df_final

In [36]:
df_final = df_final.reset_index()

In [37]:
df_final.rename(columns={'2021 p).2':'1인당 개인소득(천원)','2021.1':'초등생_사교육지출(만원)','index':'지역'},inplace=True)

In [38]:
df_final

Unnamed: 0,지역,지점수(미래엔),지점수(해법),1인당 개인소득(천원),초등생_사교육지출(만원)
0,경기,378,861,21937,34.6
1,서울,111,386,25256,47.3
2,경남,88,159,20650,24.9
3,인천,69,112,21317,29.8
4,부산,60,155,21352,32.8
5,충남,57,67,21262,23.3
6,대구,55,85,21046,37.4
7,경북,45,123,20667,26.4
8,전남,41,55,20881,22.4
9,전북,35,59,20862,23.9


In [39]:
df_final.to_csv("./data/통합데이터.csv", index=False, encoding="utf-8-sig")

## 선택)공시가격 변수 추가

In [40]:
price = pd.read_csv('./data/2021년 공동주택 공시가격 정보.csv', encoding='cp949')


Columns (5,6,11,13,14) have mixed types. Specify dtype option on import or set low_memory=False.



In [41]:
price['시도'].unique()

array(['서울특별시', '부산광역시', '대구광역시', '인천광역시', '광주광역시', '대전광역시', '울산광역시',
       '세종특별자치시', '경기도', '강원도', '충청북도', '충청남도', '전라북도', '전라남도', '경상북도',
       '경상남도', '제주특별자치도'], dtype=object)

In [42]:
# 면적대비 공시가격 알아보기
price['공시가격비율'] = price['공시가격'] / price['전용면적']

In [44]:
price2 = price[['시도','공시가격비율']]
price3 = price2.groupby('시도').mean()
price3

Unnamed: 0_level_0,공시가격비율
시도,Unnamed: 1_level_1
강원도,1381094.0
경기도,3570715.0
경상남도,1696937.0
경상북도,1261150.0
광주광역시,2065610.0
대구광역시,2641002.0
대전광역시,2580480.0
부산광역시,2643937.0
서울특별시,7109873.0
세종특별자치시,5230904.0


In [45]:
price3 = price3.rename(index={
    '서울특별시':'서울', '부산광역시':'부산', '대구광역시':'대구', '인천광역시':'인천', '광주광역시':'광주',
    '대전광역시':'대전', '울산광역시':'울산', '세종특별자치시':'세종', '경기도':'경기', '강원도':'강원','제주특별자치도':'제주',
    '충청북도':'충북', '충청남도':'충남', '전라북도':'전북','전라남도':'전남', '경상북도':'경북','경상남도':'경남'})

In [57]:
price3

Unnamed: 0_level_0,공시가격비율
시도,Unnamed: 1_level_1
강원,1381094.0
경기,3570715.0
경남,1696937.0
경북,1261150.0
광주,2065610.0
대구,2641002.0
대전,2580480.0
부산,2643937.0
서울,7109873.0
세종,5230904.0


## 지역별 초등학교 수 변수 추가

In [9]:
# school = pd.read_excel('./data/지역별 초등학교 수.xlsx')

In [64]:
school2 = school[['단위: 개','2021']]
school2.set_index('단위: 개', drop=True, inplace=True)

Unnamed: 0_level_0,2021
단위: 개,Unnamed: 1_level_1
서울,607
부산,304
대구,232
인천,258
광주,155
대전,148
울산,121
세종,51
경기,1317
강원,348


## 최종데이터에 변수 추가

In [53]:
data = pd.read_csv('./data/통합데이터.csv')
data

Unnamed: 0,지역,지점수(미래엔),지점수(해법),1인당 개인소득(천원),초등생_사교육지출(만원)
0,경기,378,861,21937,34.6
1,서울,111,386,25256,47.3
2,경남,88,159,20650,24.9
3,인천,69,112,21317,29.8
4,부산,60,155,21352,32.8
5,충남,57,67,21262,23.3
6,대구,55,85,21046,37.4
7,경북,45,123,20667,26.4
8,전남,41,55,20881,22.4
9,전북,35,59,20862,23.9


In [8]:
# data=data.set_index('지역', drop=True)

In [61]:
data

Unnamed: 0_level_0,지점수(미래엔),지점수(해법),1인당 개인소득(천원),초등생_사교육지출(만원)
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경기,378,861,21937,34.6
서울,111,386,25256,47.3
경남,88,159,20650,24.9
인천,69,112,21317,29.8
부산,60,155,21352,32.8
충남,57,67,21262,23.3
대구,55,85,21046,37.4
경북,45,123,20667,26.4
전남,41,55,20881,22.4
전북,35,59,20862,23.9


In [65]:
m = pd.concat([school2, price3],axis=1)
df_final2 = pd.concat([data, m],axis=1)

Unnamed: 0,지점수(미래엔),지점수(해법),1인당 개인소득(천원),초등생_사교육지출(만원),2021,공시가격비율
경기,378,861,21937,34.6,1317,3570715.0
서울,111,386,25256,47.3,607,7109873.0
경남,88,159,20650,24.9,509,1696937.0
인천,69,112,21317,29.8,258,2466669.0
부산,60,155,21352,32.8,304,2643937.0
충남,57,67,21262,23.3,412,1538041.0
대구,55,85,21046,37.4,232,2641002.0
경북,45,123,20667,26.4,473,1261150.0
전남,41,55,20881,22.4,430,1406177.0
전북,35,59,20862,23.9,420,1410754.0


In [69]:
df_final2.reset_index(inplace=True)

In [74]:
df_final2=df_final2.rename(columns={'index':'지역','2021':'초등학교수'})

## 내보내기

In [75]:
df_final2.to_csv("./data/통합데이터2.csv", index=False, encoding="utf-8-sig")