In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import folium
from folium import plugins
import matplotlib as mpl
import json

In [2]:
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~')

## 데이터 분석 주제: 2020년 서울 지역별 아파트 실거래가에 영향을 미치는 여러 요인 분석
    
    영향을 미치는 요인
    1. 교육
    2. 아파트의 브랜드
    3. 아파트의 층수
    4. 아파트 주변의 인프라(점포수)

    <데이터 분석 세부 주제 선정>

    1)  교육열이 높은 지역과 평당가격의 연관성 - 강수진
    2)  아파트 브랜드별 지역위치와 평당가격의 상관관계 - 강지원, 김수진 
    3)  아파트 1층이 다른 층에 비해서 가격이 낮을 것이라는 인식에 대한 분석- 김도희, 권예람
    4)  아파트 주변 인프라와 평당가격의 연관성- 박재영

# 1. 법정동 코드 가공

In [3]:
#
locCode=pd.read_excel('../data/법정동코드.xlsx')
locCode.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자
0,1100000000,서울특별시,,,,19880423,
1,1111000000,서울특별시,종로구,,,19880423,
2,1111010100,서울특별시,종로구,청운동,,19880423,
3,1111010200,서울특별시,종로구,신교동,,19880423,
4,1111010300,서울특별시,종로구,궁정동,,19880423,


In [4]:
#읍면동이 NaN인 데이터 추출 > 읍면동 제외
locCode=locCode.dropna(subset=['읍면동명'])
locCode.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자
2,1111010100,서울특별시,종로구,청운동,,19880423,
3,1111010200,서울특별시,종로구,신교동,,19880423,
4,1111010300,서울특별시,종로구,궁정동,,19880423,
5,1111010400,서울특별시,종로구,효자동,,19880423,
6,1111010500,서울특별시,종로구,창성동,,19880423,


In [5]:
# 시군구가 NaN이 아닌 데이터 추출 > 시도명 제외
locCode=locCode.dropna(subset=['시군구명'])
locCode.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자
2,1111010100,서울특별시,종로구,청운동,,19880423,
3,1111010200,서울특별시,종로구,신교동,,19880423,
4,1111010300,서울특별시,종로구,궁정동,,19880423,
5,1111010400,서울특별시,종로구,효자동,,19880423,
6,1111010500,서울특별시,종로구,창성동,,19880423,


In [6]:
# 법정동 코드 컬럼에서 5자리 추출합니다.
# 예) 서울특별시 종로구 > 11000
locCode['법정동코드']=locCode['법정동코드'].astype(str)
locCode['지역코드']=locCode['법정동코드'].str.slice(start=0, stop=5)
locCode.head()


Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
2,1111010100,서울특별시,종로구,청운동,,19880423,,11110
3,1111010200,서울특별시,종로구,신교동,,19880423,,11110
4,1111010300,서울특별시,종로구,궁정동,,19880423,,11110
5,1111010400,서울특별시,종로구,효자동,,19880423,,11110
6,1111010500,서울특별시,종로구,창성동,,19880423,,11110


In [7]:
# 시도명이 서울특별시인 데이터만 추출 후 시도명, 시군구명, 지역코드 컬럼만 추출 
loc1 = locCode[locCode['시도명']=="서울특별시"]
loc1.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
2,1111010100,서울특별시,종로구,청운동,,19880423,,11110
3,1111010200,서울특별시,종로구,신교동,,19880423,,11110
4,1111010300,서울특별시,종로구,궁정동,,19880423,,11110
5,1111010400,서울특별시,종로구,효자동,,19880423,,11110
6,1111010500,서울특별시,종로구,창성동,,19880423,,11110


In [8]:
locCode.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
2,1111010100,서울특별시,종로구,청운동,,19880423,,11110
3,1111010200,서울특별시,종로구,신교동,,19880423,,11110
4,1111010300,서울특별시,종로구,궁정동,,19880423,,11110
5,1111010400,서울특별시,종로구,효자동,,19880423,,11110
6,1111010500,서울특별시,종로구,창성동,,19880423,,11110


# 2. 실거래가 데이터 가공

In [9]:
# 실거래가 데이터 불러오기
apt = pd.read_csv('../data/2020년 서울 아파트 실거래가.csv', encoding="cp949")
apt.head()

Unnamed: 0,법정동명,건물면적,층정보,건물주용도코드,건물주용도,거래금액,건축년도,아파트명
0,장위동,59.92,5.0,2001,아파트,749000000,0.0,래미안 장위포레카운티
1,길음동,84.77,18.0,2001,아파트,1200000000,0.0,롯데캐슬 클라시아
2,구로동,36.9,1.0,2001,아파트,105000000,1994.0,궁전아트빌라
3,산천동,59.55,2.0,2001,아파트,830000000,2001.0,리버힐삼성
4,이촌동,64.43,5.0,2001,아파트,735000000,1971.0,강변


In [10]:
# 데이터 프레임의 컬럼을 확인합니다.
apt.columns

Index(['법정동명', '건물면적', '층정보', '건물주용도코드', '건물주용도', '거래금액', '건축년도', '아파트명'], dtype='object')

In [11]:
# 데이터 프레임의 크기(차원)을 조회합니다
apt.shape

(176001, 8)

In [12]:
# 불러온 데이터에 NA값이 있는지 조회합니다.
apt.isnull().sum()

법정동명           0
건물면적           0
층정보        12163
건물주용도코드        0
건물주용도          0
거래금액           0
건축년도         565
아파트명       12163
dtype: int64

In [13]:
# 실거래가 데이터프레임 정보 조회
apt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176001 entries, 0 to 176000
Data columns (total 8 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   법정동명     176001 non-null  object 
 1   건물면적     176001 non-null  float64
 2   층정보      163838 non-null  float64
 3   건물주용도코드  176001 non-null  int64  
 4   건물주용도    176001 non-null  object 
 5   거래금액     176001 non-null  int64  
 6   건축년도     175436 non-null  float64
 7   아파트명     163838 non-null  object 
dtypes: float64(3), int64(2), object(3)
memory usage: 10.7+ MB


In [14]:
# 실거래가 데이터프레임 정보 조회 (거래금액 컬럼 변경 확인)
apt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176001 entries, 0 to 176000
Data columns (total 8 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   법정동명     176001 non-null  object 
 1   건물면적     176001 non-null  float64
 2   층정보      163838 non-null  float64
 3   건물주용도코드  176001 non-null  int64  
 4   건물주용도    176001 non-null  object 
 5   거래금액     176001 non-null  int64  
 6   건축년도     175436 non-null  float64
 7   아파트명     163838 non-null  object 
dtypes: float64(3), int64(2), object(3)
memory usage: 10.7+ MB


In [15]:
apt['건물면적'].unique()

array([ 59.92,  84.77,  36.9 , ..., 536.52, 292.27, 294.03])

# 3. 데이터 프레임 결합

In [16]:
# 지역 코드를 기준으로 법정동 코드 데이터 프레임과 아파트 실거래가 데이터 프레임을 결합합니다.
df=pd.merge(apt,loc1,left_on=['법정동명'], right_on=['읍면동명'])
df.head()

Unnamed: 0,법정동명,건물면적,층정보,건물주용도코드,건물주용도,거래금액,건축년도,아파트명,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
0,장위동,59.92,5.0,2001,아파트,749000000,0.0,래미안 장위포레카운티,1129013800,서울특별시,성북구,장위동,,19880423,,11290
1,장위동,116.91,2.0,2001,아파트,1270000000,0.0,래미안장위퍼스트하이,1129013800,서울특별시,성북구,장위동,,19880423,,11290
2,장위동,59.99,17.0,2001,아파트,820000000,0.0,래미안장위퍼스트하이,1129013800,서울특별시,성북구,장위동,,19880423,,11290
3,장위동,62.55,,1001,단독주택,714600000,1970.0,,1129013800,서울특별시,성북구,장위동,,19880423,,11290
4,장위동,84.48,12.0,2001,아파트,1150000000,0.0,꿈의숲 아이파크,1129013800,서울특별시,성북구,장위동,,19880423,,11290


In [17]:
pd.options.display.float_format = '{:.5f}'.format
df['평']=round(df['건물면적']*0.3025)
df['평당가격']=df['거래금액']/df['평']
df.head()

Unnamed: 0,법정동명,건물면적,층정보,건물주용도코드,건물주용도,거래금액,건축년도,아파트명,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드,평,평당가격
0,장위동,59.92,5.0,2001,아파트,749000000,0.0,래미안 장위포레카운티,1129013800,서울특별시,성북구,장위동,,19880423,,11290,18.0,41611111.11111
1,장위동,116.91,2.0,2001,아파트,1270000000,0.0,래미안장위퍼스트하이,1129013800,서울특별시,성북구,장위동,,19880423,,11290,35.0,36285714.28571
2,장위동,59.99,17.0,2001,아파트,820000000,0.0,래미안장위퍼스트하이,1129013800,서울특별시,성북구,장위동,,19880423,,11290,18.0,45555555.55556
3,장위동,62.55,,1001,단독주택,714600000,1970.0,,1129013800,서울특별시,성북구,장위동,,19880423,,11290,19.0,37610526.31579
4,장위동,84.48,12.0,2001,아파트,1150000000,0.0,꿈의숲 아이파크,1129013800,서울특별시,성북구,장위동,,19880423,,11290,26.0,44230769.23077


In [18]:
df1=df[['건물면적','층정보','건물주용도','아파트명',"건축년도",'시군구명','읍면동명','평당가격',"지역코드"]]
df1.head()

Unnamed: 0,건물면적,층정보,건물주용도,아파트명,건축년도,시군구명,읍면동명,평당가격,지역코드
0,59.92,5.0,아파트,래미안 장위포레카운티,0.0,성북구,장위동,41611111.11111,11290
1,116.91,2.0,아파트,래미안장위퍼스트하이,0.0,성북구,장위동,36285714.28571,11290
2,59.99,17.0,아파트,래미안장위퍼스트하이,0.0,성북구,장위동,45555555.55556,11290
3,62.55,,단독주택,,1970.0,성북구,장위동,37610526.31579,11290
4,84.48,12.0,아파트,꿈의숲 아이파크,0.0,성북구,장위동,44230769.23077,11290


In [19]:
df1.loc[(df1['건축년도'] == 0),'건축년도']=2000
df1.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(loc, value)


Unnamed: 0,건물면적,층정보,건물주용도,아파트명,건축년도,시군구명,읍면동명,평당가격,지역코드
0,59.92,5.0,아파트,래미안 장위포레카운티,2000.0,성북구,장위동,41611111.11111,11290
1,116.91,2.0,아파트,래미안장위퍼스트하이,2000.0,성북구,장위동,36285714.28571,11290
2,59.99,17.0,아파트,래미안장위퍼스트하이,2000.0,성북구,장위동,45555555.55556,11290
3,62.55,,단독주택,,1970.0,성북구,장위동,37610526.31579,11290
4,84.48,12.0,아파트,꿈의숲 아이파크,2000.0,성북구,장위동,44230769.23077,11290


In [20]:
df1=df1[df1['건물주용도']=='아파트']
df1["건축년도"].astype(str)
df1.head()

Unnamed: 0,건물면적,층정보,건물주용도,아파트명,건축년도,시군구명,읍면동명,평당가격,지역코드
0,59.92,5.0,아파트,래미안 장위포레카운티,2000.0,성북구,장위동,41611111.11111,11290
1,116.91,2.0,아파트,래미안장위퍼스트하이,2000.0,성북구,장위동,36285714.28571,11290
2,59.99,17.0,아파트,래미안장위퍼스트하이,2000.0,성북구,장위동,45555555.55556,11290
4,84.48,12.0,아파트,꿈의숲 아이파크,2000.0,성북구,장위동,44230769.23077,11290
5,84.48,18.0,아파트,꿈의숲 아이파크,2000.0,성북구,장위동,50000000.0,11290


***
## 현황분석

In [21]:
df2 = df1.pivot_table(index="시군구명",values=["층정보","평당가격","아파트명"]).reset_index()
df2

Unnamed: 0,시군구명,층정보,평당가격
0,강남구,9.1436,63532697.78972
1,강동구,9.63466,38041341.87847
2,강북구,9.34356,24945671.03954
3,강서구,7.87142,31534819.64964
4,관악구,9.3905,28652479.51817
5,광진구,10.5303,41748508.23308
6,구로구,9.41241,25158397.19382
7,금천구,9.53225,23947064.37686
8,노원구,8.01063,27369097.27898
9,도봉구,8.23901,22052793.43635


In [22]:
df4 = df2.sort_values(by="평당가격",ascending=False)
df4.head()

Unnamed: 0,시군구명,층정보,평당가격
0,강남구,9.1436,63532697.78972
14,서초구,9.02824,61941367.94722
17,송파구,10.3021,52180706.43889
20,용산구,10.37096,51885023.91128
15,성동구,9.73726,47250301.04575


In [23]:
state_geo = "../data/TL_SCCO_SIG.json"
state_geo2 = json.load(open(state_geo,encoding="utf-8"))
state_geo2['features']

[{'type': 'Feature',
  'geometry': {'type': 'Polygon',
   'coordinates': [[[127.60472638427933, 38.072648233869785],
     [127.60776133059719, 38.071674018579536],
     [127.65473867484185, 38.02576695898344],
     [127.65490464895771, 38.0272843475771],
     [127.73374753570245, 38.035814428263734],
     [127.73394342807514, 38.03607616237089],
     [127.77599099169834, 38.01389743776739],
     [127.77653868086756, 38.013597091144185],
     [127.77680464554413, 38.013645455050394],
     [127.77680679204794, 38.01364599945677],
     [127.77821827512304, 38.01390161291351],
     [127.78820556176866, 37.99429384493769],
     [127.85810008725723, 38.018823189046856],
     [127.84998445340655, 38.03881738462732],
     [127.84996624162804, 38.03970714676426],
     [127.85341448275034, 38.05051795468947],
     [127.85515517661896, 38.05230429633902],
     [127.90267220658595, 38.05059746772935],
     [127.90406646899208, 38.03033085142509],
     [127.93819691986677, 38.0142189559451],
     [

### 1) 구별 평당가격 지도 시각화

In [24]:
#지도 부르기
m1 = folium.Map(location=[37.541,126.986],tiles="OpenStreetMap",zoom_start=10)

#지도에 색 적용 및 데이터 연결
choropleth = folium.Choropleth(
    geo_data = state_geo2,
    data = df2,
    columns = ("시군구명","평당가격"),
    key_on = "feature.properties.SIG_KOR_NM",
    fill_color = "BuPu",
    legend_name = "평당가격"
).add_to(m1)

m1

### 2) 구별 평당가격

In [25]:
plt.figure(figsize=(20,5))
plt.plot(df3["시군구명"],df3["평당가격"],"r",label="평당가격")
plt.show()

NameError: name 'df3' is not defined

<Figure size 1440x360 with 0 Axes>

- 지도와 선그래프를 보게 되면 평당가격이 높은 지역구는 강남구, 서초구, 송파구 순이고, 낮은 지역구는 도봉구, 금천구, 중랑구이다.

### 3) 분위별 평당가격

In [None]:
sns.boxplot(y=df2["평당가격"])
plt.show()

In [None]:
df3 = df2[["시군구명","평당가격"]]
df3.describe()

In [None]:
# 4분위 나누기 위한 리스트 생성

one = ['강남구','서초구','송파구','용산구','성동구'] 
two = ['마포구', '광진구', '동작구', '영등포구', '강동구', '중구', '양천구'] 
three = ['서대문구','종로구','동대문구','강서구','성북구', '관악구'] 
four = ['은평구', '노원구', '구로구','강북구', '중랑구', '금천구', '도봉구']

In [None]:
def area():     
    for i in df4['시군구명']:         
        if i in one:              
            df4.loc[df4['시군구명'] == i,'분위']= 1     
        elif i in two:
            df4.loc[df4['시군구명'] == i,'분위']= 2
        elif i in three:
            df4.loc[df4['시군구명'] == i,'분위']= 3   
        elif i in four:
            df4.loc[df4['시군구명'] == i,'분위']= 4  
    return df4  

df_1 = df4.apply(area(),axis=1)
df_1

## 요인1. 교육

### 교육은 아파트 평당 가격에 영향을 미칠까?
    교육열이 높은 곳이 아파트 평당 가격도 비쌀 것이라는 예상을 하였다.
    과연 교육과 아파트 가격은 연관이 있을까?

In [None]:
k = df1.groupby('시군구명')['평당가격'].agg(**{'평당가격':'mean'})
k.sort_values(by=['평당가격'],ascending=False).reset_index()

- "서울특별시 학교 기본정보.csv", "서울시 학생 1만명당 사설학원수 통계.csv" 데이터 사용

In [None]:
sch=pd.read_csv('../data/서울특별시 학교 기본정보.csv', encoding="cp949")
sch=sch[['학교명','도로명주소']]
sch['주소']=sch['도로명주소'].str.split(' ').str[1]
sch=sch.drop_duplicates()
sch.head()

### 1) 각 자치구별 학교의 개수

In [None]:
sch_data=sch.groupby(['주소']).agg('count')
sch_data.drop((['도로명주소']),axis=1,inplace=True)
sch_data.rename(columns = {'학교명':'합계'}, inplace=True)
sch_data=sch_data.reset_index()
sch_data.head()

### 2) 자치구별 학교의 개수와 평당가격

In [None]:
sch_df=pd.merge(sch_data,k,left_on=['주소'], right_on=['시군구명'])
sch_df=sch_df.sort_values(by='평당가격',ascending=False)
sch_df.head()

In [None]:
plt.figure(figsize=(20,3))

fig, ax1 = plt.subplots()
ax1.set_xlabel('구')
ax1.set_ylabel('학교 수')
line1=ax1.plot(sch_df['주소'],sch_df['합계'],'b',label='학교 수')
ax2 = ax1.twinx()
ax2.set_ylabel('평당가격')
line2=ax2.plot(sch_df['주소'],sch_df['평당가격'],'r',label='평당가격(원)')
lines = line1 + line2
labels = [l.get_label() for l in lines]
ax1.legend(lines, labels, loc='upper right',fontsize=20)
plt.show()

- 각 자치구별 학교 수와 평당가격은 관련이 없어 보인다.

### 3) 사설학원의 개수와 평당가격

In [None]:
aca=pd.read_csv('../data/서울시 학생 1만명당 사설학원수 통계.csv',encoding="cp949")
aca.head()

In [None]:
aca_df=pd.merge(aca,k,left_on=['자치구'], right_on=['시군구명'])
aca_df=aca_df.sort_values(by='평당가격',ascending=False)
aca_df2=aca_df
aca_df2['평당가격']=aca_df2['평당가격']/100000
aca_df #자치구별 사설학원수와 평당가격

area_c = pd.DataFrame({'시군구명':['강남구','서초구','송파구','용산구','성동구','마포구','광진구','동작구','영등포구','강동구','중구','양천구','서대문구','종로구','동대문구','강서구','성북구','관악구','은평구','노원구','구로구','강북구','중랑구','금천구','도봉구'],
                      '분위':[1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,4,4,4]})

aca_dff=pd.merge(aca_df2,area_c,left_on=['자치구'], right_on=['시군구명'])
aca_dff.head()

In [None]:
plt.figure(figsize=(4,3))
fig, ax1 = plt.subplots()
ax1.set_xlabel('구')
ax1.set_ylabel('사설학원수')
line1=ax1.plot(aca_df['자치구'],aca_df['학생1만명당 사설학원수'],'b',label='사설학원수')
ax2 = ax1.twinx()
ax2.set_ylabel('평당가격')
line2=ax2.plot(aca_df['자치구'],aca_df['평당가격'],'r',label='평당가격(원)')
lines = line1 + line2
labels = [l.get_label() for l in lines]
ax1.legend(lines, labels, loc='upper right',fontsize=20)

plt.show()

- 공교육기관인 학교의 수보다 사설학원수가 학구열을 나타내기에 더 적합하다고 할 수 있다.

In [None]:
plt.figure(figsize=(4,3))
aca_df.corr()
corr1 = aca_df
corr1 = corr1.corr()
print(corr1)

mask = np.array(corr1)
mask[np.tril_indices_from(mask)] = False 
sns.heatmap(corr1,
            mask=mask,
            vmax=0.8,
            square=True,
            annot=True,
           linewidths=0.8,
            cmap='summer'
           )

- 실제로 '평당 가격'과 '학생 1만명당 사설학원수'의 상관계수가 0.72로 1에 가까운 상관계수를 갖는다.

In [None]:
# Initialize the matplotlib figure
f, ax = plt.subplots(figsize=(15, 6))


sns.set_color_codes("pastel")
sns.barplot(x="자치구", y="평당가격", data=aca_df2,
            label="평당가격(십만원)", color="b")

# Plot the crashes where alcohol was involved
sns.set_color_codes("muted")
sns.barplot(x="자치구", y="학생1만명당 사설학원수", data=aca_df2,
            label="학생1만명당 사설학원수", color="b")

# Add a legend and informative axis label
ax.legend(ncol=2, loc="lower right", frameon=True)
ax.set(xlim=(0, 24), ylabel="",
       xlabel="구")
sns.despine(left=True, bottom=True)

### 4) 분위별 사설학원수

In [None]:
#분위별로 시각화
#sns.set_theme(style="ticks")
#plt.rcParams['font.family'] = 'AppleGothic'
#plt.rcParams['figure.figsize'] = (10, 7)
#Violin plot과 Swarm Plot로 표현
plt.title("분위별 사설학원수")
sns.violinplot(x="분위", y="학생1만명당 사설학원수", data=aca_dff, inner=None)
#sns.swarmplot(x="분위", y="학생1만명당 사설학원수", data=aca_dff, color="0.5")
plt.show()

## 분석결과
 서울시 아파트 실거래가가 높을 수록 교육기관인 학교의 수가 많을 것이라 예상하였다. 하지만 공교육 기관인 학교의 수로 해당 지역의 학구열을 나타내긴 어려울것이라 판단 되었고 좀 더 학구열과 직접적인 관련이 있는 사설학원의 수를 분석하였다. 분석결과 평당가격이 서울에서 가장 높은 강남구의 경우 사설학원의 수가 다른 지역에 비해 10배가까이 많은 것으로 나타나 각 자치구별 사설학원의 수와 평당가격이 양의 관계를 갖는 것으로 보인다. 따라서 교육이 서울시 아파트 실거래가에 영향을 끼치는 요소로 볼 수 있다. 하지만 일부 지역구는 회사 밀집지역 등 외부 요인이 영향을 끼친다.
 ***

## 요인2. 아파트 브랜드

## 아파트 브랜드별 지역위치와 평당가격의 상관관계

### 가설
- 브랜드 선호도가 높을수록 평당 가격이 높을 것이다.
- 평당 가격이 높은 지역일수록 선호도가 높은 아파트가 위치했을 것이다.
- 브랜드 선호도가 높은 아파트는 지역에 상관없이 가격이 높을 것이다.
- 소비자들의 아파트 브랜드 선호도에 영향을 끼치는 요인 중 지역과 가격이 큰 부분을 차지할 것이다.

In [None]:
df1.head()

## 1) 아파트별 평당 가격

In [None]:
df_apt=df1[['아파트명','평당가격','시군구명']]
df_apt

## 2) 선호도 10위 내 서울에 위치한 아파트 데이터 추출
#### (9순위에 있는 'Lynn'은 서울에 있지 않아서 제외)

![아파트 선호도](https://media.discordapp.net/attachments/839002790470746114/845183375609561129/unknown.png?width=693&height=669)

In [None]:
# 선호도 1~10위 아파트 데이터 추출

df1_h = df_apt[df_apt['아파트명'].str.contains('힐스테이트')]
df1_z = df_apt[df_apt['아파트명'].str.contains('자이')] 
df1_r = df_apt[df_apt['아파트명'].str.contains('래미안')] 
df1_p = df_apt[df_apt['아파트명'].str.contains('푸르지오')] 
df1_l = df_apt[df_apt['아파트명'].str.contains('롯데캐슬')]

df1_e = df_apt[df_apt['아파트명'].str.contains('이편한')]
df1_e2 = df_apt[df_apt['아파트명'].str.contains('e-편한')]
df1_e = pd.concat([df1_e,df1_e2], ignore_index=True)

df1_ip = df_apt[df_apt['아파트명'].str.contains('아이파크')]
df1_ip2 = df_apt[df_apt['아파트명'].str.contains('I-PARK')]
df1_ip = pd.concat([df1_ip,df1_ip2], ignore_index=True)

df1_sharp = df_apt[df_apt['아파트명'].str.contains('더#')]
df1_sharp2 = df_apt[df_apt['아파트명'].str.contains('더샵')]
df1_sharp = pd.concat([df1_sharp,df1_sharp2], ignore_index=True)

df1_w = df_apt[df_apt['아파트명'].str.contains('위브')]
df1_w2 = df_apt[df_apt['아파트명'].str.contains('We')]
df1_w = pd.concat([df1_w,df1_w2],ignore_index=True)

df1_h['브랜드명'] = '힐스테이트'
df1_z['브랜드명']='자이'
df1_r['브랜드명']='래미안'
df1_p['브랜드명']= '푸르지오'
df1_l['브랜드명']= '롯데캐슬'
df1_e['브랜드명'] = '이편한'
df1_ip['브랜드명'] = '아이파크'
df1_sharp['브랜드명']= '더샵'
df1_w['브랜드명']= '두산위브'

# 추출한 데이터 합치기
df_brand_list= pd.concat([df1_h,df1_z,df1_r,df1_p,df1_l,df1_e,df1_ip,df1_sharp,df1_w], ignore_index=True)
df_brand_list


## 3) 아파트 브랜드 별 평균 평당가격 순위

In [None]:
df_brand=df_brand_list.groupby(['브랜드명'])[['평당가격']].mean().reset_index()
brand_rank=df_brand.sort_values(by=['평당가격'], ascending=False)
brand_rank

In [None]:
#brand_rank.plot(kind='bar', x='브랜드명')
plt.xticks(rotation=30)

sns.barplot(x="브랜드명", y="평당가격", data=brand_rank)
plt.figure(figsize=(50, 20))
plt.rc('font', size=10)
plt.show()

기사에서는 선호도가 1위 힐스테이, 2위 자이, 3위 래미안였으나 평균 평당 가격을 확인해보니 1. 자이, 2. 래미안, 3. 힐스테이트였다.
선호도 1위였던 힐스테이트보다 선호도 3위인 자이가 평당가격이 천만원 가량 차이나는 걸로 보아 브랜드 선호도가 아파트의 평당 가격에 절대적인 영향을 미치지는 않는다고 판단된다. 혹시 다른 요소가 영향을 미치지는 않는지 다른 데이터 확인할 필요성이 느껴진다.

In [None]:
# 4분위 나누기 위한 리스트 생성

one = ['강남구','서초구','송파구','용산구','성동구'] 
two = ['마포구', '광진구', '동작구', '영등포구', '강동구', '중구', '양천구'] 
three = ['서대문구','종로구','동대문구','강서구','성북구', '관악구'] 
four = ['은평구', '노원구', '구로구','강북구', '중랑구', '금천구', '도봉구']

In [None]:
# 시군구명 4분위 나눠서 값 입력 함수 선언

def area():     
    for i in df_brand_list['시군구명']:         
        if i in one:              
            df_brand_list.loc[df_brand_list['시군구명'] == i,'시군구명분위']= 1     
        elif i in two:
            df_brand_list.loc[df_brand_list['시군구명'] == i,'시군구명분위']= 2
        elif i in three:
            df_brand_list.loc[df_brand_list['시군구명'] == i,'시군구명분위']= 3   
        elif i in four:
            df_brand_list.loc[df_brand_list['시군구명'] == i,'시군구명분위']= 4  
        else:    
            df_brand_list.loc[df_brand_list['시군구명'].isnull(),'시군구명분위']= np.nan
        
    return df_brand_list  

area()

## 4) 아파트 브랜드별 가격과 지역별 분포

In [None]:
#plt.title("Boxplot과 Strip Plot로 표현한, 브랜드 아파트 별 평당가격 정보")

plt.figure(figsize=(60,30))
plt.rc('font', size=50)
sns.boxplot(x="브랜드명", y="평당가격", data=df_brand_list, whis=np.inf)
sns.stripplot(x="브랜드명", y="평당가격", data=df_brand_list, jitter=True, hue='시군구명분위', size=12)
plt.xticks(rotation=0)
plt.show()

### 분석결과

#### - 서울에 위치한 아파트 브랜드 중에 래미안의 수가 가장 많다.
#### - 선호도가 높은 힐스테이트의 경우 평당 가격 순위는 3위로 자이와 래미안 보다 선호도가 높다.  하지만  1분위 지역의 분포가 적기 때문에 평당 가격 순위가 선호도 순위보다 낮게 나온 것으로 보인다.
#### - 아파트 브랜드와 입지는 뗄래야 뗄 수 없는 관계이다. 

[[보이는 부동산] 아파트 브랜드 선호도…왜 차이가 날까](https://www.etoday.co.kr/news/view/1797781)

기사 내용 中

◇왜 특정 브랜드 가치는 계속 높아질까

사실 아파트의 가치를 가장 크게 결정짓는 요소는 '브랜드'보다는 '입지'라는 게 정설입니다. ‘땅 위에 짓는 건물’이라는 특성상, 지가(地價)가 낮은 지방 소도시에 지은 대형 건설사의 브랜드 아파트가 강남 노른자 땅 위에 건설된 소형 건설사의 아파트보다 비쌀 수 없기 때문입니다.

브랜드 가치는 무엇 때문에 갈리는 걸까요?
#### 정답은 ‘고급 브랜드’만이 땅값이 높은 ‘고급 입지’를 선택할 수 있기 때문입니다. 교통이 편리하고 우수한 학군과 이용이 간편한 상업시설을 갖춘 땅값 높은 지역에는 신축 아파트와 더불어 아파트나 주택이 오래된 재개발‧재건축 사업지가 있게 마련입니다.
- 선호도 순위와 가격순위가 높은 힐스테이트와 자이, 래미안은 3,4분위에 위치해 있는 수가 적지 않음에도 불구하고 땅 값이 높은 고급 입지에 위치한 아파트 수가 많아 그 영향이 크게 미친것으로 보인다.
- 힐스테이트와 자이, 래미안은 다른 아파트에 비해서 최대 가격이 매우 높다는 것이 영향을 끼쳤을 것으로 분석된다.

## 요인3. 층수
## 1층이 다른 층에 비해서 가격이 낮을 것이라는 인식에 대한 분석

#### 지역별 평당 가격

In [None]:
df1.pivot_table(index=['시군구명'],values=['평당가격']).sort_values(by='평당가격',ascending=False).head()

In [None]:
g1 = sns.catplot(x='시군구명', y="평당가격", data=df1, kind='bar')

g1.fig.set_figwidth(20)
g1.fig.set_figheight(5)

### 1층은 과연 소문대로 저렴할까?
    일반적으로 저층, 특히 1층의 경우 사람들이 선호하지 않기때문에 저렴하다고 생각한다.
    과연 소문대로 1층은 저렴할까?

In [None]:
df1.sort_values(by='층정보',ascending=True)

- 아파트의 층은 최저 B3층부터 최고 67층까지 있다.
- 아파트마다 바닥이 닿는 의미인 1층의 기준이 각각 다르지만, 아파트의 기준을 전부 조회하기에는 너무 많은 시간과 데이터를 필요로한다.
- 이에 모든 아파트의 1층을 기준으로 분석해보려한다.

In [None]:
# 1층으로 묶기

floor = df1['층정보'] == 1
floor1 = df1[floor]
floor1.sort_values(by='평당가격',ascending=False)

In [None]:
#지역별 1층 평당가격
g1 = sns.catplot(x='시군구명', y="평당가격", data=floor1, kind='bar')
g1.fig.set_figwidth(20)
g1.fig.set_figheight(5)

#지역별 평당가격
g2 = sns.catplot(x='시군구명', y="평당가격", data=df1, kind='bar')
g2.fig.set_figwidth(20)
g2.fig.set_figheight(5)

 -   지역별 평당가격과 지역별 1층 평당가격을 비교했을때 비교적 수치가 낮은 것을 확인할 수 있다.
 -   강남구의 경우 1층이지만 다른 층보다 가격이 높은 경우가 있었다.
 -   이에 어떤 요소가 강남구 아파트 1층의 가격을 높게 했는지 알아보고자 한다.

In [None]:
#지역별 층별 평당가격 (세분화)

a1 = sns.catplot(kind="bar", data=df1, x = "층정보", y="평당가격", col="시군구명", col_wrap=4)
a1

In [None]:
# 강남구 아파트 평균값 조회
df1.groupby('시군구명')['평당가격'].mean()

In [None]:
#평균값보다 높은 강남구의 1층 아파트 조회
pd.set_option('display.max_rows', None)
local = floor1['시군구명'] == '강남구'
cost = floor1['평당가격'] >= 63532698
Gangnam = floor1[local & cost]
Gangnam.sort_values(by='평당가격',ascending=False)

In [None]:
#개포주공 1단지
Gang = df1['아파트명'] == '개포주공 1단지'
Gang1 = df1[Gang]
sns.set_palette("Set2")
Gang1.sort_values(by='평당가격',ascending=False)
g1 = sns.catplot(x='층정보', y="평당가격", data=Gang1, kind='bar')

In [None]:
#한신(개포)
sns.color_palette("Set2")
Gang = df1['아파트명'] == '한신(개포)'
Gang1 = df1[Gang]
sns.set_palette("Set2")
Gang1.sort_values(by='평당가격',ascending=False)
g1 = sns.catplot(x='층정보', y="평당가격", data=Gang1, kind='bar')

In [None]:
#한양1차(영동한양)
sns.color_palette("Set2")
Gang = df1['아파트명'] == '한양1차(영동한양)'
Gang1 = df1[Gang]
sns.set_palette("Set2")
Gang1.sort_values(by='평당가격',ascending=False)
g1 = sns.catplot(x='층정보', y="평당가격", data=Gang1, kind='bar')

- 특정 아파트 평균가격이 강남 아파트의 평균가격보다 비싸기 때문에 저층인 1층임에도 비교적 높게 잡혔다. 
- 모든 1층 아파트의 가격이 낮은것은 아니나, 리모델링 등 예외적 이유가 있을 수 것이라고 추정된다.

### 분위별 층별 평당가격정보
    추가적으로 층별 평당가격 정보를 알아보기 위해 분위별을 기준으로 분석해보기로 하였다.
    공시지가가 비슷한 지역을 기준으로 분위를 나누었다.

In [None]:
area_c = pd.DataFrame({'시군구명':['강남구','서초구','송파구','용산구','성동구','마포구','광진구','동작구','영등포구','강동구','중구','양천구','서대문구','종로구','동대문구','강서구','성북구','관악구','은평구','노원구','구로구','강북구','중랑구','금천구','도봉구'],
                      '분위':[1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,4,4,4]})
area_c
df3=df1
df4=pd.merge(df3, area_c)

In [None]:
df4.pivot_table(index=['분위','층정보'], values=['평당가격'])

- 분위별로 그룹을 나눠서 층별 평당가격을 조회하려한다.

In [None]:
plt.figure(figsize=(10, 5))
sns.lineplot(data=df4, x="층정보", y="평당가격", hue="분위")
plt.legend(bbox_to_anchor=(1.01, 1), loc=2, borderaxespad=0.)

- 사람들이 주로 선호하는 로얄층일때 평당 가격이 높고 저층일때 평당가격이 감소하는 것을 알 수 있다.
- 분위별로 나눠봤을 때 층에 따른 평당 가격의 추이가 비슷한 것으로 보아, 층과 평당가격에 연관이 있음을 알 수 있다.

In [None]:
#분위별 아파트 평당가격

sns.catplot(kind="bar", data=df4, x = "층정보", y="평당가격", col="분위", col_wrap=1)

### 분석결과
    - 1층은 다른 층에 비해 비교적 평당 가격이 낮았고 최고층보다는 로얄층으로 불리는 2/3 고층의 가격이 높았다.
    - 모든 1층 아파트의 가격이 낮은것은 아니나, 리모델링 등 예외적 이유가 있을 수 있다 추정된다.
    - 층별로 아파트의 가격이 상이함을 알 수 있었다.
    - 분위별로 나눠봤을 때 층에 따른 평당 가격의 추이가 비슷한 것으로 보아, 층과 평당가격에 연관이 있음을 알 수 있다.

## 요인4. 주변 인프라
## 아파트 주변 인프라와 평당가격의 연관성

In [None]:
local=pd.read_excel('../data/지역점포수.xlsx')
local1 = local.rename(columns = {"행정구역":"시군구명"})
local1.head()

In [None]:
merge_1 = pd.merge(df2,local1,on="시군구명",how="outer")
merge_1

### 1) 구별 전체점포수와 평당가격 비교

In [None]:
plt.figure(figsize=(20,5))
plt.plot(merge_1["시군구명"],merge_1["전체점포수"],"b",label="전체점포수")
plt.show()

In [None]:
plt.figure(figsize=(20,5))
plt.plot(merge_1["시군구명"],merge_1["평당가격"],"r",label="평당가격")
plt.show()

- 몇몇 구를 제외하면 전반적으로 평당가격과 전체점포수의 그래프가 비슷한 경향을 보인다.

In [None]:
merge2 = merge_1.sort_values(by="전체점포수",ascending=False)
merge3 = merge2.loc[:12,:]
merge3

### 2) 구별 전체점포수 상위 5곳, 하위 5곳

In [None]:
plt.pie(merge3['전체점포수'], labels=merge3["시군구명"],autopct='%1.1f%%')
plt.show()

In [None]:
pie1 = merge_1.sort_values(by="평당가격",ascending=False)
pie2 = pie1.loc[:15,:]
pie2

In [None]:
plt.pie(pie2["평당가격"],labels=pie2["시군구명"],autopct='%1.1f%%')
plt.show()

- 파이차트로 각각 상위 5개의 구들을 확인해 본 결과 5곳 중에서 3곳이 겹쳤다.

In [None]:
merge_1.sort_values(by="전체점포수",ascending=False).head()

In [None]:
merge4 = merge_1.sort_values(by="전체점포수")
merge5 = merge4.loc[:11,:]
merge5

In [None]:
plt.pie(merge5['전체점포수'], labels=merge5["시군구명"],autopct='%1.1f%%')
plt.show()

In [None]:
pie3 = merge_1.sort_values(by="평당가격")
pie4 = pie3.loc[:6,:]
pie4

In [None]:
plt.pie(pie4["평당가격"],labels=pie4["시군구명"],autopct='%1.1f%%')
plt.show()

- 하위권 5개의 구도 확인해본 결과 5구 중에서 3구가 겹친다는 것을 알 수 있었다. 

### 3) 점포수와 평당가격의 상관관계

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(data = merge_1.corr(), annot=True, 
fmt = '.2f', linewidths=.5, cmap='Blues')

- 전체점포수와 평당가격의 상관관계도 0.71로 어느정도 상관성이 있다는 것을 알 수 있었다.

In [None]:
merge_2 = merge_1.sort_values(by="평당가격",ascending=False)

In [None]:
area_c = pd.DataFrame({'시군구명':['강남구','서초구','송파구','용산구','성동구','마포구','광진구','동작구','영등포구','강동구','중구','양천구','서대문구','종로구','동대문구','강서구','성북구','관악구','은평구','노원구','구로구','강북구','중랑구','금천구','도봉구'],
                      '분위':[1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,4,4,4]})

In [None]:
df3=merge_1
df4=pd.merge(df3, area_c,on="시군구명")
df4

### 4) 분위별 전체점포수

In [None]:
sns.boxplot(x="분위",y="전체점포수",data=df4)

### 5) 전체점포수와 평당가격의 인과관계

In [None]:
g = sns.jointplot(x=merge_1["전체점포수"], y=merge_1["평당가격"], data=merge_1,
                  kind="reg", truncate=False,
                  color="m", height=7)
g

In [None]:
s = sns.residplot(x=merge_1["전체점포수"], y=merge_1["평당가격"], lowess=True, color="g")
s

- 인과관계가 있는지 확인해봤지만 인과관계는 딱히 없는 것 같다.

#### 분석결과
근처 인프라와 서울시 아파트 실거래가가 서로 연관이 있을 것이라고 예상했다. 실제 전체적인 구별 추이를 보고 평당가격 기준 상위 5위,하위 5위로 비교해보았을 때 서로 연관이 있다는 것을 알 수 있었다. 위에서 지정한 분위별로 봤을 때 또한 전체점포수와 관련이 있었다. 이를 바탕으로 전체점포수와 평당가격에서 인과관계를 찾을 수 있을지를 보았다. 그것을 바탕으로 최종적인 결론은 '주변 상점 인프라가 평당가격과 상관관계는 있지만 인과관계는 없다.'이다.

## 최종결과

In [None]:
 
    영향을 미치는 요인
    1. 교육
    2. 아파트의 브랜드
    3. 아파트의 층수
    4. 아파트 주변의 인프라(점포수)

    <데이터 분석 세부 주제 선정>

    1)  교육열이 높은 지역과 평당가격의 연관성 - 강수진
    2)  아파트 브랜드별 지역위치와 평당가격의 상관관계 - 강지원, 김수진 
    3)  아파트 1층이 다른 층에 비해서 가격이 낮을 것이라는 인식에 대한 분석- 김도희, 권예람
    4)  아파트 주변 인프라와 평당가격의 연관성- 박재영

In [None]:
1. 교육열과 평당가격은 연관성이 있는가?
2. 
3.
4.