In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import matplotlib as mpl
 
plt.style.use('seaborn')
warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
data = pd.read_csv(r'C:\Users\이홍정\Desktop\TOBIGS\1week\전처리\1주차\Auction_master_train.csv')

In [None]:
# <1> Null 값 처리: Method 1 & 2(통계치, 외부 정보 활용)
data.isnull().sum()

In [None]:
# <1> - 1 Method 1# addr_li 의 경우, 거의 모든 부분이 결측치이다.
# 서울과 부산이 대도시라는 점을 가정했을 때 주소지에 리가 있을 경우가 없다는 점
# 리에서의 부동산의 경우 경매가 많이 이루어지지 않는다점에서
# addr_li의 데이터는 분석대상에서 제외하자.
data.drop('addr_li', axis=1).head()

In [None]:
# '리'의 경우와 '리'가 아닌 경우를 비교하여 유의미한 결과를 추출할 수 있다고 가정한다면,
# '리'가 아닌 경우를 Null값으로 대체하고 그것을 바탕으로 해석할 수 있다.
 
data['addr_li'].fillna('NA', inplace=True)
print(data['addr_li'].unique())
 
data['addr_li_Null'].head()
 
df = data[['addr_li_Null','Hammer_price']].groupby('addr_li_Null').mean()
graph_1 = sns.barplot(x=df.index, y='Hammer_price', data=df)

In [None]:
# 위의 addr_li와 같이 addr_bunji2, road_bunji2, Specific은 결측치를 채워넣기 힘들다.
# 따라서 addr_bunji1과 road_bunji1을 결측치를 통계수치를 활용하여 채워넣고자 한다.
# 오늘날, 도로명 주소를 많이 쓰기 때문에, road_bunji1를 채워놓고자 한다.
 
data.loc[data['road_bunji1'].isnull() == True]

In [None]:
# 해당 road_bunji1이 없는 데이터에 대해 raod_bunji2의 값이 있으면 그것으로 대체하려고 했지만, 둘 모두 비어있다.
# 따라서 road_bunji1의 중앙값을 이용하여 채워넣고자 한다.
# 아파트의 매물이 많다는 점에서 같으 도로명을 쓸 가능성이 높다고 생각하여...중앙값으로 대체해보고자 한다. (뇌피셜입니다...)
 
data['road_bunji1'].fillna(data['road_bunji1'].median(), inplace = True)

In [None]:
# <2> 변수 7개 인코딩
 
# <2> - 1 Close_date : 낙찰될 때의 연도를 통해 연도별 낙찰가격의 변동을 알기 위함
Year = []

for i in range(len(data['Close_date'])):
    Year.append(data['Close_date'][i][:4])

In [None]:
data["Year"] = Year

In [None]:
data['Year'].unique()
data['Year'].replace('1111','2019', inplace=True)

In [None]:
def transform_to_number(x):
    if x=='2016':
        return 2016
    elif x=='2017':
        return 2017
    elif x=='2018':
        return 2018
    else:
        return 2019

In [None]:
data['Year'] = data['Year'].apply(transform_to_number)
data['Year'].head(10)

In [None]:
# <2> - 2 Creditor : 경매신청인에 따른 요구가격를 분석하기 위함
 
Creditor_assortment = []

for i in range(len(data['Creditor'])):
    Creditor_assortment.append(data['Creditor'][i][-2:])

In [None]:
data['Creditor_assortment'] = Creditor_assortment

In [None]:
data['Creditor_assortment'].unique()
data['Creditor_assortment'].replace(['te','보험', '새)', '수협', '음료', '&D', '전문', '기금', '농협',
       '피탈', '카드', '건설', '금융', '베이', '신협', '공사', '회의', '유통', '자원', '주)',
       '레저', '비스', '상사', '앤디', '부산', '설비', '낸스', '물류', '삼진', '이씨', '연미',
       '관리', '공단', '에스', '철강', '제지', '지주', '외1', '조합', '재단', '앤씨', '엔지',
       '리얼', '퍼니', '축협', '구원', '러스', '동양', '이치', '에프', '리아', '우징', '책임',
       '더스', '너지', '디칼', '중앙', '트원', '보증', '북센', '피아', '선진', '웍스', '스템',
       '기술', '브스', 'CC', '로구', '트론', '먼트', '아이', '저축', '엠씨', '주류', '공업',
       '개발', '스타', '프엔', '기공', '기업', '제화', '산업', '교회', '친회', '디스', '제강',
       '로벌', '투자', '기지', '제철', '토건', '전기', '엠피', '서적', '앙회', '엔씨', '판매',
       '농산', '강업', '해양', '사료', '루션', '봉천', '루코', 'NI', '필래', '정비', '블유',
       '실업', '양곡', '학원', '이텍'], ['private','Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other','Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other', 'Other',
       'Other', 'Other', 'Other', 'Other'], inplace=True)

In [None]:
data['Creditor_assortment'].unique()

In [None]:
# <2> - 3 Share_auction_YorN : 부동산에서 소유의 명시를 확실히 하기 위해서
 
data['Share_auction_YorN'].unique()
data['Share_auction_YorN'].replace(['N', 'Y'], ['단독', '공유'], inplace=True)

In [None]:
# <2> - 4 Auction_count : 해당 부동산의 총 경매 횟수에 따른 낙찰가 변동 파악을 위함
 
data['Auction_count'].unique()
data['Auction_count_idx']=data['Auction_count'].replace([2,3,4,1,6,7,5,9,8,10,13], ['0-3','0-3','0-3','4-7','0-3','4-7','4-7','9-','9-','9-','9-'])

In [None]:
# <2> - 5 road_name : '대로>로>길' 이라는 기준으로 부동산의 낙찰가 변동을 위해
 
data['road_name'].head()
Road = []

for i in range(len(data['road_name'])):
    Road.append(data['road_name'][i][-2:])

In [None]:
data["Road"] = Road

In [None]:
t = 0
for i in data['Road']:
    if '대로' == i:
        data['Road'][t] = '1'
    elif '길' in i[-1]:
        data['Road'][t] = '3'
    else:
        data['Road'][t] = '2'
    t += 1

In [None]:
data[['road_name','Road']].head()

In [None]:
# <2> - 6 addr_si : 행정구역과 비행정구역의 부동산 낙찰가 차이 비교
 
data['addr_si'].unique()
data['addr_si'].replace(['해운대구', '사상구', '남구', '사하구', '영도구', '서구', '부산진구', '연제구', '수영구',
       '동래구', '동구', '중구', '강서구', '북구', '금정구', '기장군', '강남구', '은평구', '서초구',
       '영등포구', '양천구', '마포구', '금천구', '성동구', '노원구', '서대문구', '용산구', '구로구',
       '강북구', '관악구', '송파구', '도봉구', '광진구', '중랑구', '동대문구', '강동구', '성북구',
       '동작구', '종로구'], [' ',' ',' ',' ',' ',' ',' ','시청소재지',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',' ',
                      ' ',' ',' ',' ',' ',' ',' ',' '], inplace=True)

In [None]:
# <2> - 7 Appraisal_company : 회사별 지부를 구분하기 위함
 
data[['addr_do','Appraisal_company']].head()
data.loc[data['addr_do']=='부산', 'Appraisal_company_loc'] = '부산_' + data['Appraisal_company']
data.loc[data['addr_do'] =='서울', 'Appraisal_company_loc'] = '서울_' + data['Appraisal_company']

In [None]:
# <3> 연속형 변수들 간 상관관계: correlation matrix
 
print(data.describe())

In [None]:
correlation_features = list(data[['Claim_price', 'Auction_count','Auction_miscarriage_count','Total_land_gross_area',
                                  'Total_land_real_area','Total_land_auction_area','Total_building_area','Total_building_auction_area',
                                  'Total_appraisal_price','Total_floor','Current_floor','point.y','point.x','Hammer_price']])

In [None]:
data[correlation_features].corr()

In [None]:
sns.heatmap(data[correlation_features].corr(),annot=True,linewidths=0.2)
fig=plt.gcf()fig.set_size_inches(10,8)
plt.show()

In [None]:
# <4> 2차원 graph
 
# 전체적인 그래프 해석은 Hammer_price(낙찰가)가 부동산의 가격(경제상황)을 대변할 수 있다는 가정하에서 해석하였습니다. #
 
plt.rc('font', size=20)
plt.rc('axes', titlesize=20, labelsize=18)
plt.rc('axes', labelsize=18)
plt.rc('axes', titlesize=22, labelsize=18)
plt.rc('ytick',labelsize=12)
font_name = mpl.font_manager.FontProperties(fname='C:/Windows/Fonts/malgun.ttf').get_name()
mpl.rc('font', family=font_name) # 그래프 한글 입력

In [None]:
# <4> - 1 부산,서울의 낙찰가 평균 차이
 
graph_2 = sns.barplot(x='Apartment_usage', y='Hammer_price', data=data)
plt.title("아파트와 주상복합 낙찰가")

In [None]:
# <4> - 2 경매횟수와 낙찰가
 
f,ax=plt.subplots(1,2,figsize=(15,5))
graph_3 = sns.barplot(x='Auction_count', y="Hammer_price", ax=ax[0], data=data)
graph_4 = sns.barplot(x='Auction_miscarriage_count', y="Hammer_price",ax=ax[1], data=data)

In [None]:
# <4> - 3 연도별 낙찰가
 
material_1 = data[['Year','Hammer_price']].groupby('Year').median()
material_1

In [None]:
graph_5 = sns.barplot(x='Year', y='Hammer_price', data=data)
plt.title("연도별 낙찰가 비교")

In [None]:
# <4> - 4 요구가격과 낙찰가
 
graph_6 = sns.jointplot(x="Claim_price", y="Hammer_price", data=data)
graph_6

In [None]:
# <4> - 5 경도와 낙찰가
 
graph_7=sns.jointplot(x="point.x", y="Hammer_price",data=data)
graph_7

In [None]:
# <5> 3차원 그래프
 
# <5> - 1 서울과 부산에서의 아파트와 주상복합 가격 비교
 
graph_8 = sns.violinplot(x="addr_do", y="Hammer_price", hue="Apartment_usage", data=data, split=True)

In [None]:
# <5> - 2 연도별 주상복합과 아파트 낙찰가 변화
 
graph_9 = sns.factorplot('Year','Hammer_price',hue='Apartment_usage',data=data)
graph_9

In [None]:
# <5> - 3 연도별 서울과 부산의 낙찰가 변화
 
graph_10 = sns.factorplot('Year','Hammer_price',hue='addr_do',data=data)
graph_10

In [None]:
# <6> - 1 파생변수: [Lossing] 이득/손실
 
data['Lossing_amount'] = 0
data['Lossing'] = ''
data['Lossing_amount'] = data['Hammer_price'] - data['Claim_price']

In [None]:
t = 0 for i in data['Lossing_amount']:
    if i > 0:
        data['Lossing'][t] = "이득"
    else:
        data['Lossing'][t] = "손실"
    t+=1

In [None]:
material_2 = pd.crosstab(data['addr_do'],data['Lossing'],margins=True).style.background_gradient(cmap='summer_r')
material_2

In [None]:
# <6> - 2 파생변수: cats-Appraisal_company 
 
df = data['Appraisal_company'].value_counts()
df.describe()

In [None]:
bins = [0, 3, 7, 11, 34]
labels = ['소소','중소', '중중', '대']
works = pd.cut(df, bins, labels=labels)
works

In [None]:
df2= data.groupby('Appraisal_company')['Total_appraisal_price'].mean()
df3 = pd.concat([works, df2], axis= 1)
df3.groupby('Appraisal_company')['Total_appraisal_price'].mean()