# Apartment data analysis with pandas

Load house price data with pandas

In [1]:
import pandas as pd
import re, os
df = pd.read_csv("apt.csv", encoding = 'cp949')

Print out imported data frame

In [4]:
df

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명
0,강원도 강릉시 견소동,202,202,0,송정한신,59.800,201910,4,10900,5,1997,경강로2539번길 8
1,강원도 강릉시 견소동,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,5,25000,6,2005,경강로2539번길 22
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,12,20600,3,2005,경강로2539번길 22
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,20,20500,1,2005,경강로2539번길 22
...,...,...,...,...,...,...,...,...,...,...,...,...
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.760,201910,29,7000,3,1994,신촌2길 28
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,5,12000,15,2002,원호암5길 32
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,15,11000,7,2002,원호암5길 32
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,17,12000,14,2002,원호암5길 32


Select specific column and conditional indexing

In [6]:
df.지역


0         강원도 강릉시 견소동
1         강원도 강릉시 견소동
2         강원도 강릉시 견소동
3         강원도 강릉시 견소동
4         강원도 강릉시 견소동
             ...     
42753    충청북도 충주시 호암동
42754    충청북도 충주시 호암동
42755    충청북도 충주시 호암동
42756    충청북도 충주시 호암동
42757    충청북도 충주시 호암동
Name: 지역, Length: 42758, dtype: object

In [7]:
df.아파트[(df.면적 > 130) | (df.가격 < 15000)]


0               송정한신
6        강릉교동롯데캐슬1단지
35               서일2
36                한신
37                현대
            ...     
42753           호반현대
42754     호암리버빌(1단지)
42755     호암리버빌(1단지)
42756     호암리버빌(1단지)
42757     호암리버빌(1단지)
Name: 아파트, Length: 11499, dtype: object

In [8]:
df.loc[:, ['아파트', '가격']] [df.가격 > 40000]

Unnamed: 0,아파트,가격
382,속초청호아이파크,45800
541,무실e-편한세상,44600
592,원주반곡아이파크,40700
842,온의 롯데캐슬 스카이클래스,44000
843,온의 롯데캐슬 스카이클래스,42900
...,...,...
42364,신영지웰시티 1차,47700
42365,신영지웰시티 1차,46000
42366,신영지웰시티 1차,55800
42367,신영지웰시티 1차,67000


Create new column and calculation for new information.

In [9]:
df['단가']= df.가격/df.면적
df.loc[:10, ('가격', '면적', '단가')]

Unnamed: 0,가격,면적,단가
0,10900,59.8,182.274247
1,18500,116.175,159.242522
2,25000,84.99,294.152253
3,20600,84.99,242.381457
4,20500,84.99,241.204848
5,29200,84.9964,343.543962
6,34300,135.1727,253.749463
7,32500,118.0686,275.263703
8,16200,59.89,270.495909
9,21550,84.84,254.007544


Sorting data frame by a column

In [10]:
df.sort_values(by='가격').loc[:,('가격','지역')]

Unnamed: 0,가격,지역
17024,600,경상북도 구미시 원평동
17022,700,경상북도 구미시 원평동
17637,750,경상북도 칠곡군 약목면 관호리
17031,800,경상북도 구미시 원평동
17027,800,경상북도 구미시 원평동
...,...,...
27036,373000,서울특별시 강남구 대치동
26805,376640,부산광역시 해운대구 우동
29946,415000,서울특별시 서초구 반포동
27061,461000,서울특별시 강남구 도곡동


In [11]:
df[df.가격 > 250000].sort_values(by = '계약일').loc[:,('가격','면적','계약일')]

Unnamed: 0,가격,면적,계약일
30719,308000,151.008,1
27031,300000,149.78,2
30041,295000,135.97,2
27105,310000,152.39,2
30008,261000,220.55,3
31158,259000,162.71,4
27110,355000,144.2,4
27104,265000,110.82,5
29944,290000,84.97,7
27079,290000,170.01,8


Select data based on region variable

In [12]:
df[df.지역.str.find('강릉') > -1]

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가
0,강원도 강릉시 견소동,202,202,0,송정한신,59.8000,201910,4,10900,5,1997,경강로2539번길 8,182.274247
1,강원도 강릉시 견소동,202,202,0,송정한신,116.1750,201910,31,18500,10,1997,경강로2539번길 8,159.242522
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.9900,201910,5,25000,6,2005,경강로2539번길 22,294.152253
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.9900,201910,12,20600,3,2005,경강로2539번길 22,242.381457
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.9900,201910,20,20500,1,2005,경강로2539번길 22,241.204848
...,...,...,...,...,...,...,...,...,...,...,...,...,...
183,강원도 강릉시 회산동,608,608,0,강릉서희스타힐스리버파크,84.8956,201910,24,24000,10,2017,회산로 344,282.700163
184,강원도 강릉시 회산동,130,130,0,힐스테이트 강릉,84.9925,201910,7,24000,3,2018,회산로383번길 37,282.377857
185,강원도 강릉시 회산동,130,130,0,힐스테이트 강릉,74.9974,201910,19,23000,15,2018,회산로383번길 37,306.677298
186,강원도 강릉시 회산동,130,130,0,힐스테이트 강릉,74.9985,201910,21,24100,6,2018,회산로383번길 37,321.339760


In [13]:
dfF = df[df.지역.str.find('강릉') > -1]
dfF.mean()

  


본번               inf
부번      1.085106e+00
면적      7.047780e+01
계약년월    2.019100e+05
계약일     1.527128e+01
가격      1.541457e+04
층       7.420213e+00
건축년도    2.000463e+03
단가      2.099422e+02
dtype: float64

# Survey Data Analysis with Pandas

In [14]:
df2 = pd.read_csv('survey.csv')

In [15]:
df2

Unnamed: 0,sex,income,English,jobSatisfaction,stress
0,m,3000,500,5,5
1,f,4000,600,4,4
2,f,5000,700,3,2
3,m,6000,800,2,2
4,m,4000,700,2,5
5,m,3000,600,1,5
6,m,3000,500,3,1
7,m,5000,500,3,2
8,f,4999,600,4,3
9,f,5000,700,5,4


In [16]:
df2.mean()

  """Entry point for launching an IPython kernel.


income             4304.217391
English             608.695652
jobSatisfaction       3.304348
stress                3.347826
dtype: float64

In [17]:
df2.income.mean()

4304.217391304348

In [18]:
df2.income.sum()

98997

In [19]:
df2.income.median()

4999.0

In [20]:
df2.describe()

Unnamed: 0,income,English,jobSatisfaction,stress
count,23.0,23.0,23.0,23.0
mean,4304.217391,608.695652,3.304348,3.347826
std,1019.478341,99.603959,1.25896,1.433644
min,3000.0,500.0,1.0,1.0
25%,3000.0,500.0,2.5,2.0
50%,4999.0,600.0,3.0,4.0
75%,5000.0,700.0,4.0,5.0
max,6000.0,800.0,5.0,5.0


In [21]:
df2.sex.value_counts()

m    14
f     9
Name: sex, dtype: int64

In [22]:
df2.groupby(df2.sex).mean()

Unnamed: 0_level_0,income,English,jobSatisfaction,stress
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
f,4333.111111,633.333333,3.666667,3.111111
m,4285.642857,592.857143,3.071429,3.5
