## Pandas 사용하기

In [99]:
import pandas as pd

### Series 사용 

In [100]:
#series 생성하기

In [101]:
population = pd.Series([9904312, 3448737, 2890451, 2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [102]:
# 인덱스를 지정하여 생성하기
# index속성 추기
population = pd.Series([9904312, 3448737, 2890451, 2466052]
                      ,index = ['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [103]:
# 값 확인
print(population.values)  #value
print(population.index)   #index
print(population.dtype)   #dtype

[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
int64


In [104]:
# Series에 이름 지정

        # value에 이름 지정
population.name ='인구'
population

        # index에 이름 지정
population.index.name = '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [105]:
# Series 연산

population / 1000000  #전체 value에 일괄적용

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [106]:
#Series 인덱싱
population[0],population['서울'] #둘 다 사용(자동부여:[0], 직접부여['서울'])

(9904312, 9904312)

In [107]:
# 한 번에 여러 값 인덱싱
population[['대구','서울']]  #(하나인 값처럼) 출력하기_순서무시

도시
대구    2466052
서울    9904312
Name: 인구, dtype: int64

In [108]:
# Boolean 인덱싱
population[population >= 2500000]   ##true인것만 출력

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [109]:
# boolean인덱싱_두가지 비교
population[(population >= 2500000) & (population <= 5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [110]:
#Series 슬라이싱 
population['부산':'인천']   #직접 부여한 인덱스 사용[이상:이하]
population[1:3]             #자동 부여된 인덱스 사용[이상:미만]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [111]:
# 딕셔너리 객체로 Series 생성
data = {'서울' : 9631482, '부산' : 3393191,
        '인천' : 2632035, '대전' : 1490158}

population2 = pd.Series(data)
population2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [112]:
ds = population - population2

In [113]:
# null(Nan, None)값 검색:        #insnull() - null > True

ds.isnull()
ds[ds.isnull()]  #true인 경우만 출력

대구   NaN
대전   NaN
dtype: float64

In [114]:
# null(Nan, None)값 검색2:       #not null() - null이 아닌 것 > True인 값만 출력
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [115]:
# Series 데이터 갱신, 추가, 삭제

In [116]:
# 갱신, 추가
# 변수[인덱스] = 값 : '대구'에 156456추가  
ds['대구'] = 156456 
ds

대구    156456.0
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [117]:
# 인덱스 추가(기존에 없는 인덱스인 경우) 
ds['광주'] = 89648
ds

대구    156456.0
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
광주     89648.0
dtype: float64

In [118]:
# 삭제
# del 변수[인덱스] # 대전 삭제
del ds['대전']
ds

대구    156456.0
부산     55546.0
서울    272830.0
인천    258416.0
광주     89648.0
dtype: float64

# DataFrame

In [119]:
# DataFrame생성
# 2차원 데이터

# 딕셔너리 객체로 생성
data = {'2015' : [9904312, 3448737, 2890451, 2466052],
       '2016' : [9631482, 3393191, 2632035, 2431774]}
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2016
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [120]:
# DataFarame 인덱스 수정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2016
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [121]:
# 리스트로 DataFrame 만들기

In [122]:
data = [
    [9904312, 3448737, 2890451, 2466052],
    [9361482, 3393191, 2632035, 2431774]
]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(data, index = ind, columns = col)
    # pd.DataFrame(data, index, columns) 지정
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9361482,3393191,2632035,2431774


In [123]:
data2 = [
    [9904312, 9361482],
    [3448737, 3393191],
    [2890451, 2632035],
    [2466052, 2431774]
]
ind2 = ['서울','부산','인천','대구']
col2 = ['2015','2016']
df3 = pd.DataFrame(data2, index=ind2, columns = col2)
df3

Unnamed: 0,2015,2016
서울,9904312,9361482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [124]:
df2.T   #행과 열을 변환: 출력만 하는 것

Unnamed: 0,2015,2010
서울,9904312,9361482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [125]:
df3.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [126]:
df3.columns

Index(['2015', '2016'], dtype='object')

In [127]:
# DataFrame 열 인덱싱

df["2015"] #Series로 출력

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [128]:
# DataFrame으로 출력
df[['2015']]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [129]:
df[['2016','2015']] #원하는 순서대로 데이터 출력하기

Unnamed: 0,2016,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [130]:
#열 생성
df['2005'] = [9762546, 3512547, 2517680, 2456016]
df
df[['2005','2015','2016']] #원하는 순서대로 데이터 출력하기

Unnamed: 0,2005,2015,2016
서울,9762546,9904312,9631482
부산,3512547,3448737,3393191
인천,2517680,2890451,2632035
대구,2456016,2466052,2431774


In [131]:
# 인덱서(슬라이싱과 비슷)_행과 열을 한번에 인덱싱
# loc : 직접 부여된 행과 열의 이름 생성
#iloc : 자동으로 부여된 행과 열의 번호 사용
# 변수.loc(행, 열)   ___(or) 변수.iloc(행, 열)

df.loc['서울':'부산' , '2015':'2016'] #loc는 이하

Unnamed: 0,2015,2016
서울,9904312,9631482
부산,3448737,3393191


In [132]:
df

Unnamed: 0,2015,2016,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [133]:
df.iloc[:2, :2]  #iloc는 미만을 가지고 온다

Unnamed: 0,2015,2016
서울,9904312,9631482
부산,3448737,3393191


In [134]:
# 인덱서[값]
# 행만 입력: 값에 해당하는 행의 전체열 출력
df.loc['서울']

2015    9904312
2016    9631482
2005    9762546
Name: 서울, dtype: int64

In [135]:
#행 추가, 값 갱신
df.loc['광주'] = [984165165, 8916849, 6516869]
df

Unnamed: 0,2015,2016,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016
광주,984165165,8916849,6516869


In [136]:
#Boolean 인덱싱
#True인덱스의 전체 열 출력
df[df['2015'] > 2500000]

Unnamed: 0,2015,2016,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
광주,984165165,8916849,6516869


In [137]:
df.loc[df['2015'] > 2500000, ['2015','2016']]

Unnamed: 0,2015,2016
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
광주,984165165,8916849


In [138]:
population_number = pd.read_csv('population_number.csv', encoding ='euc-kr')
population_number

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [139]:
population_number = pd.read_csv('population_number.csv',
                                index_col ='도시',   #index에 column넣기
                                encoding ='euc-kr')
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [140]:
# value_counts()
# 각각의 값이 나온 횟수를 세줌
population_number['지역'].value_counts()

경상권    2
수도권    2
Name: 지역, dtype: int64

In [141]:
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [142]:
# 정렬

# .sort_index(): 인덱스 값을 기준으로 정렬
# .sort_values() : 데이터 값을 기준으로 정렬

In [143]:
#Serise데이터일땐 바로 사용 가능
population_number['2010'].sort_values()

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [144]:
#DataFrame일때는 정렬할 column을 적어야 함
population_number.sort_values(by = '2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [145]:
population_number.sort_values(by = ['지역','2010'])
                                    #지역의 값이 같을 때, 2010를 기준으로 다시 재정렬

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


In [146]:
# 내림차순 정렬 # ascending = False
population_number.sort_values(by = ['지역','2010'] , ascending = False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437


In [147]:
#삭제
#del 변수[인덱스]

del ds['대전']
ds

KeyError: '대전'

In [148]:
# 삭제 : drop
행과 열 삭제
결과를 출력만 함 저장은 하지않음
inplace = True , 결과를 출력하지않고 저장
del
열을 삭제

SyntaxError: invalid syntax (<ipython-input-148-95ea3a0c8e43>, line 2)

In [None]:
study_score = pd.read_csv('score.csv',
                                index_col ='과목',
                                encoding ='euc-kr')
study_score

In [None]:
#학급별 총계 : 열 방향으로 계산
study_score.sum()   #DataFrame에선: sum은 기본적으로 열의 방향으로 계산

In [None]:
#학급별 총계 : 행 방향으로 계산
study_score.sum(axis = 1)

In [None]:
# 합계 열 추가
# 과목별 총계 값 추가                      #loc슬라이싱 사용해서 1반~4반까지만 계산
study_score['합계'] = study_score.loc[:,'1반':'4반'].sum(axis = 1)
study_score

In [None]:
study_score['평균'] = study_score.loc[:,'1반':'4반'].mean(axis=1)
study_score

#axis=1  ==> 열
#axis=0  ==> 행

In [None]:
#행 추가는 loc인덱서 추가 필요
study_score.loc['반 평균'] = study_score.mean()
study_score

### 최대값: max()
### 최소값: min()

In [None]:
            #과목별 최대값
maxArr = study_score.loc['수학':'과학','1반':'4반'].max(axis=1)
print(maxArr)
            #과목별 최대값
minArr = study_score.loc['수학':'과학','1반':'4반'].min(axis=1)
print(minArr)


In [None]:
#과목별 최대값과 최소값의 차
maxArr-minArr

### apply_행이나 열 단위로 복잡한 처리를 할 때 사용
           - 한 줄식 데이터를 가져와서 처리해야 할때 사용

In [None]:
def max_min(x):
    return x.max()-x.min()

In [None]:
study_score.loc[:'과학',:'4반'].apply(max_min,axis=1)
#study_score.loc[:'과학',:'4반'] 부분을 max_min에 적용 #apply는 한 줄 씩 뽑아서 계산

In [None]:
# 결측치를 원하는 값으로 바꾸기
# fillna
study_score.loc['test'] = [1, 2, 3, 4, None, None]
study_score

In [None]:
study_score.fillna(10, inplace=True)   #Nan->10으로 변경(저장은되지 않음-새로운 변수에 담아둘것)
study_score

#함수 속성 확인하기 : shift+tap

In [None]:
#데이터를 카테고리화 시키기
#cut
#범위에 따라 새로운 label값을 부여해 줌
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
bins = [0, 15, 25, 35, 60, 99]   #범위(ex. 0초과 15이하, 15초과 25이하..)
labels = ['미성년자','청년','중년','장년','노년']
pd.cut(ages, bins, labels = labels)
        #ages라는 데이터를 bin안에 소속시켜서 label로 뽑아낸다
        #결과값 list로 활용가능
        #속성과 순서가 같으면 어떤 데이터인지 설명하지 않아도된다

In [None]:
#데이터 합치기
#concat: 열이나 행 기준으로 합침
#merge: 열이나 행 안의 데이터를 기준으로 합침

In [149]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])


In [150]:
# concat
 ## 위에서 아랫방향으로 데이터를 합친다              
pd.concat([df1, df2, df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [151]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])


In [152]:
pd.concat([df1, df4])                     #열이 다를 경우,  Nan으로 출력

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [153]:
#axis = 1
#index방향으로 데이터를 합침
pd.concat([df1, df4], axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [154]:
#join속성
#outer, inner
#outer: 전체 데이터를 출력, 기본값
#inner: 공유하고 있는 기준값만 출력
pd.concat([df1, df4], axis = 1, join='outer')

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [155]:
#원하는 인덱스의 값만 가져오기
#reindex함수 사용
pd.concat([df1,df4], axis = 1).reindex(df1.index)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [156]:
#인덱스(기준이 아닌것) 순서 재정렬
#ignore_index
pd.concat([df1,df4], ignore_index = True, axis =1)

Unnamed: 0,0,1,2,3,4,5,6
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [157]:
df5 = pd.DataFrame({'key': ['K0','K2','K3','K4'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']})


df6 = pd.DataFrame({'key': ['K0','K1','K2','K3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']})

In [158]:
# merge
#df5: key = k0, k2, k3, k4
#df6: key = k0, k1, k2, k3
pd.merge(df5,df6)  #on='key'생략

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [159]:
# how
# outer, inner, right, left
pd.merge(df5, df6, on='key', how='right')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K1,,,C1,D1


In [160]:
import warnings
warnings.filterwarnings(action='ignore')

In [161]:
df2015 = pd.read_csv('2015.csv',encoding='euc-kr',index_col='관서명')
df2016 = pd.read_csv('2016.csv',encoding='euc-kr',index_col='관서명')
df2017 = pd.read_csv('2017.csv',encoding='euc-kr',index_col='관서명')

df2015_crime = df2015[df2015['구분']=='발생건수']
df2015_crime['2015총계'] = df2015_crime.loc[:,'살인':].sum(axis = 1)

df2016_crime = df2016[df2016['구분']=='발생건수']
df2016_crime['2016총계'] = df2016_crime.loc[:,'살인':].sum(axis = 1)

df2017_crime = df2017[df2017['구분']=='발생건수']
df2017_crime['2017총계'] = df2017_crime.loc[:,'살인':].sum(axis = 1)

s1 = df2015_crime['2015총계']
s3 = df2016_crime['2016총계']
s5 = df2017_crime['2017총계']

s2 = (s3 - s1) / s1 * 100
s2.name = '2015-2016 증감율'
s4 = (s5 - s3) / s3 * 100
s4.name = '2016-2017 증감율'

pd.concat([s1,s2,s3,s4,s5],axis = 1,join='inner')

Unnamed: 0_level_0,2015총계,2015-2016 증감율,2016총계,2016-2017 증감율,2017총계
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주지방경찰청계,18830,-18.130643,15416,-9.516087,13949
광주동부경찰서,2355,-12.186837,2068,-13.007737,1799
광주서부경찰서,4720,-17.542373,3892,-6.526208,3638
광주남부경찰서,2117,-11.903637,1865,-17.050938,1547
광주북부경찰서,5466,-24.112697,4148,-4.893925,3945
광주광산경찰서,4172,-17.473634,3443,-12.285797,3020


In [162]:
df = pd.read_csv('apt.csv',encoding = 'cp949')
df

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명
0,강원도 강릉시 견소동,202,202,0,송정한신,59.800,201910,4,10900,5,1997,경강로2539번길 8
1,강원도 강릉시 견소동,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,5,25000,6,2005,경강로2539번길 22
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,12,20600,3,2005,경강로2539번길 22
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,20,20500,1,2005,경강로2539번길 22
...,...,...,...,...,...,...,...,...,...,...,...,...
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.760,201910,29,7000,3,1994,신촌2길 28
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,5,12000,15,2002,원호암5길 32
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,15,11000,7,2002,원호암5길 32
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,17,12000,14,2002,원호암5길 32


In [163]:
df['가격'] [df['면적']>130]

6        34300
39       21000
334      29500
433      26000
434      24000
         ...  
42595    15000
42607    18500
42663    31500
42736    18500
42737    16200
Name: 가격, Length: 1567, dtype: int64

In [164]:
df[df['면적']>=130]['가격']

6        34300
39       21000
334      29500
433      26000
434      24000
         ...  
42595    15000
42607    18500
42663    31500
42736    18500
42737    16200
Name: 가격, Length: 1567, dtype: int64

In [165]:
#면적이 130이상, 가격이 15000미만인 면적, 가격 출력

df.loc[(df['면적']>=130) | (df['가격']<15000), '가격']

0        10900
6        34300
35        4600
36       13200
37       14700
         ...  
42753     7000
42754    12000
42755    11000
42756    12000
42757    11200
Name: 가격, Length: 11499, dtype: int64

In [166]:
df.iloc[:10][['아파트','가격']]

Unnamed: 0,아파트,가격
0,송정한신,10900
1,송정한신,18500
2,송정해변신도브래뉴아파트,25000
3,송정해변신도브래뉴아파트,20600
4,송정해변신도브래뉴아파트,20500
5,강릉 교동 풍림아이원 아파트,29200
6,강릉교동롯데캐슬1단지,34300
7,강릉교동롯데캐슬2단지,32500
8,교동1주공,16200
9,교동1주공,21550


In [167]:
df.loc[:10][['아파트','가격']]

Unnamed: 0,아파트,가격
0,송정한신,10900
1,송정한신,18500
2,송정해변신도브래뉴아파트,25000
3,송정해변신도브래뉴아파트,20600
4,송정해변신도브래뉴아파트,20500
5,강릉 교동 풍림아이원 아파트,29200
6,강릉교동롯데캐슬1단지,34300
7,강릉교동롯데캐슬2단지,32500
8,교동1주공,16200
9,교동1주공,21550


# 새로운 값 추가하기
 - 단가컬럼만들기
 - 단가 = 가격/면적

In [168]:
df['단가'] = df['가격'] / df['면적']
df

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가
0,강원도 강릉시 견소동,202,202,0,송정한신,59.800,201910,4,10900,5,1997,경강로2539번길 8,182.274247
1,강원도 강릉시 견소동,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8,159.242522
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,5,25000,6,2005,경강로2539번길 22,294.152253
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,12,20600,3,2005,경강로2539번길 22,242.381457
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,20,20500,1,2005,경강로2539번길 22,241.204848
...,...,...,...,...,...,...,...,...,...,...,...,...,...
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.760,201910,29,7000,3,1994,신촌2길 28,117.135207
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,5,12000,15,2002,원호암5길 32,141.709967
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,15,11000,7,2002,원호암5길 32,129.900803
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,17,12000,14,2002,원호암5길 32,141.709967


- 컬럼, 인덱스 이름 바꾸기
- rename
- 단가컬럼 => 평당가격
- 0번 인덱스 => 100번으로

In [169]:
df.rename(columns ={'단가' : '면적당 가격'}, index = {0 : 100})

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,면적당 가격
100,강원도 강릉시 견소동,202,202,0,송정한신,59.800,201910,4,10900,5,1997,경강로2539번길 8,182.274247
1,강원도 강릉시 견소동,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8,159.242522
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,5,25000,6,2005,경강로2539번길 22,294.152253
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,12,20600,3,2005,경강로2539번길 22,242.381457
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.990,201910,20,20500,1,2005,경강로2539번길 22,241.204848
...,...,...,...,...,...,...,...,...,...,...,...,...,...
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.760,201910,29,7000,3,1994,신촌2길 28,117.135207
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,5,12000,15,2002,원호암5길 32,141.709967
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,15,11000,7,2002,원호암5길 32,129.900803
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,17,12000,14,2002,원호암5길 32,141.709967


# 데이터 정렬해서 출력하기
 - 가격을 오름차순으로 정렬

In [170]:
df.sort_values( by = '가격')

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가
17024,경상북도 구미시 원평동,937-68,937,68,원평주공,40.3200,201910,7,600,4,1984,칠성로2길 16,14.880952
17022,경상북도 구미시 원평동,937-68,937,68,원평주공,49.2200,201910,4,700,3,1984,칠성로2길 15,14.221861
17637,경상북도 칠곡군 약목면 관호리,산74-10,74,10,성재,31.6200,201910,17,750,6,1990,관호8길 32-2,23.719165
17031,경상북도 구미시 원평동,937-68,937,68,원평주공,40.3200,201910,21,800,2,1984,칠성로2길 16,19.841270
17027,경상북도 구미시 원평동,937-68,937,68,원평주공,40.3200,201910,16,800,3,1984,칠성로2길 16,19.841270
...,...,...,...,...,...,...,...,...,...,...,...,...,...
27036,서울특별시 강남구 대치동,670,670,0,동부센트레빌,161.4700,201910,29,373000,3,2005,선릉로 206,2310.026630
26805,부산광역시 해운대구 우동,1407,1407,0,해운대두산위브더제니스,209.8332,201910,16,376640,70,2011,마린시티2로 33,1794.949512
29946,서울특별시 서초구 반포동,02월 12일,2,12,아크로리버파크,129.9200,201910,14,415000,8,2016,신반포로15길 19,3194.273399
27061,서울특별시 강남구 도곡동,202,202,0,상지리츠빌 카일룸,210.5000,201910,24,461000,2,2018,남부순환로373길 23,2190.023753


In [171]:
# 가격을 오름차순으로 정렬한 후 가격과 지역컬럼만 가져오기
df.sort_values(by='가격').loc[:, ['가격','지역']]

Unnamed: 0,가격,지역
17024,600,경상북도 구미시 원평동
17022,700,경상북도 구미시 원평동
17637,750,경상북도 칠곡군 약목면 관호리
17031,800,경상북도 구미시 원평동
17027,800,경상북도 구미시 원평동
...,...,...
27036,373000,서울특별시 강남구 대치동
26805,376640,부산광역시 해운대구 우동
29946,415000,서울특별시 서초구 반포동
27061,461000,서울특별시 강남구 도곡동


In [187]:
#특정 지역명이 들어간 변수 찾기(지역에 강릉이라는 단어가 들어간 값을 새로운 값으로 바꾸기)
#find는 string만 참조한다
df[df['지역'].str.find('강릉') != -1]
        #-1: 글자열 속에 강릉이 없다
        #-1이 아닌것: 강릉이라는 단어가 시작하는 인덱스 번호

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가
0,강릉,202,202,0,송정한신,59.8000,201910,4,10900,5,1997,경강로2539번길 8,182.274247
1,강릉,202,202,0,송정한신,116.1750,201910,31,18500,10,1997,경강로2539번길 8,159.242522
2,강릉,289,289,0,송정해변신도브래뉴아파트,84.9900,201910,5,25000,6,2005,경강로2539번길 22,294.152253
3,강릉,289,289,0,송정해변신도브래뉴아파트,84.9900,201910,12,20600,3,2005,경강로2539번길 22,242.381457
4,강릉,289,289,0,송정해변신도브래뉴아파트,84.9900,201910,20,20500,1,2005,경강로2539번길 22,241.204848
...,...,...,...,...,...,...,...,...,...,...,...,...,...
183,강릉,608,608,0,강릉서희스타힐스리버파크,84.8956,201910,24,24000,10,2017,회산로 344,282.700163
184,강릉,130,130,0,힐스테이트 강릉,84.9925,201910,7,24000,3,2018,회산로383번길 37,282.377857
185,강릉,130,130,0,힐스테이트 강릉,74.9974,201910,19,23000,15,2018,회산로383번길 37,306.677298
186,강릉,130,130,0,힐스테이트 강릉,74.9985,201910,21,24100,6,2018,회산로383번길 37,321.339760


In [188]:
# 주소값이 달라져서 기존의 df값이 저장이 안됨
df[df['지역'].str.find('강릉')!= -1]['지역']='강릉'
df

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가
0,강릉,202,202,0,송정한신,59.800,201910,4,10900,5,1997,경강로2539번길 8,182.274247
1,강릉,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8,159.242522
2,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,5,25000,6,2005,경강로2539번길 22,294.152253
3,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,12,20600,3,2005,경강로2539번길 22,242.381457
4,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,20,20500,1,2005,경강로2539번길 22,241.204848
...,...,...,...,...,...,...,...,...,...,...,...,...,...
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.760,201910,29,7000,3,1994,신촌2길 28,117.135207
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,5,12000,15,2002,원호암5길 32,141.709967
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,15,11000,7,2002,원호암5길 32,129.900803
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,17,12000,14,2002,원호암5길 32,141.709967


In [189]:
# loc인덱서를 사용하면 같은 주소를 공유하기 때문에 기존 df에 값이 저장이 됨
df.loc[df['지역'].str.find('강릉') != -1, '지역'] = '강릉'  #강릉으로 시작하는데를 모두 강릉으로 바꿔버림

In [190]:
df

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가
0,강릉,202,202,0,송정한신,59.800,201910,4,10900,5,1997,경강로2539번길 8,182.274247
1,강릉,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8,159.242522
2,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,5,25000,6,2005,경강로2539번길 22,294.152253
3,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,12,20600,3,2005,경강로2539번길 22,242.381457
4,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,20,20500,1,2005,경강로2539번길 22,241.204848
...,...,...,...,...,...,...,...,...,...,...,...,...,...
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.760,201910,29,7000,3,1994,신촌2길 28,117.135207
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,5,12000,15,2002,원호암5길 32,141.709967
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,15,11000,7,2002,원호암5길 32,129.900803
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,17,12000,14,2002,원호암5길 32,141.709967


# 컬럼 만들고 새로운 값 채우기
    - 기준컬럼 생성
    - apply 함수
    - 값에는 단가 값을 비교해서 상, 중, 하 3개의 데이터를 기준 컬럼에 채움

In [194]:
df['단가'].describe()

count    42758.000000
mean       411.987598
std        298.928244
min         14.221861
25%        226.069540
50%        333.291174
75%        500.698171
max       5464.176192
Name: 단가, dtype: float64

In [197]:
def make_standard(apt):
    if apt['단가'] < 226:
        return '하'
    elif (apt['단가']>=226)&(apt['단가'] < 500):
        return '중'
    else :
        return '상'

In [198]:
df['기준'] = df.apply(make_standard, axis = 1)
df

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가,기준
0,강릉,202,202,0,송정한신,59.800,201910,4,10900,5,1997,경강로2539번길 8,182.274247,하
1,강릉,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8,159.242522,하
2,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,5,25000,6,2005,경강로2539번길 22,294.152253,중
3,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,12,20600,3,2005,경강로2539번길 22,242.381457,중
4,강릉,289,289,0,송정해변신도브래뉴아파트,84.990,201910,20,20500,1,2005,경강로2539번길 22,241.204848,중
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.760,201910,29,7000,3,1994,신촌2길 28,117.135207,하
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,5,12000,15,2002,원호암5길 32,141.709967,하
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,15,11000,7,2002,원호암5길 32,129.900803,하
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.680,201910,17,12000,14,2002,원호암5길 32,141.709967,하
