# Python 표준 라이브러리

## 폴더와 파일 다루기

### 작업경로 확인 및 변경

In [1]:
# 라이브러리를 호출합니다.
import os, shutil

In [2]:
# 현재 작업경로를 확인합니다.
os.getcwd()

'/Users/drkevin/Documents/Project/code'

In [3]:
# 데이터 파일이 저장된 폴더로 작업경로를 변경합니다. (상대경로 사용)
os.chdir('../data')

### 새 폴더 생성

In [4]:
# 새로운 폴더를 생성합니다.
os.mkdir('./temp')

In [5]:
os.listdir()

['temp',
 '.DS_Store',
 'test.csv',
 'APT_Price_Seoul_2020.csv',
 'python.txt',
 'Naver_APT_Detail.xlsx',
 'KBO_Hitters_2020.csv',
 'test.xlsx',
 'KBO_Hitters_2020.xlsx',
 'Naver_APT_Detail.csv',
 'APT_Price_Seoul_2020.xlsx']

### 파일 복사 및 이동

In [6]:
# 기존 파일을 복사합니다. (파일명, 파일명)
shutil.copy('python.txt', 'copy1.txt')

'copy1.txt'

In [7]:
# 기존 파일을 다른 폴더로 복사합니다. (파일명, 폴더명)
shutil.copy('python.txt', './temp')

'./temp/python.txt'

In [8]:
# 파일을 이동시킵니다. (파일명, 폴더명)
shutil.move('copy1.txt', './temp')

'./temp/copy1.txt'

In [9]:
# 작업경로를 변경합니다.
os.chdir('./temp')

In [10]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['python.txt', 'copy1.txt']

### 파일명 변경

In [11]:
# 파일명을 변경합니다. (파일명, 파일명)
os.rename('python.txt', 'copy2.txt')

In [12]:
# 파일을 복사합니다. (파일명, 파일명)
shutil.copy('copy2.txt', 'copy3.txt')

'copy3.txt'

### 파일 삭제

In [13]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['copy3.txt', 'copy2.txt', 'copy1.txt']

In [14]:
# 한 개 파일을 삭제합니다.
os.remove('copy1.txt')

In [15]:
# 여러 개의 파일을 한 번에 삭제하려면 아래와 같이 반복문을 실행합니다.
for i in os.listdir():
    if os.path.splitext(i)[-1] != '':
        os.remove(i)

### 폴더 삭제

In [16]:
# 상위 폴더로 이동합니다.
os.chdir('..')

In [17]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

['temp',
 '.DS_Store',
 'test.csv',
 'APT_Price_Seoul_2020.csv',
 'python.txt',
 'Naver_APT_Detail.xlsx',
 'KBO_Hitters_2020.csv',
 'test.xlsx',
 'KBO_Hitters_2020.xlsx',
 'Naver_APT_Detail.csv',
 'APT_Price_Seoul_2020.xlsx']

In [18]:
# 비어 있는 폴더를 삭제합니다.
os.rmdir('temp')

In [19]:
# 폴더와 파일을 모두 삭제합니다.
# shutil.rmtree('temp')

## 현재 날짜 및 시간 확인

In [20]:
# 라이브러리를 호출합니다.
from time import *

In [21]:
# 현재 시간을 출력합니다.
ctime()

'Tue Feb  9 18:37:06 2021'

In [22]:
# 유닉스 시간을 실수로 출력합니다.
time()

1612863426.7383978

In [23]:
# 유닉스 시간을 로컬 시간으로 변환합니다.
localtime(0)

time.struct_time(tm_year=1970, tm_mon=1, tm_mday=1, tm_hour=9, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=1, tm_isdst=0)

In [24]:
# 로컬 시간에서 '요일'을 문자열로 반환합니다.
strftime('%A', localtime())

'Tuesday'

In [25]:
# 'yyyy년 mm월 dd일'을 반환합니다.
strftime('%Y년 %m월 %d일', localtime())

'2021년 02월 09일'

In [26]:
# 'yyyy-mm-dd HH:MM:SS'를 반환합니다.
strftime('%Y-%m-%d %H:%M:%S', localtime())

'2021-02-09 18:37:08'

In [27]:
# 일정 시간 동안 멈춥니다.
sleep(1)

## 로케일

In [28]:
# 로컬 시간의 타임존을 출력합니다.
strftime('%Z', localtime())

'KST'

In [29]:
# 라이브러리를 호출합니다.
import locale

In [30]:
# 현재 설정된 로케일을 확인합니다.
locale.getlocale()

('en_US', 'UTF-8')

In [31]:
# 한국 로케일로 변경합니다.
locale.setlocale(locale.LC_TIME, 'ko_KR')

'ko_KR'

In [32]:
# 로컬 시간의 타임존을 다시 출력합니다.
strftime('%Z', localtime())

'KST'

# numpy 기초

In [33]:
# 라이브러리를 호출합니다.
import numpy as np

## 1차원 배열

### 1차원 배열 생성

In [34]:
# 리스트로 1차원 배열을 생성합니다.
ar1 = np.array([1, 2, 3])

In [35]:
# ar1을 출력합니다.
ar1

array([1, 2, 3])

In [36]:
type(ar1)

numpy.ndarray

In [37]:
# ar1의 차원을 확인합니다. (1차원)
ar1.ndim

1

In [38]:
# ar1의 형태를 확인합니다. 
ar1.shape

(3,)

In [39]:
# ar1 원소의 자료형을 확인합니다.
ar1.dtype

dtype('int64')

In [40]:
# 0부터 4까지 연속된 정수를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(5)

array([0, 1, 2, 3, 4])

In [41]:
# 1부터 5까지 연속된 정수를를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(1, 6)

array([1, 2, 3, 4, 5])

In [42]:
# 1부터 10에서 홀수를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(1, 11, 2)

array([1, 3, 5, 7, 9])

In [43]:
# 0부터 1까지 간격이 0.1인 실수를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

### 1차원 배열의 형 변환

In [44]:
# 자료형이 섞여 있는 리스트로 1차원 배열을 생성합니다.
ar1 = np.array([1, 2.0, '3'])

In [45]:
# ar1을 출력합니다.
ar1

array(['1', '2.0', '3'], dtype='<U32')

In [46]:
# ar1의 자료형을 확인합니다.
ar1.dtype

dtype('<U32')

In [47]:
# ar1의 원소를 실수로 변환합니다.
ar1.astype('float')

array([1., 2., 3.])

In [48]:
# ar1의 원소를 정수로 변환합니다.
ar1.astype('int')

ValueError: invalid literal for int() with base 10: '2.0'

### 1차원 배열의 인덱싱

In [49]:
# 1부터 11에서 홀수를 원소로 갖는 1차원 배열을 생성합니다. 
ar1 = np.arange(1, 12, 2)

In [50]:
# ar1의 0번 인덱스(첫 번째) 원소를 선택합니다.
ar1[0]

1

In [51]:
# ar1의 1번 인덱스(두 번째) 원소를 선택합니다.
ar1[1]

3

In [52]:
# ar1의 마지막 원소를 선택합니다.
ar1[-1]

11

In [53]:
# ar1의 0~2번 인덱스 원소를 선택합니다. 
ar1[:3]

array([1, 3, 5])

In [54]:
# ar1의 3번 인덱스부터 마지막 원소까지 선택합니다.
ar1[3:]

array([ 7,  9, 11])

In [55]:
# ar1의 전체 원소를 선택합니다.
ar1[:]

array([ 1,  3,  5,  7,  9, 11])

In [56]:
# ar1에서 리스트로 지정된 인덱스 순서대로 원소를 선택합니다.
ar1[[3, 0, 2, 4, 1]]

array([7, 1, 5, 9, 3])

In [57]:
# 오름차순 정렬 실습을 위해 ar1에 재할당합니다.
ar1 = ar1[[3, 0, 2, 4, 1]]

### 1차원 배열의 원소 정렬

In [58]:
# ar1의 원소를 오름차순으로 정렬한 결과를 출력합니다.
np.sort(ar1)

array([1, 3, 5, 7, 9])

In [59]:
# ar1을 출력합니다.
ar1

array([7, 1, 5, 9, 3])

In [60]:
# ar1을 오름차순으로 정렬한 결과를 ar1에 재할당합니다.
ar1.sort()

In [61]:
# ar1을 출력합니다.
ar1

array([1, 3, 5, 7, 9])

In [62]:
# 1차원 배열의 원소를 역순으로 정렬합니다.
ar1 = ar1[::-1]

In [63]:
# ar1을 출력합니다.
ar1

array([9, 7, 5, 3, 1])

## 2차원 배열

### 2차원 배열 생성

In [64]:
# 리스트로 2차원 배열을 생성합니다.
ar2 = np.array([[1, 2, 3], [4, 5, 6]])

In [65]:
# ar2를 출력합니다.
ar2

array([[1, 2, 3],
       [4, 5, 6]])

In [66]:
# ar2의 클래스를 확인합니다.
type(ar2)

numpy.ndarray

In [67]:
# ar2의 차원을 확인합니다. (2차원)
ar2.ndim

2

In [68]:
# ar2의 형태를 확인합니다. 
ar2.shape

(2, 3)

In [69]:
# ar2 원소의 자료형을 확인합니다.
ar2.dtype

dtype('int64')

### 배열의 차원 변환

In [70]:
# 0부터 11까지 12개의 원소를 갖는 1차원 배열을 생성합니다.
ar1 = np.arange(12)

In [71]:
# ar1을 3행 4열인 2차원 배열로 변환합니다.
ar1.reshape(3, 4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [72]:
# 배열의 구조를 변경할 때 원소의 입력방향을 세로로 지정합니다.
ar1.reshape(3, 4, order = 'F')

array([[ 0,  3,  6,  9],
       [ 1,  4,  7, 10],
       [ 2,  5,  8, 11]])

In [73]:
# 행 위치에 숫자, 열 위치에 '-1'을 할당하면 열의 크기가 자동 계산됩니다.
ar1.reshape(4, -1)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [74]:
# 2차원 배열 인덱싱 실습을 위해 ar2에 재할당합니다.
ar2 = ar1.reshape(4, -1)

### 2차원 배열의 인덱싱 및 슬라이싱

In [75]:
# ar2의 1행 1열의 원소를 선택합니다.
ar2[0, 0]

0

In [76]:
# ar2의 2행 2열의 원소를 선택합니다. 
ar2[1, 1]

4

In [77]:
# ar2의 1~2행 1~2열 원소를 선택합니다.
ar2[0:2, 0:2]

array([[0, 1],
       [3, 4]])

In [78]:
# ar2의 전체 행 2~3열 원소를 선택합니다.
ar2[:, 1:3]

array([[ 1,  2],
       [ 4,  5],
       [ 7,  8],
       [10, 11]])

In [79]:
# ar2의 열 순서를 변경합니다.
ar2[:, [2, 1]]

array([[ 2,  1],
       [ 5,  4],
       [ 8,  7],
       [11, 10]])

# pandas 기초

In [80]:
# pandas 라이브러리를 호출합니다.
import pandas as pd

## 시리즈

### 시리즈 생성

In [81]:
# 1차원 배열로 시리즈를 생성합니다.
sr = pd.Series(np.arange(1, 10, 2))

In [82]:
# sr을 출력합니다.
sr

0    1
1    3
2    5
3    7
4    9
dtype: int64

In [83]:
# sr의 클래스를 확인합니다.
type(sr)

pandas.core.series.Series

In [84]:
# 리스트로 시리즈를 생성합니다. (value, index 순)
pd.Series([1, 3, 5, 7, 9], ['a', 'b', 'c', 'd', 'e'])

a    1
b    3
c    5
d    7
e    9
dtype: int64

In [85]:
# 딕셔너리로 시리즈를 생성합니다. (key가 index로 자동 설정)
pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':9})

a    1
b    3
c    5
d    7
e    9
dtype: int64

### 시리즈 확인

In [86]:
# sr의 형태를 출력합니다.
sr.shape

(5,)

In [87]:
# sr의 값을 출력합니다.
sr.values

array([1, 3, 5, 7, 9])

In [88]:
# sr의 인덱스를 출력합니다.
sr.index

RangeIndex(start=0, stop=5, step=1)

In [89]:
# sr의 자료형을 출력합니다.
sr.dtypes

dtype('int64')

In [90]:
# 시리즈의 인덱스에 이름을 지정합니다.
sr.index = ['a', 'b', 'c', 'd', 'e']

In [91]:
# sr을 출력합니다.
sr

a    1
b    3
c    5
d    7
e    9
dtype: int64

### 시리즈의 팬시 인덱싱

#### iloc 인덱싱

In [92]:
# 대괄호 안에 정수 인덱스 스칼라를 지정하면 원소를 반환합니다.
sr.iloc[0]

1

In [93]:
# 대괄호 안에 스칼라 대신 리스트를 지정하면 항상 시리즈로 반환됩니다.
sr.iloc[[0]]

a    1
dtype: int64

In [94]:
# 정수 배열/리스트를 지정하면 순서대로 원소를 선택하여 시리즈로 반환합니다. (팬시 인덱싱)
sr.iloc[[1, 3]]

b    3
d    7
dtype: int64

In [95]:
# 콜론을 사용하면 연속된 원소를 시리즈로 반환합니다.
sr.iloc[1:3]

b    3
c    5
dtype: int64

#### loc 인덱싱

In [96]:
# 대괄호 안에 인덱스명을 스칼라로 지정하면 해당 인덱스 원소를 반환합니다.
sr.loc['a']

1

In [97]:
# 대괄호 안에 리스트를 지정하면 항상 시리즈로 반환됩니다.
sr.loc[['a']]

a    1
dtype: int64

In [98]:
# 인덱스명을 리스트로 지정하면 순서대로 원소를 선택하여 시리즈로 반환합니다. (팬시 인덱싱)
sr.loc[['b', 'd']]

b    3
d    7
dtype: int64

In [99]:
# 인덱스명에 콜론을 이용하여 슬라이싱하면 시리즈로 반환합니다.
sr.loc['a':'c']

a    1
b    3
c    5
dtype: int64

### 시리즈의 불리언 인덱싱

In [100]:
# sr 원소의 자료형을 확인합니다.
sr.dtype

dtype('int64')

In [101]:
# sr로 비교 연산을 실행합니다.
sr >= 5

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [102]:
# 대괄호 안에 비교 연산 코드를 지정하면 True에 해당하는 원소만 추출합니다.
sr[sr >= 5]

c    5
d    7
e    9
dtype: int64

In [103]:
# 두 개 이상의 비교 연산 결과로 불리언 인덱싱을 합니다.
sr[(sr >= 5) & (sr <= 7)]

c    5
d    7
dtype: int64

### 시리즈 원소 추가

In [104]:
# 새로운 시리즈를 생성합니다.
nr = pd.Series(range(2, 11, 2))

In [105]:
# nr을 출력합니다.
nr

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [106]:
# append() 함수로 기존 시리즈에 새로운 시리즈를 추가합니다
sr = sr.append(nr)

In [107]:
# sr을 출력합니다.
sr

a     1
b     3
c     5
d     7
e     9
0     2
1     4
2     6
3     8
4    10
dtype: int64

### 시리즈 원소 삭제

In [108]:
# drop() 함수에 인덱스명을 입력하여 원소를 삭제합니다.
sr.drop(['a', 4])

b    3
c    5
d    7
e    9
0    2
1    4
2    6
3    8
dtype: int64

### 시리즈 원소 변경

In [109]:
# sr의 전체 원소에 1을 더합니다.
sr + 1

a     2
b     4
c     6
d     8
e    10
0     3
1     5
2     7
3     9
4    11
dtype: int64

In [110]:
# sr의 전체 원소에 2를 곱합니다.
sr * 2

a     2
b     6
c    10
d    14
e    18
0     4
1     8
2    12
3    16
4    20
dtype: int64

In [111]:
# sr에서 9보다 큰 원소를 시리즈로 반환합니다.
sr[sr >= 9]

e     9
4    10
dtype: int64

In [112]:
# sr에서 9보다 큰 원소를 문자열로 변경합니다.
sr[sr >= 9] = ['가', '나']

In [113]:
# sr을 출력합니다.
sr

a    1
b    3
c    5
d    7
e    가
0    2
1    4
2    6
3    8
4    나
dtype: object

In [114]:
# sr의 1번 인덱스(두 번째) 원소의 클래스를 확인합니다.
type(sr[1])

int

### 시리즈의 결측값 처리

In [115]:
# sr의 원소 '가', '나'를 결측값으로 변경합니다. 
sr[(sr == '가') | (sr == '나')] = np.nan

In [116]:
# sr을 출력합니다.
sr

a      1
b      3
c      5
d      7
e    NaN
0      2
1      4
2      6
3      8
4    NaN
dtype: object

In [117]:
# sr의 결측값 개수를 출력합니다.
sr.isna().sum()

2

In [118]:
# sr의 결측값을 0으로 변경한 결과를 출력합니다.
sr.fillna(0)

a    1
b    3
c    5
d    7
e    0
0    2
1    4
2    6
3    8
4    0
dtype: int64

In [119]:
# sr의 결측값을 삭제한 결과를 sr에 재할당합니다.
sr.dropna()

a    1
b    3
c    5
d    7
0    2
1    4
2    6
3    8
dtype: object

In [120]:
# sr을 출력합니다.
sr

a      1
b      3
c      5
d      7
e    NaN
0      2
1      4
2      6
3      8
4    NaN
dtype: object

## 데이터프레임

### 데이터프레임 생성

In [121]:
# 리스트로 데이터프레임을 생성합니다.
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                  index = [1, 2, 3],
                  columns = ['A반', 'B반', 'C반'])

In [122]:
# df를 출력합니다.
df

Unnamed: 0,A반,B반,C반
1,1,2,3
2,4,5,6
3,7,8,9


In [123]:
# df의 클래스를 확인합니다.
type(df)

pandas.core.frame.DataFrame

In [124]:
# df의 처음 다섯 행을 출력합니다.
df.head()

Unnamed: 0,A반,B반,C반
1,1,2,3
2,4,5,6
3,7,8,9


In [125]:
# 딕셔너리로 데이터프레임을 생성합니다.
pd.DataFrame({'A반':[1, 2, 3], 'B반':[4, 5, 6], 'C반':[7, 8, 9]})

Unnamed: 0,A반,B반,C반
0,1,4,7
1,2,5,8
2,3,6,9


In [126]:
# 딕셔너리를 원소로 갖는 리스트로 데이터프레임을 생성합니다.
pd.DataFrame([{'A반': 1, 'B반': 2, 'C반': 3},
              {'A반': 4, 'B반': 5, 'C반': 6},
              {'A반': 7, 'B반': 8, 'C반': 9}])

Unnamed: 0,A반,B반,C반
0,1,2,3
1,4,5,6
2,7,8,9


### 데이터프레임 확인

In [127]:
# df의 형태를 튜플로 출력합니다. (행의 수, 열의 수)
df.shape

(3, 3)

In [128]:
# df의 값을 2차원 배열로 출력합니다.
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [129]:
# df의 인덱스를 출력합니다. 
df.index

Int64Index([1, 2, 3], dtype='int64')

In [130]:
# df의 컬럼명을 출력합니다. 
df.columns

Index(['A반', 'B반', 'C반'], dtype='object')

In [131]:
# df의 컬럼별 자료형을 출력합니다. 
df.dtypes

A반    int64
B반    int64
C반    int64
dtype: object

In [132]:
# df의 정보를 한 번에 확인합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3 entries, 1 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A반      3 non-null      int64
 1   B반      3 non-null      int64
 2   C반      3 non-null      int64
dtypes: int64(3)
memory usage: 96.0 bytes


In [133]:
# df의 컬럼별 기술통계량을 한꺼번에 출력합니다. 
df.describe()

Unnamed: 0,A반,B반,C반
count,3.0,3.0,3.0
mean,4.0,5.0,6.0
std,3.0,3.0,3.0
min,1.0,2.0,3.0
25%,2.5,3.5,4.5
50%,4.0,5.0,6.0
75%,5.5,6.5,7.5
max,7.0,8.0,9.0


# 데이터 입출력

## xlsx 파일 입출력

### xlsx 파일 읽기

In [134]:
# xlsx 파일을 읽고 데이터프레임을 생성합니다.
df = pd.read_excel('KBO_Hitters_2020.xlsx')

In [135]:
# df의 정보를 한 번에 확인합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 19 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   선수명     296 non-null    object 
 1   팀명      296 non-null    object 
 2   경기      296 non-null    int64  
 3   타석      296 non-null    int64  
 4   타수      296 non-null    int64  
 5   안타      296 non-null    int64  
 6   홈런      296 non-null    int64  
 7   득점      296 non-null    int64  
 8   타점      296 non-null    int64  
 9   볼넷      296 non-null    int64  
 10  삼진      296 non-null    int64  
 11  도루      296 non-null    int64  
 12  BABIP   288 non-null    float64
 13  타율      293 non-null    float64
 14  출루율     293 non-null    float64
 15  장타율     293 non-null    float64
 16  OPS     293 non-null    float64
 17  wOBA    293 non-null    float64
 18  WAR     293 non-null    float64
dtypes: float64(7), int64(10), object(2)
memory usage: 44.1+ KB


In [136]:
# df의 처음 다섯 행을 출력합니다.
df.head()

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.349,0.417,0.68,1.097,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.328,0.4,0.603,1.003,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.306,0.397,0.523,0.92,0.401,6.81
3,최형우,KIA,140,600,522,185,28,93,115,70,101,0,0.396,0.354,0.433,0.59,1.023,0.441,6.74
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.306,0.398,0.557,0.955,0.412,6.1


### xlsx 파일로 저장하기

In [137]:
# 데이터프레임을 xlsx 파일로 저장합니다.
df.to_excel('test.xlsx', sheet_name = 'test', index = None)

## csv 파일 입출력

### csv 파일 인코딩 방식 확인

In [138]:
# 라이브러리를 호출합니다.
import chardet

In [139]:
# 텍스트 파일을 bytes 모드로 읽습니다.
raw = open('KBO_Hitters_2020.csv', 'rb').read()

In [140]:
# 텍스트 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw)

{'encoding': 'EUC-KR', 'confidence': 0.6863572433192686, 'language': 'Korean'}

### csv 파일 읽기

In [141]:
# 텍스트 파일을 읽고 
df = pd.read_csv('KBO_Hitters_2020.csv', encoding = 'EUC-KR')

### csv 파일로 저장하기

In [142]:
df.to_csv('test.csv', index = None, encoding = 'EUC-KR')

## 데이터프레임 팬시 인덱싱

### iloc 인덱싱

In [143]:
# 정수 인덱스를 스칼라로 지정하면 해당 행을 선택하여 시리즈로 출력합니다.
df.iloc[0]

선수명        로하스
팀명          KT
경기         142
타석         628
타수         550
안타         192
홈런          47
득점         116
타점         135
볼넷          65
삼진         132
도루           0
BABIP    0.383
타율       0.349
출루율      0.417
장타율       0.68
OPS      1.097
wOBA     0.457
WAR       8.76
Name: 0, dtype: object

In [144]:
# 정수 인덱스를 리스트로 지정하면 해당 행을 선택하여 데이터프레임으로 출력합니다.
df.iloc[[0]]

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.349,0.417,0.68,1.097,0.457,8.76


In [145]:
# 대괄호 안에 콜론을 사용하여 슬라이싱하면 해당 행을 데이터프레임으로 반환합니다.
df.iloc[0:10]

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.349,0.417,0.68,1.097,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.328,0.4,0.603,1.003,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.306,0.397,0.523,0.92,0.401,6.81
3,최형우,KIA,140,600,522,185,28,93,115,70,101,0,0.396,0.354,0.433,0.59,1.023,0.441,6.74
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.306,0.398,0.557,0.955,0.412,6.1
5,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.324,0.389,0.596,0.985,0.421,5.64
6,최정,SK,133,553,452,122,33,90,96,75,98,8,0.272,0.27,0.392,0.538,0.93,0.403,5.57
7,이정후,키움,140,617,544,181,15,85,101,59,47,12,0.339,0.333,0.397,0.524,0.921,0.4,5.54
8,손아섭,롯데,141,611,540,190,11,98,85,61,56,5,0.373,0.352,0.415,0.493,0.908,0.402,5.44
9,강백호,KT,129,574,500,165,23,95,89,66,93,7,0.367,0.33,0.411,0.544,0.955,0.413,5.17


In [146]:
# 열을 선택하려면 대괄호 안에 콤마(,)를 추가하고 콤마 뒤에 정수 인덱스를 지정합니다.
df.iloc[0:10, ]

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.349,0.417,0.68,1.097,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.328,0.4,0.603,1.003,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.306,0.397,0.523,0.92,0.401,6.81
3,최형우,KIA,140,600,522,185,28,93,115,70,101,0,0.396,0.354,0.433,0.59,1.023,0.441,6.74
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.306,0.398,0.557,0.955,0.412,6.1
5,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.324,0.389,0.596,0.985,0.421,5.64
6,최정,SK,133,553,452,122,33,90,96,75,98,8,0.272,0.27,0.392,0.538,0.93,0.403,5.57
7,이정후,키움,140,617,544,181,15,85,101,59,47,12,0.339,0.333,0.397,0.524,0.921,0.4,5.54
8,손아섭,롯데,141,611,540,190,11,98,85,61,56,5,0.373,0.352,0.415,0.493,0.908,0.402,5.44
9,강백호,KT,129,574,500,165,23,95,89,66,93,7,0.367,0.33,0.411,0.544,0.955,0.413,5.17


In [147]:
# df의 0~9번 인덱스 행 0~11번 인덱스 열을 데이터프레임으로 반환합니다.
df.iloc[0:10, 0:12]

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루
0,로하스,KT,142,628,550,192,47,116,135,65,132,0
1,양의지,NC,130,528,461,151,33,86,124,46,47,5
2,김하성,키움,138,622,533,163,30,111,109,75,68,23
3,최형우,KIA,140,600,522,185,28,93,115,70,101,0
4,터커,KIA,142,631,542,166,32,100,113,76,67,0
5,나성범,NC,130,583,525,170,34,115,112,48,148,3
6,최정,SK,133,553,452,122,33,90,96,75,98,8
7,이정후,키움,140,617,544,181,15,85,101,59,47,12
8,손아섭,롯데,141,611,540,190,11,98,85,61,56,5
9,강백호,KT,129,574,500,165,23,95,89,66,93,7


In [148]:
# 대괄호 안에 리스트를 지정하면 원하는 순서대로 선택할 수 있습니다.
df.iloc[:, [1, 0, 4, 5, 6]]

Unnamed: 0,팀명,선수명,타수,안타,홈런
0,KT,로하스,550,192,47
1,NC,양의지,461,151,33
2,키움,김하성,533,163,30
3,KIA,최형우,522,185,28
4,KIA,터커,542,166,32
...,...,...,...,...,...
291,한화,이성열,227,46,8
292,KIA,박찬호,480,107,3
293,LG,박지규,0,0,0
294,KIA,김현준(타),0,0,0


### loc 인덱싱

In [149]:
# df의 인덱스를 정수 1부터 시작하도록 변경합니다.
df.index = range(1, 297)

In [150]:
# df의 인덱스명이 1인 행의 전체 열을 선택하여 시리즈로 반환합니다.
df.loc[1]

선수명        로하스
팀명          KT
경기         142
타석         628
타수         550
안타         192
홈런          47
득점         116
타점         135
볼넷          65
삼진         132
도루           0
BABIP    0.383
타율       0.349
출루율      0.417
장타율       0.68
OPS      1.097
wOBA     0.457
WAR       8.76
Name: 1, dtype: object

In [151]:
# 인덱스명을 리스트로 지정하면 해당 행을 선택하여 데이터프레임으로 반환합니다.
df.loc[[1]]

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
1,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.349,0.417,0.68,1.097,0.457,8.76


In [152]:
# df의 인덱스명이 1~10인 행을 선택하여 데이터프레임으로 반환합니다.
df.loc[1:10]

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,타율,출루율,장타율,OPS,wOBA,WAR
1,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.349,0.417,0.68,1.097,0.457,8.76
2,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.328,0.4,0.603,1.003,0.423,6.92
3,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.306,0.397,0.523,0.92,0.401,6.81
4,최형우,KIA,140,600,522,185,28,93,115,70,101,0,0.396,0.354,0.433,0.59,1.023,0.441,6.74
5,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.306,0.398,0.557,0.955,0.412,6.1
6,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.324,0.389,0.596,0.985,0.421,5.64
7,최정,SK,133,553,452,122,33,90,96,75,98,8,0.272,0.27,0.392,0.538,0.93,0.403,5.57
8,이정후,키움,140,617,544,181,15,85,101,59,47,12,0.339,0.333,0.397,0.524,0.921,0.4,5.54
9,손아섭,롯데,141,611,540,190,11,98,85,61,56,5,0.373,0.352,0.415,0.493,0.908,0.402,5.44
10,강백호,KT,129,574,500,165,23,95,89,66,93,7,0.367,0.33,0.411,0.544,0.955,0.413,5.17


In [153]:
# df의 인덱스명이 1~10인 행 선수명~도루 컬럼을 반환합니다.
df.loc[1:10, '선수명':'도루']

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루
1,로하스,KT,142,628,550,192,47,116,135,65,132,0
2,양의지,NC,130,528,461,151,33,86,124,46,47,5
3,김하성,키움,138,622,533,163,30,111,109,75,68,23
4,최형우,KIA,140,600,522,185,28,93,115,70,101,0
5,터커,KIA,142,631,542,166,32,100,113,76,67,0
6,나성범,NC,130,583,525,170,34,115,112,48,148,3
7,최정,SK,133,553,452,122,33,90,96,75,98,8
8,이정후,키움,140,617,544,181,15,85,101,59,47,12
9,손아섭,롯데,141,611,540,190,11,98,85,61,56,5
10,강백호,KT,129,574,500,165,23,95,89,66,93,7


In [154]:
# 컬럼명을 원하는 순서대로 선택할 수 있습니다.
df.loc[:, ['팀명', '선수명', '타수', '안타', '홈런']]

Unnamed: 0,팀명,선수명,타수,안타,홈런
1,KT,로하스,550,192,47
2,NC,양의지,461,151,33
3,키움,김하성,533,163,30
4,KIA,최형우,522,185,28
5,KIA,터커,542,166,32
...,...,...,...,...,...
292,한화,이성열,227,46,8
293,KIA,박찬호,480,107,3
294,LG,박지규,0,0,0
295,KIA,김현준(타),0,0,0


# 데이터프레임 전처리

## 분석 데이터 준비

### xlsx 데이터 읽기

In [155]:
# 현재 작업경로에 저장된 파일명을 출력합니다.
os.listdir()

['.DS_Store',
 'test.csv',
 'APT_Price_Seoul_2020.csv',
 'python.txt',
 'Naver_APT_Detail.xlsx',
 'KBO_Hitters_2020.csv',
 'test.xlsx',
 'KBO_Hitters_2020.xlsx',
 'Naver_APT_Detail.csv',
 'APT_Price_Seoul_2020.xlsx']

In [156]:
# 가격 xlsx 파일을 읽고 데이터프레임을 생성합니다.
price = pd.read_excel('APT_Price_Seoul_2020.xlsx')

In [157]:
# price의 처음 다섯 행을 출력합니다.
price.head()

Unnamed: 0,일련번호,아파트,시도명,시군구,법정동,지번,거래일,전용면적,층,거래금액
0,11200-3074,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,120000
1,11200-3031,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,118000
2,11230-26,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.74,9,54000
3,,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.98,11,23500
4,11260-11,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.99,5,47500


In [158]:
# price의 정보를 출력합니다.
price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80734 entries, 0 to 80733
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   일련번호    77154 non-null  object        
 1   아파트     80734 non-null  object        
 2   시도명     80734 non-null  object        
 3   시군구     80734 non-null  object        
 4   법정동     80734 non-null  object        
 5   지번      80709 non-null  object        
 6   거래일     80734 non-null  datetime64[ns]
 7   전용면적    80734 non-null  float64       
 8   층       80734 non-null  int64         
 9   거래금액    80734 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(2), object(6)
memory usage: 6.2+ MB


In [159]:
# 상세정보 xlsx 파일을 읽고 데이터프레임을 생성합니다.
detail = pd.read_excel('Naver_APT_Detail.xlsx')

In [160]:
# detail의 처음 다섯 행을 출력합니다.
detail.head()

Unnamed: 0,ID,아파트명,지번주소,세대수,임대수,동수,용적률,건폐율,주차대수
0,130473,16에스티뷰,서울 광진구 자양동 680-14,7,0,1,355,56,5
1,111186,67디벨리움(도시형),서울 노원구 공릉동 670-7,106,0,1,629,56,66
2,120013,가락(헤븐스테이),서울 송파구 가락동 177-10,12,0,1,199,46,12
3,128942,가락그랑밸리,서울 송파구 가락동 141-7,12,0,1,292,59,12
4,594,가락금호,서울 송파구 가락동 95-1,915,0,8,397,22,735


In [161]:
# detail의 정보를 출력합니다.
detail.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9145 entries, 0 to 9144
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      9145 non-null   int64 
 1   아파트명    9145 non-null   object
 2   지번주소    9145 non-null   object
 3   세대수     9145 non-null   int64 
 4   임대수     9145 non-null   int64 
 5   동수      9145 non-null   int64 
 6   용적률     9145 non-null   int64 
 7   건폐율     9145 non-null   int64 
 8   주차대수    9145 non-null   int64 
dtypes: int64(7), object(2)
memory usage: 643.1+ KB


### csv 파일 읽을 때 날짜 자료형 유지하는 방법

In [162]:
# csv 파일을 'bytes'로 읽습니다.
raw = open('APT_Price_Seoul_2020.csv', 'rb').read()

In [163]:
# 텍스트 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

In [164]:
# 가격 csv 파일을 읽고 데이터프레임을 생성합니다.
price = pd.read_csv('APT_Price_Seoul_2020.csv')

In [165]:
# price의 정보를 확인합니다.
price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80734 entries, 0 to 80733
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   일련번호    77154 non-null  object 
 1   아파트     80734 non-null  object 
 2   시도명     80734 non-null  object 
 3   시군구     80734 non-null  object 
 4   법정동     80734 non-null  object 
 5   지번      80709 non-null  object 
 6   거래일     80734 non-null  object 
 7   전용면적    80734 non-null  float64
 8   층       80734 non-null  int64  
 9   거래금액    80734 non-null  int64  
dtypes: float64(1), int64(2), object(7)
memory usage: 6.2+ MB


In [166]:
# csv 파일을 읽을 때 날짜 자료형으로 읽을 컬럼명을 지정합니다.
price = pd.read_csv('APT_Price_Seoul_2020.csv', parse_dates = ['거래일'])

In [167]:
# price의 정보를 다시 확인합니다.
price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80734 entries, 0 to 80733
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   일련번호    77154 non-null  object        
 1   아파트     80734 non-null  object        
 2   시도명     80734 non-null  object        
 3   시군구     80734 non-null  object        
 4   법정동     80734 non-null  object        
 5   지번      80709 non-null  object        
 6   거래일     80734 non-null  datetime64[ns]
 7   전용면적    80734 non-null  float64       
 8   층       80734 non-null  int64         
 9   거래금액    80734 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(2), object(6)
memory usage: 6.2+ MB


## 데이터프레임 전처리

### 열 선택

In [168]:
# 가격 데이터의 컬럼명을 출력합니다.
price.columns

Index(['일련번호', '아파트', '시도명', '시군구', '법정동', '지번', '거래일', '전용면적', '층', '거래금액'], dtype='object')

In [169]:
# 일련번호 컬럼을 선택하여 시리즈로 반환합니다.
price['일련번호']

0        11200-3074
1        11200-3031
2          11230-26
3               NaN
4          11260-11
            ...    
80729    11740-2664
80730     11740-323
80731     11740-167
80732    11740-2851
80733    11740-2856
Name: 일련번호, Length: 80734, dtype: object

In [170]:
# 여러 컬럼을 선택하려면 리스트를 입력합니다.
price[['일련번호', '거래일']]

Unnamed: 0,일련번호,거래일
0,11200-3074,2020-01-01
1,11200-3031,2020-01-01
2,11230-26,2020-01-01
3,,2020-01-01
4,11260-11,2020-01-01
...,...,...
80729,11740-2664,2020-12-31
80730,11740-323,2020-12-31
80731,11740-167,2020-12-31
80732,11740-2851,2020-12-31


### 열 삭제

In [171]:
# drop() 함수에 삭제할 컬럼명을 리스트로 입력하여 삭제합니다.
price.drop('일련번호', axis = 1)

Unnamed: 0,아파트,시도명,시군구,법정동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.960,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.240,13,118000
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.740,9,54000
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.980,11,23500
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.990,5,47500
...,...,...,...,...,...,...,...,...,...
80729,프라이어팰리스,서울특별시,강동구,암사동,413,2020-12-31,59.983,20,115000
80730,우림루미아트,서울특별시,강동구,성내동,599,2020-12-31,84.500,7,79000
80731,금호아파트,서울특별시,강동구,천호동,44,2020-12-31,27.610,5,37800
80732,강일리버파크4단지,서울특별시,강동구,강일동,673,2020-12-31,84.740,12,111000


In [172]:
# 컬럼을 삭제하고 price에 재할당합니다.
price = price.drop('일련번호', axis = 1)

### 컬럼명 변경

In [173]:
# rename() 함수로 일부 컬럼명을 변경합니다.
price = price.rename(columns = {'아파트': '아파트명'})

In [174]:
# 가격 데이터의 컬럼명을 출력합니다.
price.columns

Index(['아파트명', '시도명', '시군구', '법정동', '지번', '거래일', '전용면적', '층', '거래금액'], dtype='object')

In [175]:
# columns 속성을 사용하면 컬럼명 전체를 변경합니다.
price.columns = ['아파트', '시도', '시군구', '읍면동', '지번', '거래일', 
                 '전용면적', '층', '거래금액']

In [176]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,118000
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.74,9,54000
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.98,11,23500
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.99,5,47500


### 컬럼 자료형 변환

In [177]:
# 거래일 컬럼의 자료형을 문자열로 변환합니다.
price['거래일'] = price['거래일'].astype('str')

In [178]:
# 거래금액 컬럼의 자료형을 실수로 변환합니다.
price['거래금액'] = price['거래금액'].astype('float')

In [179]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

아파트      object
시도       object
시군구      object
읍면동      object
지번       object
거래일      object
전용면적    float64
층         int64
거래금액    float64
dtype: object

In [180]:
# 거래일 컬럼의 자료형을 날짜로 복원합니다.
price['거래일'] = pd.to_datetime(price['거래일'])

In [181]:
# 가격 데이터의 컬럼별 자료형을 다시 확인합니다.
price.dtypes

아파트             object
시도              object
시군구             object
읍면동             object
지번              object
거래일     datetime64[ns]
전용면적           float64
층                int64
거래금액           float64
dtype: object

In [182]:
# astype() 함수에 딕셔너리로 입력하면 여러 컬럼을 각각 변환합니다.
price = price.astype({'층':'float', '거래금액':'int'})

In [183]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

아파트             object
시도              object
시군구             object
읍면동             object
지번              object
거래일     datetime64[ns]
전용면적           float64
층              float64
거래금액             int64
dtype: object

In [184]:
# 여러 컬럼을 하나의 자료형으로 동시에 변환합니다.
price.iloc[:, 7:9] = price.iloc[:, 7:9].astype(int)

In [185]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

아파트             object
시도              object
시군구             object
읍면동             object
지번              object
거래일     datetime64[ns]
전용면적           float64
층                int64
거래금액             int64
dtype: object

### 조건에 맞는 행 선택

In [186]:
# 거래금액이 100000(10억) 이상인 행만 선택합니다.
price[price['거래금액'] >= 100000]

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.960,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.240,13,118000
47,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.160,9,108500
53,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.330,2,162000
62,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.820,9,123500
...,...,...,...,...,...,...,...,...,...
80727,고덕래미안 힐스테이트아파트,서울특별시,강동구,고덕동,688,2020-12-31,84.940,32,157000
80728,고덕 아이파크,서울특별시,강동구,고덕동,499,2020-12-31,59.990,10,129000
80729,프라이어팰리스,서울특별시,강동구,암사동,413,2020-12-31,59.983,20,115000
80732,강일리버파크4단지,서울특별시,강동구,강일동,673,2020-12-31,84.740,12,111000


In [187]:
# 거래금액이 10억 이상인 행으로 df1를 생성합니다.
df1 = price[price['거래금액'] >= 100000]

In [188]:
# df1의 처음 10행을 출력합니다.
df1.head(10)

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,118000
47,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.16,9,108500
53,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.33,2,162000
62,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.82,9,123500
67,서울숲 한신 더 휴,서울특별시,성동구,행당동,349,2020-01-02,114.97,2,108000
69,서울숲 대림,서울특별시,성동구,성수동1가,656-234,2020-01-02,59.885,8,109000
71,중앙하이츠빌,서울특별시,성동구,성수동1가,715,2020-01-02,84.9673,13,130000
72,현대3,서울특별시,광진구,광장동,484,2020-01-02,84.97,2,117000
143,공덕3삼성래미안,서울특별시,마포구,공덕동,457,2020-01-02,59.97,16,117500


In [189]:
# 거래금액이 5억 이상 10억 미만인 행으로 df2를 생성합니다.
df2 = price[(price['거래금액'] < 100000) & (price['거래금액'] >= 50000)]

In [190]:
# df2의 처음 10행을 출력합니다.
df2.head(10)

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.74,9,54000
6,용마산금호어울림,서울특별시,중랑구,면목동,1525,2020-01-01,84.699,4,59700
7,신도,서울특별시,중랑구,묵동,167,2020-01-01,84.89,20,55000
8,정릉힐스테이트3차,서울특별시,성북구,정릉동,1031,2020-01-01,84.97,7,63000
9,정릉2차e-편한세상,서울특별시,성북구,정릉동,1035,2020-01-01,84.4,10,68500
10,월곡두산위브,서울특별시,성북구,하월곡동,222,2020-01-01,84.766,11,61900
11,두산,서울특별시,성북구,석관동,10,2020-01-01,84.9,6,63000
12,에스케이북한산시티,서울특별시,강북구,미아동,1353,2020-01-01,84.86,21,52800
14,삼성래미안트리베라2단지,서울특별시,강북구,미아동,812,2020-01-01,59.38,2,56000
15,경남아너스빌(1356-0),서울특별시,강북구,미아동,1356,2020-01-01,59.964,10,50000


### 행 삭제

In [191]:
# drop() 함수에 인덱스명 스칼라/리스트를 입력하여 행을 삭제합니다.
df2.drop([2, 6, 7])

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
8,정릉힐스테이트3차,서울특별시,성북구,정릉동,1031,2020-01-01,84.970,7,63000
9,정릉2차e-편한세상,서울특별시,성북구,정릉동,1035,2020-01-01,84.400,10,68500
10,월곡두산위브,서울특별시,성북구,하월곡동,222,2020-01-01,84.766,11,61900
11,두산,서울특별시,성북구,석관동,10,2020-01-01,84.900,6,63000
12,에스케이북한산시티,서울특별시,강북구,미아동,1353,2020-01-01,84.860,21,52800
...,...,...,...,...,...,...,...,...,...
80702,옥스포드빌라트,서울특별시,서초구,서초동,1514-6,2020-12-31,92.250,6,70000
80718,SK허브프리모,서울특별시,강남구,도곡동,953-1,2020-12-31,67.570,5,90000
80720,우성,서울특별시,송파구,가락동,96-1,2020-12-31,43.790,3,98500
80723,현대,서울특별시,송파구,문정동,104,2020-12-31,84.030,6,93000


In [192]:
# df1의 인덱스를 초기화한 결과를 출력합니다.
df1.reset_index()

Unnamed: 0,index,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.960,19,120000
1,1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.240,13,118000
2,47,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.160,9,108500
3,53,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.330,2,162000
4,62,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.820,9,123500
...,...,...,...,...,...,...,...,...,...,...
21196,80727,고덕래미안 힐스테이트아파트,서울특별시,강동구,고덕동,688,2020-12-31,84.940,32,157000
21197,80728,고덕 아이파크,서울특별시,강동구,고덕동,499,2020-12-31,59.990,10,129000
21198,80729,프라이어팰리스,서울특별시,강동구,암사동,413,2020-12-31,59.983,20,115000
21199,80732,강일리버파크4단지,서울특별시,강동구,강일동,673,2020-12-31,84.740,12,111000


In [193]:
# index 컬럼이 생성되지 않도록 drop = True를 추가합니다.
df1.reset_index(drop = True)

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.960,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.240,13,118000
2,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.160,9,108500
3,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.330,2,162000
4,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.820,9,123500
...,...,...,...,...,...,...,...,...,...
21196,고덕래미안 힐스테이트아파트,서울특별시,강동구,고덕동,688,2020-12-31,84.940,32,157000
21197,고덕 아이파크,서울특별시,강동구,고덕동,499,2020-12-31,59.990,10,129000
21198,프라이어팰리스,서울특별시,강동구,암사동,413,2020-12-31,59.983,20,115000
21199,강일리버파크4단지,서울특별시,강동구,강일동,673,2020-12-31,84.740,12,111000


In [194]:
# 인덱스를 초기화한 결과를 df1에 재할당합니다.
df1 = df1.reset_index(drop = True)

### 조건에 따라 값 변경

In [195]:
# 컬럼별 결측값 개수를 확인합니다.
price.isna().sum()

아파트      0
시도       0
시군구      0
읍면동      0
지번      25
거래일      0
전용면적     0
층        0
거래금액     0
dtype: int64

In [196]:
# 결측값을 포함하는 행을 삭제한 결과를 출력합니다.
price.dropna()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.960,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.240,13,118000
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.740,9,54000
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.980,11,23500
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.990,5,47500
...,...,...,...,...,...,...,...,...,...
80729,프라이어팰리스,서울특별시,강동구,암사동,413,2020-12-31,59.983,20,115000
80730,우림루미아트,서울특별시,강동구,성내동,599,2020-12-31,84.500,7,79000
80731,금호아파트,서울특별시,강동구,천호동,44,2020-12-31,27.610,5,37800
80732,강일리버파크4단지,서울특별시,강동구,강일동,673,2020-12-31,84.740,12,111000


In [197]:
# 결측값을 공백으로 채운 결과를 출력합니다.
price.fillna('')

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.960,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.240,13,118000
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.740,9,54000
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.980,11,23500
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.990,5,47500
...,...,...,...,...,...,...,...,...,...
80729,프라이어팰리스,서울특별시,강동구,암사동,413,2020-12-31,59.983,20,115000
80730,우림루미아트,서울특별시,강동구,성내동,599,2020-12-31,84.500,7,79000
80731,금호아파트,서울특별시,강동구,천호동,44,2020-12-31,27.610,5,37800
80732,강일리버파크4단지,서울특별시,강동구,강일동,673,2020-12-31,84.740,12,111000


In [198]:
# 가격 데이터에서 결측값을 삭제하고 재할당합니다.
price = price.dropna()

In [199]:
# 컬럼별 결측값 개수를 다시 확인합니다.
price.isna().sum()

아파트     0
시도      0
시군구     0
읍면동     0
지번      0
거래일     0
전용면적    0
층       0
거래금액    0
dtype: int64

### 파생변수 생성

In [200]:
# 거래금액 컬럼을 만원 단위에서 억 단위로 변경합니다.
price['거래금액'] = price['거래금액'] / 10000

In [201]:
# 제곱미터당 거래금액을 계산하여 새로운 컬럼을 생성합니다.
price['단위금액'] = price['거래금액'] / price['전용면적'] * 10000

In [202]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,12.0,1412.429379
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,11.8,1279.271466
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.74,9,5.4,903.916974
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.98,11,2.35,783.855904
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.99,5,4.75,558.889281


In [203]:
# 단위금액 컬럼값을 반올림하여 소수점 둘째 자리까지 남깁니다.
price['단위금액'] = price['단위금액'].round(2)

In [204]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,12.0,1412.43
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,11.8,1279.27
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.74,9,5.4,903.92
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.98,11,2.35,783.86
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.99,5,4.75,558.89


In [205]:
# 단위금액의 크기를 1천만원 기준으로 구분하는 이진형 컬럼을 생성합니다.
price.loc[price.단위금액 >= 1000, '금액구분'] = '이상'
price.loc[price.단위금액 < 1000, '금액구분'] = '미만'

In [206]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,금액구분
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,12.0,1412.43,이상
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,11.8,1279.27,이상
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.74,9,5.4,903.92,미만
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.98,11,2.35,783.86,미만
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.99,5,4.75,558.89,미만


In [207]:
# 여러 컬럼값을 결합하여 지번주소 컬럼을 생성합니다.
price['지번주소'] = price['시도'] + ' ' + price['시군구'] + ' ' + price['읍면동'] + ' ' + price['지번']

### 같은 함수 반복 실행

In [208]:
# 거래금액 컬럼의 각 원소에 10000을 곱하고 정수로 변환합니다.
price['거래금액'].map(lambda x: x*10000).astype('int')

0        120000
1        118000
2         54000
3         23500
4         47500
          ...  
80729    115000
80730     79000
80731     37800
80732    111000
80733    104000
Name: 거래금액, Length: 80709, dtype: int64

In [209]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 열의 길이를 반환합니다.
price.loc[:, '시도':'지번'].apply(len, axis = 0)

시도     80709
시군구    80709
읍면동    80709
지번     80709
dtype: int64

In [210]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 행의 길이를 반환합니다.
price.loc[:, '시도':'지번'].apply(len, axis = 1)

0        4
1        4
2        4
3        4
4        4
        ..
80729    4
80730    4
80731    4
80732    4
80733    4
Length: 80709, dtype: int64

In [211]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 행 원소를 하나로 결합합니다.
price.loc[:, '시도':'지번'].apply(lambda x: ' '.join(x), axis = 1)

0        서울특별시 성동구 하왕십리동 1066
1           서울특별시 성동구 행당동 377
2          서울특별시 동대문구 답십리동 80
3        서울특별시 동대문구 장안동 344-2
4          서울특별시 중랑구 면목동 1516
                 ...         
80729       서울특별시 강동구 암사동 413
80730       서울특별시 강동구 성내동 599
80731        서울특별시 강동구 천호동 44
80732       서울특별시 강동구 강일동 673
80733       서울특별시 강동구 강일동 699
Length: 80709, dtype: object

In [212]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 원소의 길이를 반환합니다.
price.loc[:, '시도':'지번'].applymap(len)

Unnamed: 0,시도,시군구,읍면동,지번
0,5,3,5,4
1,5,3,3,3
2,5,4,4,2
3,5,4,3,5
4,5,3,3,4
...,...,...,...,...
80729,5,3,3,3
80730,5,3,3,3
80731,5,3,3,2
80732,5,3,3,3


### 날짜 컬럼 분해

In [213]:
# 날짜 자료형에서 연도만 추출합니다.
price['거래일'].dt.year

0        2020
1        2020
2        2020
3        2020
4        2020
         ... 
80729    2020
80730    2020
80731    2020
80732    2020
80733    2020
Name: 거래일, Length: 80709, dtype: int64

In [214]:
# 날짜 자료형에서 월만 추출합니다.
price['거래일'].dt.month

0         1
1         1
2         1
3         1
4         1
         ..
80729    12
80730    12
80731    12
80732    12
80733    12
Name: 거래일, Length: 80709, dtype: int64

In [215]:
# 날짜 자료형에서 일만 추출합니다.
price['거래일'].dt.day

0         1
1         1
2         1
3         1
4         1
         ..
80729    31
80730    31
80731    31
80732    31
80733    31
Name: 거래일, Length: 80709, dtype: int64

In [216]:
# 날짜 자료형에서 시만 추출합니다.
price['거래일'].dt.hour

0        0
1        0
2        0
3        0
4        0
        ..
80729    0
80730    0
80731    0
80732    0
80733    0
Name: 거래일, Length: 80709, dtype: int64

In [217]:
# 날짜 자료형에서 분만 추출합니다.
price['거래일'].dt.minute

0        0
1        0
2        0
3        0
4        0
        ..
80729    0
80730    0
80731    0
80732    0
80733    0
Name: 거래일, Length: 80709, dtype: int64

In [218]:
# 날짜 자료형에서 초만 추출합니다.
price['거래일'].dt.second

0        0
1        0
2        0
3        0
4        0
        ..
80729    0
80730    0
80731    0
80732    0
80733    0
Name: 거래일, Length: 80709, dtype: int64

### 집계함수로 데이터 요약

In [219]:
# 시군구별 단위금액 빈도수를 반환합니다.
price.groupby('시군구').count()['거래금액']

시군구
강남구     3615
강동구     4099
강북구     2092
강서구     5651
관악구     2569
광진구     1244
구로구     4876
금천구     1473
노원구     8715
도봉구     4375
동대문구    3079
동작구     2830
마포구     2751
서대문구    2713
서초구     3162
성동구     2921
성북구     4159
송파구     4473
양천구     3355
영등포구    3340
용산구     1459
은평구     3311
종로구      742
중구       982
중랑구     2723
Name: 거래금액, dtype: int64

In [220]:
# 시군구별 단위금액 합계를 반환합니다.
price.groupby('시군구').sum()['거래금액']

시군구
강남구     65562.2552
강동구     34615.6737
강북구     11739.9900
강서구     38312.2583
관악구     16017.9222
광진구     13272.7500
구로구     26592.4217
금천구      7290.9235
노원구     45473.7730
도봉구     20020.0600
동대문구    21835.5184
동작구     27598.5781
마포구     27867.3744
서대문구    21334.9968
서초구     55217.7194
성동구     33223.7493
성북구     28551.4116
송파구     58385.8719
양천구     29806.9477
영등포구    29964.4215
용산구     22064.6564
은평구     20707.6492
종로구      6215.1429
중구       9078.7105
중랑구     13879.2190
Name: 거래금액, dtype: float64

In [221]:
# 시군구별 단위금액 평균을 반환합니다.
price.groupby('시군구').mean()['단위금액']

시군구
강남구     2091.012598
강동구     1170.814987
강북구      769.775531
강서구      966.118843
관악구      874.033243
광진구     1292.313497
구로구      771.494674
금천구      730.706538
노원구      844.149993
도봉구      676.571051
동대문구     992.247928
동작구     1229.730481
마포구     1344.089924
서대문구    1040.408120
서초구     1907.915825
성동구     1468.693458
성북구      913.888887
송파구     1600.924719
양천구     1141.513255
영등포구    1177.527326
용산구     1596.273838
은평구      826.131945
종로구     1053.473787
중구      1135.959358
중랑구      757.423404
Name: 단위금액, dtype: float64

In [222]:
# 시군구별 단위금액 표준편차를 반환합니다.
price.groupby('시군구').std()['단위금액']

시군구
강남구     706.531530
강동구     417.477275
강북구     221.297617
강서구     289.908533
관악구     217.373337
광진구     361.530854
구로구     285.207866
금천구     262.485211
노원구     217.833149
도봉구     207.201375
동대문구    328.306251
동작구     351.155961
마포구     398.730508
서대문구    378.748214
서초구     814.184055
성동구     436.209154
성북구     264.218887
송파구     568.850562
양천구     544.938218
영등포구    325.926582
용산구     481.443742
은평구     274.878308
종로구     462.800367
중구      318.427422
중랑구     168.628239
Name: 단위금액, dtype: float64

In [223]:
# 시군구별 단위금액 최소값을 반환합니다.
price.groupby('시군구').min()['단위금액']

시군구
강남구     449.16
강동구     305.27
강북구     170.91
강서구     205.66
관악구     281.37
광진구     341.95
구로구     165.48
금천구     202.81
노원구     302.14
도봉구     154.76
동대문구    352.50
동작구     314.77
마포구     427.95
서대문구    251.57
서초구     410.34
성동구     315.68
성북구     232.85
송파구     314.51
양천구     210.90
영등포구    355.49
용산구     331.42
은평구     247.37
종로구     316.01
중구      240.68
중랑구     276.02
Name: 단위금액, dtype: float64

In [224]:
# 시군구별 단위금액 최대값을 반환합니다.
price.groupby('시군구').max()['단위금액']

시군구
강남구     5471.10
강동구     2456.46
강북구     1538.00
강서구     1883.88
관악구     1653.31
광진구     2500.42
구로구     1750.00
금천구     1621.84
노원구     2126.33
도봉구     1355.93
동대문구    2167.39
동작구     2737.19
마포구     2559.80
서대문구    2337.23
서초구     4378.02
성동구     3949.87
성북구     1961.60
송파구     4154.62
양천구     2765.40
영등포구    2693.74
용산구     3970.78
은평구     1741.24
종로구     2589.59
중구      2079.16
중랑구     1579.69
Name: 단위금액, dtype: float64

In [225]:
# 시군구별 단위금액의 기술통계량을 한 번에 반환합니다.
price.groupby('시군구').describe()['단위금액']

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
시군구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강남구,3615.0,2091.012598,706.53153,449.16,1542.44,2151.9,2591.92,5471.1
강동구,4099.0,1170.814987,417.477275,305.27,831.96,1117.78,1458.7,2456.46
강북구,2092.0,769.775531,221.297617,170.91,609.49,740.555,905.47,1538.0
강서구,5651.0,966.118843,289.908533,205.66,763.98,946.37,1154.62,1883.88
관악구,2569.0,874.033243,217.373337,281.37,712.02,860.75,1020.65,1653.31
광진구,1244.0,1292.313497,361.530854,341.95,1057.3425,1325.46,1564.99,2500.42
구로구,4876.0,771.494674,285.207866,165.48,568.475,745.945,946.12,1750.0
금천구,1473.0,730.706538,262.485211,202.81,553.14,682.59,865.64,1621.84
노원구,8715.0,844.149993,217.833149,302.14,694.96,813.94,969.515,2126.33
도봉구,4375.0,676.571051,207.201375,154.76,506.33,634.75,823.58,1355.93


### 데이터프레임 구조 변경

In [226]:
# 두 개의 컬럼으로 데이터를 요약하여 Long type의 데이터프레임을 생성합니다.
long = price.groupby(['시군구', '금액구분']).count()[['단위금액']]

In [228]:
# long의 처음 10행만 출력합니다.
long.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,매매건수
시군구,금액구분,Unnamed: 2_level_1
강남구,미만,198
강남구,이상,3417
강동구,미만,1564
강동구,이상,2535
강북구,미만,1738
강북구,이상,354
강서구,미만,3231
강서구,이상,2420
관악구,미만,1847
관악구,이상,722


In [227]:
# 단위금액 컬럼명을 매매건수로 변경합니다.
long.columns = ['매매건수']

In [229]:
# Long type을 Wide type으로 변경합니다.
wide = long.unstack()

In [230]:
# wide의 처음 10행만 출력합니다.
wide.head(10)

Unnamed: 0_level_0,매매건수,매매건수
금액구분,미만,이상
시군구,Unnamed: 1_level_2,Unnamed: 2_level_2
강남구,198,3417
강동구,1564,2535
강북구,1738,354
강서구,3231,2420
관악구,1847,722
광진구,255,989
구로구,3868,1008
금천구,1275,198
노원구,6844,1871
도봉구,3985,390


In [231]:
# Wide type을 Long type으로 변경하고 처음 10행만 출력합니다.
wide.stack().head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,매매건수
시군구,금액구분,Unnamed: 2_level_1
강남구,미만,198
강남구,이상,3417
강동구,미만,1564
강동구,이상,2535
강북구,미만,1738
강북구,이상,354
강서구,미만,3231
강서구,이상,2420
관악구,미만,1847
관악구,이상,722


### 피벗 테이블 생성

In [232]:
# 원데이터로부터 피벗 테이블을 생성합니다.
pd.pivot_table(price, 
               index = '시군구', 
               columns = '금액구분', 
               values = '단위금액', 
               aggfunc = ['mean', 'std'])

Unnamed: 0_level_0,mean,mean,std,std
금액구분,미만,이상,미만,이상
시군구,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
강남구,887.453434,2160.753515,102.100035,662.33877
강동구,763.310077,1422.230245,137.354052,323.254729
강북구,696.279977,1130.609633,157.015143,107.758403
강서구,763.636453,1236.457934,161.66438,183.12264
관악구,767.832328,1145.713421,141.735963,118.555845
광진구,762.851333,1428.828008,164.853445,257.768934
구로구,659.877725,1199.802569,189.171514,157.757555
금천구,650.493961,1247.226919,164.724495,171.89825
노원구,757.539359,1160.966232,131.730821,172.442693
도봉구,636.207882,1088.999846,168.035514,79.58869


### 데이터프레임 결합

In [234]:
# 컬럼명이 같은 df1과 df2를 세로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2])

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,118000
2,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.16,9,108500
3,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.33,2,162000
4,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.82,9,123500
...,...,...,...,...,...,...,...,...,...
80702,옥스포드빌라트,서울특별시,서초구,서초동,1514-6,2020-12-31,92.25,6,70000
80718,SK허브프리모,서울특별시,강남구,도곡동,953-1,2020-12-31,67.57,5,90000
80720,우성,서울특별시,송파구,가락동,96-1,2020-12-31,43.79,3,98500
80723,현대,서울특별시,송파구,문정동,104,2020-12-31,84.03,6,93000


In [233]:
# 두 데이터프레임을 결합한 결과에서 인덱스를 초기화합니다.
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,120000
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,118000
2,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.16,9,108500
3,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.33,2,162000
4,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.82,9,123500
...,...,...,...,...,...,...,...,...,...
59796,옥스포드빌라트,서울특별시,서초구,서초동,1514-6,2020-12-31,92.25,6,70000
59797,SK허브프리모,서울특별시,강남구,도곡동,953-1,2020-12-31,67.57,5,90000
59798,우성,서울특별시,송파구,가락동,96-1,2020-12-31,43.79,3,98500
59799,현대,서울특별시,송파구,문정동,104,2020-12-31,84.03,6,93000


In [235]:
# df2의 일부 컬럼명을 변경합니다.
df2 = df2.rename(columns = {'아파트':'아파트명'})

In [236]:
# 컬럼명이 다른 df1과 df2를 세로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2])

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,아파트명
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,120000,
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13,118000,
2,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.16,9,108500,
3,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.33,2,162000,
4,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.82,9,123500,
...,...,...,...,...,...,...,...,...,...,...
80702,,서울특별시,서초구,서초동,1514-6,2020-12-31,92.25,6,70000,옥스포드빌라트
80718,,서울특별시,강남구,도곡동,953-1,2020-12-31,67.57,5,90000,SK허브프리모
80720,,서울특별시,송파구,가락동,96-1,2020-12-31,43.79,3,98500,우성
80723,,서울특별시,송파구,문정동,104,2020-12-31,84.03,6,93000,현대


In [237]:
# 인덱스명이 다른 df1과 df2를 가로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2], axis = 1)

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,아파트명,시도.1,시군구.1,읍면동.1,지번.1,거래일.1,전용면적.1,층.1,거래금액.1
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19.0,120000.0,,,,,,NaT,,,
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.24,13.0,118000.0,,,,,,NaT,,,
2,우성1,서울특별시,동작구,신대방동,565,2020-01-01,126.16,9.0,108500.0,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.74,9.0,54000.0
3,광화문풍림스페이스본(106동),서울특별시,종로구,사직동,9-1,2020-01-02,163.33,2.0,162000.0,,,,,,NaT,,,
4,이촌코오롱(B),서울특별시,용산구,이촌동,414,2020-01-02,59.82,9.0,123500.0,,,,,,NaT,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80702,,,,,,NaT,,,,옥스포드빌라트,서울특별시,서초구,서초동,1514-6,2020-12-31,92.25,6.0,70000.0
80718,,,,,,NaT,,,,SK허브프리모,서울특별시,강남구,도곡동,953-1,2020-12-31,67.57,5.0,90000.0
80720,,,,,,NaT,,,,우성,서울특별시,송파구,가락동,96-1,2020-12-31,43.79,3.0,98500.0
80723,,,,,,NaT,,,,현대,서울특별시,송파구,문정동,104,2020-12-31,84.03,6.0,93000.0


### 외래키 확인 및 전처리

In [238]:
# 가격 데이터와 상세정보 데이터에서 일치하는 컬럼명을 찾습니다.
set(price.columns) & set(detail.columns)

{'지번주소'}

In [239]:
# 가격 데이터의 지번주소를 출력합니다.
price['지번주소']

0        서울특별시 성동구 하왕십리동 1066
1           서울특별시 성동구 행당동 377
2          서울특별시 동대문구 답십리동 80
3        서울특별시 동대문구 장안동 344-2
4          서울특별시 중랑구 면목동 1516
                 ...         
80729       서울특별시 강동구 암사동 413
80730       서울특별시 강동구 성내동 599
80731        서울특별시 강동구 천호동 44
80732       서울특별시 강동구 강일동 673
80733       서울특별시 강동구 강일동 699
Name: 지번주소, Length: 80709, dtype: object

In [240]:
# 상세정보 데이터의 지번주소를 출력합니다.
detail['지번주소']

0       서울 광진구 자양동 680-14
1        서울 노원구 공릉동 670-7
2       서울 송파구 가락동 177-10
3        서울 송파구 가락동 141-7
4         서울 송파구 가락동 95-1
              ...        
9140    서울 관악구 봉천동 912-14
9141    서울 광진구 자양동 663-21
9142    서울 중랑구 상봉동 102-42
9143    서울 중랑구 상봉동 102-30
9144    서울 은평구 대조동 186-44
Name: 지번주소, Length: 9145, dtype: object

In [241]:
# 가격 데이터의 지번주소에서 '서울특별시'를 '서울'로 변경합니다.
price['지번주소'] = price['지번주소'].str.replace('서울특별시', '서울')

In [242]:
# 가격 데이터의 지번주소를 다시 출력합니다.
price['지번주소']

0        서울 성동구 하왕십리동 1066
1           서울 성동구 행당동 377
2          서울 동대문구 답십리동 80
3        서울 동대문구 장안동 344-2
4          서울 중랑구 면목동 1516
               ...        
80729       서울 강동구 암사동 413
80730       서울 강동구 성내동 599
80731        서울 강동구 천호동 44
80732       서울 강동구 강일동 673
80733       서울 강동구 강일동 699
Name: 지번주소, Length: 80709, dtype: object

### 데이터프레임 병합

In [243]:
# 내부 병합을 실행합니다.
pd.merge(price, detail, 'inner', '지번주소')

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,금액구분,지번주소,ID,아파트명,세대수,임대수,동수,용적률,건폐율,주차대수
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19,12.00,1412.43,이상,서울 성동구 하왕십리동 1066,107240,텐즈힐1,1702,333,21,224,21,2431
1,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-03,72.52,12,12.30,1696.08,이상,서울 성동구 하왕십리동 1066,107240,텐즈힐1,1702,333,21,224,21,2431
2,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-02-04,84.96,3,12.50,1471.28,이상,서울 성동구 하왕십리동 1066,107240,텐즈힐1,1702,333,21,224,21,2431
3,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-02-05,84.88,2,13.40,1578.70,이상,서울 성동구 하왕십리동 1066,107240,텐즈힐1,1702,333,21,224,21,2431
4,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-02-13,84.96,2,12.30,1447.74,이상,서울 성동구 하왕십리동 1066,107240,텐즈힐1,1702,333,21,224,21,2431
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
78569,마곡 보타닉,서울특별시,강서구,가양동,235-4,2020-12-29,59.80,4,5.40,903.01,미만,서울 강서구 가양동 235-4,124903,마곡보타닉,27,0,1,246,39,24
78570,방배비젼21빌라트,서울특별시,서초구,방배동,849-2,2020-12-29,187.34,2,18.00,960.82,미만,서울 서초구 방배동 849-2,119963,방배비젼21빌라트,14,0,1,282,44,32
78571,롯데캐슬파크(40),서울특별시,서초구,방배동,888-40,2020-12-29,244.75,4,19.00,776.30,미만,서울 서초구 방배동 888-40,10692,롯데캐슬파크,57,0,3,0,0,0
78572,두원A동,서울특별시,양천구,신월동,485-2,2020-12-30,84.99,3,4.05,476.53,미만,서울 양천구 신월동 485-2,19051,두원,38,0,2,0,0,44


In [244]:
# 외부 병합을 실행합니다.
pd.merge(price, detail, 'outer', '지번주소')

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,금액구분,지번주소,ID,아파트명,세대수,임대수,동수,용적률,건폐율,주차대수
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.96,19.0,12.0,1412.43,이상,서울 성동구 하왕십리동 1066,107240.0,텐즈힐1,1702.0,333.0,21.0,224.0,21.0,2431.0
1,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-03,72.52,12.0,12.3,1696.08,이상,서울 성동구 하왕십리동 1066,107240.0,텐즈힐1,1702.0,333.0,21.0,224.0,21.0,2431.0
2,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-02-04,84.96,3.0,12.5,1471.28,이상,서울 성동구 하왕십리동 1066,107240.0,텐즈힐1,1702.0,333.0,21.0,224.0,21.0,2431.0
3,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-02-05,84.88,2.0,13.4,1578.70,이상,서울 성동구 하왕십리동 1066,107240.0,텐즈힐1,1702.0,333.0,21.0,224.0,21.0,2431.0
4,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-02-13,84.96,2.0,12.3,1447.74,이상,서울 성동구 하왕십리동 1066,107240.0,텐즈힐1,1702.0,333.0,21.0,224.0,21.0,2431.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85418,,,,,,NaT,,,,,,서울 관악구 남현동 602-284,118688.0,VIP,10.0,0.0,1.0,218.0,47.0,11.0
85419,,,,,,NaT,,,,,,서울 관악구 봉천동 912-16,138722.0,YK서울대,26.0,0.0,1.0,499.0,57.0,13.0
85420,,,,,,NaT,,,,,,서울 관악구 봉천동 912-14,125085.0,YK타워(도시형),24.0,0.0,1.0,399.0,59.0,12.0
85421,,,,,,NaT,,,,,,서울 중랑구 상봉동 102-42,124441.0,YMS타워,24.0,0.0,3.0,0.0,0.0,0.0


In [245]:
# 왼쪽 외부 병합을 실행합니다.
pd.merge(price, detail, 'left', '지번주소')

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,금액구분,지번주소,ID,아파트명,세대수,임대수,동수,용적률,건폐율,주차대수
0,텐즈힐아파트(1단지),서울특별시,성동구,하왕십리동,1066,2020-01-01,84.960,19,12.00,1412.43,이상,서울 성동구 하왕십리동 1066,107240.0,텐즈힐1,1702.0,333.0,21.0,224.0,21.0,2431.0
1,서울숲더샵,서울특별시,성동구,행당동,377,2020-01-01,92.240,13,11.80,1279.27,이상,서울 성동구 행당동 377,103112.0,서울숲더샵,495.0,0.0,3.0,392.0,34.0,937.0
2,답십리청솔우성,서울특별시,동대문구,답십리동,80,2020-01-01,59.740,9,5.40,903.92,미만,서울 동대문구 답십리동 80,3273.0,답십리청솔우성,1542.0,432.0,16.0,258.0,19.0,1377.0
3,다우하임,서울특별시,동대문구,장안동,344-2,2020-01-01,29.980,11,2.35,783.86,미만,서울 동대문구 장안동 344-2,122416.0,다우하임,28.0,0.0,1.0,607.0,58.0,22.0
4,면목삼익,서울특별시,중랑구,면목동,1516,2020-01-01,84.990,5,4.75,558.89,미만,서울 중랑구 면목동 1516,1247.0,면목삼익,216.0,0.0,3.0,402.0,27.0,233.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
82198,프라이어팰리스,서울특별시,강동구,암사동,413,2020-12-31,59.983,20,11.50,1917.21,이상,서울 강동구 암사동 413,19578.0,프라이어팰리스,1622.0,0.0,22.0,277.0,15.0,2185.0
82199,우림루미아트,서울특별시,강동구,성내동,599,2020-12-31,84.500,7,7.90,934.91,미만,서울 강동구 성내동 599,13860.0,우림루미아트,69.0,0.0,1.0,232.0,29.0,79.0
82200,금호아파트,서울특별시,강동구,천호동,44,2020-12-31,27.610,5,3.78,1369.07,이상,서울 강동구 천호동 44,999.0,금호,232.0,0.0,1.0,248.0,22.0,37.0
82201,강일리버파크4단지,서울특별시,강동구,강일동,673,2020-12-31,84.740,12,11.10,1309.89,이상,서울 강동구 강일동 673,27476.0,강일리버파크4단지,748.0,470.0,10.0,179.0,17.0,831.0


In [246]:
# 가격 데이터의 외래키 컬럼명을 변경합니다.
price = price.rename(columns = {'지번주소':'주소'})

In [247]:
# 외래키가 일치하지 않으면 두 데이터프레임의 외래키를 각각 지정해야 합니다.
apt = pd.merge(price, detail, left_on = '주소', right_on = '지번주소')

In [248]:
# apt의 정보를 확인합니다.
apt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 78574 entries, 0 to 78573
Data columns (total 21 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   아파트     78574 non-null  object        
 1   시도      78574 non-null  object        
 2   시군구     78574 non-null  object        
 3   읍면동     78574 non-null  object        
 4   지번      78574 non-null  object        
 5   거래일     78574 non-null  datetime64[ns]
 6   전용면적    78574 non-null  float64       
 7   층       78574 non-null  int64         
 8   거래금액    78574 non-null  float64       
 9   단위금액    78574 non-null  float64       
 10  금액구분    78574 non-null  object        
 11  주소      78574 non-null  object        
 12  ID      78574 non-null  int64         
 13  아파트명    78574 non-null  object        
 14  지번주소    78574 non-null  object        
 15  세대수     78574 non-null  int64         
 16  임대수     78574 non-null  int64         
 17  동수      78574 non-null  int64         
 18  용적률   

### 데이터프레임 정렬

In [249]:
# 거래금액 컬럼 기준으로 오름차순으로 정한 결과에서 처음 5행만 출력합니다.
apt.sort_values(['거래금액']).head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,...,주소,ID,아파트명,지번주소,세대수,임대수,동수,용적률,건폐율,주차대수
70841,썬앤빌,서울특별시,구로구,오류동,34-13,2020-07-21,14.064,12,0.675,479.95,...,서울 구로구 오류동 34-13,105909,현대썬앤빌구로(도시형),서울 구로구 오류동 34-13,200,0,1,649,59,59
70839,썬앤빌,서울특별시,구로구,오류동,34-13,2020-03-31,14.064,16,0.69,490.61,...,서울 구로구 오류동 34-13,105909,현대썬앤빌구로(도시형),서울 구로구 오류동 34-13,200,0,1,649,59,59
76968,오류동역솔리스타,서울특별시,구로구,오류동,75-2,2020-07-13,18.32,10,0.7,382.1,...,서울 구로구 오류동 75-2,112077,오류동역솔리스타(도시형),서울 구로구 오류동 75-2,107,0,1,681,59,29
70842,썬앤빌,서울특별시,구로구,오류동,34-13,2020-07-25,14.064,10,0.7,497.72,...,서울 구로구 오류동 34-13,105909,현대썬앤빌구로(도시형),서울 구로구 오류동 34-13,200,0,1,649,59,59
70837,썬앤빌,서울특별시,구로구,오류동,34-13,2020-03-10,14.064,8,0.74,526.17,...,서울 구로구 오류동 34-13,105909,현대썬앤빌구로(도시형),서울 구로구 오류동 34-13,200,0,1,649,59,59


In [250]:
# 거래금액 컬럼 기준으로 오름차순으로 정한 결과에서 처음 다섯 행만 출력합니다.
apt.sort_values(['거래금액'], ascending = False).head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,...,주소,ID,아파트명,지번주소,세대수,임대수,동수,용적률,건폐율,주차대수
45257,한남더힐,서울특별시,용산구,한남동,810,2020-09-04,243.642,1,77.5,3180.9,...,서울 용산구 한남동 810,102737,한남더힐,서울 용산구 한남동 810,600,0,32,120,29,1732
45260,한남더힐,서울특별시,용산구,한남동,810,2020-11-09,241.052,-1,76.0,3152.85,...,서울 용산구 한남동 810,102737,한남더힐,서울 용산구 한남동 810,600,0,32,120,29,1732
45235,한남더힐,서울특별시,용산구,한남동,810,2020-04-27,240.305,-1,73.0,3037.81,...,서울 용산구 한남동 810,102737,한남더힐,서울 용산구 한남동 810,600,0,32,120,29,1732
45258,한남더힐,서울특별시,용산구,한남동,810,2020-09-21,240.23,3,73.0,3038.75,...,서울 용산구 한남동 810,102737,한남더힐,서울 용산구 한남동 810,600,0,32,120,29,1732
45265,한남더힐,서울특별시,용산구,한남동,810,2020-12-31,240.305,2,71.0,2954.58,...,서울 용산구 한남동 810,102737,한남더힐,서울 용산구 한남동 810,600,0,32,120,29,1732


In [251]:
# 층, 거래금액 컬럼 순으로 모두 내림차순 정렬하고 처음 다섯 행만 출력합니다.
apt.sort_values(['층', '거래금액'], ascending = False).head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,...,주소,ID,아파트명,지번주소,세대수,임대수,동수,용적률,건폐율,주차대수
50896,타워팰리스3,서울특별시,강남구,도곡동,467-29,2020-07-25,235.74,67,54.25,2301.26,...,서울 강남구 도곡동 467-29,8819,타워팰리스3차,서울 강남구 도곡동 467-29,480,0,1,791,39,1785
50897,타워팰리스3,서울특별시,강남구,도곡동,467-29,2020-10-27,185.622,66,38.0,2047.17,...,서울 강남구 도곡동 467-29,8819,타워팰리스3차,서울 강남구 도곡동 467-29,480,0,1,791,39,1785
69322,현대하이페리온,서울특별시,양천구,목동,916,2020-07-03,154.05,66,24.0,1557.94,...,서울 양천구 목동 916,8493,현대하이페리온,서울 양천구 목동 916,466,0,2,817,59,0
50891,타워팰리스3,서울특별시,강남구,도곡동,467-29,2020-05-11,185.622,63,35.0,1885.55,...,서울 강남구 도곡동 467-29,8819,타워팰리스3차,서울 강남구 도곡동 467-29,480,0,1,791,39,1785
69328,현대하이페리온,서울특별시,양천구,목동,916,2020-11-13,138.2,60,21.0,1519.54,...,서울 양천구 목동 916,8493,현대하이페리온,서울 양천구 목동 916,466,0,2,817,59,0


In [252]:
# 층은 내림차순, 거래금액은 오름차순으로 정렬하고 처음 다섯 행만 출력합니다.
apt.sort_values(['층', '거래금액'], ascending = [False, True]).head()

Unnamed: 0,아파트,시도,시군구,읍면동,지번,거래일,전용면적,층,거래금액,단위금액,...,주소,ID,아파트명,지번주소,세대수,임대수,동수,용적률,건폐율,주차대수
50896,타워팰리스3,서울특별시,강남구,도곡동,467-29,2020-07-25,235.74,67,54.25,2301.26,...,서울 강남구 도곡동 467-29,8819,타워팰리스3차,서울 강남구 도곡동 467-29,480,0,1,791,39,1785
69322,현대하이페리온,서울특별시,양천구,목동,916,2020-07-03,154.05,66,24.0,1557.94,...,서울 양천구 목동 916,8493,현대하이페리온,서울 양천구 목동 916,466,0,2,817,59,0
50897,타워팰리스3,서울특별시,강남구,도곡동,467-29,2020-10-27,185.622,66,38.0,2047.17,...,서울 강남구 도곡동 467-29,8819,타워팰리스3차,서울 강남구 도곡동 467-29,480,0,1,791,39,1785
50891,타워팰리스3,서울특별시,강남구,도곡동,467-29,2020-05-11,185.622,63,35.0,1885.55,...,서울 강남구 도곡동 467-29,8819,타워팰리스3차,서울 강남구 도곡동 467-29,480,0,1,791,39,1785
69328,현대하이페리온,서울특별시,양천구,목동,916,2020-11-13,138.2,60,21.0,1519.54,...,서울 양천구 목동 916,8493,현대하이페리온,서울 양천구 목동 916,466,0,2,817,59,0


### 외부 파일로 저장

In [254]:
# 현재 작업경로를 확인합니다.
os.getcwd()

'/Users/drkevin/Documents/Project/data'

In [255]:
# apt를 xlsx 파일로 저장합니다.
apt.to_excel('APT_List_Seoul_2020.xlsx', index = None)

In [256]:
# apt를 csv 파일로 저장합니다.
apt.to_csv('APT_List_Seoul_2020.csv', index = None)

In [257]:
# 현재 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

['.DS_Store',
 'APT_List_Seoul_2020.csv',
 'test.csv',
 'APT_Price_Seoul_2020.csv',
 'APT_List_Seoul_2020.xlsx',
 'python.txt',
 'Naver_APT_Detail.xlsx',
 'KBO_Hitters_2020.csv',
 'test.xlsx',
 'KBO_Hitters_2020.xlsx',
 'Naver_APT_Detail.csv',
 'APT_Price_Seoul_2020.xlsx']

# dfply 기초

In [258]:
# 주피터 노트북에서 dfply 라이브러리를 설치합니다.
# !pip install dfply

In [259]:
# dfply 라이브러리를 호출합니다.
from dfply import *

## 열 선택

In [267]:
# xlsx 파일을 읽고 데이터프레임을 생성합니다.
kbo = pd.read_excel('KBO_Hitters_2020.xlsx')

In [268]:
# kbo의 정보를 확인합니다.
kbo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 19 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   선수명     296 non-null    object 
 1   팀명      296 non-null    object 
 2   경기      296 non-null    int64  
 3   타석      296 non-null    int64  
 4   타수      296 non-null    int64  
 5   안타      296 non-null    int64  
 6   홈런      296 non-null    int64  
 7   득점      296 non-null    int64  
 8   타점      296 non-null    int64  
 9   볼넷      296 non-null    int64  
 10  삼진      296 non-null    int64  
 11  도루      296 non-null    int64  
 12  BABIP   288 non-null    float64
 13  타율      293 non-null    float64
 14  출루율     293 non-null    float64
 15  장타율     293 non-null    float64
 16  OPS     293 non-null    float64
 17  wOBA    293 non-null    float64
 18  WAR     293 non-null    float64
dtypes: float64(7), int64(10), object(2)
memory usage: 44.1+ KB


In [269]:
# 데이터프레임에서 필요한 컬럼명을 지정하여 해당 열을 선택합니다.
kbo >> select(X['팀명'], X['선수명'], X['경기'])

Unnamed: 0,팀명,선수명,경기
0,KT,로하스,142
1,NC,양의지,130
2,키움,김하성,138
3,KIA,최형우,140
4,KIA,터커,142
...,...,...,...
291,한화,이성열,79
292,KIA,박찬호,141
293,LG,박지규,4
294,KIA,김현준(타),1


In [270]:
# 컬럼명 대신 정수 인덱스를 나열해도 됩니다.
kbo >> select(1, 0, 2)

Unnamed: 0,팀명,선수명,경기
0,KT,로하스,142
1,NC,양의지,130
2,키움,김하성,138
3,KIA,최형우,140
4,KIA,터커,142
...,...,...,...
291,한화,이성열,79
292,KIA,박찬호,141
293,LG,박지규,4
294,KIA,김현준(타),1


In [271]:
# 데이터프레임에서 불필요한 열을 제거합니다.
kbo >>= drop(X['타율'], X['OPS'])

## 조건에 맞는 행 걸러내기

In [272]:
# kbo에서 홈런이 30 이상인 행만 선택합니다.
kbo >> filter_by(X['홈런'] >= 30)

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,출루율,장타율,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.417,0.68,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.4,0.603,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.397,0.523,0.401,6.81
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.398,0.557,0.412,6.1
5,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.389,0.596,0.421,5.64
6,최정,SK,133,553,452,122,33,90,96,75,98,8,0.272,0.392,0.538,0.403,5.57
11,로맥,SK,139,586,485,137,32,85,91,91,116,4,0.308,0.399,0.546,0.407,4.94
16,알테어,NC,136,546,482,134,31,90,108,46,149,22,0.334,0.352,0.541,0.379,4.5
18,김재환*,두산,140,614,516,137,30,82,113,91,154,6,0.317,0.373,0.494,0.378,3.9
20,라모스,LG,117,494,431,120,38,74,86,55,136,2,0.314,0.362,0.592,0.397,3.69


In [273]:
# kbo에서 안타가 150 이상인 행만 선택합니다.
kbo >> filter_by(X['안타'] >= 150)

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,출루율,장타율,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.417,0.68,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.4,0.603,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.397,0.523,0.401,6.81
3,최형우,KIA,140,600,522,185,28,93,115,70,101,0,0.396,0.433,0.59,0.441,6.74
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.398,0.557,0.412,6.1
5,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.389,0.596,0.421,5.64
7,이정후,키움,140,617,544,181,15,85,101,59,47,12,0.339,0.397,0.524,0.4,5.54
8,손아섭,롯데,141,611,540,190,11,98,85,61,56,5,0.373,0.415,0.493,0.402,5.44
9,강백호,KT,129,574,500,165,23,95,89,66,93,7,0.367,0.411,0.544,0.413,5.17
10,황재균,KT,134,600,541,169,21,108,97,47,98,11,0.347,0.37,0.512,0.385,5.02


In [274]:
# kbo에서 타점이 100 이상인 행만 선택합니다.
kbo >> filter_by(X['타점'] >= 100)

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,출루율,장타율,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.417,0.68,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.4,0.603,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.397,0.523,0.401,6.81
3,최형우,KIA,140,600,522,185,28,93,115,70,101,0,0.396,0.433,0.59,0.441,6.74
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.398,0.557,0.412,6.1
5,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.389,0.596,0.421,5.64
7,이정후,키움,140,617,544,181,15,85,101,59,47,12,0.339,0.397,0.524,0.4,5.54
12,김현수,LG,142,619,547,181,22,98,119,63,53,0,0.332,0.397,0.523,0.398,4.87
15,페르난데스,두산,144,668,586,199,21,104,105,58,42,0,0.333,0.404,0.497,0.397,4.58
16,알테어,NC,136,546,482,134,31,90,108,46,149,22,0.334,0.352,0.541,0.379,4.5


In [275]:
# 세 가지 조건을 모두 만족하는 행을 선택합니다.
kbo >> filter_by(X['홈런'] >= 30, X['안타'] >= 150, X['타점'] >= 100)

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,출루율,장타율,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.417,0.68,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.4,0.603,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.397,0.523,0.401,6.81
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.398,0.557,0.412,6.1
5,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.389,0.596,0.421,5.64


In [276]:
# pandas 방식으로 세 가지 조건을 만족하는 행을 선택합니다.
kbo[(kbo['홈런'] >= 30) & (kbo['안타'] >= 150) & (kbo['타점'] >= 100)]

Unnamed: 0,선수명,팀명,경기,타석,타수,안타,홈런,득점,타점,볼넷,삼진,도루,BABIP,출루율,장타율,wOBA,WAR
0,로하스,KT,142,628,550,192,47,116,135,65,132,0,0.383,0.417,0.68,0.457,8.76
1,양의지,NC,130,528,461,151,33,86,124,46,47,5,0.305,0.4,0.603,0.423,6.92
2,김하성,키움,138,622,533,163,30,111,109,75,68,23,0.304,0.397,0.523,0.401,6.81
4,터커,KIA,142,631,542,166,32,100,113,76,67,0,0.3,0.398,0.557,0.412,6.1
5,나성범,NC,130,583,525,170,34,115,112,48,148,3,0.395,0.389,0.596,0.421,5.64


### 집계함수로 데이터 요약

In [277]:
# 팀별 안타 합계 및 타수 합계 컬럼을 생성하여 데이터프레임을 반환합니다.
teamStat = kbo \
>> group_by(X['팀명']) \
>> summarize(팀타수 = X['타수'].sum(), 
             팀안타 = X['안타'].sum())

In [278]:
# teamStat의 정보를 확인합니다.
teamStat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   팀명      10 non-null     object
 1   팀타수     10 non-null     int64 
 2   팀안타     10 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 368.0+ bytes


In [279]:
# teamStat을 출력합니다.
teamStat

Unnamed: 0,팀명,팀타수,팀안타
0,KIA,4937,1355
1,KT,5047,1432
2,LG,4999,1384
3,NC,5102,1483
4,SK,4839,1212
5,두산,5046,1477
6,롯데,4958,1366
7,삼성,4923,1317
8,키움,4945,1332
9,한화,4861,1189


### 파생변수 생성

In [280]:
# teamStat에서 팀타율 컬럼을 생성합니다.
teamStat >>= mutate(팀타율 = (X['팀안타'] / X['팀타수']).round(3))

In [281]:
# teamStat을 출력합니다.
teamStat

Unnamed: 0,팀명,팀타수,팀안타,팀타율
0,KIA,4937,1355,0.274
1,KT,5047,1432,0.284
2,LG,4999,1384,0.277
3,NC,5102,1483,0.291
4,SK,4839,1212,0.25
5,두산,5046,1477,0.293
6,롯데,4958,1366,0.276
7,삼성,4923,1317,0.268
8,키움,4945,1332,0.269
9,한화,4861,1189,0.245


### 데이터 정렬

In [282]:
# teamStat에서 팀타율 기준으로 내림차순 정렬합니다.
teamStat >>= ungroup() >> arrange(X['팀타율'], ascending = False)

In [283]:
# teamStat을 출력합니다.
teamStat

Unnamed: 0,팀명,팀타수,팀안타,팀타율
5,두산,5046,1477,0.293
3,NC,5102,1483,0.291
1,KT,5047,1432,0.284
2,LG,4999,1384,0.277
6,롯데,4958,1366,0.276
0,KIA,4937,1355,0.274
8,키움,4945,1332,0.269
7,삼성,4923,1317,0.268
4,SK,4839,1212,0.25
9,한화,4861,1189,0.245


In [284]:
# kbo에서 팀별 팀안타, 팀타수 컬럼을 생성하고 팀타율을 계산하여 반환합니다.
kbo \
>> group_by(X['팀명']) \
>> summarize(팀타수 = X['타수'].sum(), 팀안타 = X['안타'].sum()) \
>> mutate(팀타율 = (X['팀안타'] / X['팀타수']).round(3)) \
>> ungroup() \
>> arrange(X['팀타율'], ascending = False)

Unnamed: 0,팀명,팀타수,팀안타,팀타율
5,두산,5046,1477,0.293
3,NC,5102,1483,0.291
1,KT,5047,1432,0.284
2,LG,4999,1384,0.277
6,롯데,4958,1366,0.276
0,KIA,4937,1355,0.274
8,키움,4945,1332,0.269
7,삼성,4923,1317,0.268
4,SK,4839,1212,0.25
9,한화,4861,1189,0.245


---