## pandas DataFrame 완벽 정리!

In [None]:
### DataFrame 만들고, Attributes 조회하기
import numpy as np
import pandas as pd

df_1 = pd.DataFrame(data  = np.arange(12).reshape(3, 4),
             index = ['r0', 'r1', 'r2'],
             columns = ['c0', 'c1', 'c2', 'c3'],
             dtype = 'int',
             copy  = False)

#- DataFrame attributes 조회하기
### (1) T : 행렬과 전치(transpose)
df_1.T

### (2) axes : 행과 열 이름을 리스트로 반환
df_1.axes

### (3) dtypes : 데이터 형태 반환 
df_1.dtypes

### (4) shape : 행과 열의 개수를 튜플로 반환
df_1.shape

### (5) size : 전체 DataFrame의 len을 반환
df_1.size

### (6) values : dataFrame의 원소를 numpy로 반환
df_1.values

### (7) 컬럼 확인
df_1.columns

### (8) 열 슬라이싱
df_1[['c0', 'c1']]

### DataFrame의 index 재설정(reindex) 와 결측값 채우기

In [None]:
idx = ['r0', 'r1', 'r2', 'r3', 'r4']

df_1 = pd.DataFrame({
    'c1': np.arange(5),
    'c2': np.random.randn(5)},
     index = idx)

# index -> ['r0', 'r1', 'r2', 'r3', 'r4'] 에서 ['r3', 'r4'] 는 제거하고, ['r5', 'r6'] 추가
new_idx = ['r0', 'r1', 'r2', 'r5', 'r6']
df_1.reindex(new_idx, fill_value = 0)

# (2) 시계열 데이터 reindex 하기
## (2-0) 시계열 데이터의 index 생성시, pd.date_range(date, periods, freq)를 사용
date_idx = pd.date_range('11/27/2016', periods = 5, freq = 'D')
print("date_idx : ", date_idx)

df_2 = pd.DataFrame({"c1":[10, 20, 30, 40, 50]}, index = date_idx)
df_2

## (2-1) 시계열 데이터 인덱스 재설정 하기
date_idx_2 = pd.date_range('11/25/2016', periods = 10, freq = 'D')
df_2.reindex(date_idx_2)

## (2-2) 시계열 데이터 reindex 과정에서 생긴 결측값 채우기 : method = "ffill"
# method = "ffill" --> 결측값 이전값으로 채움
# method = "bfill" --> 시간 뒷 순서의 결측값으로 채움 
df_2.reindex(date_idx_2, method = 'ffill')

### 여러 동일한 형태 DataFrame 합치기

#### pd.concat function
- objs,         : 병합할 객체
- axis,         : 0: 위 + 아래로 합치기, 1: 왼쪽 + 오른쪽으로 합치기
- join,         : 'outer' -> 합집합, 'inner' -> 교집합
- ignore_index, : False -> 기존 index 유지, True -> 기존 index 무시 
- keys,         :      
- levels,       :  
- names,        : 인덱스 입력시 튜플 입력
- verify_integrity, : index 중복 확인
- copy,             : 복사

In [None]:
df_1 = pd.DataFrame({
  'A': ['A0', 'A1', 'A2'],
  'B': ['B0', 'B1', 'B2'],
  'C': ['C0', 'C1', 'C2'],
  'D': ['D0', 'D1', 'D2']},
    index=[0, 1, 2])

df_2 = pd.DataFrame({
    'A': ['A3', 'A4', 'A5'],
    'B': ['B3', 'B4', 'B5'],
    'C': ['C3', 'C4', 'C5'],
    'D': ['D3', 'D4', 'D5']},
    index=[3, 4, 5])

df_3 = pd.DataFrame({
    'E': ['A3', 'A4', 'A5'],
    'F': ['B3', 'B4', 'B5'],
    'G': ['C3', 'C4', 'C5'],
    'H': ['D3', 'D4', 'D5']},
    index=[0, 1, 2])

df_4 = pd.DataFrame({
    'A': ['A3', 'A4', 'A5'],
    'B': ['B3', 'B4', 'B5'],
    'C': ['C3', 'C4', 'C5'],
    'E': ['D3', 'D4', 'D5']},
    index=[0, 1, 3])

pd.concat([df_1, df_2], axis = 0) #- 위,아래
pd.concat([df_1, df_3], axis = 1) #- 왼쪽, 오른쪽, ** 인덱스 명이 같아야 가능한 듯
pd.concat([df_1, df_4], join = 'outer')
pd.concat([df_1, df_4], join = 'inner')

#- axis = 1인 경우, join = 'outer', join = 'inner', reindex(df.index) 3가지 비교
#- --> index를 잘 살펴보자
pd.concat([df_1, df_4], axis = 1, join = 'outer')
pd.concat([df_1, df_4], axis = 1, join = 'inner')
pd.concat([df_1, df_4], axis = 1).reindex(df_1.index)
pd.concat([df_1, df_4], axis = 1).reindex(df_4.index)

#- 기존 인덱스를 무시하고 싶을 때, --> ignore_index

df_5 = pd.DataFrame({
  'A': ['A0', 'A1', 'A2'],
  'B': ['B0', 'B1', 'B2'],
  'C': ['C0', 'C1', 'C2'],
  'D': ['D0', 'D1', 'D2']},
    index=['r0', 'r1', 'r2'])

df_6 = pd.DataFrame({
  'A': ['A0', 'A1', 'A2'],
  'B': ['B0', 'B1', 'B2'],
  'C': ['C0', 'C1', 'C2'],
  'D': ['D0', 'D1', 'D2']},
    index=['r3', 'r4', 'r5'])

pd.concat([df_5, df_6], ignore_index = False)
pd.concat([df_5, df_6], ignore_index = True)

#- 계층적 index 만들기 : keys function
df_with_keys = pd.concat([df_5, df_6], keys = ['df_5', 'df_6'])
df_with_keys.loc['df_5'][0:2]
df_with_keys.loc['df_6'][0:2]

#- index에 이름 부여하기 : names
pd.concat([df_5, df_6], keys = ['df_5', 'df_6'], names = ['df_name', 'row_number'])

#- index 중복 여부 점검 : verify_integrity
#- 만약 중복된 index가 있는 경우 error 발생

df_7 = pd.DataFrame({
  'A': ['A0', 'A1', 'A2'],
  'B': ['B0', 'B1', 'B2'],
  'C': ['C0', 'C1', 'C2'],
  'D': ['D0', 'D1', 'D2']},
    index=['r0', 'r1', 'r2'])

df_8 = pd.DataFrame({
  'A': ['A0', 'A1', 'A2'],
  'B': ['B0', 'B1', 'B2'],
  'C': ['C0', 'C1', 'C2'],
  'D': ['D0', 'D1', 'D2']},
    index=['r2', 'r3', 'r4'])

pd.concat([df_7, df_8], verify_integrity = True)
# ValueError: Indexes have overlapping values: Index(['r2'], dtype='object')

### DataFrame과 Series 합치기 : pd.concat, append

In [None]:
import pandas as pd

df_1 = pd.DataFrame({
  'A': ['A0', 'A1', 'A2'],
  'B': ['B0', 'B1', 'B2'],
  'C': ['C0', 'C1', 'C2'],
  'D': ['D0', 'D1', 'D2']},
    index=[0, 1, 2])

#- DataFrame에 Series 열 병합 하기 --> pd.concat([df, Series], axis = 1)
#- pd.Series 생성시, name 파라미터 값을 문자열로 지정하면 DataFrame 병합 시 컬럼명으로 지정됨

s1 = pd.Series(["E0", "E1", "E2"], name = "E")
pd.concat([df_1, s1], axis = 1)

#- 열 이름 무시하고, 자동 sequence 부여 : ignore_index = True
pd.concat([df_1, s1], axis = 1, ignore_index = True) 

#- Series끼리 자동으로 합치기
s2 = pd.Series(["A0", "A1", "A2"])
s3 = pd.Series(["D0", "D1", "D2"])
pd.concat([s1, s2, s3], axis = 1) #- name 이 없는 Series는 Sequence 자동 발번
pd.concat([s1, s2, s3], axis = 1, keys = ['C0','C1','C2'])

#- 위 + 아래로 합치기 : df.append(Series)
#- ignore_index 를 True로 지정해주자, 그렇지 않으면 다음과 같은 error 발생
#- TypeError: Can only append a Series if ignore_index=True or if the Series has a name

Series_4 = pd.Series(['S1', 'S2', 'S3', 'S4'], index = ['A', 'B', 'C', 'E'])
df_1.append(Series_4, ignore_index = True)

### DataFrame join/merge 하기 : pd.merge

### pd.merge function
- left, right,          # merge할 DataFrame 객체 이름
- how='inner',          # left, rigth, inner (default), outer
- on=None,              # merge의 기준이 되는 Key 변수
- left_on=None,         # 왼쪽 DataFrame의 변수를 Key로 사용
- right_on=None,        # 오른쪽 DataFrame의 변수를 Key로 사용
- left_index=False,     # 만약 True 라면, 왼쪽 DataFrame의 index를 merge Key로 사용
- right_index=False,     # 만약 True 라면, 오른쪽 DataFrame의 index를 merge Key로 사용
- sort=True,             # merge된 후의 DataFrame을 join Key 기준으로 정렬
- suffixes=('_x', '_y'), # 중복되는 변수 이름에 대해 접두사 부여 (defaults to '_x', '_y')
- copy=True,             # merge할 DataFrame을 복사
- indicator=False

In [None]:
import pandas as pd
df_left = pd.DataFrame({
    'KEY': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']})

df_right = pd.DataFrame({
    'KEY': ['K2', 'K3', 'K4', 'K5'],
    'C': ['C2', 'C3', 'C4', 'C5'],
    'D': ['D2', 'D3', 'D4', 'D5']})

#- SQL : LEFT OUTER JOIN
df_merge_left = pd.merge(df_left, df_right, how = 'left', on = 'KEY')
df_merge_left

#- SQL : RIGHT OUTER JOIN
df_merge_right = pd.merge(df_left, df_right, how = 'right', on = 'KEY')
df_merge_right

#- SQL : INNER JOIN
df_merge_inner = pd.merge(df_left, df_right, how = 'inner', on = 'KEY')
df_merge_inner

#- SQL : OUTER JOIN
df_merge_outer = pd.merge(df_left, df_right, how = 'outer', on = 'KEY')
df_merge_outer

#- * indicator = True
#- 병합된 이후에 left_only, right_only, both 등의 데이터의 출처를 알 수 있는 컬럼 추가
pd_ind = pd.merge(df_left, df_right, how = 'outer', on = "KEY", indicator = True)
pd_ind

#- indicator parameter 에 문자열을 지정해주면, 해당 문자열 이름의 컬럼으로 indicator 생성
pd_ind = pd.merge(df_left, df_right, how = 'outer', on = "KEY", indicator = "indicator")
pd_ind

#- 컬럼명이 중복될 경우, 접미사 붙이기 : suffixes = ('_x', '_y')
pd_is_suffix = pd.merge(df_left, df_right, how = 'outer', on = "KEY", indicator = "indicator", suffixes = ('_x', '_y'))
pd_is_suffix

### DataFrame을 index 기준으로 합치기 : merge, join or index

In [None]:
import pandas as pd
df_left = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']},
    index = ['K0', 'K1', 'K2', 'K3'])

df_right = pd.DataFrame({
    'C': ['C2', 'C3', 'C4', 'C5'],
    'D': ['D2', 'D3', 'D4', 'D5']},
    index = ['K2', 'K3', 'K4', 'K5'])

#- index 를 기준으로 left join 하기
pd.merge(df_left, df_right, left_index = True, right_index = True, how = 'left') # 1- merge function
df_left.join(df_right, how = 'left')                                             # 2- .join function

#- index 를 기준으로 right join 하기
pd.merge(df_left, df_right, left_index = True, right_index = True, how = 'right') # 1- merge function
df_left.join(df_right, how = 'right')                                             # 2- .join function

#- index 를 기준으로 inner join 하기
pd.merge(df_left, df_right, left_index = True, right_index = True, how = 'inner') # 1- merge function
df_left.join(df_right, how = 'inner')                                             # 2- .join function

#- index 를 기준으로 outer join 하기
pd.merge(df_left, df_right, left_index = True, right_index = True, how = 'outer') # 1- merge function
df_left.join(df_right, how = 'outer')                                             # 2- .join function

#- index와 key를 혼합해서 DataFrame 합치기
#- (Joining key columns one an index)

df_left = pd.DataFrame({
    'KEY': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']})

df_right = pd.DataFrame({
    'C': ['C2', 'C3', 'C4', 'C5'],
    'D': ['D2', 'D3', 'D4', 'D5']},
    index = ['K2', 'K3', 'K4', 'K5'])

pd.merge(df_left, df_right, left_on = 'KEY', right_index = True, how = 'left')

### 유일한 값 찾기 : pd.Series.unique(), pd.Series.value_counts()

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame({
    'A': ['A1', 'A1', 'A2', 'A2', 'A3', 'A3']- ,
    'B': ['B1', 'B1', 'B1', 'B2','B2',np.nan],
    'C': [1, 1, 3, 4, 4, 4]})
df['A'].unique()
df['B'].unique()

###  유일한 값별로 개수 세기 : pd.Series.value_counts()
normalize=False, # False면 개수, True면 상대 비율 구함  
sort=True, # True면 개수 기준 정렬, False면 유일한 값 기준 정렬  
ascending=False, # False면 내림차순 정렬, True면 오름차순 정렬  
bins=None, # None이면 유일값 기준 개수, None아니면 Bins Group별 개수  
dropna=True # True면 NaN 무시, False면 유일값에 NaN 포함)  

In [None]:
df['A'].value_counts()
df['B'].value_counts(normalize = True)
df['B'].value_counts(sort = True, ascending= True)

# 결측값을 유일한 값에 포함할지 여부 : dropna paramter
df['B'].value_counts(dropna = True)
df['B'].value_counts(dropna = False)

# Bin groups 별 개수 세기 : bins = [,,,]
df['C'].value_counts(bins = [0, 1, 2, 3, 4, 5], sort = False)
out = pd.cut(df['C'], bins = [0, 1, 2, 3, 4, 5])

0    (0, 1]
1    (0, 1]
2    (2, 3]
3    (3, 4]
4    (3, 4]
5    (3, 4]
Name: C, dtype: category
Categories (5, interval[int64]): [(0, 1] < (1, 2] < (2, 3] < (3, 4] < (4, 5]]