# DataFrame

- 2차원 행렬(표)이자 Series를 묶어낸 자료형

In [None]:
import numpy as np
import pandas as pd

---

### DataFrame 생성

In [None]:
# 2차원 ndarray 활용
arr2d = np.random.randn(2, 3)

# index, columns 속성 활용
# df = pd.DataFrame(arr2d)

# df.index = ['ㄱ', 'ㄴ']
# df.columns = ['A', 'B', 'C']

# index, columns 키워드 인자 활용
df = pd.DataFrame(arr2d, index = ['ㄱ', 'ㄴ'], columns = ['A', 'B', 'C'])

df

In [None]:
# dictionary-list 활용
data = {
    'one': [1, 2, 3, 4, 5],
    'two': ['가', '나', '다', '라', '마'],
    'three': [1.23, 2.34, 3.45, 4.56, 5.67],
    'four': True
}

df = pd.DataFrame(data)
df

In [None]:
# list-dictionary 활용
data = [
    {'a': 1, 'b': 2, 'c': 3},
    {'b': 5, 'c': 6},
    {'a': 7, 'b': 8, 'c': 9}
]
df = pd.DataFrame(data)
df

In [None]:
df.index = ['다람쥐', '고릴라', '개구리']
df.columns = ['협동심', '성실도', '인내심']

print(df.index)
print(df.columns)
df

In [None]:
# 전치행렬 (행-열 변환)
df.T

---

### DataFrame 속성

In [None]:
print(df.index)                     # df의 index 모아서 출력
print(df.columns)                   # df의 column 모아서 출력
print(df.values, type(df.values))   # df의 value만 모아서 출력

In [None]:
print(df.T)    # df의 전치행렬 출력

In [None]:
print(df.shape)     # df의 형태 출력
print(df.size)      # df의 요소 개수 출력
print(df.ndim)      # df의 깊이 출력
print(df.dtypes)    # df의 요소의 자료형 출력

---

### DataFrame 메서드

In [None]:
bank_client_df = pd.DataFrame({
    'Client ID': [1, 2, 3, 4],
    'Client Name': ['Aly', 'Steve', 'Nicole', 'Morris'],
    'Net worth [$]': [35000, 3000, 100000, 2000],
    'Years with bank': [4, 7, 10, 15]
})

bank_client_df

In [None]:
bank_client_df.head(2)

In [None]:
bank_client_df.tail(1)

In [None]:
bank_client_df.info()

In [None]:
bank_client_df.describe()

In [None]:
# 인덱싱 & 슬라이싱
# iloc 인덱스 - 행/열 순서로 조회
# loc  라벨   - 행/열 순서로 조회

# 아래처럼 인덱싱하려고 하면 내부적으로 메서드가 호출되어 대괄호 안의 값으로 '컬럼명'을 찾음
# bank_client_df[0]

print(bank_client_df.iloc[0])
print(bank_client_df.iloc[0].index)
print(bank_client_df.iloc[0].name)
print(type(bank_client_df.iloc[0]))

In [None]:
# 슬라이싱과 fancy indexing 비교
print(bank_client_df.iloc[:2])
print(type(bank_client_df.iloc[:2]))

print(bank_client_df.iloc[[0, 1]])
print(type(bank_client_df.iloc[[0, 1]]))

In [None]:
# fancy indexing을 통한 조회는 "결과가 1개여도" DataFrame 타입으로 반환
# -> Series를 반환한다는 것은 차원을 축소(제거)하는 것
# -> DataFrame을 반환한다는 것은 차원을 유지하는 것
print(bank_client_df.iloc[2].shape)
print(type(bank_client_df.iloc[2]))
print(bank_client_df.iloc[[2]].shape)
print(type(bank_client_df.iloc[[2]]))

- 2차원에 대한 indexing/slicing

In [None]:
# indexing

bank_client_df.iloc[0, 1]

In [None]:
print(bank_client_df.iloc[:2, 1])
print(type(bank_client_df.iloc[:2, 1]))

In [None]:
# slicing
print(bank_client_df.iloc[:2, 2:])
print(type(bank_client_df.iloc[:2, 2:]))

In [None]:
bank_client_df.index = ['client1', 'client2', 'client3', 'client4']

In [None]:
# indexing
bank_client_df.loc['client1']

In [None]:
# slicing
bank_client_df.loc['client2':'client4':2]

In [None]:
bank_client_df.loc['client2':'client4':2, 'Client Name']

In [None]:
# fancy indexing
bank_client_df.loc['client2':'client4':2, ['Client Name', 'Years with bank']]

In [None]:
bank_client_df.loc['client2':'client4':2, 'Client Name':'Years with bank']

In [None]:
# 이름이 Steve인 고객 정보 출력 -> Boolean indexing
# bank_client_df.iloc[1:2]
# bank_client_df.loc[bank_client_df['Client Name'] == 'Steve']
bank_client_df[bank_client_df['Client Name'] == 'Steve']

In [None]:
# Client Name만 출력
print(bank_client_df['Client Name'])

In [None]:
# Client Name과 Net worth [$] 출력
# bank_client_df.loc[:, ['Client Name', 'Net worth [$]']]
bank_client_df[['Client Name', 'Net worth [$]']]

In [None]:
# filter()
bank_client_df.filter(items=['Client Name', 'Net worth [$]'])

In [None]:
bank_client_df.filter(like='$', axis=1)

In [None]:
bank_client_df.filter(like='4', axis=0)

In [None]:
# 문제 1. ID가 3인 고객 조회
# 문제 2. 순자산(예치 금액)이 5,000달러가 넘는 고객 조회
# 문제 3. 거래 기간이 5년 이상인 고객 조회
# 문제 4. 이름이 S로 시작하는 고객 조회
# 문제 5. 거래 기간이 5년 이상이면서 이름이 S로 시작하는 고객 조회 (힌트: and(&), or(|), not(~))

---

### 행 추가 및 삭제

In [None]:
students = [
    {'name': '호랑이', 'midterm': 95, 'final': 85},
    {'name': '늑대', 'midterm': 93, 'final': 90},
    {'name': '양', 'midterm': 100, 'final': 10}
]

df = pd.DataFrame(students)
df

In [None]:
# 행 추가 1. loc 이용
df.loc[len(df)] = ['다람쥐', 100, 100]
df

In [None]:
# 행 추가 2. pd.concat(): DataFrame 병합
add_student_df = pd.DataFrame(
    [['곰', 99, 24]],
    columns=['name', 'midterm', 'final']
)
# add_student_df
df = pd.concat([df, add_student_df], ignore_index=True) # ignore_index: 인덱스를 새로 부여
df

In [None]:
# 행 삭제. drop 이용 (index 이용)
# df = df.drop(df.index[[0]])
df.drop(df.index[[4]], inplace=True)
df

---

### 컬럼 추가 및 삭제

In [None]:
df = pd.DataFrame({
    '이름': ['다람쥐', '판다', '코알라'],
    '위치': ['독산', '종로', '하남'],
    '성별': ['M', 'F', 'F'],
    '키': [179, 165, 157],
    '체중': [50.1, 48.2, 51.3]
})

df

In [None]:
# 컬럼 추가 1. 기본값 이용
df['취미'] = '인공지능 공부'
df

In [None]:
# 컬럼 추가 2. np.where(조건, True일 때 값, False일 때 값) -> ndarray 이용
df['성별(한글)'] = np.where(df['성별'] == 'M', '남성', '여성')
df

In [None]:
# 컬럼 추가 3. 기존 컬럼 연산 -> Series 이용
# BMI = kg / m^2
df['BMI'] = df['체중'] / ((df['키'] * 0.01) ** 2)
df

In [None]:
# 컬럼 추가 4. apply() 이용
def get_type(value):
    return '저체중' if value < 18 else '표준'

df['BMI type'] = df['BMI'].apply(get_type)   # apply: 고차함수 / get_type: 콜백함수
df

In [None]:
# 컬럼 삭제. drop 이용
df.drop('BMI type', axis=1, inplace=True)
df

---

### 정렬

In [None]:
df = pd.read_csv('./data/bank_client_information.csv')
df

In [None]:
df.sort_values('Net Worth', ascending=False)

In [None]:
# 오래된 고객순으로 출력
df.sort_values('Years with Bank', ascending=False)

In [None]:
# 순자산이 많고 오래된 고객순으로 출력
df.sort_values(['Net Worth', 'Years with Bank'], ascending=[False, False])

# 정렬 기준으로 n개의 컬럼을 사용할 수 있으며,
# 이때 ascending 속성 역시 짝을 맞추어 n개를 전달해야 함

Unnamed: 0,First Name,Last Name,Email,Postal Code,Net Worth,Years with Bank
5,Samer,Mo,samer@gmail.com,J7H 3HY,100000.0,26
6,Heba,Ismail,heba.ismail@hotmail.com,K8Y 3M8,50000.0,11
7,Laila,Ahmed,Laila.a@hotmail.com,J8Y 3M0,20000.0,3
3,Chanel,Steve,chanel@gmail.com,N7T 3E6,11072.02,10
1,Noah,Small,nsmall@hotmail.com,N8S 14K,10000.0,6
2,Nina,Keller,azikez@gahew.mr,S1T 4E6,9072.02,7
9,Noah,Moran,guutodi@bigwoc.kw,K2D 4M9,8626.96,13
4,Kate,Noor,kate@hotmail.com,K8N 5H6,5000.0,22
0,Bird,Steve,bird@gmail.com,N94 3M0,5000.0,5
8,Joseph,Patton,daafeja@boh.jm,M6U 5U7,2629.13,1


In [None]:
# rank(): 순위 부여
df['Rank'] = df['Net Worth'].rank(ascending=False).astype(int)
df.sort_values('Rank')

Unnamed: 0,First Name,Last Name,Email,Postal Code,Net Worth,Years with Bank,Rank
5,Samer,Mo,samer@gmail.com,J7H 3HY,100000.0,26,1
6,Heba,Ismail,heba.ismail@hotmail.com,K8Y 3M8,50000.0,11,2
7,Laila,Ahmed,Laila.a@hotmail.com,J8Y 3M0,20000.0,3,3
3,Chanel,Steve,chanel@gmail.com,N7T 3E6,11072.02,10,4
1,Noah,Small,nsmall@hotmail.com,N8S 14K,10000.0,6,5
2,Nina,Keller,azikez@gahew.mr,S1T 4E6,9072.02,7,6
9,Noah,Moran,guutodi@bigwoc.kw,K2D 4M9,8626.96,13,7
0,Bird,Steve,bird@gmail.com,N94 3M0,5000.0,5,8
4,Kate,Noor,kate@hotmail.com,K8N 5H6,5000.0,22,8
8,Joseph,Patton,daafeja@boh.jm,M6U 5U7,2629.13,1,10


---

# 기본 실습