## 판다스의 기본

이번 시간에는 먼저 데이터 분석 패키지인 판다스([Pandas](https://pandas.pydata.org))의 기본에 대해서 살펴보고, 이 노하우를 활용해 주어진 데이터를 정리하는 데이터 클리닝 전략에 대해 살펴보겠습니다.

In [1]:
# 판다스(Pandas) 패키지를 로딩합니다.
import pandas as pd

## 데이터 구조(Data Structure)와 데이터 타입(Data Type)

### Series

판다스의 가장 기본적인 데이터 구조입니다. 파이썬의 [리스트](https://wikidocs.net/14)와 매우 유사하며, 정수형(```int```), 소수점(```float```), ```NaN```(값이 없음) 을 포함한 다양한 값을 담을 수 있습니다.


In [2]:
odd = pd.Series([1, 3, 5, 7, 9])
odd

0    1
1    3
2    5
3    7
4    9
dtype: int64

### DataFrame

판다스의 핵심이자, 판다스에서 가장 많이 사용하는 데이터 구조입니다. 파이썬의 [2차원 리스트](https://dojang.io/mod/page/view.php?id=988)와 매우 유사하며, Series와 마찬가지로 정수형, 소수점, NaN 등의 다양한 값을 담을 수 있습니다.

In [3]:
numbers = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

numbers = pd.DataFrame(numbers)
numbers

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


수학적인 관점에서 살펴보자면, Series는 벡터(Vector)와 흡사하다고 볼 수 있으며, DataFrame은 행렬(Matrix)과 유사하다고 볼 수 있습니다.

또한 여러 개의 Series를 묶어놓은 것을 DataFrame이라고도 간주할 수 있습니다. 다음의 코드를 실행해보면 Series와 DataFrame의 관계를 조금 더 쉽게 이해할 수 있을 것입니다.

In [4]:
# numbers라는 변수에는 DataFrame이 할당되어 있으며,
# 이를 파이썬의 type으로 감싸주면 해당 변수에 들어가 있는 데이터의 타입이 나옵니다.
# (== pandas.core.frame.DataFrame)
print(type(numbers))

# 이 DataFrame의 0번째 열(column)을 반환하면 이는 Series라는 걸 알 수 있습니다.
print(type(numbers[0]))

# 마찬가지로 0번째 행(row)를 반환하면 이 역시 Series라는 걸 알 수 있습니다.
print(type(numbers.loc[0]))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


### 데이터 타입(Data Type)

판다스와 DataFrame과 Series에 담을 수 있는 주요 데이터타입은 다음과 같습니다.

  * **정수형**: 1, 2, 3, 7, 9 등입니다. integer(int)로 표현하며, 32비트형(int32)와 64비트형(int64)이 있습니다.
  * **소수점**: 1.0, 3.2, 7.82 등이 있습니다. float로 표현하며, 32비트형(float32)와 64비트형(float64)이 있습니다.
  * **문자열**: 텍스트를 나타냅니다. 파이썬에서는 string라고 표현하지만, 판다스에서는 object라고 표현합니다.

이외에도 날짜(datetime), 카테고리(category) 등을 포함한 다양한 데이터타입이 존재합니다. 자세한 사항은 [다음의 링크](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics-dtypes)를 참고해주세요.


In [5]:
# Series 안에 있는 모든 값이 정수형(int)이면
data = pd.Series([1, 3, 5, 7, 9])

# dtypes는 정수형이 출력됩니다.
print(data.dtypes)
data

int64


0    1
1    3
2    5
3    7
4    9
dtype: int64

In [6]:
# Series 안에 소수점(float)이 하나라도 있으면
data = pd.Series([1, 3, 5, 7.0, 9])

# dtypes는 소수점으로 출력됩니다.
print(data.dtypes)
data

float64


0    1.0
1    3.0
2    5.0
3    7.0
4    9.0
dtype: float64

In [7]:
# Series 안에 문자열(object)이 하나라도 있으면
data = pd.Series([1, 3, 5, 7.0, 9, 'hello'])

# dtypes는 object로 출력됩니다.
print(data.dtypes)
data

object


0        1
1        3
2        5
3        7
4        9
5    hello
dtype: object

Series 안에는 빈 값을 넣을 수도 있습니다. 판다스에서는 이를 NaN(Not a Number)라고 표현합니다.

NaN을 집어넣을 때는 [numpy](http://www.numpy.org/)를 사용하며, 코드에서는 ```np.nan``` 이라고 표현합니다.

In [8]:
import numpy as np

# Series 에는 np.nan으로 NaN값을 넣을 수 있습니다.
data = pd.Series([1, np.nan, 5, 7, 9])

# 이 경우에는 float형으로 표현됩니다.
print(data.dtypes)
data

float64


0    1.0
1    NaN
2    5.0
3    7.0
4    9.0
dtype: float64

또한 astype을 활용해 Series의 dtypes를 원하는대로 변경할 수 있습니다.

In [9]:
# 모든 값이 정수형인 series를 만듭니다.
data = pd.Series([1, 3, 5, 7, 9])

# dtypes는 정수형(int)가 나옵니다.
print(data.dtypes)

print("-------")

# astype으로 데이터타입을 int에서 float으로 변경합니다.
data = data.astype('float')

# dtypes는 소수점(float)가 나옵니다.
print(data.dtypes)

int64
-------
float64


비슷하게, int64형을 int32형으로 변환할 수도 있습니다.

In [10]:
# 모든 값이 정수형인 series를 만듭니다.
data = pd.Series([1, 3, 5, 7, 9])

# dtypes는 int64가 나옵니다.
print(data.dtypes)

print("-----")

# astype으로 데이터타입을 int64에서 int32로 변경합니다.
data = data.astype('int32')

# 이럴 경우 dtypes는 int32가 나옵니다.
print(data.dtypes)

int64
-----
int32


### TL; DR

  * 판다스에는 Series와 DataFrame이라는 데이터 구조(Data Structure)가 있습니다.
  * 수학적으로 Series는 벡터(Vector)를, DataFrame은 행렬(Matrix)을 나타냅니다.
  * 이 데이터 구조 안에는 정수형(int), 소수점(float), 텍스트(object) 등의 다양한 값이 들어갑니다.
  * 실전에서는 Series보다는 DataFrame을 직접적으로 사용하는 비중이 매우 높습니다. **때문에 다른 것 보다 DataFrame의 구조와 동작 원리를 잘 숙지하는 것이 매우 중요합니다.**
  

## DataFrame

앞서 말씀드린대로 판다스의 기본이자 핵심은 DataFrame 입니다. **판다스의 모든 기능은 DataFrame으로 시작해서 DataFrame으로 끝납니다.** 그러므로 판다스를 능수능란하게 사용하기 위해서는 DataFrame의 동작 원리를 잘 이해하는 것이 중요합니다. 이번 시간에서는 판다스의 DataFrame을 조금 더 깊게 들어가보겠습니다.

### DataFrame 생성하기

판다스에서 DataFrame을 만들고 싶다면, ```pd.DataFrame```을 이용하면 됩니다. 판다스에서는 다양한 방식으로 DataFrame을 생성할 수 있습니다.

In [11]:
# 파이썬의 2차원 리스트가 주어질 때
transaction = [
    ['2017-01-01', 500, 'confirmed'],
    ['2017-01-03', 700, 'confirmed'],
    ['2017-01-10', 200, 'canceled'],
]

In [12]:
# pd.DataFrame 로 데이터프레임을 만들 수 있습니다.
pd.DataFrame(transaction)

Unnamed: 0,0,1,2
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


In [13]:
# column을 추가하는 것도 가능합니다.
pd.DataFrame(transaction, columns=["date", 'price', 'state'])

Unnamed: 0,date,price,state
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


In [14]:
# 다음과 같이 dictionary를 활용해서 데이터프레임을 생성할 수 있습니다.
transaction = {
    'date': ['2017-01-01', '2017-01-03', '2017-01-10'],
    'price': [500, 700, 200],
    'state': ['confirmed', 'confirmed', 'canceled'],
}

pd.DataFrame(transaction)

Unnamed: 0,date,price,state
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


In [15]:
# 위와 비슷하지만, 이번에는 list 안에 dictionary를 넣습니다.
transaction = [
    {'date': '2017-01-01', 'price': 500, 'state': 'confirmed'},
    {'date': '2017-01-03', 'price': 700, 'state': 'confirmed'},
    {'date': '2017-01-10', 'price': 200, 'state': 'canceled'},
]

pd.DataFrame(transaction)

Unnamed: 0,date,price,state
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


어떠한 방식으로 DataFrame을 만들 것인지는, 이전에 데이터가 어떻게 주어졌나에 따라 다릅니다. 즉, 이전에 2차원 리스트로 데이터가 주어졌으면 2차원 리스트로 DataFrame을 만들고, dictionary 형태로 데이터가 주어졌으면 dictionary 형태로 DataFrame을 만들면 됩니다.

### DataFrame의 기본 기능

### 기본 정보 가져오기

In [16]:
transaction = [
    {'date': '2017-01-01', 'price': 500, 'state': 'confirmed'},
    {'date': '2017-01-03', 'price': 700, 'state': 'confirmed'},
    {'date': '2017-01-05', 'price': 800, 'state': 'confirmed'},
    {'date': '2017-01-07', 'price': 500, 'state': 'canceled'},
    {'date': '2017-01-09', 'price': 700, 'state': 'confirmed'},
    {'date': '2017-01-10', 'price': 200, 'state': 'canceled'},    
]

transaction = pd.DataFrame(transaction, index=["Kang", "Kim", "Choi", "Park", "Lee", "Yoon"])
transaction

Unnamed: 0,date,price,state
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-05,800,confirmed
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed
Yoon,2017-01-10,200,canceled


In [17]:
# head()를 사용하면 상위 5개를 반환합니다.
transaction.head()

Unnamed: 0,date,price,state
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-05,800,confirmed
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed


In [18]:
# tail()을 사용하면 하위 5개를 반환합니다.
transaction.tail()

Unnamed: 0,date,price,state
Kim,2017-01-03,700,confirmed
Choi,2017-01-05,800,confirmed
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed
Yoon,2017-01-10,200,canceled


In [19]:
# head와 tail의 인자로 숫자(n)를 넣으면 n개의 데이터를 반환합니다.
# 가령 head(2)는 상위 2개를 반환합니다.
transaction.head(2)

Unnamed: 0,date,price,state
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed


In [20]:
#  tail(2)은 하위 2개를 반환합니다.
transaction.tail(2)

Unnamed: 0,date,price,state
Lee,2017-01-09,700,confirmed
Yoon,2017-01-10,200,canceled


In [21]:
# index를 사용하면 DataFrame의 row를 접근하는 기준이 되는 값인 index를 받아올 수 있습니다.
transaction.index

Index(['Kang', 'Kim', 'Choi', 'Park', 'Lee', 'Yoon'], dtype='object')

In [22]:
# 컬럼을 가지고 오고 싶다면 column을 이용하면 됩니다.
transaction.columns

Index(['date', 'price', 'state'], dtype='object')

In [23]:
# values를 사용하면 DataFrame에서 값만 가져올 수 있습니다.
transaction.values

array([['2017-01-01', 500, 'confirmed'],
       ['2017-01-03', 700, 'confirmed'],
       ['2017-01-05', 800, 'confirmed'],
       ['2017-01-07', 500, 'canceled'],
       ['2017-01-09', 700, 'confirmed'],
       ['2017-01-10', 200, 'canceled']], dtype=object)

In [24]:
# .values의 반환 결과는 numpy의 array입니다.
type(transaction.values)

numpy.ndarray

In [25]:
# 각 컬럼에 대한 통계를 보고 싶으면 .describe() 를 사용합니다.
# 이 경우 정수형, 소수점이 들어가 있는 컬럼 한정으로 통계값(평균, 표준편차 등등)을 출력합니다.
transaction.describe()

Unnamed: 0,price
count,6.0
mean,566.666667
std,216.02469
min,200.0
25%,500.0
50%,600.0
75%,700.0
max,800.0


In [26]:
# 만일 컬럼명을 바꾸고 싶다면 .columns 에 컬럼명에 해당하는 리스트를 넣어주면 됩니다.
transaction.columns = ["date", "amount", "result"]
transaction

Unnamed: 0,date,amount,result
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-05,800,confirmed
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed
Yoon,2017-01-10,200,canceled


### 정렬하기


In [27]:
# index를 기준으로 정렬하고 싶다면 .sort_index를 사용합니다.
transaction.sort_index()

Unnamed: 0,date,amount,result
Choi,2017-01-05,800,confirmed
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Lee,2017-01-09,700,confirmed
Park,2017-01-07,500,canceled
Yoon,2017-01-10,200,canceled


In [28]:
# 정 반대로 정렬하고 싶다면 ascending=False 옵션을 주면 됩니다.
transaction.sort_index(ascending=False)

Unnamed: 0,date,amount,result
Yoon,2017-01-10,200,canceled
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed
Kim,2017-01-03,700,confirmed
Kang,2017-01-01,500,confirmed
Choi,2017-01-05,800,confirmed


In [29]:
# 컬럼을 정렬하고 싶다면 axis=1 옵션을 줍니다.
# 여기서 axis는 numpy에서 차용한 개념인데, 지금은 편하게 axis=0은 row, axis=1은 column이라고 인식하면 됩니다.
transaction.sort_index(axis=1)

Unnamed: 0,amount,date,result
Kang,500,2017-01-01,confirmed
Kim,700,2017-01-03,confirmed
Choi,800,2017-01-05,confirmed
Park,500,2017-01-07,canceled
Lee,700,2017-01-09,confirmed
Yoon,200,2017-01-10,canceled


In [30]:
# 마찬가지로 정 반대로 정렬하고 싶다면 ascending=False 옵션을 줍니다.
transaction.sort_index(axis=1, ascending=False)

Unnamed: 0,result,date,amount
Kang,confirmed,2017-01-01,500
Kim,confirmed,2017-01-03,700
Choi,confirmed,2017-01-05,800
Park,canceled,2017-01-07,500
Lee,confirmed,2017-01-09,700
Yoon,canceled,2017-01-10,200


In [31]:
# index나 column이 아닌 특정 컬럼을 기준으로 정렬하고 싶다면
# .sort_values를 사용하면 됩니다.
transaction.sort_values(by="amount")

Unnamed: 0,date,amount,result
Yoon,2017-01-10,200,canceled
Kang,2017-01-01,500,confirmed
Park,2017-01-07,500,canceled
Kim,2017-01-03,700,confirmed
Lee,2017-01-09,700,confirmed
Choi,2017-01-05,800,confirmed


In [32]:
# .sort_values도 .sort_index와 마찬가지로 ascending=False 옵션으로 정 반대로 정렬할 수 있습니다.
transaction.sort_values(by="amount", ascending=False)

Unnamed: 0,date,amount,result
Choi,2017-01-05,800,confirmed
Kim,2017-01-03,700,confirmed
Lee,2017-01-09,700,confirmed
Kang,2017-01-01,500,confirmed
Park,2017-01-07,500,canceled
Yoon,2017-01-10,200,canceled


In [76]:
# .value_counts 를 하면 canceled와 confirmed 각각의 총 갯수를 구할 수 있습니다.
transaction["result"].value_counts()

confirmed    3
canceled     2
Name: result, dtype: int64

### 기본 연산

In [33]:
# 결제 금액의 평균, 최대, 최소를 각각 구합니다.
mean_amount = transaction["amount"].mean()
min_amount = transaction["amount"].min()
max_amount = transaction["amount"].max()

print("Amount(Mean) = {0:.6f}".format(mean_amount))
print("Amount(Min) = {0}".format(min_amount))
print("Amount(Max) = {0}".format(max_amount))

Amount(Mean) = 566.666667
Amount(Min) = 200
Amount(Max) = 800


In [34]:
# amount 컬럼의 이전 값을 가져옵니다.
transaction["prev-amount"] = transaction["amount"].shift(+1)

# 정 반대로 amount 컬럼의 다음 값을 가져옵니다.
transaction["next-amount"] = transaction["amount"].shift(-1)

transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount
Kang,2017-01-01,500,confirmed,,700.0
Kim,2017-01-03,700,confirmed,500.0,800.0
Choi,2017-01-05,800,confirmed,700.0,500.0
Park,2017-01-07,500,canceled,800.0,700.0
Lee,2017-01-09,700,confirmed,500.0,200.0
Yoon,2017-01-10,200,canceled,700.0,


In [35]:
# 현재 amount 컬럼과 이전 amount 컬럼의 차이(diff)를 구합니다.
transaction["amount-diff"] = transaction["amount"].diff()
transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0
Park,2017-01-07,500,canceled,800.0,700.0,-300.0
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0
Yoon,2017-01-10,200,canceled,700.0,,-500.0


## DataFrame으로 행렬 접근하기

### 열(column) 접근하기

In [36]:
# 컬럼을 하나만 접근하고 싶으면 [] 안에 컬럼명을 집어넣습니다.
# 이 경우는 pandas의 Series가 나옵니다.
print(type(transaction["date"]))
transaction["date"]

<class 'pandas.core.series.Series'>


Kang    2017-01-01
Kim     2017-01-03
Choi    2017-01-05
Park    2017-01-07
Lee     2017-01-09
Yoon    2017-01-10
Name: date, dtype: object

In [37]:
# 컬럼을 여러 개 접근하고 싶으면 [[]] 안에 컬럼명을 여러 개 집어넣습니다.
# 이 경우는 pandas의 DataFrame이 나옵니다.
print(type(transaction[["date", "amount"]]))
transaction[["date", "amount"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,date,amount
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-05,800
Park,2017-01-07,500
Lee,2017-01-09,700
Yoon,2017-01-10,200


In [38]:
# 위 코드와 아래 코드는 사실상 동일한 코드입니다.
# 컬럼을 여러 개 가져온다는 것은, 사실상 [] 안에 리스트를 넣고,
# 그 리스트 안에 컬럼명을 여러 개 적는것과 마찬가지라고 보면 됩니다.
columns = ["date", "amount"]
transaction[columns]

Unnamed: 0,date,amount
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-05,800
Park,2017-01-07,500
Lee,2017-01-09,700
Yoon,2017-01-10,200


### 행(row) 접근하기

In [39]:
# 행을 하나만 접근하고 싶다면 .loc[] 안에 문자열로 특정 인덱스명을 넣으면 됩니다.
# 이 경우는 pandas의 Series가 나옵니다.
print(type(transaction.loc["Kang"]))
transaction.loc["Kang"]

<class 'pandas.core.series.Series'>


date           2017-01-01
amount                500
result          confirmed
prev-amount           NaN
next-amount           700
amount-diff           NaN
Name: Kang, dtype: object

In [40]:
# 행을 여러 개 접근하고 싶다면 .loc[] 안에 특정 인덱스명을 여러 개 집어넣으면 됩니다.
# 이 경우 pandas의 DataFrame이 나옵니다.
print(type(transaction.loc[["Kang", "Kim", "Choi"]]))
transaction.loc[["Kang", "Kim", "Choi"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0


In [41]:
# 위 코드와 아래 코드는 사실상 동일한 코드입니다.
# 컬럼을 여러 개 가져온다는 것은, 사실상 [] 안에 리스트를 넣고,
# 그 리스트 안에 컬럼명을 여러 개 적는것과 마찬가지라고 보면 됩니다.
columns = ["Kang", "Kim", "Choi"]
transaction.loc[columns]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0


In [42]:
# 아래와 같은 식으로 파이썬의 slicing 문법 응용해서 row를 여러 개 가져올 수도 있습니다.
transaction["Kang":"Choi"]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0


## 행렬 동시 접근

In [43]:
# column - row 순으로 접근할 수 있다.
# 이 경우 가장 느리며, 다양한 방면에서 문제가 생기기 때문에 권장하지 않는다.
%timeit transaction["date"]["Kang"]

16.5 µs ± 1.87 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [44]:
# 가장 일반적인 방식. .loc후 앞에 row, 뒤에 column을 넣는다.
%timeit transaction.loc["Kang", "date"]

11.5 µs ± 1.67 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [45]:
# 가장 좋은 방식, 미묘하지만 성능이 가장 빠르다.
%timeit transaction.at["Kang", "date"]

9.3 µs ± 1.31 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [46]:
# 하지만 row를 동시에 접근하고 싶다면 at은 사용할 수 없고, loc를 사용해야 한다.
transaction.loc[["Kang", "Kim", "Choi"], "date"]

Kang    2017-01-01
Kim     2017-01-03
Choi    2017-01-05
Name: date, dtype: object

In [47]:
# column도 row와 마찬가지.
transaction.loc["Kang", ["date", "amount"]]

date      2017-01-01
amount           500
Name: Kang, dtype: object

In [48]:
# row와 column을 동시에 여러 개 접근할 수 있다.
transaction.loc[["Kang", "Kim", "Choi"], ["date", "amount"]]

Unnamed: 0,date,amount
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-05,800


In [49]:
# index나 column 이름이 아닌 순서를 기준으로 하고 싶다면, loc가 아닌 iloc를 사용해주면 된다.
# 가장 첫 번째 index인 Kang의 정보가 나온다.
transaction.iloc[0]

date           2017-01-01
amount                500
result          confirmed
prev-amount           NaN
next-amount           700
amount-diff           NaN
Name: Kang, dtype: object

In [50]:
# Kang의 date 값이 나온다.
transaction.iloc[0, 0]

'2017-01-01'

In [51]:
# loc로 했던 모든 것들은 iloc로 할 수 있다.
transaction.iloc[[0, 1, 3], [1, 2]]

Unnamed: 0,amount,result
Kang,500,confirmed
Kim,700,confirmed
Park,500,canceled


In [52]:
# at과 마찬가지로 iat이 존재한다.
%timeit transaction.iloc[0, 0]
%timeit transaction.iat[0, 0]

16.2 µs ± 3.17 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
12.1 µs ± 3.34 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [53]:
# 추가로 loc와 iloc를 합친 ix라는 기능이 있는데,
# 이 기능은 deprecated(조만간 기능이 삭제될 예정) 되었으니 사용하지 말 것.
transaction.ix[0]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


date           2017-01-01
amount                500
result          confirmed
prev-amount           NaN
next-amount           700
amount-diff           NaN
Name: Kang, dtype: object

### 색인(Indexing)

색인은 판다스의 가장 강력한 기능 중 하나이며, 판다스를 활용할 때 매우 빈번하게 등장하는 기능이다.

In [54]:
# date 값에 특정 값(2017-01-01)이 존재하는지 여부를 확인할 수 있습니다.
transaction[transaction["date"] == "2017-01-01"]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,


In [55]:
# 정 반대로, date 값에 특정 값(2017-01-01)이 아닌 게 존재하는지 여부를 확인하는 것도 가능합니다.
transaction[transaction["date"] != "2017-01-01"]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0
Park,2017-01-07,500,canceled,800.0,700.0,-300.0
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0
Yoon,2017-01-10,200,canceled,700.0,,-500.0


In [56]:
# 정수형, 소수점은 크고 작음으로 데이터를 색인할 수 있습니다.
transaction[transaction["amount"] < 600]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Park,2017-01-07,500,canceled,800.0,700.0,-300.0
Yoon,2017-01-10,200,canceled,700.0,,-500.0


In [57]:
# prev-amount가 비어있는(NaN, Not a Number) 값을 색인할 수 있습니다.
transaction[transaction["prev-amount"].isnull()]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,


In [58]:
# 정 반대로 값이 비어있지 않은 것만 가져오고 싶다면 not null 입니다.
transaction[transaction["prev-amount"].notnull()]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0
Park,2017-01-07,500,canceled,800.0,700.0,-300.0
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0
Yoon,2017-01-10,200,canceled,700.0,,-500.0


In [59]:
# 물결(~) 표시는 True와 False를 뒤집습니다. 결과적으로 not null을 사용하였지만 비어있는 값을 가져옵니다.
transaction[~transaction["prev-amount"].notnull()]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,


In [60]:
# 여러 개의 조건을 동시에 쓰고 싶다면 &(and, shift + 7) 또는 |(or, shift + 대괄호 닫는 키 오른쪽) 을 사용하면 됩니다.
transaction[(transaction["result"] == "confirmed") & (transaction["amount"] >= 500)]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0


In [61]:
# 조건이 복잡해지면 이렇게 여러 개의 조건으로 나눠서 사용할 수 있습니다.
confirmed = transaction["result"] == "confirmed"
high_paid = transaction["amount"] >= 500

transaction[confirmed & high_paid]

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0


In [62]:
# 색인을 응용하면, 아주 쉽게 DataFrame을 둘로 쪼갤 수 있습니다.
confirmed_transaction = transaction[transaction["result"] == "confirmed"]
confirmed_transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kang,2017-01-01,500,confirmed,,700.0,
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0


In [63]:
canceled_transaction = transaction[transaction["result"] == "canceled"]
canceled_transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Park,2017-01-07,500,canceled,800.0,700.0,-300.0
Yoon,2017-01-10,200,canceled,700.0,,-500.0


색인은 간단한 원리로 동작하지만, 그 응용 가능성은 무궁무진합니다. 사실상 색인을 어떻게 응용하느냐로 판다스를 사용하는 실력을 판가름하기도 합니다.

그러므로 실습 시간에, 그리고 집에서 연습하실 때 가능한 다양한 방법으로, 창의적인 방법으로 데이터를 색인해보세요.



## apply

apply는 파이썬의 반복문(for) 과 유사한 방식으로 동작합니다. Series를 가져온 뒤 지정한 함수를 넣어주면 해당 함수를 반복적으로 실행합니다.

In [64]:
def isvip(amount):
    return amount >= 500
    
# amount 컬럼을 가져온 뒤, 500달러를 초과했으면 VIP라고 간주하는 함수를 만듭니다.
transaction["VIP"] = transaction["amount"].apply(isvip)
transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff,VIP
Kang,2017-01-01,500,confirmed,,700.0,,True
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0,True
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0,True
Park,2017-01-07,500,canceled,800.0,700.0,-300.0,True
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0,True
Yoon,2017-01-10,200,canceled,700.0,,-500.0,False


In [65]:
# 위 코드와 동일합니다. 이와 같은 방식을 람다(lambda), 내지는 익명 함수라고 부릅니다.
# 보통 함수를 굳이 만들 필요가 없을 정도로 코드가 간결하다면, 굳이 함수를 만들지 않고 lambda를 사용하는 것 만으로 충분합니다.
transaction["VIP"] = transaction["amount"].apply(lambda amount: amount >= 500)
transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff,VIP
Kang,2017-01-01,500,confirmed,,700.0,,True
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0,True
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0,True
Park,2017-01-07,500,canceled,800.0,700.0,-300.0,True
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0,True
Yoon,2017-01-10,200,canceled,700.0,,-500.0,False


In [66]:
# 물론 열(column)이 아닌 행(row)으로 apply를 돌리는 것도 가능힙니다. (다만 자주 쓰이지는 않습니다)
transaction.loc["Kang"].apply(lambda x: x == 500)

date           False
amount          True
result         False
prev-amount    False
next-amount    False
amount-diff    False
VIP            False
Name: Kang, dtype: bool

In [67]:
def is_vip(row):
    amount = row["amount"]
    result = row["result"]

    return result == "confirmed" and amount >= 500

# 복수의 컬럼을 동시에 쓰고 싶다면 Series가 아닌 DataFrame에다가 apply를 할 수 있습니다.
# 여기서 axis를 1로 지정해주면 row가 하나씩 들어가고, axis를 0으로 지정해주면 column이 하나씩 들어갑니다.
transaction["VIP"] = transaction.apply(is_vip, axis=1)
transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff,VIP
Kang,2017-01-01,500,confirmed,,700.0,,True
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0,True
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0,True
Park,2017-01-07,500,canceled,800.0,700.0,-300.0,False
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0,True
Yoon,2017-01-10,200,canceled,700.0,,-500.0,False


## 컬럼 버리기

In [68]:
# drop을 호출한 뒤 axis=0을 하면 row를 하나 버립니다.
transaction = transaction.drop("Kang", axis=0)
transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff,VIP
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0,True
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0,True
Park,2017-01-07,500,canceled,800.0,700.0,-300.0,False
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0,True
Yoon,2017-01-10,200,canceled,700.0,,-500.0,False


In [69]:
# drop을 호출한 뒤 axis=1을 하면 컬럼을 버립니다.
transaction.drop("VIP", axis=1, inplace=True)
transaction

Unnamed: 0,date,amount,result,prev-amount,next-amount,amount-diff
Kim,2017-01-03,700,confirmed,500.0,800.0,200.0
Choi,2017-01-05,800,confirmed,700.0,500.0,100.0
Park,2017-01-07,500,canceled,800.0,700.0,-300.0
Lee,2017-01-09,700,confirmed,500.0,200.0,200.0
Yoon,2017-01-10,200,canceled,700.0,,-500.0


In [70]:
# 파이썬 리스트를 활용해서 여러 개의 컬럼을 한 번에 버릴 수도 있습니다.
transaction.drop(["prev-amount", "next-amount", "amount-diff"], axis=1, inplace=True)
transaction

Unnamed: 0,date,amount,result
Kim,2017-01-03,700,confirmed
Choi,2017-01-05,800,confirmed
Park,2017-01-07,500,canceled
Lee,2017-01-09,700,confirmed
Yoon,2017-01-10,200,canceled


### 컬럼 추가하기 & 수정하기

In [71]:
# 컬럼에 들어가는 모든 값이 동일할 경우, 파이썬의 변수 할당과 동일하게 집어넣으면 됩니다.
transaction["card-holder"] = "KB Card"
transaction

Unnamed: 0,date,amount,result,card-holder
Kim,2017-01-03,700,confirmed,KB Card
Choi,2017-01-05,800,confirmed,KB Card
Park,2017-01-07,500,canceled,KB Card
Lee,2017-01-09,700,confirmed,KB Card
Yoon,2017-01-10,200,canceled,KB Card


In [72]:
# 컬럼에 서로 다른 값을 넣고 싶을 땐, 일단 갯수만 맞으면 무조건 들어갑니다.
transaction["order"] = [1, 2, 3, 4, 5]
transaction

Unnamed: 0,date,amount,result,card-holder,order
Kim,2017-01-03,700,confirmed,KB Card,1
Choi,2017-01-05,800,confirmed,KB Card,2
Park,2017-01-07,500,canceled,KB Card,3
Lee,2017-01-09,700,confirmed,KB Card,4
Yoon,2017-01-10,200,canceled,KB Card,5


In [73]:
# 이전에 행렬검색에서 사용한 loc를 응용해서 컬럼에 조건별로 값을 다르게 줄 수도 있습니다.
transaction.loc[transaction["amount"] >= 500, "VIP"] = True
transaction.loc[transaction["amount"] < 500, "VIP"] = False

transaction

Unnamed: 0,date,amount,result,card-holder,order,VIP
Kim,2017-01-03,700,confirmed,KB Card,1,True
Choi,2017-01-05,800,confirmed,KB Card,2,True
Park,2017-01-07,500,canceled,KB Card,3,True
Lee,2017-01-09,700,confirmed,KB Card,4,True
Yoon,2017-01-10,200,canceled,KB Card,5,False


In [74]:
# 당연히 and(&) 조건과 or(|) 조건도 동일하게 넣을 수 있습니다.
transaction.loc[(transaction["result"] == "confirmed") & transaction["amount"] >= 500, "VIP"] = True
transaction.loc[(transaction["result"] != "confirmed") | (transaction["amount"] < 500), "VIP"] = False

transaction

Unnamed: 0,date,amount,result,card-holder,order,VIP
Kim,2017-01-03,700,confirmed,KB Card,1,True
Choi,2017-01-05,800,confirmed,KB Card,2,True
Park,2017-01-07,500,canceled,KB Card,3,False
Lee,2017-01-09,700,confirmed,KB Card,4,True
Yoon,2017-01-10,200,canceled,KB Card,5,False
