## 실전 데이터분석반 1주차 - 데이터 분석 패키지 판다스(Pandas) 이해하기

이번 시간에는 먼저 파이썬([Python](http://python.org/))의 데이터 분석 패키지 중 하나인 판다스([Pandas](https://pandas.pydata.org))를 배워보겠습니다.

프로그래밍 언어 파이썬에는 **패키지**라고 하는 다양한 확장팩들이 있습니다. 가령 웹 개발을 위해서는 [flask](http://flask.pocoo.org/)나 [django](https://www.djangoproject.com/)와 같은 패키지를 사용하면 되고, 데이터베이스를 다루고 싶다면 [SQLAlchemy](https://www.sqlalchemy.org/)라는 패키지를 사용하면 됩니다. 데이터 시각화를 하고 싶다면 [matplotlib](https://matplotlib.org/)나 [seaborn](http://seaborn.pydata.org)과 같은 패키지를 사용할 수 있습니다.

이런 다양한 패키지 중에서, 데이터 분석에 가장 최적화된 패키지가 바로 판다스([Pandas](https://pandas.pydata.org))입니다. 판다스를 이용하면 엑셀 데이터, 내지는 엑셀과 유사한 데이터(ex: [csv](https://en.wikipedia.org/wiki/Comma-separated_values) 파일)를 자유자재로 다룰 수 있습니다.

그렇기 때문에 판다스는 엑셀의 훌륭한 대체제가 되며, 언제나 엑셀과 비교 대상에 오르곤 합니다. 판다스, 엑셀 모두 훌륭한 툴이지만 판다스는 엑셀에 비해 다음과 같은 장점이 있습니다.


1. 대용량 데이터를 효율적으로 다룰 수 있습니다. 엑셀은 데이터의 용량이 100MB만 넘어가면 정상적으로 작동하지 않는데, 판다스는 최소 1GB, 많으면 100GB가 넘는 데이터도 빠른 속도로 처리할 수 있습니다.
2. 복잡한 기능을 구현할 때는 엑셀보다 더 쉽습니다. 엑셀은 복잡한 기능을 엑셀 전용 함수를 사용하는데, 함수의 문법도 직관적이지 않으며 제대로 동작하지 않는 경우가 많습니다. 반면, 판다스는 파이썬을 기반으로 동작하기 때문에 엑셀 공식보다 더 체계적이고 직관적입니다.
3. 다른 시스템과 연동하기 쉽습니다. 엑셀은 분석 결과를 데이터베이스에 집어넣거나 웹 페이지에 띄우는 일을 하기 어렵지만, 판다스는 [flask](http://flask.pocoo.org/)나 [SQLAlchemy](https://www.sqlalchemy.org/)를 통해 다른 시스템과 연동하기 매우 편합니다.


이번 시간에는 이러한 판다스를 기초부터 차근차근 살펴보도록 하겠습니다. 다음의 쥬피터 노트북을 모두 복습한 뒤, 판다스를 추가로 더 공부하고 싶은 분들은 판다스 공식 문서에 있는 [10 minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)라는 아티클을 읽고 따라하는 것을 추천드립니다.

In [1]:
# pandas 라는 패키지를 파이썬으로 읽어(import)옵니다.
# 그리고 이를 pd라는 축약어로 사용합니다.
import pandas as pd

## 데이터 구조(Data Structure)와 데이터 타입(Data Type)

먼저 판다스의 가장 기본이 되는 데이터 구조(Data Structure)와 데이터 타입(Data Type)에 대해서 알아보겠습니다.

판다스의 데이터 구조(Data Structure)는 보통 컴퓨터공학과 학생이 정규 교과 과정에서 배우는 [자료구조론](https://ko.wikipedia.org/wiki/%EC%9E%90%EB%A3%8C_%EA%B5%AC%EC%A1%B0)과 유사합니다. 판다스는 자료구조론에서 배우는 것 처럼 주어진 데이터(=자료)를 효율적으로 저장하고 다루기 위한 몇몇 자료 구조를 제공하고 있습니다. 하지만 전통적인 자료구조론(ex: 스택, 큐, 링크드리스트, etc)과는 다르게, 판다스에서는 훨씬 더 현대적인 방식으로 데이터를 저장하고 다룰 수 있습니다.

판다스의 데이터 구조는 크게 1) Series, 2) DataFrame 이렇게 두 가지로 나뉠 수 있습니다. 먼저 Series부터 살펴보겠습니다.


### Series

Series는 판다스의 가장 기본적인 데이터 구조입니다. 쉽게 설명하자면 자료구조론의 [배열(Array)](https://ko.wikipedia.org/wiki/%EB%B0%B0%EC%97%B4), 내지는 파이썬의 [리스트(List)](https://wikidocs.net/14)와 매우 유사하다고 보시면 됩니다.

In [2]:
# 파이썬의 리스트를 만듭니다. 이 리스트에는 1, 3, 5, 7, 9가 들어갑니다.
# 이 리스트를 odd라는 이름의 변수에 저장합니다.
odd = [1, 3, 5, 7, 9]

# odd 변수 안에 들어가 있는 리스트를 출력합니다.
odd

[1, 3, 5, 7, 9]

In [3]:
# 이번에는 이 파이썬 리스트를 판다스의 Series로 변환하겠습니다.
# 마찬가지로 odd라는 이름의 변수에 다시 저장합니다.
odd = pd.Series(odd)

# odd 변수 안에 들어가있는 판다스 Series를 출력합니다.
odd

0    1
1    3
2    5
3    7
4    9
dtype: int64

만일 파이썬의 리스트와 판다스의 Series가 거의 유사하다면, 우리는 왜 파이썬의 리스트가 아닌 판다스의 Series를 사용해야 할까요? 그 이유는 간단한게, 파이썬의 리스트를 사용하면 판다스에서 제공하는 다양한 기능을 사용할 수 없기 때문입니다.



In [4]:
# 파이썬의 리스트를 만듭니다. 이 리스트에는 1, 3, 5, 7, 9가 들어갑니다.
# 이 리스트를 odd라는 이름의 변수에 저장합니다.
odd = [1, 3, 5, 7, 9]

# odd 리스트의 평균 값(mean)을 가져오려고 시도합니다.
# 하지만 파이썬의 리스트에는 이러한 기능이 없기 때문에 에러가 납니다.
odd.mean()

AttributeError: 'list' object has no attribute 'mean'

In [5]:
# 이번에는 이 파이썬 리스트를 다시 판다스의 Series로 변환하겠습니다.
# 마찬가지로 odd라는 이름의 변수에 다시 저장합니다.
odd = pd.Series(odd)

# odd Series의 평균 값(mean)을 가져옵니다.
# 판다스에는 이러한 기능이 있기 때문에 정상적으로 동작합니다.
odd.mean()

5.0

그러므로 판다스의 기능을 제대로 활용하고 싶다면, 가능한 모든 데이터를 판다스가 권장하는 데이터 구조(Data Structure), 예를 들어 판다스의 Series로 변환해주는 것을 추천 드립니다.

### DataFrame

Series도 판다스에서 매우 중요한 데이터 구조(Data Structure)중 하나이지만, 실제 판다스의 핵심이자 판다스에서 가장 많이 사용하는 데이터 구조는 DataFrame입니다. 아마도 여러분들은 판다스를 사용하는 전체 시간의 70% 이상을 DataFrame에 할애하게 될 것입니다. 그러므로 판다스를 배우면서 DataFrame를 이해하는 것을 무엇보다도 중요합니다.

판다스의 DataFrame은 쉽게 말해 엑셀이나 구글의 스프레드시트, 내지는 파이썬의 [2차원 리스트](https://dojang.io/mod/page/view.php?id=988)와 매우 유사합니다. 다음의 코드를 통해 판다스의 DataFrame을 생성할 수 있습니다.

In [6]:
# 파이썬의 2차원 리스트(대괄호가 두 번 중첩해서 들어감)를 생성합니다.
# 3x3의 행렬을 만드는데, 1부터 9까지 값이 순서대로 들어갑니다.
# 이 값을 numbers라는 이름의 파이썬 변수에 할당합니다.
numbers = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

# 2차원 리스트를 판다스의 DataFrame으로 변환합니다.
# 이 결과를 다시 numbers라는 이름의 변수에 재할당합니다.
numbers = pd.DataFrame(numbers)

# numbers 변수에 안에 들어가있는 DataFrame을 출력합니다.
numbers

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


출력 결과를 보면 엑셀이나 구글의 스프레드시트와 거의 유사하다는 것을 알 수 있습니다. 즉, 여러분들은 엑셀에서 했던 거의 모든 행동을 판다스의 DataFrame으로 할 수 있습니다. 구체적으로 어떤 일을 할 수 있는지는 잠시 뒤에 다시 살펴보겠습니다.

수학적인 관점에서 살펴보자면, Series는 벡터([Vector](https://en.wikipedia.org/wiki/Vector_(mathematics_and_physics))와 흡사하다고 볼 수 있으며, DataFrame은 행렬(Matrix)과 유사하다고 볼 수 있습니다. 이는 지금 당장 중요한 내용은 아니지만, 이 메타포를 잘 이해하고 있으면 차후에 나올 판다스의 고급 기능을 이해하는데 큰 도움이 됩니다. 그러므로 미리 숙지해두는 것을 추천드립니다.

또한 판다스에서는 여러 개의 Series를 묶어놓은 것을 DataFrame이라고도 간주할 수 있습니다. 다음의 코드를 살펴보면 Series와 DataFrame의 관계를 조금 더 쉽게 이해할 수 있을 것입니다.

In [7]:
# numbers라는 변수에는 DataFrame이 할당되어 있으며,
# 이를 파이썬의 type으로 감싸주면 해당 변수에 들어가 있는 데이터의 타입이 나옵니다.
# (== pandas.core.frame.DataFrame)
print(type(numbers))

# 이 DataFrame의 0번째 열(column)을 반환하면 이는 Series라는 걸 알 수 있습니다.
print(type(numbers[0]))

# 마찬가지로 0번째 행(row)를 반환하면 이 역시 Series라는 걸 알 수 있습니다.
print(type(numbers.loc[0]))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


### 데이터 타입(Data Type)

이번에는 데이터 구조(Data Structure)에 이어서 판다스의 데이터 타입(Data Type)에 대해서 알아보겠습니다.

판다스의 데이터 타입(Data Type)은 프로그래밍 언어(ex: 파이썬)에서 이야기하는 데이터타입과 거의 흡사합니다. 판다스에는 다양한 데이터타입(datetime, category, etc)이 있지만, 가장 많이 다루게 될 주요 데이터타입은 크게 세 가지입니다.

  * **정수형**: 1, 2, 3, 7, 9 등입니다. integer(int)로 표현하며, 32비트형(int32)와 64비트형(int64)이 있습니다.
  * **실수형**: 1.0, 3.2, 7.82 등이 있습니다. float로 표현하며, 32비트형(float32)와 64비트형(float64)이 있습니다.
  * **문자열**: 텍스트를 나타냅니다. 파이썬에서는 string(str)이라고 표현하지만, 판다스에서는 object라고 표현합니다.
  * **불(bool)**: 참과 거짓을 나타냅니다. 참을 True라고 표현하며, 거짓을 False라고 표현합니다.

판다스에서는 각각의 데이터뿐만 아니라, 여러 개의 데이터가 묶여있는 데이터 구조(Data Structure)에서도 데이터 타입(Data Type)을 확인할 수 있습니다. 데이터 타입을 확인하고 싶다면 간단하게 ```dtypes``` 라는 명령어를 실행하면 됩니다.



In [8]:
# 1, 3, 5, 7, 9가 담겨있는 파이썬 리스트를 만든 뒤,
# 이를 바로 판다스의 Series로 변환합니다. 이 결과를 data라는 이름의 변수로 할당합니다.
data = pd.Series([1, 3, 5, 7, 9])

# 여기서 dtypes를 출력하면 Series의 데이터 타입(Data Type)이 나옵니다. 모든 데이터가 다 정수형(int)이므로
# 결과는 int64가 나옵니다.
data.dtypes

dtype('int64')

위에 코드처럼, 판다스의 데이터 타입(Data Type)은 데이터 구조(Data Structure)에 저장한 데이터의 타입에 따라 결정됩니다. 위의 데이터에서는 모든 값이 정수형(int)이기 때문에, 결과적으로 Series는 정수형(int)이라고 판단할 수 있습니다.

PS) 출력할 때 ```int```가 아닌 ```int64```라는 표현으로 나오는데, 이는 "64비트 int형"이라는 의미로 받아들이시면 됩니다. 예전에는 32비트 컴퓨터를 사용했기 때문에 int32/int64로 나눠서 사용하였지만, 요즘은 32비트 컴퓨터를 사용하지 않기 때문에 int64가 가장 기본적인 정수형(int)의 표현이라고 이해하면 됩니다.

하지만 데이터 구조(Data Structure)에 저장한 데이터 중 하나라도 정수형(int)이 아니게 되면, ```dtypes```의 결과는 달라집니다.

In [9]:
# 이번에는 1, 3, 5, 7.0(실수형), 9가 담겨있는 파이썬 리스트를 만든 뒤,
# 이를 바로 판다스의 Series로 변환합니다. 이 결과를 data라는 이름의 변수로 할당합니다.
data = pd.Series([1, 3, 5, 7.0, 9])

# 마찬가지로 dtypes를 출력하면 Series의 데이터 타입(Data Type)이 나옵니다.
# 여기서는 Series를 실수형이라고 간주하여, float64가 나옵니다.
data.dtypes

dtype('float64')

위 결과처럼, Series 안에 있는 모든 데이터가 정수형(int)이라더라도 단 하나라도 실수형(float)는 이는 실수형으로 간주합니다. 이게 판다스 데이터 타입(Data Type)의 특징입니다.

![수의 포함관계](https://drive.google.com/a/wowinsights.net/thumbnail?id=1vCEshr9xU86wl_ixJIFwJdNnvN_6GOnm)

이는 마치 우리가 예전 수학 시간에 '수의 포함관계'에 관해서 배웠던 것과 유사합니다. 정수가 자연수를 포함하고, 분수가 정수를 포함하는 것 처럼, 판다스도 실수형(float)이 정수형(int)을 포함하며, 문자열(object)이 실수형(float)를 포함합니다. 다음의 코드를 통해 이 특징을 다시 한 번 파악할 수 있습니다.

In [10]:
# 이번에는 1, 3, 5, 7.0(실수형), 9, 그리고 'hello'(문자열) 가 담겨있는 파이썬 리스트를 만든 뒤,
# 이를 바로 판다스의 Series로 변환합니다. 이 결과를 data라는 이름의 변수로 할당합니다.
data = pd.Series([1, 3, 5, 7.0, 9, 'hello'])

# 마찬가지로 dtypes를 출력하면 Series의 데이터 타입(Data Type)이 나옵니다.
# 여기서는 Series를 문자열이라고 간주하여, object가 나옵니다.
print(data.dtypes)

object


이외에도 데이터분석을 할 때는 '빈 값(NaN, Not a Number)'이라는 개념이 중요합니다. 가끔 빈 값을 다른 방식, 예를 들어 -1과 같은 값으로 처리하는 경우가 있습니다. 이는 지금 당장 편할 수 있겠지만, 해당 컬럼의 통계치(ex: 최소값, 평균값)를 계산하면 원하는 값이 나오지 않을 가능성이 있습니다. 그러므로 빈 값에 대해서는 별개의 형식으로 처리해줘야 합니다.

판다스에서 빈 값을 집어넣고 싶을 경우, [numpy](http://www.numpy.org/)에 존재하는 NaN이라는 개념을 사용합니다. 이를 코드에서는 ```np.nan``` 이라고 표현합니다. 이 경우 NaN은 실수형(float)이라고 간주합니다.

In [11]:
# numpy 라는 패키지를 파이썬으로 읽어(import)옵니다.
# numpy는 선형대수(Linear Algebra) 패키지이지만,
# 지금은 쉽게 말해 수학 연산을 편하게 해주는 패키지라고 생각해도 됩니다.
# 그리고 이를 np라는 축약어로 사용합니다.
import numpy as np

# Series 에는 np.nan으로 NaN값을 넣을 수 있습니다.
# 1, NaN(np.nan), 5, 7, 9가 담겨있는 파이썬 리스트를 만든 뒤,
# 이를 바로 판다스의 Series로 변환합니다. 이 결과를 data라는 이름의 변수로 할당합니다.
data = pd.Series([1, np.nan, 5, 7, 9])

# 마찬가지로 dtypes를 출력하면 Series의 데이터 타입(Data Type)이 나옵니다.
# 여기서는 Series를 실수형이라고 간주하여, float64가 나옵니다.
data.dtypes

dtype('float64')

판다스에는 크게 Series와 DataFrame이라는 데이터 구조(Data Structure)가 있지만, 모양만 다를 뿐 두 개는 서로 같은 기능을 공유하고 있습니다. (앞으로 다루는 거의 모든 기능이 Series에서도, DataFrame에서도 동시에 지원된다고 보셔도 무방합니다) 그러므로 위에서 언급한 dtypes를 DataFrame에서도 동일하게 쓸 수 있습니다.

In [12]:
# 파이썬의 2차원 리스트(대괄호가 두 번 중첩해서 들어감)를 생성합니다.
# 3x3의 행렬을 만드는데, 10터 8까지 값이 순서대로 들어갑니다.
# 이 값을 data라는 이름의 파이썬 변수에 할당합니다.
data = [
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8],
]

# data라는 이름의 파이썬 리스트를 판다스의 DataFrame으로 변환합니다.
# 이를 다시 data 라는 이름의 변수에 할당합니다.
data = pd.DataFrame(data)

# dtypes를 출력하면 DataFrame의 데이터 타입(Data Type)이 나옵니다.
# DataFrame의 dtypes의 경우 각각의 컬럼에 대한 dtypes가 실행되며, 세 컬럼 모두 정수형이기 때문에 int64가 출력됩니다.
data.dtypes

0    int64
1    int64
2    int64
dtype: object

또한 특정 Series나 DataFrame의 데이터 타입(Data Type)을 변환하고 싶다면 어떻게 해야할까요? 판다스의 ```astype```을 쓰면 데이터 타입(Data Type)을 상호 변환할 수 있습니다.

In [13]:
# 1, 3, 5, 7, 9가 담겨있는 파이썬 리스트를 만든 뒤,
# 이를 바로 판다스의 Series로 변환합니다. 이 결과를 data라는 이름의 변수로 할당합니다.
data = pd.Series([1, 3, 5, 7, 9])

# dtypes을 출력하면 정수형(int64)이 나옵니다.
print(data.dtypes)

print("-------")

# 여기서 astype으로 DataFrame을 정수형(int)에서 실수형(float)으로 변경합니다.
data = data.astype('float')

# 다시 한 번 dtypes를 출력하면 이번에는 정수형(int64)이 아닌 소수점(float64)으로 출력됩니다.
print(data.dtypes)

int64
-------
float64


비슷하게, ```astype```을 활용하면 int64형 데이터 타입(Data Type)을 int32형으로 변환하는 것도 가능합니다.

In [14]:
# 1, 3, 5, 7, 9가 담겨있는 파이썬 리스트를 만든 뒤,
# 이를 바로 판다스의 Series로 변환합니다. 이 결과를 data라는 이름의 변수로 할당합니다.
data = pd.Series([1, 3, 5, 7, 9])

# dtypes을 출력하면 64비트 정수형(int64)이 나옵니다.
print(data.dtypes)

print("-------")

# 여기서 astype으로 DataFrame을 64비트 정수형(int64)에서 32비트 정수형(int32)으로 변경합니다.
data = data.astype('int32')

# 다시 한 번 dtypes를 출력하면 이번에는 64비트 정수형(int64)이 아닌 32비트 정수형(int32)으로 출력됩니다.
print(data.dtypes)

int64
-------
int32


데이터 타입(Data Type)에는 이외에도 날짜(datetime), 카테고리(category) 등을 포함한 다양한 데이터타입이 존재합니다. 자세한 사항은 [다음의 링크](https://pandas.pydata.org/pandas-docs/stable/basics.html#basics-dtypes)를 참고해주세요.

## DataFrame

앞서 말씀드린대로 판다스의 기본이자 핵심은 DataFrame 입니다. **판다스의 모든 기능은 DataFrame으로 시작해서 DataFrame으로 끝납니다.** 그러므로 판다스를 능수능란하게 사용하기 위해서는 DataFrame의 동작 원리를 잘 이해하는 것이 중요합니다. 이번 시간에서는 판다스의 DataFrame을 더 깊게 들어가보겠습니다.

### DataFrame 생성하기

먼저 가장 기본적인 기능인 DataFrame를 생성하는는 법에 대해서 만들어보겠습니다. 판다스에서는 ```pd.DataFrame```이라는 기능을 통해 DataFrame을 생성할 수 있습니다. DataFrame을 생성하는 방법은 여러가지 이지만, 그 중 가장 일반적인 방식을 먼저 보겠습니다.

In [15]:
# 파이썬의 2차원 리스트가 주어졌고,
# 이를 transaction이라는 이름의 변수에 할당합니다.
transaction = [
    ['2017-01-01', 500, 'confirmed'],
    ['2017-01-03', 700, 'confirmed'],
    ['2017-01-10', 200, 'canceled'],
]

In [16]:
# pd.DataFrame 로 
# 주어진 2차원 리스트를 Pandas의 DataFrame으로 변환합니다.
pd.DataFrame(transaction)

Unnamed: 0,0,1,2
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


이 옵션에서는 별도로 컬럼명(columns)을 지정해 줄 수 있습니다.

In [17]:
# columns을 추가할 수 있습니다. 이 옵션에는 컬럼명이 들어갑니다.
pd.DataFrame(transaction, columns = ["date", 'price', 'state'])

Unnamed: 0,date,price,state
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


이 방식은 나쁘지 않지만, 데이터와 컬럼명(columns)을 별개로 저장해야 한다는 단점이 있습니다. 이왕이면 하나의 데이터 형태로 저장한 뒤, 이를 한 번에 DataFrame으로 바꿔줘야 실수가 일어날 소지가 덜할 것 같습니다. 그런 경우에는 다음과 같은 방식으로 판다스의 DataFrame을 생성합니다.

In [18]:
# 다음과 같이 파이썬의 dictionary와 list를 활용해서 판다스의 DataFrame을 생성할 수 있습니다.
transaction = {
    'date': ['2017-01-01', '2017-01-03', '2017-01-10'],
    'price': [500, 700, 200],
    'state': ['confirmed', 'confirmed', 'canceled'],
}

# pd.DataFrame으로 주어진 데이터를 Pandas의 DataFrame으로 변환합니다.
pd.DataFrame(transaction)

Unnamed: 0,date,price,state
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


또한 비슷하지만 조금 다른 방법으로도 DataFrame을 생성할 수 있습니다.

In [19]:
# 위와 비슷하지만, 이번에는 list가 먼저, 그리고 그 안에 dictionary가 들어갑니다.
transaction = [
    {'date': '2017-01-01', 'price': 500, 'state': 'confirmed'},
    {'date': '2017-01-03', 'price': 700, 'state': 'confirmed'},
    {'date': '2017-01-10', 'price': 200, 'state': 'canceled'},
]

# pd.DataFrame으로 주어진 데이터를 Pandas의 DataFrame으로 변환합니다.
pd.DataFrame(transaction)

Unnamed: 0,date,price,state
0,2017-01-01,500,confirmed
1,2017-01-03,700,confirmed
2,2017-01-10,200,canceled


어떠한 방식으로 DataFrame을 만들 것인지는, 이전에 데이터가 어떻게 주어졌나에 따라 다릅니다. 즉, 이전에 2차원 리스트로 데이터가 주어졌으면 2차원 리스트로 DataFrame을 만들고, dictionary 형태로 데이터가 주어졌으면 dictionary 형태로 DataFrame을 만들면 됩니다. 하지만 어떠한 상황에서건 공통적으로 ```pd.DataFrame```이라는 기능을 사용하면 한 번에 데이터를 변환할 수 있습니다.

### DataFrame의 기본 기능

이번에는 DataFrame에서 가장 기본적으로 제공하는 몇몇 기능에 대해서 알아보겠습니다. 기능을 살펴보기 전, 매 번 DataFrame을 만드는 귀찮음을 덜기 위해 하나의 큰 DataFrame을 만들고 앞으로는 이 DataFrame만 사용하도록 하겠습니다.

In [20]:
# transaction이라는 이름의 데이터프레임을 만듭니다.
# 여기에는 사용자와 그 결제 정보가 들어갑니다.
transaction = [
    {'date': '2017-01-01', 'price': 500, 'state': 'confirmed'},
    {'date': '2017-01-03', 'price': 700, 'state': 'confirmed'},
    {'date': '2017-01-03', 'price': 900, 'state': 'confirmed'},
    {'date': '2017-01-05', 'price': 800, 'state': 'confirmed'},
    {'date': '2017-01-07', 'price': 500, 'state': 'canceled'},
    {'date': '2017-01-09', 'price': 700, 'state': 'confirmed'},
    {'date': '2017-01-09', 'price': 600, 'state': 'canceled'},
    {'date': '2017-01-10', 'price': 200, 'state': 'canceled'},    
]

# DataFrame의 인덱스(index)가 될 이름들을 리스트로 저장합니다.
names = ["Kang", "Kim", "Choi", "Park", "Lee", "Yoon", "Jang", "Ko"]

# 결제 정보(transaction)와 이름(names)을 활용해 transaction이라는 이름의 데이터프레임을 만듭니다.
transaction = pd.DataFrame(transaction, index = names)

# 이 DataFrame을 출력합니다.
transaction

Unnamed: 0,date,price,state
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Ko,2017-01-10,200,canceled


In [21]:
# 내지는 이렇게 URL에서 직접 가져오는 것도 가능합니다.
transaction_url = "https://bit.ly/dsa-transaction"

# 판다스의 read_csv를 활용하되, 경로를 CSV파일이 있는 URL을 기입합니다. 그리고 Name컬럼을 인덱스로 지정합니다.
# 이 결과를 transaction라는 이름의 변수에 할당합니다.
transaction = pd.read_csv(transaction_url, index_col="Name")

# 이 DataFrame을 출력합니다.
transaction

Unnamed: 0_level_0,date,price,state
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Ko,2017-01-10,200,canceled


판다스 DataFrame은 크게 세 가지 요소로 구성되어 있습니다. 하나는 데이터의 행(row)을 가져오는 기준인 인덱스(index)이며, 그 다음은 컬럼(column), 마지막으로 값(values) 입니다. 각각을 ```.index```, ```.columns```, 그리고 ```.values```를 활용해 불러올 수 있습니다.

In [22]:
# index를 사용하면 DataFrame의 row를 접근하는 기준이 되는 index를 받아올 수 있습니다.
transaction.index

Index(['Kang', 'Kim', 'Choi', 'Park', 'Lee', 'Yoon', 'Jang', 'Ko'], dtype='object', name='Name')

In [23]:
# 컬럼을 가지고 오고 싶다면 column을 이용하면 됩니다.
transaction.columns

Index(['date', 'price', 'state'], dtype='object')

In [24]:
# values를 사용하면 DataFrame에서 index와 column을 제외한 값만 가져올 수 있습니다.
transaction.values

array([['2017-01-01', 500, 'confirmed'],
       ['2017-01-03', 700, 'confirmed'],
       ['2017-01-03', 900, 'confirmed'],
       ['2017-01-05', 800, 'confirmed'],
       ['2017-01-07', 500, 'canceled'],
       ['2017-01-09', 700, 'confirmed'],
       ['2017-01-09', 600, 'canceled'],
       ['2017-01-10', 200, 'canceled']], dtype=object)

여기서 ```.index```와 ```.columns```는 데이터 타입(Data Type)을 출력해보면 Index라고 하는 특이한 데이터타입을 사용한다는 것을 알 수 있습니다. Index 데이터타입은 몇 가지 재미있는 특징을 가지고 있지만, 지금은 그냥 Series와 거의 동일한 데이터 타입(Data Type)이라고 생각하고 넘어가도 무방합니다.

In [25]:
# transaction.index의 데이터 타입(Data Type)는 Series도 DataFrame도 아닌 Index라는 데이터타입입니다.
# 하지만 지금은 그냥 Series와 거의 유사한 데이터타입이며, 거의 동일한 기능을 공유한다고 생각하고 넘어가도 오케이입니다.
type(transaction.index)

pandas.core.indexes.base.Index

In [26]:
# transaction.columns 역시 마찬가지로 데이터 타입(Data Type)은 Index입니다.
# 이 역시 Series와 동일하다고 간주해도 됩니다.
type(transaction.columns)

pandas.core.indexes.base.Index

그리고 ```.values```는 많이 사용하지 않지만, 가끔 판다스로 분석한 결과를 다른 패키지나 프로그램에 넘길 때 ```.values```로 넘길 경우 속도가 향상되는 경우가 있습니다. (```.values```의 결과물은 판다스가 아닌 numpy인데, 보통 판다스보다 numpy가 속도가 조금 더 빠릅니다.

In [27]:
# .values의 반환 결과는 numpy의 array입니다.
type(transaction.values)

numpy.ndarray

만일 주어진 데이터에서 컬럼명을 바꾸고 싶다면, ```.columns```에 원하는 컬럼명이 담긴 리스트를 넣어주면 됩니다. (단, 리스트의 개수는 컬럼의 개수와 일치해야 합니다. 일치하지 않으면 에러가 나면서 정상적으로 동작하지 않습니다.)

In [28]:
# 만일 컬럼명을 바꾸고 싶다면, .columns 에 원하는 컬럼명이 담긴 리스트를 넣어줍니다.
transaction.columns = ["date", "amount", "result"]

# transaction을 출력하면 컬럼명이 바뀐 것을 확인할 수 있습니다.
transaction

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Ko,2017-01-10,200,canceled


다음으로는 데이터의 전체가 아니라 상위 n개, 하위 n개를 가져오는 기능입니다. 보통 데이터가 많을 경우 그 전체를 다 볼 필요가 없을 때 사용하는데, 이 경우 판다스의 ```.head```와 ```.tail```을 사용하면 됩니다.

In [29]:
# 판다스(Pandas)의 DataFrame에서 .head()를 사용하면 상위 5개를 반환합니다.
transaction.head()

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled


In [30]:
# 판다스(Pandas)의 DataFrame에서 .tail()을 사용하면 하위 5개를 반환합니다.
transaction.tail()

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Ko,2017-01-10,200,canceled


In [31]:
# head와 tail의 인자로 숫자(n)를 넣으면 n개의 데이터를 반환합니다.
# 가령 DataFrame에서 head(2)는 상위 2개를 반환합니다.
transaction.head(2)

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed


In [32]:
# 비슷하게 DataFrame에서 tail(2)은 하위 2개를 반환합니다.
transaction.tail(2)

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jang,2017-01-09,600,canceled
Ko,2017-01-10,200,canceled


그리고 앞서 말씀드린대로, Series와 DataFrame은 서로 달라보이지만 대부분 같은 기능을 공유합니다. 즉, ```.head()```와 ```.tail()```은 DataFrame이 아닌 Series에서도 사용할 수 있다고 보시면 됩니다.

In [33]:
# transaction에서 date컬럼을 가져옵니다. 이 데이터 타입(Data Type)은 Series라고 볼 수 있는데,
# 여기서도 .head를 사용해서 상위 5개를 가져올 수 있습니다.
transaction["date"].head()

Name
Kang    2017-01-01
Kim     2017-01-03
Choi    2017-01-03
Park    2017-01-05
Lee     2017-01-07
Name: date, dtype: object

### 정렬하기

다음은 정렬(sort) 기능을 살펴보겠습니다. 데이터를 정렬하는 기능은 다양한 분야에서 요긴하게 사용하는데, 판다스(Pandas)에서는 간단한 몇 개의 명령어만으로 데이터를 빠르게 정렬할 수 있습니다.

데이터를 정렬하는 기준은 크게 두 가지인데, 1) index로 정렬하거나, 아니면 2) column으로 정렬하거나 입니다. 이 중 index로 정렬할 때는 ```.sort_index```를, column으로 정렬할 때는 ```.sort_values```를 사용합니다. 먼저 ```.sort_index```부터 살펴보겠습니다.

In [34]:
# index를 기준으로 정렬하고 싶다면 .sort_index를 사용합니다.
# 이럴 경우 숫자는 작은 순(0 ~ 9)으로 알파벳은 A부터 Z까지 정렬합니다.
# 대소문자가 섞여있을 경우 대문자가 앞으로, 소문자가 뒤로 옵니다. 
transaction.sort_index()

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Choi,2017-01-03,900,confirmed
Jang,2017-01-09,600,canceled
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Ko,2017-01-10,200,canceled
Lee,2017-01-07,500,canceled
Park,2017-01-05,800,confirmed
Yoon,2017-01-09,700,confirmed


만일 정렬 방식을 오름차순(ascending)이 아닌 내림차순(descending)으로 바꾸고 싶다면, ascending 옵션에 False를 주면 됩니다.

In [35]:
# 정 반대로 정렬하고 싶다면 ascending = False 옵션을 주면 됩니다.
transaction.sort_index(ascending=False)

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Yoon,2017-01-09,700,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Ko,2017-01-10,200,canceled
Kim,2017-01-03,700,confirmed
Kang,2017-01-01,500,confirmed
Jang,2017-01-09,600,canceled
Choi,2017-01-03,900,confirmed


만일 행(row)이 아닌 열(column)을 정렬하고 싶다면 어떻게 할까요? 그럴 경우에는 ```axis``` 옵션을 주면 됩니다. 기본 옵션은 ```axis = 0``` 인데, 이 경우에는 행(row)을 정렬합니다. 반면 ```axis = 1``` 옵션을 주면 열(column)을 정렬하는 것을 확인할 수 있습니다.

In [36]:
# 기본 옵션은 axis = 0입니다. 이 경우에는 행(row)을 정렬합니다.
transaction.sort_index(axis=0)

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Choi,2017-01-03,900,confirmed
Jang,2017-01-09,600,canceled
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Ko,2017-01-10,200,canceled
Lee,2017-01-07,500,canceled
Park,2017-01-05,800,confirmed
Yoon,2017-01-09,700,confirmed


In [37]:
# 반면에 컬럼(column)을 기준으로 정렬하고 싶다면 axis = 1 옵션을 줍니다.
# 이렇게 하면 컬럼(column) 값을 낮은 순으로(숫자면 0 ~ 9, 알파벳은 A ~ Z) 정렬합니다.
transaction.sort_index(axis=1)

Unnamed: 0_level_0,amount,date,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,500,2017-01-01,confirmed
Kim,700,2017-01-03,confirmed
Choi,900,2017-01-03,confirmed
Park,800,2017-01-05,confirmed
Lee,500,2017-01-07,canceled
Yoon,700,2017-01-09,confirmed
Jang,600,2017-01-09,canceled
Ko,200,2017-01-10,canceled


In [38]:
# axis = 0 옵션과 동일하게, 정렬 방식을 내림차순으로 바꾸고 싶다면 ascending = False 옵션을 주면 됩니다.
# 이렇게 하면 컬럼(column) 값을 높은 순으로(숫자면 9 ~ 0, 알파벳은 Z ~ A) 정렬합니다.
transaction.sort_index(axis=1, ascending=False)

Unnamed: 0_level_0,result,date,amount
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,confirmed,2017-01-01,500
Kim,confirmed,2017-01-03,700
Choi,confirmed,2017-01-03,900
Park,confirmed,2017-01-05,800
Lee,canceled,2017-01-07,500
Yoon,confirmed,2017-01-09,700
Jang,canceled,2017-01-09,600
Ko,canceled,2017-01-10,200


그 다음은 컬럼 값을 기준으로 정렬하겠습니다. 만일 정렬을 컬럼에 있는 값을 기준으로 하고 싶다면, ```.sort_values```라는 기능을 사용합니다. 다만 여기서는 추가로 어떤 컬럼 값을 기준으로 정렬해야 하는지를 명시적으로 알려줘야 하기 때문에, 인자에 ```by``` 옵션을 넣어줍니다. 이 ```by``` 옵션에는 정렬을 원하는 컬럼명이 들어갑니다.

In [39]:
# 만일 특정 컬럼값을 기준으로 정렬하고 싶다면
# .sort_values를 사용하면 됩니다. by 옵션에는 컬럼명이 들어갑니다.
# 이럴 경우 해당 컬럼값이 작은 순(숫자는 0 ~ 9, 알파벳은 A ~Z)으로 정렬합니다.
transaction.sort_values(by="amount")

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ko,2017-01-10,200,canceled
Kang,2017-01-01,500,confirmed
Lee,2017-01-07,500,canceled
Jang,2017-01-09,600,canceled
Kim,2017-01-03,700,confirmed
Yoon,2017-01-09,700,confirmed
Park,2017-01-05,800,confirmed
Choi,2017-01-03,900,confirmed


당연하지만 ```.sort_values``` 역시 내림차순(descending) 옵션을 줄 수 있습니다. ```ascending = False``` 옵션을 주면 지정한 컬럼 값이 높은 순으로 정렬합니다.

In [40]:
# .sort_values도 .sort_index와 마찬가지로 ascending=False 옵션을 줄 수 있습니다.
# 이 경우 컬럼값이 높은 순으로 정렬하는 내림차순(descending) 정렬이 됩니다.
transaction.sort_values(by="amount", ascending=False)

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Kim,2017-01-03,700,confirmed
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Kang,2017-01-01,500,confirmed
Lee,2017-01-07,500,canceled
Ko,2017-01-10,200,canceled


만일 하나가 아닌 여러 개의 컬럼값을 기준으로 정렬하고 싶다면 어떻게 할까요? 이 경우에는 ```by``` 옵션에 리스트를 넣어주면 됩니다. 이 리스트에는 여러 개의 컬럼명을 넣을 수 있습니다.

In [41]:
# 만일 여러 개의 컬럼값을 기준으로 정렬하고 싶다면 by 옵션에 여러 개의 컬럼명을 리스트로 만들어 넣으면 됩니다.
# 아래 코드는 1) date 컬럼값이 낮은 순으로 정렬한 뒤, 2) date 컬럼값이 동일하면 그 다음은 amount 컬럼값이 낮은 순으로 정렬합니다.
transaction.sort_values(by = ["date", "amount"])

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Jang,2017-01-09,600,canceled
Yoon,2017-01-09,700,confirmed
Ko,2017-01-10,200,canceled


여러 개의 컬럼값으로 정렬할 때도 마찬가지로 내림차순 옵션(ascending = False)을 줄 수 있습니다.

In [42]:
# 내림차순(ascending = False) 옵션도 정상적으로 동작합니다.
# 아래 코드는 1) date 컬럼값이 높은 순으로 정렬한 뒤, 2) date 컬럼값이 동일하면 그 다음은 amount 컬럼값이 높은 순으로 정렬합니다.
transaction.sort_values(by = ["date", "amount"], ascending = False)

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ko,2017-01-10,200,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Lee,2017-01-07,500,canceled
Park,2017-01-05,800,confirmed
Choi,2017-01-03,900,confirmed
Kim,2017-01-03,700,confirmed
Kang,2017-01-01,500,confirmed


자주 있는 상황은 아니지만, 여러 개의 컬럼값으로 정렬하되, 컬럼값마다 오름차순과 내림차순 정렬이 다른 경우가 있습니다. 이 경우에는 by 컬럼에 지정한 개수와 동일하게 ascending 옵션에 리스트로 True, False를 넣어주면 됩니다.

In [43]:
# ascending 옵션도 True / False의 리스트를 넣어서 컬럼마다 오름차순/내림차순을 정렬을 다르게 줄 수 있습니다.
# 아래 코드는 date 컬럼은 오름차순, amount 컬럼은 내림차순으로 정렬합니다.
transaction.sort_values(by = ["date", "amount"], ascending = [True, False])

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Choi,2017-01-03,900,confirmed
Kim,2017-01-03,700,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Ko,2017-01-10,200,canceled


### 기본 연산

다음으로 알아보고 싶은 건 기본 연산입니다. 판다스에서는 우리가 수학시간이나 통계학 시간에 배웠던 기본적인 연산을 대부분 지원합니다. 먼저 가장 자주 쓰는 기능인 평균, 최대값, 최소값부터 살펴보겠습니다.

In [44]:
# 결제 금액의 평균값(mean)을 구합니다.
mean_amount = transaction["amount"].mean()
mean_amount

612.5

In [45]:
# 결제 금액의 최소값(min)을 구합니다.
min_amount = transaction["amount"].min()
min_amount

200

In [46]:
# 결제 금액의 최대값(max)을 구합니다.
max_amount = transaction["amount"].max()
max_amount

900

이외에도 중앙값(median), 표준편차(standard deviation) 등 우리가 일반적으로 알고 있는 거의 모든 수학 연산을 지원합니다. 이번 시간에는 판다스에 존재하는 모든 수학/통계학 연산은 다루지 않고, 기본적 연산은 모두 지원된다는 점만 강조하고 넘어가겠습니다. (혹시나 판다스의 다른 연산을 알고 싶다면 [다음의 링크](https://medium.com/@kasiarachuta/basic-statistics-in-pandas-dataframe-594208074f85)를 참고 바랍니다)

판다스의 기본 연산 외에도 추가로 알아두면 좋은 기능들은 다음과 같습니다.

In [47]:
# 각 컬럼에 대한 통계를 보고 싶으면 .describe() 를 사용합니다.
# 이 경우 정수형, 소수점이 들어가 있는 컬럼 한정으로 통계값(평균, 표준편차 등등)을 출력합니다.
transaction.describe()

Unnamed: 0,amount
count,8.0
mean,612.5
std,216.712449
min,200.0
25%,500.0
50%,650.0
75%,725.0
max,900.0


In [48]:
# result컬럼에서 중복되는 값을 제거합니다.
# 결과적으로 result 컬럼의 종류가 나옵니다.
transaction["result"].unique()

array(['confirmed', 'canceled'], dtype=object)

In [49]:
# .value_counts() 를 하면 canceled와 confirmed 각각의 총 갯수를 구할 수 있습니다.
transaction["result"].value_counts()

confirmed    5
canceled     3
Name: result, dtype: int64

여기에서 ```.value_counts```는 앞으로 판다스를 활용하면서 아주 요긴하기 쓰일 기능이기 때문에 미리 숙지하고 계시는 걸 추천드립니다.

### pivot_table

[pivot_table](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html)은 우리가 엑셀에서 자주 사용하는 pivot table과 거의 유사합니다. 피벗 테이블을 활용하면 데이터를 빠르게 분석할 수 있고, 가로(value)와 세로(index)로 데이터를 재배치해서 한 눈에 보기에 굉장히 유용합니다.

또한 엑셀의 피벗 테이블은 판다스와는 달리 대용량 데이터에서도 빠르게 데이터를 재배치할 수 있습니다. 그러므로 어느 정도 수준 높은 데이터 분석을 하기 위해서는 판다스 피벗 테이블에 익숙해지는 것이 좋습니다.

여기서는 판다스 피벗 테이블의 몇몇 예시를 보여드리겠습니다. 먼저 결제 결과(result)에 따라 결제 금액(amount)의 평균(mean)을 구하는 방법입니다.

In [50]:
# 결제가 승인되었을 경우(confirmed)와 캔슬되었을 경우(canceled)의 결제 금액의 평균을 비교합니다.
pd.pivot_table(transaction, index="result", values="amount")

Unnamed: 0_level_0,amount
result,Unnamed: 1_level_1
canceled,433.333333
confirmed,720.0


pivot_table을 사용할 때 기본 연산 값은 평균(mean)입니다. 이를 누적값(sum)으로 바꾸는 것도 가능합니다.

In [51]:
# aggfunc은 aggregate function의 약자입니다.
# 여기에 'sum'을 지정하면 평균(mean)이 아닌 누적값(sum)이 나옵니다.
pd.pivot_table(transaction, index="result", values="amount", aggfunc='sum')

Unnamed: 0_level_0,amount
result,Unnamed: 1_level_1
canceled,1300
confirmed,3600


내지는 평균(mean)과 누적값(sum)을 동시에 출력하는 것도 가능한데, 이 경우에는 파이썬의 리스트(list)를 사용합니다.

In [52]:
# 여러 개의 통계연산을 하기 위해서는 numpy라는 수학연산 패키지가 필요합니다.
# 이를 np라는 축약어로 사용합니다.
import numpy as np

# 이후 aggfunc에 값을 넣는데, np.mean(평균)과 np.sum(누적)값을 넣습니다.
# 이렇게 하면 평균과 누적값이 동시에 나옵니다.
pd.pivot_table(transaction, index="result", values="amount", aggfunc=[np.mean, np.sum])

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,amount,amount
result,Unnamed: 1_level_2,Unnamed: 2_level_2
canceled,433.333333,1300
confirmed,720.0,3600


내지는 index를 지정할 때 하나가 아닌 여러 개의 컬럼을 지정하는 것도 가능한데, 이 역시 파이썬의 리스트(list)를 활용할 수 있습니다.

In [53]:
# pivot table을 만드는데
# index에 컬럼명 하나가 아닌, 파이썬의 리스트를 활용해 컬럼명 여러 개를 넣으면
# 자동으로 여러 개의 컬럼을 index로 활용할 수 있습니다.
pd.pivot_table(transaction, index=["date", "result"], values="amount")

Unnamed: 0_level_0,Unnamed: 1_level_0,amount
date,result,Unnamed: 2_level_1
2017-01-01,confirmed,500
2017-01-03,confirmed,800
2017-01-05,confirmed,800
2017-01-07,canceled,500
2017-01-09,canceled,600
2017-01-09,confirmed,700
2017-01-10,canceled,200


비슷하게 values, 내지는 pivot table의 기타 기능(가령 ```columns``` 옵션)도 여러 개의 값을 넣어야 할 경우 파이썬의 리스트를 활용하면 됩니다. 자세한 사항은 판다스의 [pivot_table](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html)을 참고해주세요.

### Group By

[groupby](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html)는 데이터프레임의 특정 컬럼(내지는 컬럼들)을 그룹화 하는 기능입니다. 몇 가지 예시를 보여드리겠습니다.

In [54]:
# 결제 금액(amount)의 평균(mean)을 볼 수 있습니다.
transaction["amount"].mean()

612.5

하지만 결제 결과(result)에 전체 결제 금액(amount)의 평균(mean)을 구하고 싶다면 판다스의 [groupby](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html)를 사용하면 됩니다.

In [55]:
# 결제가 승인된 사람(confirmed)과 캔슬된 사람(canceled)의 결제 금액(amount)의 평균(mean)을 구합니다.
transaction.groupby("result")["amount"].mean()

result
canceled     433.333333
confirmed    720.000000
Name: amount, dtype: float64

물론, 평균(mean)이 아닌 누적값(sum)으로 계산하는것도 가능합니다.

In [56]:
# 결제가 승인된 사람(confirmed)과 캔슬된 사람(canceled)의 결제 금액(amount)의 총합(sum)을 구합니다.
transaction.groupby("result")["amount"].sum()

result
canceled     1300
confirmed    3600
Name: amount, dtype: int64

피벗테이블과 마찬가지로, 하나의 컬럼이 아닌 두 개 이상의 컬럼을 사용하고 싶다면 파이썬의 리스트(list)를 사용하면 됩니다.

In [57]:
transaction.groupby(["date", "result"])["amount"].mean()

date        result   
2017-01-01  confirmed    500
2017-01-03  confirmed    800
2017-01-05  confirmed    800
2017-01-07  canceled     500
2017-01-09  canceled     600
            confirmed    700
2017-01-10  canceled     200
Name: amount, dtype: int64

판다스의 [groupby](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html)는 피벗 테이블과 거의 유사합니다. 그 뜻은, 같은 문제를 피벗 테이블로 푸는 것도 가능하고 groupby로 푸는 것도 가능하다고 보시면 됩니다. 하지만 보통은 다음의 기준으로 피벗 테이블과 groupby를 구분해서 사용합니다.

  * 결과를 눈으로 확인하는 것이 더 중요할 경우, 피벗 테이블을 사용하는게 더 예쁘게 나옵니다. (언제나 DataFrame으로 나오기 때문에)
  * 결과를 활용하여 추가로 무언가를 분석하거나, 나지는 다른 기능에 활용할 경우 [groupby](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html)를 사용하는게 코드가 짧아서 편합니다.

## DataFrame으로 행렬 접근하기

다음은 판다스에서 행렬을 접근하는 법을 살펴보겠습니다. 판다스 행렬 접근은 여러 장점이 있는데, 1) 일단 문법이 간결하고, 2) 굉장히 빠르며, 3) 대용량 데이터를 다룰때도 큰 딜레이 없이 행렬에 접근할 수 있습니다. 또한 4) 행렬 접근에 대한 몇 가지 기본 룰만 숙지하면, 다양한 방식으로 이 문법을 응용할 수 있습니다.

먼저 열(column)을 가져오는 방법부터 배워보겠습니다.

### 열(column) 접근하기

판다스 행렬 접근의 가장 기본은 대괄호(```[]```)입니다. DataFrame에서 대괄호를 사용하되, 이 대괄호에 문자열을 집어넣으면 문자열에 해당하는 열(column)을 반환합니다.

In [58]:
# 판다스에서 컬럼을 접근하고 싶으면 기본적으로 대괄호([]) 안에 컬럼명을 집어넣습니다.
transaction["date"]

Name
Kang    2017-01-01
Kim     2017-01-03
Choi    2017-01-03
Park    2017-01-05
Lee     2017-01-07
Yoon    2017-01-09
Jang    2017-01-09
Ko      2017-01-10
Name: date, dtype: object

특이한 점은, DataFrame에서 컬럼을 접근하면 그 결과는 Series가 된다는 것입니다.

In [59]:
# 판다스에서 대괄호([])를 사용해 컬럼 하나를 접근합니다.
# 이 경우는 pandas의 Series가 나옵니다.
type(transaction["date"])

pandas.core.series.Series

이번에는 컬럼을 여러 개 접근해보겠습니다. 컬럼을 두 개 이상 접근할 경우에는 대괄호를 두 번 사용합니다. (```[[]]```)

In [60]:
# 컬럼을 여러 개 접근하고 싶으면 대괄호 두 개([[]]) 안에 컬럼명을 여러 개 집어넣습니다.
transaction[["date", "amount"]]

Unnamed: 0_level_0,date,amount
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-03,900
Park,2017-01-05,800
Lee,2017-01-07,500
Yoon,2017-01-09,700
Jang,2017-01-09,600
Ko,2017-01-10,200


이 대괄호를 두 개 쓰는 문법은 하나 쓰는 문법과 결과가 미묘하게 다릅니다. 대괄호를 하나 쓰는 컬럼 접근은 그 결과가 Series가 나오지만, 두 개 쓰는 문법은 그 결과를 DataFrame으로 반환합니다.

In [61]:
# 컬럼을 여러 개 접근할 때는 대괄호를 두 번([[]]) 사용하는데,
# 이 경우는 pandas의 DataFrame이 나옵니다.
type(transaction[["date", "amount"]])

pandas.core.frame.DataFrame

실제 판다스 컬럼 접근을 쥬피터 노트북에서 사용할 때는 육안으로 구분이 가능하기 때문에(테이블로 예쁘게 나오면 DataFrame, 흑백 화면으로 나오면 Series) 굳이 ```type```과 같은 문법으로 확인할 필요는 없습니다.

다만 대괄호 한 번(```[]```)으로 컬럼을 하나 접근할 때는 Series로, 대괄호 두 번(```[[]]```)으로 컬럼을 여러 개 접근할 때는 DataFrame으로 나온다는 개념을 미리 숙지한다면 차후에 판다스를 더 깊이 이해하는데 도움이 될 것입니다.

돌아가서, 대괄호 두 번으로 컬럼을 접근하는 문법을 다시 살펴보겠습니다. 여기에서 알아두면 좋은 점은, 바깥쪽 대괄호와 안쪽 대괄호의 쓰임새가 다릅니다. 안쪽 대괄호는 우리가 파이썬에서 배웠던 리스트(list)를 응용한 것입니다.

In [62]:
# columns라는 변수에 리스트를 할당합니다.
# 이 리스트에는 현재 보유한 데이터에 대한 컬럼이 여러 개 들어갑니다.
columns = ["date", "amount"]

# 이 리스트를 활용하여 판다스 DataFrame에서 컬럼을 여러 개 접근합니다.
transaction[columns]

Unnamed: 0_level_0,date,amount
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-03,900
Park,2017-01-05,800
Lee,2017-01-07,500
Yoon,2017-01-09,700
Jang,2017-01-09,600
Ko,2017-01-10,200


그러므로 위의 코드(대괄호를 두 번 쓰는 코드)와 아래 코드(대괄호 한 번 + 대괄호 안에 파이썬 리스트를 대입)는 사실상 동일한 코드라고 볼 수 있습니다.

### 행(row) 접근하기

이번에는 행(row)을 가져오는 문법을 살펴보겠습니다. 행을 접근하는 방법은 열(column)을 접근하는 방법과 거의 동일합니다. 다만 1) ```.loc```(locate의 약자)라는 문법을 사용하며, 2) ```대괄호 안에 컬럼명이 아닌 인덱스(index)```를 넣어준다는 차이점이 있습니다.

In [63]:
# 판다스에서 loc[] 문법을 사용하면 하나의 행(row)에 접근할 수 있습니다.
# 이 때 이 대괄호 안에는 인덱스가 들어갑니다.
transaction.loc["Kang"]

date      2017-01-01
amount           500
result     confirmed
Name: Kang, dtype: object

열(column)과 마찬가지로, 행(row)에서도 하나의 행을 접근하면 그 결과는 Series가 나옵니다.

In [64]:
# 판다스에서 .loc[] 문법을 사용해 행(row) 하나를 접근합니다.
# 이 경우는 pandas의 Series가 나옵니다.
type(transaction.loc["Kang"])

pandas.core.series.Series

행(row)을 여러 개 접근하는 것도 컬럼(column)을 여러 개 접근하는 것과 유사합니다. 똑같이 대괄호를 두 번 사용하면(```[[]]```) 여러 개의 행(row)을 가져올 수 있습니다. 이 경우에도 Series가 아닌 DataFrame이 나옵니다.

In [65]:
# 행(row)을 여러 개 접근하고 싶다면
# .loc[] 안에 인덱스가 여러 개 담긴 리스트를 넣어주면 됩니다.
transaction.loc[["Kang", "Kim", "Choi"]]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed


In [66]:
# 이 경우에도 컬럼(column)을 접근할때와 마찬가지로 pandas의 DataFrame이 나옵니다.
type(transaction.loc[["Kang", "Kim", "Choi"]])

pandas.core.frame.DataFrame

마찬가지로, 대괄호를 두 번 쓰는 문법은 실은 바깥쪽 대괄호와 안쪽 대괄호가 다릅니다. 안쪽 대괄호를 파이썬의 리스트(list)라고 간주하면, 이 문법을 더 쉽게 이해할 수 있습니다.

In [67]:
# names라는 변수에 리스트를 할당합니다.
# 이 리스트에는 현재 보유한 데이터에 대한 인덱스(index)가 여러 개 들어갑니다.
names = ["Kang", "Kim", "Choi"]

# 이 리스트로 판다스 DataFrame에서 행(row) 여러 개 접근합니다.
transaction.loc[names]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed


이외에도, 판다스에서 행(row)을 접근할 때 건 파이썬의 슬라이싱(```[start:finish]```)과 유사한 문법을 사용할 수 있습니다. 이 경우 start부터 finish 직전까지의 모든 행(row)을 가져옵니다.

In [68]:
# 아래와 같은 식으로 파이썬의 slicing 문법을 응용해서 row를 여러 개 가져올 수도 있습니다.
# 이 경우 인덱스(index)가 Kang인 데이터부터 Choi인 데이터까지 총 3개를 가져옵니다.
transaction["Kang":"Choi"]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed


## 행렬 동시 접근

행(row)을 접근하는 법과 열(column)을 접근하는 법을 보았으면, 이제는 행렬을 동시에 접근하는 방법을 살펴보겠습니다.

행렬을 동시에 접근하는 방법은 크게 세 가지가 있습니다. 첫 번째 방식은 ```.loc[]``` 문법으로 행(row)을 먼저 접근한 뒤, 그 결과에서 열(column)을 바로 접근하는 것입니다.

In [69]:
# .loc[<<index>>][<column>>] 으로 행렬을 동시에 접근할 수 있습니다.
transaction["date"]["Kang"]

'2017-01-01'

다만 이는 판다스에서 권장하지 않는 문법입니다. 권장하지 않는 이유는 여러 가지이지만, 가장 큰 이유는 속도가 느리다는 점입니다. 그런 의미에서 판다스에서 권장하는 문법은 ```.loc[<<index>>][<column>>]``` 가 아닌 ```.loc[<<index>>, <column>>]``` 입니다.

In [70]:
# .loc[<<index>>][<column>>] 방식은 일단 속도가 느리고,
# 판다스의 다른 기능과 병용할 경우 충돌이 발생할 소지가 있습니다.
%timeit transaction["date"]["Kang"]

18.8 µs ± 44.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [71]:
# 그러므로 행렬을 동시에 접근할 때는
# .loc[<<index>>, <column>>] 를 사용합니다.
%timeit transaction.loc["Kang", "date"]

11.7 µs ± 21.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


비슷한 기능을 하는 ```.at```이라는 문법도 존재하는데, 이 문법은 ```.loc``` 보다 속도가 빠르다는 장점이 있습니다. 다만 접근하려는 행렬이 두 개 이상인 경우 이 문법은 사용하지 못합니다. 이럴때는 어쩔 수 없이 ```.loc```를 사용하는 것을 권장합니다.

In [72]:
# 행렬을 각각 하나씩 접근할때는
# .loc보다 .at이 속도가 더 빠릅니다.
%timeit transaction.at["Kang", "date"]

6.54 µs ± 16.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [73]:
# 하지만 접근하려는 행(row)이 여러 개인 경우 .at은 동작하지 않습니다.
transaction.at[["Kang", "Kim", "Choi"], "date"]

TypeError: '['Kang', 'Kim', 'Choi']' is an invalid key

In [74]:
# 이 경우에는 아쉽지만 .at이 아닌 .loc를 사용해야 합니다.
transaction.loc[["Kang", "Kim", "Choi"], "date"]

Name
Kang    2017-01-01
Kim     2017-01-03
Choi    2017-01-03
Name: date, dtype: object

In [75]:
# 비슷하게 접근하려는 열(column)이 여러 개인 경우에도 .at은 동작하지 않습니다.
transaction.at["Kang", ["date", "amount"]]

TypeError: unhashable type: 'list'

In [76]:
# 이 경우에도 .at이 아닌 .loc를 사용해야 합니다.
transaction.loc["Kang", ["date", "amount"]]

date      2017-01-01
amount           500
Name: Kang, dtype: object

행렬을 동시에 접근할 경우, 하나가 아닌 여러 개의 데이터를 접근하고 싶다면 변함없이 파이썬의 리스트(```list```)를 사용하면 됩니다.

In [77]:
# 또한 행(row)과 열(column)을 동시에 여러 개 접근할 때에도 .at이 아닌 .loc를 사용합니다.
transaction.loc[["Kang", "Kim", "Choi"], ["date", "amount"]]

Unnamed: 0_level_0,date,amount
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-03,900


In [78]:
# names라는 변수에 리스트를 할당합니다.
# 이 리스트에는 현재 보유한 데이터에 대한 인덱스(index)가 여러 개 들어갑니다.
names = ["Kang", "Kim", "Choi"]

# columns라는 변수에 리스트를 할당합니다.
# 이 리스트에는 현재 보유한 데이터에 대한 컬럼이 여러 개 들어갑니다.
columns = ["date", "amount"]

# 이렇게 변수에 리스트를 담은 뒤 이를 이용해 행렬을 동시에 접근하는 것도 가능합니다.
transaction.loc[names, columns]

Unnamed: 0_level_0,date,amount
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kang,2017-01-01,500
Kim,2017-01-03,700
Choi,2017-01-03,900


### 행렬을 순서대로 접근하기

행렬을 접근할 때 인덱스(index)나 컬럼명이 아닌 순서대로 접근하는 것도 가능합니다. 이럴 경우에는 ```.loc```가 아닌 ```.iloc```를 사용합니다.

In [79]:
# .iloc를 실행한 뒤 대괄호 안에 0번을 넣습니다.
# 이렇게 하면 가장 첫 번째 row가 나옵니다.
transaction.iloc[0]

date      2017-01-01
amount           500
result     confirmed
Name: Kang, dtype: object

In [80]:
# .iloc로 행(row)뿐만 아니라 열(column)도 순서대로 접근할 수 있습니다.
# 이렇게 하면 가장 첫 번째 행렬값인 Kang의 date 정보가 나옵니다.
transaction.iloc[0, 0]

'2017-01-01'

```.iloc```로 행렬을 접근할 때도 마찬가지이지만, 하나가 아닌 여러 개를 접근할 수 있습니다. 이 경우에도 파이썬의 리스트(list)를 활용하면 됩니다.

In [81]:
# iloc를 하고 파이썬 리스트로 행(row)과 열(column)의 순서를 집어넣으면
# 순서대로 행렬에 해당하는 값을 가져옵니다.
transaction.iloc[[0, 1, 3], [1, 2]]

Unnamed: 0_level_0,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kang,500,confirmed
Kim,700,confirmed
Park,800,confirmed


또한 ```.at```과 거의 동일하게 동작하는 ```.iat```이라는 함수도 존재합니다.

In [82]:
# iat는 at과 동일하지만 행(row)과 열(column)을 순서를 기준으로 접근합니다.
transaction.iat[0, 0]

'2017-01-01'

In [83]:
# 비슷한 일을 iloc로 할 수 있지만
%timeit transaction.iloc[0, 0]

11.9 µs ± 27.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [84]:
# iat을 이용하는 것이 속도가 빠릅니다.
%timeit transaction.iat[0, 0]

7.4 µs ± 24.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


추가로 ```.loc```와 ```.iloc```를 합쳐놓은 ```.ix```라는 기능이 존재합니다. ([link](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.ix.html)) 하지만 이 기능은 deprecated(조만간 기능이 삭제될 예정)이기 때문에 사용하지 않는 것을 권장합니다.

In [85]:
# ix를 사용하면 DeprecationWarning이 발생합니다.
# 즉, 이 기능은 장기적으로 사라질 예정이기 때문에 사용하지 않는 것이 좋습니다.
transaction.ix[0]

AttributeError: 'DataFrame' object has no attribute 'ix'

### 색인(Indexing)


다음으로 배울 기능은 판다스의 색인(Indexing)입니다. 색인은 판다스의 꽃이라고 볼 수 있는 가장 강력한 기능 중 하나입니다. 앞서 배운 컬럼을 접근하는 기능을 약간만 응용하면, 매우 쉽고 간결하게 데이터를 검색하거나 색인할 수 있습니다.

먼저 가장 기본적인 색인 방식부터 살펴보겠습니다.

In [86]:
# 다음의 비교 연산자를 응용하여,
# date 값에 특정 값(2017-01-01)이 존재하는지 여부를 확인할 수 있습니다.
transaction[transaction["date"] == "2017-01-01"]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed


In [87]:
# 정 반대로, date 값에 특정 값(2017-01-01)이 아닌 게 존재하는지
# 여부를 확인하는 것도 가능합니다.
transaction[transaction["date"] != "2017-01-01"]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled
Ko,2017-01-10,200,canceled


In [88]:
# 정수형, 실수형은은 크고 작음으로 데이터를 색인할 수 있습니다.
transaction[transaction["amount"] < 600]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Lee,2017-01-07,500,canceled
Ko,2017-01-10,200,canceled


위와 같이 판다스의 색인은 기존에 파이썬에서 배웠던 여러 비교연산자(```==```, ```!=```, ```>```, ```<```, ```>=```, ```<=```, etc)를 응용하면 간단하게 원하는 데이터를 찾아낼 수 있습니다.

이번에는 판다스의 비교연산자를 사용하지 않는, 새로운 몇몇 색인 방식을 살펴보겠습니다. 먼저 하나가 아닌 여러 개의 특정 값이 존재하는지 알고 싶다면 ```.isin```이라는 함수를 사용합니다.

In [89]:
# date 값에 특정 값들(2017-01-01, 2017-01-05, 2017-01-09)들 중에
# 하나에 속하는지 알 수 있습니다.
date_candidate = ["2017-01-01", "2017-01-05", "2017-01-09"]

# 이럴 경우에는 판다스의 isin 을 사용합니다.
transaction[transaction["date"].isin(date_candidate)]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Park,2017-01-05,800,confirmed
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled


만일 현재 조건과 전혀 반대되는 조건을 가져오고 싶다면, 물결(~) 표시를 사용하면 됩니다. 이 경우 True 조건은 False로, False 조건은 정 반대로 True가 됩니다.

In [90]:
# 현재 조건과 전혀 반대되는 조건을 가져오고 싶다면, 물결(~)표시를 사용하면 됩니다.
transaction[~transaction["date"].isin(date_candidate)]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Lee,2017-01-07,500,canceled
Ko,2017-01-10,200,canceled


판다스에서 특정 조건을 지정하여 색인을 합니다. 어떤 경우에는 조건이 하나가 아니라 두 개 이상일 경우가 있는데, 이 경우는 ```&```(and) 기호와 ```|```(or) 기호를 사용할 수 있습니다.

In [91]:
# 여러 개의 조건을 동시에 쓰고 싶다면 &(and) 기호를 사용합니다.
transaction[(transaction["result"] == "confirmed") & (transaction["amount"] >= 500)]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Yoon,2017-01-09,700,confirmed


In [92]:
# 정 반대 조건은 |(or) 기호를 사용합니다.
transaction[(transaction["result"] == "confirmed") | (transaction["amount"] >= 500)]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Lee,2017-01-07,500,canceled
Yoon,2017-01-09,700,confirmed
Jang,2017-01-09,600,canceled


판다스에서 조건을 여러 개 지정해서 색인을 할 경우, 코드가 가로로 길어져서 가독성이 떨어지고 실수를 할 여지가 있습니다. 이를 방지하기 위해, 조건이 두 개 이상일 경우 각 조건을 변수로 뺀 뒤 색인하는 것을 권장하고 있습니다.

In [93]:
# 조건이 복잡해지면 이렇게 여러 개의 조건으로 나눠서 사용할 수 있습니다.
confirmed = transaction["result"] == "confirmed"
high_paid = transaction["amount"] >= 500

# 이렇게 하면 비록 코드가 세로로 길어지지만,
# 더 간결하고 가독성이 높은 코드를 작성할 수 있습니다.
transaction[confirmed & high_paid]

Unnamed: 0_level_0,date,amount,result
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Kang,2017-01-01,500,confirmed
Kim,2017-01-03,700,confirmed
Choi,2017-01-03,900,confirmed
Park,2017-01-05,800,confirmed
Yoon,2017-01-09,700,confirmed


색인은 간단한 원리로 동작하지만, 그 응용 가능성은 무궁무진합니다. 사실상 색인을 어떻게 응용하느냐로 판다스를 사용하는 실력을 판가름하기도 합니다.

그러므로 실습 시간에, 그리고 집에서 연습하실 때 가능한 다양한 방법으로, 창의적인 방법으로 데이터를 색인해보세요.



### 컬럼 추가하기 & 수정하기

다음으로는 판다스에서 컬럼을 추가하거나 수정하는 법입니다. 판다스에서 컬럼을 추가하거나 수정하는 방법은 간단합니다. 몇 가지 예시를 들어보겠습니다.

먼저 컬럼을 하나 추가하는데, 그 컬럼에 들어가는 값이 전부 동일한 경우가 있습니다. 이 경우에는 복잡하게 생각하지 않고, 파이썬에서 변수를 할당하는 방법(```=```)을 그대로 사용하면 됩니다.

In [94]:
# 컬럼에 들어가는 모든 값이 동일할 경우, 파이썬의 변수 할당과 동일하게 집어넣으면 됩니다.
transaction["card-holder"] = "KB Card"
transaction

Unnamed: 0_level_0,date,amount,result,card-holder
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kang,2017-01-01,500,confirmed,KB Card
Kim,2017-01-03,700,confirmed,KB Card
Choi,2017-01-03,900,confirmed,KB Card
Park,2017-01-05,800,confirmed,KB Card
Lee,2017-01-07,500,canceled,KB Card
Yoon,2017-01-09,700,confirmed,KB Card
Jang,2017-01-09,600,canceled,KB Card
Ko,2017-01-10,200,canceled,KB Card


하지만 이런 경우는 흔치 않습니다. 대부분의 경우는 컬럼을 추가할 때, 컬럼 안에 들어가는 값이 대부분 다를 것입니다. 이 경우에는 집어넣는 값의 개수만 맞으면, 판다스에서 추론(infer)를 통해 집어넣어줍니다.

In [95]:
# 컬럼에 서로 다른 값을 넣고 싶을 땐, 일단 갯수만 맞으면 무조건 들어갑니다.
transaction["order"] = [1, 2, 3, 4, 5, 6, 7, 8]
transaction

Unnamed: 0_level_0,date,amount,result,card-holder,order
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Kang,2017-01-01,500,confirmed,KB Card,1
Kim,2017-01-03,700,confirmed,KB Card,2
Choi,2017-01-03,900,confirmed,KB Card,3
Park,2017-01-05,800,confirmed,KB Card,4
Lee,2017-01-07,500,canceled,KB Card,5
Yoon,2017-01-09,700,confirmed,KB Card,6
Jang,2017-01-09,600,canceled,KB Card,7
Ko,2017-01-10,200,canceled,KB Card,8


이외에는 판다스의 색인을 응용해서, 색인 후 컬럼을 추가하는 것도 가능합니다.

In [96]:
# 이전에 행렬검색에서 사용한 loc를 응용해서 컬럼에 조건별로 값을 다르게 줄 수도 있습니다.
transaction.loc[transaction["amount"] >= 500, "VIP"] = True
transaction.loc[transaction["amount"] < 500, "VIP"] = False

transaction

Unnamed: 0_level_0,date,amount,result,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kang,2017-01-01,500,confirmed,KB Card,1,True
Kim,2017-01-03,700,confirmed,KB Card,2,True
Choi,2017-01-03,900,confirmed,KB Card,3,True
Park,2017-01-05,800,confirmed,KB Card,4,True
Lee,2017-01-07,500,canceled,KB Card,5,True
Yoon,2017-01-09,700,confirmed,KB Card,6,True
Jang,2017-01-09,600,canceled,KB Card,7,True
Ko,2017-01-10,200,canceled,KB Card,8,False


당연하지만 여러 조건을 and나 or로 묶어서 컬럼을 추가할 수도 있습니다.

In [97]:
# 당연히 and(&) 조건과 or(|) 조건도 동일하게 넣을 수 있습니다.
transaction.loc[(transaction["result"] == "confirmed") & transaction["amount"] >= 500, "VIP"] = True
transaction.loc[(transaction["result"] != "confirmed") | (transaction["amount"] < 500), "VIP"] = False

transaction

Unnamed: 0_level_0,date,amount,result,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kang,2017-01-01,500,confirmed,KB Card,1,True
Kim,2017-01-03,700,confirmed,KB Card,2,True
Choi,2017-01-03,900,confirmed,KB Card,3,True
Park,2017-01-05,800,confirmed,KB Card,4,True
Lee,2017-01-07,500,canceled,KB Card,5,False
Yoon,2017-01-09,700,confirmed,KB Card,6,True
Jang,2017-01-09,600,canceled,KB Card,7,False
Ko,2017-01-10,200,canceled,KB Card,8,False


## 데이터 삭제하기

판다스에서 데이터를 추가할 수 있다면, 정 반대로 데이터를 제거하는 것도 가능할 것입니다. 데이터를 제거할때는 ```.drop``` 이라는 메소드를 사용하면 됩니다. ```.drop```을 사용하면 행(row)을 지울수도 있고, 정 반대로 열(column)을 지우는 것도 가능합니다.

In [98]:
# drop을 호출한 뒤 axis=0을 하면 행(row)을 하나 버립니다.
# 이 경우에는 인덱스(Index)를 넣어줍니다.
transaction.drop("Kang", axis=0)

Unnamed: 0_level_0,date,amount,result,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kim,2017-01-03,700,confirmed,KB Card,2,True
Choi,2017-01-03,900,confirmed,KB Card,3,True
Park,2017-01-05,800,confirmed,KB Card,4,True
Lee,2017-01-07,500,canceled,KB Card,5,False
Yoon,2017-01-09,700,confirmed,KB Card,6,True
Jang,2017-01-09,600,canceled,KB Card,7,False
Ko,2017-01-10,200,canceled,KB Card,8,False


In [99]:
# 정 반대로 drop을 호출한 뒤 axis=1을 하면 열(column)을 하나 버립니다.
# 이 경우에는 컬럼명을 넣어줍니다.
transaction.drop("date", axis=1)

Unnamed: 0_level_0,amount,result,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Kang,500,confirmed,KB Card,1,True
Kim,700,confirmed,KB Card,2,True
Choi,900,confirmed,KB Card,3,True
Park,800,confirmed,KB Card,4,True
Lee,500,canceled,KB Card,5,False
Yoon,700,confirmed,KB Card,6,True
Jang,600,canceled,KB Card,7,False
Ko,200,canceled,KB Card,8,False


In [100]:
# 파이썬 리스트를 활용해서 여러 개의 컬럼을 하나의 변수에 담고 사용할 수 있습니다.
names = ["date", "result"]

# 이 경우에는 여러 개의 컬럼을 한 번에 버릴 수 있습니다.
transaction.drop(names, axis=1)

Unnamed: 0_level_0,amount,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kang,500,KB Card,1,True
Kim,700,KB Card,2,True
Choi,900,KB Card,3,True
Park,800,KB Card,4,True
Lee,500,KB Card,5,False
Yoon,700,KB Card,6,True
Jang,600,KB Card,7,False
Ko,200,KB Card,8,False


## apply

다음은 판다스의 ```apply```라는 기능입니다. 이 기능은 파이썬의 반복문(for)과 유사한 방식으로 동작하는데, 판다스의 Series에 ```apply```를 사용하고 여기에 함수명을 지정하면, 해당 Series에 들어간 값을 하나하나 가져와 함수를 실행합니다. 자세한 동작 방식은 다음과 같습니다.

In [101]:
# is_vip라는 이름의 함수를 정의합니다.
# 이 함수는 결제금액(amount)이 500달러를 넘어가면 True, 넘어가지 않으면 False를 반환합니다.
def is_vip(amount):
    return amount >= 500
    
# 이 함수를 amount에 apply 로 적용하면
# 총 6개의 amount값을 마치 반복문을 돌리듯이 돌아갑니다.
transaction["VIP"] = transaction["amount"].apply(is_vip)
transaction

Unnamed: 0_level_0,date,amount,result,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kang,2017-01-01,500,confirmed,KB Card,1,True
Kim,2017-01-03,700,confirmed,KB Card,2,True
Choi,2017-01-03,900,confirmed,KB Card,3,True
Park,2017-01-05,800,confirmed,KB Card,4,True
Lee,2017-01-07,500,canceled,KB Card,5,True
Yoon,2017-01-09,700,confirmed,KB Card,6,True
Jang,2017-01-09,600,canceled,KB Card,7,True
Ko,2017-01-10,200,canceled,KB Card,8,False


In [102]:
# 위 코드와 동일합니다. 이와 같은 방식을 람다(lambda), 내지는 익명 함수라고 부릅니다.
# 보통 함수를 굳이 만들 필요가 없을 정도로 코드가 간결하다면,
# 굳이 함수를 만들지 않고 lambda를 사용하는 것 만으로 충분합니다.
transaction["VIP"] = transaction["amount"].apply(lambda amount: amount >= 500)
transaction

Unnamed: 0_level_0,date,amount,result,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kang,2017-01-01,500,confirmed,KB Card,1,True
Kim,2017-01-03,700,confirmed,KB Card,2,True
Choi,2017-01-03,900,confirmed,KB Card,3,True
Park,2017-01-05,800,confirmed,KB Card,4,True
Lee,2017-01-07,500,canceled,KB Card,5,True
Yoon,2017-01-09,700,confirmed,KB Card,6,True
Jang,2017-01-09,600,canceled,KB Card,7,True
Ko,2017-01-10,200,canceled,KB Card,8,False


In [103]:
# 물론 열(column)이 아닌 행(row)으로 apply를 돌리는 것도 가능힙니다.
# (다만 자주 쓰이지는 않습니다)
transaction.loc["Kang"].apply(lambda x: x == 500)

date           False
amount          True
result         False
card-holder    False
order          False
VIP            False
Name: Kang, dtype: bool

apply는 하나가 아닌 여러 개의 컬럼에 동시에 적용할 수 있습니다. 이 경우 ```axis=1``` 옵션을 넣어주면 지정한 함수에 행(row)이 하나씩 들어갑니다.

In [104]:
def is_vip(row):
    amount = row["amount"]
    result = row["result"]

    return result == "confirmed" and amount >= 500

# 복수의 컬럼을 동시에 쓰고 싶다면 Series가 아닌 DataFrame에다가 apply를 할 수 있습니다.
# 여기서 axis를 1로 지정해주면 row가 하나씩 들어가고, axis를 0으로 지정해주면 column이 하나씩 들어갑니다.
transaction["VIP"] = transaction.apply(is_vip, axis=1)
transaction

Unnamed: 0_level_0,date,amount,result,card-holder,order,VIP
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Kang,2017-01-01,500,confirmed,KB Card,1,True
Kim,2017-01-03,700,confirmed,KB Card,2,True
Choi,2017-01-03,900,confirmed,KB Card,3,True
Park,2017-01-05,800,confirmed,KB Card,4,True
Lee,2017-01-07,500,canceled,KB Card,5,False
Yoon,2017-01-09,700,confirmed,KB Card,6,True
Jang,2017-01-09,600,canceled,KB Card,7,False
Ko,2017-01-10,200,canceled,KB Card,8,False


### 여러 개의 데이터를 하나로 합치기

다음으로는 여러 개의 데이터를 하나로 합치는 기능을 살펴보겠습니다.

일반적으로 데이터는 하나의 파일이나 데이터프레임(DataFrame)으로 저장하지 않고, 여러 형태로 나눠서 저장하는게 효율적입니다. 하지만 효율적으로 저장하는 것과는 별개로, 실제 저장된 데이터를 읽어와 판다스로 데이터를 분석할 떄는 데이터프레임(DataFrame)으로 묶어서 분석하는 것이 편리합니다.

그런 의미에서, 여러 개의 테이블을 하나로 묶는 방법인 concat, join, 그리고 merge에 대해 알아봅시다.

In [105]:
import pandas as pd

transaction01 = pd.read_csv("data/transaction/201701.csv")

print(transaction01.shape)
transaction01.head()

FileNotFoundError: [Errno 2] File data/transaction/201701.csv does not exist: 'data/transaction/201701.csv'

In [106]:
transaction02 = pd.read_csv("data/transaction/201702.csv")

print(transaction02.shape)
transaction02.head()

FileNotFoundError: [Errno 2] File data/transaction/201702.csv does not exist: 'data/transaction/201702.csv'

`pd.concat([연결할 데이터프레임 리스트])` 를 이용하여 데이터를 아래로 더해나갈 수 있습니다.

In [108]:
# pd.concat으로 두 개의 DataFrame을 합칠 수 있습니다.
transaction = pd.concat([transaction01, transaction02])
transaction

NameError: name 'transaction01' is not defined

이와 동일한 기능을 하는 append라는 메소드가 있는데 이는 pandas에서 불러오는 것이 아닌 데이터프레임을 기준으로 사용합니다.

In [None]:
# append 기능을 이용하여 합친 데이터를 transaction에 저장합니다.
transaction = transaction01.append([transaction02])

#pd.concat과 거의 동일하게 동작하기 때문에 마음에 드는 것을 사용하시면 됩니다.
transaction

데이터프레임을 인덱스와 상관없이 옆으로 붙이고 싶은 경우에도 concat을 이용합니다. 2월의 결제 데이터와 합칠 결제수단 및 할부 데이터를 만들어보겠습니다.

In [None]:
how2 = pd.DataFrame({
    'payment_method' : ['카드 결제', '카드 결제', '무통장 입금', '카드 결제'],
    'installment' : ['일시불', '3개월', None, '일시불']
})

how2

이를 column을 추가하듯 옆으로 붙이는 방법은 pd.concat에 axis=1 옵션을 추가하는 것입니다.

In [None]:
#pd.concat()에 axis=1 파라미터를 추가하여 transaction02와 how2 데이터를 합쳐주세요.
pd.concat([transaction02, how2], axis=1)

주의할 점은 더할 때 index를 기준으로 더하는 것이기 때문에 데이터의 사이즈가 잘 맞는지, 인덱스 또한 일치하는지 잘 확인해주셔야 합니다.

```pd.concat```도 ```read_csv```나 ```read_sql```같이 다양한 옵션들이 있습니다. 자세한 사항은 [판다스의 API 문서](https://pandas.pydata.org/pandas-docs/stable/merging.html#merging)를 참고해주세요. 

### 서로 다른 형태의 데이터를 하나로 합치기

앞서 설명한 ```pd.concat``` 은 서로 유사한 데이터를 합치는데 많이 사용합니다. 하지만 데이터의 형태가 다른 경우에는 어떻게 하나로 합쳐야 할까요? 다음의 예를 들어보겠습니다.

In [None]:
transaction = pd.read_csv("data/transaction/201701.csv")

print(transaction.shape)
transaction.head()

In [None]:
user = pd.read_csv("data/transaction/user.csv")

print(user.shape)
user.head()

이 경우에는 ``pd.merge``를 사용합니다. merge를 사용하면 두 DataFrame에서 겹치는 컬럼(Name)을 자동으로 찾아서 그에 맞게 데이터를 합쳐줍니다.

In [None]:
#pd.merge를 이용해 transaction과 user 데이터를 합쳐주세요.
pd.merge(transaction, user)

하지만 여기에서 주의할 점이 있습니다. 결과를 보면 알겠지만, merge를 한 순간 Name이 겹치지 않는 transaction은 전부 제거되어 버립니다. 이는 pd.merge()가 INNER JOIN을 기본 옵션으로 사용하기 때문입니다.

LEFT, RIGHT, OUTER 조인을 사용하고 싶은 경우, how 옵션을 사용하시면 됩니다.

In [None]:
# 기본 옵션은 how='inner'. transaction에서도 date에서도 겹치는 부분이 없다면 전부 제거해버린다.
pd.merge(transaction, user, how='inner')

In [None]:
# 데이터 프레임의 메소드로 merge를 사용해도 괜찮습니다.
transaction.merge(user, how='inner')

In [None]:
# how='outer' 옵션은 transaction에서도 profile에서도 겹치지 않는 부분을 그대로 남겨놓는다.
# 이 경우 빈 컬럼은 NaN으로 표시한다.
pd.merge(transaction, user, how='outer')

In [None]:
# how='left'는 pd.merge에서 왼쪽에 넣은 DataFrame(transaction)을 기준으로 갯수를 맞춘다.
# 마찬가지로 빈 값에는 NaN이 들어간다.
pd.merge(transaction, user, how='left')

In [None]:
# how='right'는 left의 정 반대라고 보면 된다.
pd.merge(transaction, user, how='right')

현재는 'Name'이라는 컬럼명이 겹쳐 merge가 잘 이루어졌습니다. 근데 실제 데이터에서는 컬럼명이 다른 경우가 있는데 이 때는 pandas가 자동으로 merge를 하지 못합니다.

In [None]:
# user의 Name 칼럼명을 이름으로 수정하겠습니다.
user.rename(columns={'Name' : '이름'}, inplace = True)

In [None]:
#그리고 다시 transaction과 user를 merge하도록 하겠습니다.
pd.merge(transaction, user, how='inner')

'No common columns to perform merge on.' 이라는 에러가 났습니다 .이러한 경우에는 left table의 어떤 컬럼과 right table의 어떤 컬럼을 키로 사용하여 조인할 것인지 직접 지정해줘야 합니다. 이는 left_on, right_on 파라미터로 가능합니다.


In [None]:
#그리고 다시 transaction과 user를 merge하도록 하겠습니다.
pd.merge(transaction, user, how='inner', left_on='Name', right_on = '이름')

merge와 비슷하게 join을 사용할 수 있습니다. join의 특징은 판다스의 함수로 사용할 수 있는 것이 아닌 데이터프레임의 메소드로만 사용할 수 있다는 점입니다. 

(`pd.join()` 이 없고 `table.join()` 으로만 사용할 수 있다는 의미입니다.)

이 기능은 merge와 거의 동일하기 때문에 마음에 드는 것을 사용하시면 됩니다.

In [None]:
product = pd.read_csv("data/transaction/product.csv")

print(product.shape)
product.head()

join이 불편한 점은 반드시 기준이 되는 왼쪽 데이터프레임은 index가 그 기준이 되어야 한다는 것입니다. 따라서, set_index()를 이용하여 기준이 되는 열을 반드시 인덱스로 만들어준 다음 join을 사용해주세요.

In [None]:
#이제 transaction.join()을 이용하여 두 테이블을 LEFT로 병합해보세요.
transaction.set_index('product', inplace=True) #transaction = transaction.set_index('product') 와 동일한 코드입니다. 

#join을 이용하여 두개의 데이터프레임을 병합하는 과정입니다. product의 경우에는 index를 product로 사용하지 않아도 on 옵션을 이용해 열을 지정해줄 수 있습니다.
#on 옵션은 pandas 0.23.0 버전에서 새롭게 추가된 기능이므로 작동하지 않는 경우 product테이블의 index도 'product'로 지정해주세요.
product.set_index('product', inplace = True)


transaction.join(product, on='product', how='left')