# Day 07

In [3]:
import numpy as np

a = np.array([[1,2,3,4],[5,6,7,8]])
b = np.array([[9,8,7,6],[5,4,3,2]])

Dimension of matrix A, B is $2 \times 4$

``Axis = 0`` makes the dimension to be:

$$\textbf{2} \times 2 \times 4$$

In [8]:
np.stack([a, b], axis=0)

array([[[1, 2, 3, 4],
        [5, 6, 7, 8]],

       [[9, 8, 7, 6],
        [5, 4, 3, 2]]])

``Axis = 1`` makes the dimension to be:

$$2 \times \textbf{2} \times 4$$

It is very convenient to think as reading matrix in vertical axis.

In [7]:
np.stack([a, b], axis=1)

array([[[1, 2, 3, 4],
        [9, 8, 7, 6]],

       [[5, 6, 7, 8],
        [5, 4, 3, 2]]])

# NumPy 배열의 연산

# 벡터화 연산

In [10]:
x = np.arange(1, 1001)
y = np.arange(1001, 2001)

In [11]:
%%time
z = np.zeros_like(x)
for i in range(1000):
    z[i] = x[i] + y[i]

Wall time: 1.01 ms


이 코드에서 ``%%time``은 셀 코드의 실행시간을 측정하는 IPython 매직 명령이다.

In [13]:
z[:10]

array([1002, 1004, 1006, 1008, 1010, 1012, 1014, 1016, 1018, 1020])

In [14]:
%%time
z = x + y

Wall time: 0 ns


In [15]:
z[:10]

array([1002, 1004, 1006, 1008, 1010, 1012, 1014, 1016, 1018, 1020])

In [16]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [17]:
a == b

array([False,  True, False,  True], dtype=bool)

In [18]:
a >= b

array([False,  True,  True,  True], dtype=bool)

만약 배열 전체를 비교하고 싶다면 ``all`` 명령을 사용한다.

In [19]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [20]:
np.all(a == b)

False

In [21]:
np.all(a == c)

True

지수 함수, 로그 함수 등의 수학 함수도 벡터화 연산을 지원한다.

In [22]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [23]:
np.exp(a)

array([  1.        ,   2.71828183,   7.3890561 ,  20.08553692,  54.59815003])

In [24]:
10 ** a

array([    1,    10,   100,  1000, 10000], dtype=int32)

In [25]:
np.log(a)

  if __name__ == '__main__':


array([       -inf,  0.        ,  0.69314718,  1.09861229,  1.38629436])

In [27]:
np.log10(a)

  if __name__ == '__main__':


array([       -inf,  0.        ,  0.30103   ,  0.47712125,  0.60205999])

# 스칼라와 벡터/행렬의 곱셈

In [28]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [30]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [31]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

# 브로드캐스팅

선형 대수에서는 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. 그러나 NumPy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방벙이다.

예를 들어 다음과 같이 벡터와 스칼라를 더하는 경우를 생각하자. 선형 대수에서는 이러한 연산이 불가능하다.

$$ 
x = \begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix}, \;\;\;\; 
x + 1 = \begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} + 1 = ?
$$

 그러나 NumPy는 브로드캐스팅 기능을 사용하여 스칼라를 벡터와 같은 크기로 확장시켜서 덧셈 계산을 한다.

$$ 
\begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} \overset{\text{numpy}}+ 1 = 
\begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} +  \begin{bmatrix}1 \\ 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} = 
\begin{bmatrix}1 \\ 2 \\ 3 \\ 4 \\ 5 \end{bmatrix}
$$


In [32]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [33]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [34]:
x + 1

array([1, 2, 3, 4, 5])

In [35]:
x + y

array([1, 2, 3, 4, 5])

In [38]:
a = np.tile(np.arange(0, 40, 10), (3, 1)).T
a

array([[ 0,  0,  0],
       [10, 10, 10],
       [20, 20, 20],
       [30, 30, 30]])

In [39]:
b = np.array([0, 1, 2])
b

array([0, 1, 2])

In [40]:
a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

In [41]:
a = np.arange(0, 40, 10)[:, np.newaxis]
a

array([[ 0],
       [10],
       [20],
       [30]])

In [42]:
a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

## 차원 축소 연산

행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

NumPy는 다음과 같은 차원 축소 연산 명령 혹은 메서드를 지원한다.

* 최대/최소: `min`, `max`, `argmin`, `argmax`
* 통계: `sum`, `mean`, `median`, `std`, `var`
* 불리언: `all`, `any`

In [48]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [49]:
np.sum(x)

10

In [50]:
x.sum()

10

In [51]:
x = np.array([1, 3, 2])

In [52]:
x.min()

1

In [53]:
x.max()

3

In [54]:
x.argmin()  # 최솟값의 위치

0

In [55]:
x.argmax()  # 최댓값의 위치

1

In [56]:
x = np.array([1, 2, 3, 1])

In [57]:
x.mean()

1.75

In [59]:
np.median(x)

1.5

In [60]:
np.all([True, True, False])

False

In [61]:
np.any([True, True, False])

True

In [62]:
a = np.zeros((100, 100), dtype=np.int)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [63]:
np.any(a != 0)

False

In [64]:
np.all(a == a)

True

In [65]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

배열이 아니면 0차원이다.

In [66]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [69]:
x.sum()

6

In [67]:
x.sum(axis=0)   # 열 합계

array([3, 3])

In [68]:
x.sum(axis=1)   # 행 합계

array([2, 4])

```
+------------+---------+--------+
|            |  A      |  B     |
+------------+---------+---------
|      0     | 0.626386| 1.52325|----axis=1----->
+------------+---------+--------+
             |         |
             | axis=0  |
             ↓         ↓
```

**연습문제 02**

5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을 구한다.

In [94]:
X = np.random.randint(10,size=(5,6))
print(X)
print("==============================================")
print("Max: ", np.max(X))
print("Summation(Row): " + str(X.sum(axis=1)))
print("Mean (Column): ", str(X.mean(axis=0)))

[[9 0 7 2 5 6]
 [9 3 0 3 9 1]
 [4 7 1 2 6 0]
 [4 3 1 6 8 4]
 [3 1 0 7 2 8]]
Max:  9
Summation(Row): [29 25 20 26 21]
Mean (Column):  [ 5.8  2.8  1.8  4.   6.   3.8]


## 정렬

`sort` 명령이나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 2차원 이상인 경우에는 마찬가지로 `axis` 인수를 사용하여 방향을 결정한다.

In [79]:
a = np.array([[4, 3, 5], [1, 2, 1]])
a

array([[4, 3, 5],
       [1, 2, 1]])

In [80]:
np.sort(a)

array([[3, 4, 5],
       [1, 1, 2]])

In [81]:
np.sort(a, axis=1)

array([[3, 4, 5],
       [1, 1, 2]])

sort 메서드는 해당 객체의 자료 자체가 변화하는 in-place 메서드이므로 사용할 때 주의를 기울여야 한다.

In [82]:
a

array([[4, 3, 5],
       [1, 2, 1]])

In [83]:
a.sort(axis=1)
a

array([[3, 4, 5],
       [1, 1, 2]])

만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령을 사용한다.

In [97]:
a = np.array([4, 3, 1, 2])
j = np.argsort(a)
j

array([2, 3, 1, 0], dtype=int64)

In [98]:
a[j]

array([1, 2, 3, 4])

In [99]:
a[[1,1,1]]

array([3, 3, 3])

**연습문제 3**

연습 문제 2에서 만든 데이터에 대해 다음을 구한다.

1. 첫번째 열 값으로 모든 행을 정렬
2. 두번째 행 값으로 모든 열을 정렬

In [127]:
X = np.random.randint(10,size=(5,6))
print(X)
print("==============================================")
print("Max: ", np.max(X))
print("Summation(Row): ", X.sum(axis=1))
print("Mean (Column): ", X.mean(axis=0))

[[6 7 1 9 4 9]
 [2 1 6 7 8 0]
 [5 3 4 4 4 7]
 [4 1 4 1 2 4]
 [9 5 3 5 0 7]]
Max:  9
Summation(Row):  [36 24 27 16 29]
Mean (Column):  [ 5.2  3.4  3.6  5.2  3.6  5.4]


In [141]:
def sort_by(matrix, nth, axis=0):
    mat = matrix
    if axis == 0:
        order = mat[:, nth].argsort()
        print("Order: ", order)
        return mat[order]
    elif axis == 1:
        mat = matrix.T
        order = mat[:, nth].argsort()
        print("Order: ", order)
        return mat[order].T

In [142]:
sort_by(X,0,0)

Order:  [1 3 2 0 4]


array([[2, 1, 6, 7, 8, 0],
       [4, 1, 4, 1, 2, 4],
       [5, 3, 4, 4, 4, 7],
       [6, 7, 1, 9, 4, 9],
       [9, 5, 3, 5, 0, 7]])

In [143]:
sort_by(X,1,1)

Order:  [5 1 0 2 3 4]


array([[9, 7, 6, 1, 9, 4],
       [0, 1, 2, 6, 7, 8],
       [7, 3, 5, 4, 4, 4],
       [4, 1, 4, 4, 1, 2],
       [7, 5, 9, 3, 5, 0]])

In [144]:
score = np.array([[  1,    2,    3,    4],
                  [ 46,   99,  100,   71],
                  [ 81,   59,   90,  100]])

sort_by(score,1,axis=1)

In [147]:
def sort_by(matrix, nth, axis=0):
    mat = matrix
    if axis == 0:
        order = mat[:, nth].argsort()
        print("Order (Column-wise): ", order)
        return mat[order]
    elif axis == 1:
        mat = matrix.T
        order = mat[:, nth].argsort()
        print("Order (Row-wise): ", order)
        return mat[order].T

score = np.array([[  1,    2,    3,    4],
                  [ 46,   99,  100,   71],
                  [ 81,   59,   90,  100]])
sort_by(score,1,axis=1)

Order (Row-wise):  [0 3 1 2]


array([[  1,   4,   2,   3],
       [ 46,  71,  99, 100],
       [ 81, 100,  59,  90]])

In [148]:
score

array([[  1,   2,   3,   4],
       [ 46,  99, 100,  71],
       [ 81,  59,  90, 100]])

In [153]:
score[[2,1,0]]

array([[ 81,  59,  90, 100],
       [ 46,  99, 100,  71],
       [  1,   2,   3,   4]])

## Pandas 패키지의 소개

## Pandas 패키지

Pandas 패키지는 데이터 분석을 할 때 가장 많이 쓰이는 패키지 중의 하나이다. 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있는데 Pandas 패키지에서는 이러한 표 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다.

## 시리즈 클래스

시리즈 클래스는 NumPy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다.

데이터를 리스트나 1차원 배열 형식으로 Series 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다. 인덱스의 길이는 데이터의 길이와 같아야 한다. 다음 예에서 이 "서울", "부산" 등의 문자열이 인덱스의 값이다. 인덱스의 값을 인덱스 라벨(label)이라고도 한다. 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.

다음 예제는 각 도시의 2015년 인구 데이터를 시리즈로 만든 것이다.

In [157]:
import pandas as pd
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [158]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int32

In [159]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [160]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [165]:
s.name = "인구"
s.index.name = "도시"

In [163]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산

시리즈는 NumPy 배열과 동일하게 벡터화 연산을 할 수 있다. 다만 연산을 해도 인덱스 값은 변하지 않는다. 예를 들어 인수를 백만 단위로 만들기 위해 시리즈 객체 전체를 1,000,000 으로 나누어도 인덱스 라벨에는 영향을 미치지 않는 것을 볼 수 있다.

In [166]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [168]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [170]:
s[1], s["부산"]

3448737

In [172]:
s[3], s["대구"]

(2466052, 2466052)

In [174]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [175]:
s[(250e4 < s) & (s < 500e4)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [176]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

**Note:**문자열 라벨을 이용한 슬라이싱을 하는 경우 콜론(:) 기호 뒤에 오는 인덱스에 해당하는 값도 포함된다는 점이 일반적인 인덱싱과 다르다.

In [179]:
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈와 사전 자료형

시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 라벨 값을 키(key)로 가지는 사전(dict) 자료형과 같다고 볼 수 있다.

따라서 사전 자료형에서 제공하는 in 연산도 가능하고 iteritems 메서드를 사용하면 for 루프를 통해 각 원소의 키(key)와 값(value)을 접근할 수도 있다.

In [185]:
"서울" in s

True

In [186]:
"대전" in s

False

In [187]:
for k, v in s.items():
    print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


또 사전 객체에서 시리즈를 만들 수도 있다. 이번에는 2010년의 인구 자료를 시리즈로 만들어 보자.

**Series는 list와 dictionary의 속성을 동시에 가지고 있다고 볼 수 있다.**

In [188]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

대전    1490158
부산    3393191
서울    9631482
인천    2632035
dtype: int64

In [189]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}, 
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [195]:
s3 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}, 
               index=["부산", "서울", "대전"])
s3

부산    3393191
서울    9631482
대전    1490158
dtype: int64

인덱스를 지칭하지 않을 경우 나타나지 않음

In [201]:
s4 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}, 
               index=["부산", "서울", "인천", "수원"])
s4

부산    3393191.0
서울    9631482.0
인천    2632035.0
수원          NaN
dtype: float64

### 인덱스 기반 연산

이번에는 2015년도와 2010년의 인구 증가를 계산해 보자. 두 개의 시리즈의 차이를 구하면 된다. 두 시리즈에 대해 연산을 하는 경우 인덱스가 같은 데이터끼지 알아서 차이를 구해 준다. 즉 인덱스 기반으로 연산을 한다.

In [190]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [191]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [193]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [202]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [203]:
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

In [204]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제

In [205]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [206]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

삭제시에도 사전처럼 del 명령을 사용한다.

# Basic Operations of Data Managing

* Create
* Read
* Update
* Delete

# DataFrame Class

시리즈가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라면 데이터프레임 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다. 2차원이므로 행방향 인덱스(row index) 뿐 아니라 열방향 인덱스(column index)도 붙일 수 있다.

## 데이터프레임 생성
데이터프레임을 만드는 방법은 다양하다. 가장 간단한 방법은 다음과 같이 리스트나 일차원 배열을 값(value)으로 가지고 열방향 인덱스 라벨을 키(key)로 가지는 사전(dictionary) 데이터를 DataFrame 클래스 생성자에 넣는다. 이 때 열방향 인덱스는 columns 인수에, 행방향 인덱스는 index 인수에 지정한다.

In [207]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


앞에서 데이터프레임은 2차원 배열 데이터를 기반으로 한다고 했지만 사실은 **동일한 인덱스를 가지는 열 시리즈(column series)를 사전(dictionary)처럼 묶어놓은 것**이라고 보는 것이 더 정확하다. 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 데이터프레임은 각 열(column)마다 자료형이 다를 수 있기 때문이다. 위 예제에서도 지역과 인구와 증가율은 각각 문자열, 정수, 부동소수점 실수이다.

시리즈와 마찬가지로 데이터만 접근하려면 `values` 속성을 사용한다. 열방향 인덱스와 행방향 인덱스는 각각 `columns`, `index` 속성으로 접근한다.

In [208]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [209]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [210]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [211]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


## 데이터프레임 인덱싱
따라서 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱을 할 수 있다. 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 반환된다. 다만 시리즈와는 달리 라벨 문자열이 아닌 순서를 나타내는 숫자는 인덱스로 사용할 수 없다.

In [213]:
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [218]:
df.loc["서울"]

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2010-2015 증가율     0.0283
Name: 서울, dtype: object

In [219]:
df.iloc[0]

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2010-2015 증가율     0.0283
Name: 서울, dtype: object

In [220]:
df.ix[0]

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2010-2015 증가율     0.0283
Name: 서울, dtype: object

In [222]:
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [223]:
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


**만약 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱하면 된다.**

In [224]:
type(df[["2010"]])

pandas.core.frame.DataFrame

In [225]:
type(df["2010"])

pandas.core.series.Series

## 열 데이터의 갱신, 추가, 삭제¶
데이터프레임은 열 시리즈의 사전으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있다.

In [226]:
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [227]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [228]:
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


## 개별 데이터 인덱싱

데이터프레임에서 **열 라벨로 시리즈를 인덱싱하고** 다시 행 라벨로 개별 데이터를 인덱싱할 수 있다.

In [229]:
df["2015"]["서울"]

9904312

In [231]:
df["2010"][0]

9631482

In [230]:
df["서울"]["2015"]

KeyError: '서울'

In [233]:
df.loc["서울"]

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2005-2010 증가율      -1.34
Name: 서울, dtype: object

In [235]:
df.iloc[0]

특성
지역                   수도권
2015             9904312
2010             9631482
2005             9762546
2000             9853972
2005-2010 증가율      -1.34
Name: 서울, dtype: object

In [239]:
type(df.iloc[0])

pandas.core.series.Series

In [238]:
df[:-1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54


# Pandas 데이터 입출력

Pandas는 CSV(Comman Separated Value)를 포함한 다양한 포맷의 데이터 파일을 읽어 직접 데이터프레임을 만들 수 있다. pandas 입출력 가능한 포맷의 종류는 다음과 같다.

* CSV
* Clipboard
* Excel
* JSON
* HTML
* Python Pickling
* HDF5
* SAS
* STATA
* SQL
* Google BigQuery

여기에서는 가장 단순하지만 널리 사용되는 CSV 포맷 입출력에 대해 살펴본다. CSV 파일 포맷은 값들이 comma로 구분되는 텍스트 파일이다. 

## `%%writefile` 매직 명령

In [None]:
%%writefile ~/data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

## CSV 파일 입력

CSV 파일로부터 데이터를 읽어 데이터프레임을 만들때는 `pandas.from_csv()` 명령을 사용한다. 

In [None]:
pd.read_csv('~/data/sample1.csv')

In [None]:
pd.read_csv('~/data/sample2.csv', names=['c1', 'c2', 'c3'])

In [None]:
pd.read_csv('~/data/sample1.csv', index_col='c1')

확장자가 CSV가 아닌 파일 즉, 구분자가 comma가 아닌 경우에도 sep 인수를 써서 구분자를 지정하면 읽을 수 있다. 만약 구분자가 길이가 정해지지 않은 공백인 경우에는 \s+라는 정규식(regular expression) 문자열을 사용한다.

In [None]:
pd.read_table('~/data/sample3.txt', sep='\s+')

만약 자료 파일 중에 건너 뛰어야 할 행이 있으면 `skiprows` 인수를 사용

In [None]:
pd.read_csv('~/data/sample4.txt', skiprows=[0, 1])

특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣는다.

In [None]:
df = pd.read_csv('~/data/sample5.csv', na_values=['누락'])
df

## CSV 파일 출력

In [None]:
df.to_csv('~/data/sample6.csv')

읽을 때와 마찬가지로 `sep` 인수로 구분자를 변경할 수도 있다.

In [None]:
df.to_csv('~/data/sample7.txt', sep='|')

또 `na_rep` 인수로 NA 표시값을 바꿀 수도 있다.

In [None]:
df.to_csv('~/data/sample8.csv', na_rep='누락')

마지막으로 `index`, `header` 인수를 지정하여 인덱스 및 헤더 출력 여부를 지정한다.

In [None]:
df.to_csv('~/data/sample9.csv', index=False, header=False)

## 인터넷 상의 CSV 파일 입력

웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다. `read_csv` 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다. 다음은 구글 파이낸스에서 제공하는 애플의 주가 데이터를 담은 csv 파일을 읽는 법이다. 

In [249]:
data = pd.read_csv('http://www.google.com/finance/historical?q=NASDAQ%3AAAPL&output=csv')
data.tail()

Unnamed: 0,Date,Open,High,Low,Close,Volume
246,2-Jun-16,97.6,97.84,96.63,97.72,40191600
247,1-Jun-16,99.02,99.54,98.33,98.46,29173285
248,31-May-16,99.6,100.4,98.82,99.86,42307212
249,27-May-16,99.44,100.47,99.24,100.35,36229530
250,26-May-16,99.68,100.73,98.64,100.41,56093437


## 인터넷 상의 데이터 베이스 자료 입력

다음과 같은 인터넷 상의 자료는 pandas_datareader 패키지의 `DataReader` 을 써서 바로 pandas로 입력 가능

* Yahoo! Finance
* Google Finance
* **St.Louis FED (FRED)** (경제관련 자료)
* Kenneth French’s data library
* World Bank
* Google Analytics


날짜는 datetime 패키지를 사용하여 지정한다.

# Pandas 데이터 변환

In [23]:
df = pd.DataFrame({
        'Qu1': [1, 3, 4, 3, 4],
        'Qu2': [2, 3, 1, 2, 3],
        'Qu3': [1, 5, 2, 4, 4]
    })
df

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [24]:
f = lambda x: 2 * x
df.apply(f)

Unnamed: 0,Qu1,Qu2,Qu3
0,2,4,2
1,6,6,10
2,8,2,4
3,6,4,8
4,8,6,8


In [25]:
f = lambda x: x.max() - x.min()
df.apply(f)

Qu1    3
Qu2    2
Qu3    4
dtype: int64

In [26]:
df.apply(f, axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [29]:
df

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [27]:
df.apply(pd.value_counts)

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [28]:
df.apply(pd.value_counts).fillna(0)

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [33]:
df.count()

Qu1    5
Qu2    5
Qu3    5
dtype: int64

In [40]:
from sklearn.datasets import load_boston()

In [43]:
boston = load_boston()
df = pd.DataFrame(boston.data, columns=data.feature_names)

In [44]:
df

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.0900,1.0,296.0,15.3,396.90,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.90,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.90,5.33
5,0.02985,0.0,2.18,0.0,0.458,6.430,58.7,6.0622,3.0,222.0,18.7,394.12,5.21
6,0.08829,12.5,7.87,0.0,0.524,6.012,66.6,5.5605,5.0,311.0,15.2,395.60,12.43
7,0.14455,12.5,7.87,0.0,0.524,6.172,96.1,5.9505,5.0,311.0,15.2,396.90,19.15
8,0.21124,12.5,7.87,0.0,0.524,5.631,100.0,6.0821,5.0,311.0,15.2,386.63,29.93
9,0.17004,12.5,7.87,0.0,0.524,6.004,85.9,6.5921,5.0,311.0,15.2,386.71,17.10


In [45]:
df.tail(5)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0,391.99,9.67
502,0.04527,0.0,11.93,0.0,0.573,6.12,76.7,2.2875,1.0,273.0,21.0,396.9,9.08
503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0,396.9,5.64
504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0,393.45,6.48
505,0.04741,0.0,11.93,0.0,0.573,6.03,80.8,2.505,1.0,273.0,21.0,396.9,7.88


In [47]:
df.count()

CRIM       506
ZN         506
INDUS      506
CHAS       506
NOX        506
RM         506
AGE        506
DIS        506
RAD        506
TAX        506
PTRATIO    506
B          506
LSTAT      506
dtype: int64

In [53]:
df.apply(pd.value_counts).fillna(0)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0.00000,0.0,372.0,0.0,471.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.00632,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.00906,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.01096,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.01301,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.01311,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.01360,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.01381,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.01432,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.01439,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


# cut / qcut

* 실수 자료를 카테고리 자료로 변환
* cut: bins 를 사용자 지정
* qcut: quantile 기준

In [54]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [55]:
cats[0]

Interval(18, 25, closed='right')

In [56]:
cats[1]

Interval(18, 25, closed='right')

In [57]:
cats[2]

Interval(18, 25, closed='right')

In [58]:
cats[3]

Interval(25, 35, closed='right')

In [59]:
cats[4]

Interval(18, 25, closed='right')

In [60]:
cats[5]

Interval(18, 25, closed='right')

In [61]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]]
              closed='right',
              dtype='interval[int64]')

In [62]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [63]:
pd.cut(ages, [18, 26, 36, 61, 100], right=False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [64]:
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [MiddleAged < Senior < YoungAdult < Youth]

In [65]:
df = pd.DataFrame(ages, columns=["ages"])
df.tail()

Unnamed: 0,ages
7,31
8,61
9,45
10,41
11,32


In [66]:
df["age_cat"] = pd.cut(df.ages, bins, labels=group_names)
df

Unnamed: 0,ages,age_cat
0,20,Youth
1,22,Youth
2,25,Youth
3,27,YoungAdult
4,21,Youth
5,23,Youth
6,37,MiddleAged
7,31,YoungAdult
8,61,Senior
9,45,MiddleAged


In [69]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4)
cats

[(0.655, 3.908], (-0.703, 0.00501], (0.655, 3.908], (0.655, 3.908], (0.655, 3.908], ..., (-0.703, 0.00501], (-3.577, -0.703], (0.655, 3.908], (-3.577, -0.703], (-3.577, -0.703]]
Length: 1000
Categories (4, interval[float64]): [(-3.577, -0.703] < (-0.703, 0.00501] < (0.00501, 0.655] < (0.655, 3.908]]

In [70]:
pd.value_counts(cats)

(0.655, 3.908]       250
(0.00501, 0.655]     250
(-0.703, 0.00501]    250
(-3.577, -0.703]     250
dtype: int64

In [73]:
cats = pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])
cats

[(0.00501, 1.279], (-1.335, 0.00501], (1.279, 3.908], (0.00501, 1.279], (1.279, 3.908], ..., (-1.335, 0.00501], (-1.335, 0.00501], (0.00501, 1.279], (-1.335, 0.00501], (-1.335, 0.00501]]
Length: 1000
Categories (4, interval[float64]): [(-3.577, -1.335] < (-1.335, 0.00501] < (0.00501, 1.279] < (1.279, 3.908]]

In [74]:
pd.value_counts(cats)

(0.00501, 1.279]     400
(-1.335, 0.00501]    400
(1.279, 3.908]       100
(-3.577, -1.335]     100
dtype: int64

# Pandas 고급 인덱싱

In [79]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}

In [80]:
df = pd.DataFrame(data)
df

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [81]:
# 순차적 indexing 과 동일
df.ix[1:3, ["state", "pop"]]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  from ipykernel import kernelapp as app


Unnamed: 0,state,pop
1,Ohio,1.7
2,Ohio,3.6
3,Nevada,2.4


In [82]:
df2 = pd.DataFrame(data, 
                   columns=['year', 'state', 'pop'],
                   index=['one', 'two', 'three', 'four', 'five'])
df2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9


In [83]:
# , 이용
df2.ix[["two", "three"], ["state", "pop"]]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  from ipykernel import kernelapp as app


Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


In [85]:
df2.loc[['two','three']][['state','pop']]

Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


## loc 인덱서

* 라벨 기준 인덱싱

   * 숫자가 오더라도 라벨로 인식한다.
   * 라벨 리스트 가능
   * 라벨 슬라이싱 가능
   * 불리언 배열 가능

## iloc 인덱서

* 숫자 기준 인덱싱

   * 문자열 라벨은 불가
   * 숫자 리스트 가능
   * 숫자 슬라이싱 가능
   * 불리언 배열 가능

In [94]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(1, 11, size=(4,3)), 
                  columns=["A", "B", "C"], index=["a", "b", "c", "d"])
df

Unnamed: 0,A,B,C
a,6,9,10
b,6,1,1
c,2,8,7
d,10,3,5


In [96]:
df.ix[["a", "c"], "B":"C"]

Unnamed: 0,B,C
a,9,10
c,8,7


In [97]:
df.ix[[0, 2], 1:3]

Unnamed: 0,B,C
a,9,10
c,8,7


In [98]:
df.loc[["a", "c"], "B":"C"]

Unnamed: 0,B,C
a,9,10
c,8,7


In [99]:
# ,(comma)를 사용하지 않는 경우에는 행(row) 인덱싱
df.ix["a"]

A     6
B     9
C    10
Name: a, dtype: int32

In [100]:
# df.ix["B"] 는 사용 불가
df.ix[:, "B"]

a    9
b    1
c    8
d    3
Name: B, dtype: int32

In [102]:
df.iloc[2:4, 1:3]

Unnamed: 0,B,C
c,8,7
d,3,5


In [108]:
df.head(1)
# inplace

Unnamed: 0,A,B,C
a,10,9,10
