NumPy : Numerical Python의 준말
파이썬에서 산술 계산을 위한 가장 중요한 필수 패키지 중 하나이다.
과학 계산을 위한 대부분의 패키지는 넘파이의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.

넘파이에서 제공하는 기능
- 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공하는 효율적인 다차원 배열인 ndarray
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
- C, C++, 포트란으로 작성된 코드를 넘파이와 연결하는 API

### 다차원 배열 객체 ndarray
   
ndarray는 파이썬에서 사용할 수 있는 대규모 데이터셋을 담을 수 있는 빠르고 유연한 자료구조이다.
배열을 사용하면 스칼라 원소 간의 연산에 사용하는 문법과 비슷한 방식을 사용해 전체 데이터 블록에 수학적 연산을 수행할 수 있다.

In [1]:
L = [[1.5, -0.1, 3], [0, -3, 6.5]]
L

[[1.5, -0.1, 3], [0, -3, 6.5]]

In [2]:
import numpy as np

data = np.array([[1.5, -0.1, 3], [0, -3, 6.5]])
data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [3]:
# 리스트 산술 연산
L * 2

[[1.5, -0.1, 3], [0, -3, 6.5], [1.5, -0.1, 3], [0, -3, 6.5]]

In [4]:
# 산술 연산을 수행
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [5]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

- ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열이다.
- ndarray의 모든 원소는 같은 자료형이어야 한다.
- 모든 배열은 각 차원의 크기를 알려주는 shape 튜플과 배열에 저장된 자료형을 알려주는 dtype 객체를 갖는다.

In [6]:
data.shape

(2, 3)

In [7]:
data.dtype

dtype('float64')

### ndarray 생성하기
- 배열을 생성하는 가장 쉬운 방법은 array 함수를 이용하는 것이다.
- 순차적인 객체(다른 배열도 포함해)를 받아서 넘겨받은 데이터가 들어 있는 새로운 넘파이 배열을 생성한다.

In [8]:
# 파이썬 리스트는 배열로 변환하기 좋은 예이다.
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [9]:
# 배열의 데이터 타입
arr1.dtype

dtype('float64')

In [10]:
# 리스트 길이가 동일한 중첩된 순차 데이터는 다차원 배열로 변환 가능하다.
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [11]:
# data2는 리스트를 담고 있는 리스트(중첩 리스트)이므로 
# 넘파이인 arr2는 해당 데이터로부터 형태를 추론해 2차원 형태로 생성한다.
# ndim과 shape 속서을 검사행서 이를 확인할 수 있다.
arr2.ndim    # 배열의 차원

2

In [12]:
arr2.shape   # 배열의 모양(크기)

(2, 4)

In [13]:
# 명시적으로 지정하지 않는 한 numpy.array는 생성될 때 적절한 자료형을 추론한다.
# 추론된 자료형은 dtype 객체에 저장된다.
arr1.dtype

dtype('float64')

In [14]:
arr2.dtype

dtype('int32')

In [15]:
# numpy.array는 새로운 배열을 생성하는 여러 함수를 가지고 있다.
# zeros와 ones는 주어진 길이나 모양에 각가 0과 1이 들어 있는 배열을 생성한다.
# empty 함수는 초기화되지 않은 배열을 생성한다.
# 이러한 메서드를 사용해서 다차원 배열을 생성하려면 원하는 형태의 튜플을 넘기면 된다.
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [16]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [17]:
# numpy.empty 초기화되지 않은 메모리를 반환하므로 0이 아닌 가비지(gabage) 값을 포함할 수 있다.
# 데이터를 새로 채우기 위해 배열을 생성하는 경우에만 이 함수를 사용해야 한다.
np.empty((2, 3, 2))

array([[[9.35939884e-312, 2.81617418e-322],
        [0.00000000e+000, 0.00000000e+000],
        [1.08221785e-312, 6.82116729e-043]],

       [[5.94867086e-091, 7.71445727e-043],
        [5.51381468e+169, 1.45161952e+165],
        [6.48224659e+170, 4.93432906e+257]]])

In [18]:
# arange는 파이썬의 range 함수의 배열 버전이다.
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### ndarray의 자료형
- 자료형(dtype)은 ndarray가 메모리에 있는 
- 특정 데이터를 해석하는 데 필요한 정보(또는 메타데이터)를 담고 있는 특수한 객체이다.

In [19]:
arr1 = np.array([1, 2, 3], dtype=np.float64)   # dtype='float64'
arr2 = np.array([1, 2, 3], dtype=np.int32)     # dtype='int32'
print(arr1)
print(arr1.dtype)

[1. 2. 3.]
float64


In [20]:
print(arr2)
print(arr2.dtype)

[1 2 3]
int32


In [21]:
# ndarray의 astype 메서드를 사용해 배열의 dtype을 다른 형으로 명시적으로 변환(cast) 가능하다.
# 다음 예제는 정수형을 부동소수점으로 변환한다.
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [22]:
float_arr = arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

In [23]:
float_arr.dtype

dtype('float64')

In [24]:
# 부동소수점을 정수형으로 변환하면 소수점 아래 자리는 버려진다.
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [25]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

In [26]:
# 숫자 형식의 문자열을 담고 있는 배열이면 astyhpe을 사용해 숫자로 변환할 수 있다.
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)
# 넘파이에서는 문자열 데이터는 고정 크기를 가지며 별다른 경고를 출력하지 않고 입력을 임의로 잘라낼 수 있으므로
# numpy.string_형을 이용할 때는 주의해야 한다.

array([ 1.25, -9.6 , 42.  ])

In [27]:
# 문자열이 float64로 변환되지 않는 경우 형 변환에 실패하면 ValueError가 발생한다.
# 똑똑한 넘파이는 파이썬 자료형을 알맞은 dtype으로 맞춰준다.
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)   # int_array.astype(float64)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [28]:
# dtype으로 사용할 수 있는 축약 코드도 있다.
zeros_uint32 = np.zeros(8, dtype='u4')
zeros_uint32

array([0, 0, 0, 0, 0, 0, 0, 0], dtype=uint32)

### 넘파이 배열의 산술 연산
- 배열은 for 문을 작성하지 않고 데이터를 일괄 처리할 수 있어 매우 중요하다.
- 이를 벡터화(vectorization)라고 부르며 크기가 동일한 배열 간의 산술 연산은 배열의 각 원소 단위로 적용된다.

In [29]:
arr = np.array([[1., 2., 3.], [4, 5, 6]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [30]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [31]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [32]:
# 스칼라 인수가 포함된 산술 연산의 경우 배열 내의 모든 원소가 스칼라 인수가 적용된다.
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [33]:
arr ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [34]:
# 크기가 동일한 배열 간의 비교 연산은 불리언 배열을 반환한다.
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [35]:
print(arr2)
print(arr)

[[ 0.  4.  1.]
 [ 7.  2. 12.]]
[[1. 2. 3.]
 [4. 5. 6.]]


In [36]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 색인과 슬라이싱
- 1차원 배열은 표면적으로 파이썬 리스트와 유사하게 작동한다.

In [37]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
arr[5]

5

In [39]:
arr[5:8]

array([5, 6, 7])

In [40]:
# arr[5:8] = 12로 배열 슬라이스에 스칼라 값을 대입하면 12가 선택 영역 전체로 전파(브로드캐스팅)된다.
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [41]:
L = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]     # L = range(10)
L2 = L[5:8]

In [42]:
L2 = [12, 12, 12]
print(L2)
print(L)

[12, 12, 12]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [43]:
# 파이썬에 내장된 리스트와 중요한 차이점은 배열 슬라이스가 원본 배열의 뷰(view)라는 점이다.
# 즉, 데이터는 복사되지 않고 뷰에 대한 변경이 그대로 원본 배열에 반영된다는 의미이다.
# 에에 대한 예제로 먼저 arr 배열의 슬라이스를 생성해보자.
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [44]:
# arr_slice의 값을 변경하면 원래 배열인 arr의 값도 바뀌어 있음을 확인할 수 있다.
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [45]:
# 단순히 [:]로 슬라이스하면 배열의 모든 값에 할당된다.
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [46]:
# 넘파이는 대용량 데이터 처리를 염두에 두고 설계되었으므로 만약 넘파이가 데이터 복사를 남발한다면
# 성능과 메모리 문제에 마주치게 될 것이다.
# 만약 뷰가 아닌 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()로 명시적으로 배열을 복사해야 한다. 판다스도 마찬가지.

In [47]:
# 다차원 배열을 다룰 때 좀 더 많은 옵션이 있다.
# 2차원 배열에서 각 색인에 해당하는 원소는 스칼라 값이 아닌 1차원 배열이다.
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2d); print();
print(arr2d[2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[7 8 9]


In [48]:
# 따라서 개별 원소는 재귀적으로 접근해야 한다.
# 하지만 이는 매우 귀찮은 작업이므로 쉼표로 구분된 색인 리스트를 넘기면 된다.
# 다음 두 표현은 동일하다.
arr2d[0][2]

3

In [49]:
arr2d[0, 2]

3

In [50]:
L = [[1, 2, 3], [4, 5, 6]]    # 중첩 리스트
L

[[1, 2, 3], [4, 5, 6]]

In [51]:
L[0:1]

[[1, 2, 3]]

In [52]:
# 다차원 배열에서 마지막 색인을 생략하면 반환되는 객체는 상위 차원의 데이터를 모두 포함한 한 차원 낮은 ndarray 가 반환된다.
# 2 x 2 x 3 크기의 배열 arr3d가 있다고 가정하자.
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [53]:
# arr3d[0]은 2 x 3 크기의 배열이다.
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [54]:
# arr3d[0]에는 스칼라 값과 배열 모두 할당할 수 있다.
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [55]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [56]:
# 이런 방식으로 arr3d[1, 0]은 (1, 0)으로 색인되는 1차원 배열과 그 값을 반환한다.
arr3d[1, 0]

array([7, 8, 9])

In [57]:
# 이 표현은 다음처럼 두 번에 걸쳐 인덱싱한 결과와 동일하다.
x = arr3d[1]
print(x)
print(x[0])

[[ 7  8  9]
 [10 11 12]]
[7 8 9]


In [58]:
# 여기서 살펴본 선택된 배열의 부분집합은 모두 배열의 뷰를 반환한다는 점을 기억하자.
# 넘파이 배열의 다차원 색인 구문은 리스트의 리스트 같은 일반적인 파이썬 객체에서는 작동하지 않는다.

In [59]:
# 슬라이스로 선택하기
# 파이썬은 리스트 같은 1차원 객체처럼 ndarray도 익숙한 문법으로 슬라이싱할 수 있다.
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [60]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [61]:
# 앞서 살펴본 2차원 배열 arr2d를 생가해보자. 이 배열을 슬라이싱하는 방법은 조금 다르다.
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [62]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [63]:
# 첫 번째 축인 0번 축을 기준으로 슬라이싱되었다. 슬라이스는 축을 따라 선택 영역 내의 원소를 선택한다.
# arr2d[:2]는  arr2d의 시작부터 두 번째 행까지 선택하다는 뜻이다.
# 색인을 여러 개 넘겨서 다차원을 슬라이싱할 수도 있다.
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [64]:
t = (10,)
type(t)

tuple

In [65]:
# 이렇게 슬라이싱하면 항상 동일한 차원의 배열 뷰를 얻게 된다.
# 정수 색인과 슬라이스를 함께 사용하면 한 차원 낮은 슬라이스를 얻을 수 있다.
# 예를 들어 두 번째 행의 처음 두 열만 선택하고 싶다면 다음과 같이 하면 된다.
lower_dim_slice = arr2d[1, :2]
lower_dim_slice

array([4, 5])

In [66]:
# 여기서 arr2d는 2차원 배열이지만 lower_dim_slice는 1차원이고 축 크기가 하나인 튜플 모양이다.
lower_dim_slice.shape

(2,)

In [67]:
# 이와 유사하게 처음 두 행에서 세 번째 열만 선택하고 싶다면 다음처럼 할 수 있다.
arr2d[:2, 2]

array([3, 6])

In [68]:
# 열만 사용하면 전체 축을 선택한다는 의미이므로 원래 차원의 슬라이스를 얻게 된다.
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [69]:
# 슬라이싱 구문에 값을 대입하면 선택 영역 전체에 값이 할당된다.
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 불리언 값으로 선택하기

In [70]:
# 다음과 같이 데이터를 가진 배열이 있고, 이름이 중복된 배열이 있다.
names = np.array(['Bob', 'Joe', 'Wil', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])

In [71]:
print(names.shape)
print(data.shape)

(7,)
(7, 2)


In [72]:
print(names)
print(data)

['Bob' 'Joe' 'Wil' 'Bob' 'Will' 'Joe' 'Joe']
[[  4   7]
 [  0   2]
 [ -5   6]
 [  0   0]
 [  1   2]
 [-12  -4]
 [  3   4]]


In [73]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [74]:
# 각 이름은 data 배열의 각 행에 대응한다고 자정하자.
# 만약 전체 행에서 'Bob'과 동일한 이름을 선택하려면 산술 연산과 마찬가지로 배열에 대한 비교 연산(== 같은)도 벡터화된다.
# 따라서 names를 'Bob' 문자열과 비교하면 불리언 배열이 반환된다.
print(names)
print(names == 'Bob')

['Bob' 'Joe' 'Wil' 'Bob' 'Will' 'Joe' 'Joe']
[ True False False  True False False False]


In [75]:
# 불리언 배열은 배열의 색인으로 사용할 수 있다.
print(data)
print(data[True, False, False, True, False, False, False])

[[  4   7]
 [  0   2]
 [ -5   6]
 [  0   0]
 [  1   2]
 [-12  -4]
 [  3   4]]
[]


In [76]:
# 불리언 배열은 반드시 색인하려믄 축의 길이와 길이가 동일해야 한다.
# 심지어 불리언 배열을 슬라이스나 정수를 선택하는 데 짜 맞출 수도 있다.
# 다음 예제에서 names == 'Bob' 행에서 색인과 열을 함께 선택했다.
data[names == 'Bob', 1:]

array([[7],
       [0]])

In [77]:
# 'Bob'이 아닌 항목을 모두 선택하려면 != 연산자를 사용하거나 ~를 사용해서 조건부를 부인하면 된다.
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [78]:
~(names == 'Bob')

array([False,  True,  True, False,  True,  True,  True])

In [79]:
data[~(names == 'Bob')]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [80]:
# ~ 연산자는 변수가 참조하는 불리언 배열을 뒤집고 싶을 때 유용하다.
cond = names == 'Bob'
cond

array([ True, False, False,  True, False, False, False])

In [81]:
data[~cond]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [82]:
# 세 가지 이름 중에서 두 가지 이름을 선택하려면 &(and)와 |(or) 같은 논리 연산자를 사용해 여러 개의 불리언 조건을 사용하면 된다.
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False, False,  True,  True, False, False])

In [83]:
data[mask]

array([[4, 7],
       [0, 0],
       [1, 2]])

In [84]:
# 불리언 색인을 이용해 배열의 데이터를 선택하면 반환되는 배열의 내용이 바뀌지 않더라도 항상 데이터 복사가 발생한다.
# 파이썬 예약어인 and와 or는 불리언 배열에서 사용할 수 없다. &와 |를 대신 사용하자.

In [85]:
# 불리언 배열에 값을 대입하면 오른쪽에 있는 값을 불리언 배열의 값이 True인 위치로 대체하여 작동한다.
# data에 저장된 모든 음수를 0으로 대입하려면 다음과 같이 수행한다.
data[data < 0] = 0
data

array([[4, 7],
       [0, 2],
       [0, 6],
       [0, 0],
       [1, 2],
       [0, 0],
       [3, 4]])

In [86]:
# 1차원 불리언 배열을 사용해 전체 행이나 열의 값을 대입할 수 있다.
data[names != 'Joe'] = 7
data

array([[7, 7],
       [0, 2],
       [7, 7],
       [7, 7],
       [7, 7],
       [0, 0],
       [3, 4]])

In [87]:
# 2차원 데이터의 위와 같은 연산은 판다스에서 처리하는 것이 편리하다.

### 팬시 색인
- 팬시 색인(fancy indexing)은 정수 배열을 사용한 색인을 설명하기 위해 넘파이에서 차용한 단어다.

In [130]:
# 8 x 4 크기의 배열이 있다고 가정하자.
arr = np.zeros((8, 4))

for i in range(8):
    arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [131]:
# 특정한 순서로 행의 하위집합을 선택하고 싶다면 원하는 순서가 명시된 정수가 담긴 ndarray나 리스트를 넘기면 된다.
inds = [4, 3, 0, 6]
arr[inds]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [132]:
# 색인으로 음수를 사용하면 끝에서부터 행을 선택한다.
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [133]:
# 다차원 색인 배열을 넘기면 조금 다르게 작동한다.
# 각 색인 튜플에 대응하는 1차원 배열이 선택된다.
import numpy as np
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [134]:
arr[[1, 5, 7, 2]]

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

In [135]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [136]:
# [ arr[1][0], arr[5][3], arr[7][1], arr[2][2] ]
list( [arr[1][0], arr[5][3], arr[7][1], arr[2][2]] )

[4, 23, 29, 10]

In [137]:
# 결과를 살펴보면 (1, 0), (5, 3), (7, 1), (2, 2)에 대응하는 원소가 선택되었다.
# 배열이 몇 차원이든지(여기서는 2차원) 팬시 색인의 결과는 항상 1차원이다.
# 즉, 행렬의 행과 열에 대응하는 사각형 모양의 값이 선택되기를 기대했지만, 팬시 색인이 예상과 조금 다르게 작동했다.
# 우리가 예상한 것처럼 만들려면 아래처럼 수행하면된다.
print( arr[[1, 5, 7, 2]] ); print();
print( arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] )

[[ 4  5  6  7]
 [20 21 22 23]
 [28 29 30 31]
 [ 8  9 10 11]]

[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


In [138]:
# 팬시 색인은 슬라이싱과 달리 선택된 데이터를 새로운 배열로 복사한다.
# 팬시 색인으로 값을 대입하면 색인된 값이 변경된다.
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [139]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]] = 0
arr

array([[ 0,  1,  2,  3],
       [ 0,  5,  6,  7],
       [ 8,  9,  0, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22,  0],
       [24, 25, 26, 27],
       [28,  0, 30, 31]])

### 배열 전치와 축 바꾸기
- 배열 전치(transpose)는 데이터를 복사하지 않고 데이터의 모양이 바뀐 뷰를 반환하는 특별한 기능이다.
- adarray는 transpose 메서드와 T 라는 이름의 특수한 속성을 갖는다.

In [140]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [141]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [142]:
# 행렬을 계산할 때 자주 사용하게 될 행렬의 내적은 numpy.dot을 이용해서 구한다.
arr = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0, -1],
       [ 1,  0,  1]])

In [143]:
arr.T

array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2, -1,  1]])

In [144]:
np.dot(arr.T, arr)

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [145]:
# @ 연산자는 행렬 곱셈을 수행하는 또 다른 방법이다.
arr.T @ arr

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [146]:
# .T 속성을 이용하는 간단한 전치는 축을 뒤바꾸는 특별한 경우다.
# ndarray에는 swqapaxes라는 메서드를 통해 두 개의 축 번호를 받아서 배열을 뒤바꾼다.
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0, -1],
       [ 1,  0,  1]])

In [147]:
arr.swapaxes(0, 1)

array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2, -1,  1]])

### 난수 생성
- numpy.random 모듈은 파이썬 내장 random 모듈을 보강해 다양한 종류의 확률분표로부터 효과적으로 표본값을 생성하는 데 주로 사용한다.
- 예를 들어 numpy.random.standard_normal을 사용해 표준정규분포부터 4 x 4 크기의 표본을 생성할 수 있다.

In [148]:
samples = np.random.standard_normal(size=(4, 4))
samples

array([[-0.21292498, -1.21382128,  0.29312805,  0.17933255],
       [ 0.37749971, -0.64293055, -0.00832483, -0.42482147],
       [ 1.26235717,  2.54094677,  0.60252511,  2.38505515],
       [-0.55773314, -0.21479391, -0.97294481,  1.03896046]])

In [149]:
samples2 = np.random.randn(4, 4)
samples2

array([[-0.71735303, -0.81838152,  1.32131802, -0.19363622],
       [-1.07169059,  1.95446753,  0.22043696, -0.33957223],
       [-0.96281082,  0.99249895, -0.01128012, -0.12845475],
       [ 0.1037864 ,  0.26082188, -0.53136888, -0.78654627]])

In [150]:
# 이와 대조적으로 파있너 내장 random 모듈은 한 번에 하나의 값만 생성한다.
# 다음 성능 비교에서 확인할 수 있듯이 numpy.random은 매우 큰 표본을 생성하지만 파이썬 내장 모듈보다 수십배 이상 빠르다.
from random import normalvariate

N = 1_000_000

%timeit samples = [normalvariate(0, 1) for _ in range(N)]

764 ms ± 7.95 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [151]:
%timeit np.random.standard_normal(N)

21.5 ms ± 567 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [152]:
# 난수는 엄밀하게 말하자면 진정한 난수가 아니며 유사난수(pseudorandom)라고 부른다.
# 난수 생성기의 시드(seed) 값에 따라 정해진 난수를 알고리듬으로 생성하기 때문이다.
# numpy.random.standard_normal 같은 함수는 numpy.random 모듈의 기본 난수 생성기를 사용하지만
# 사용할 생성기를 명시적으로 설정할 수 있다.
rng = np.random.default_rng(seed=12345)
data = rng.standard_normal((2, 3))
data

array([[-1.42382504,  1.26372846, -0.87066174],
       [-0.25917323, -0.07534331, -0.74088465]])

In [153]:
# seed 인수는 난수 생성기의 초기 상태를 결정하며 rng 객체가 데이터를 생성할 때마다 상태가 변경된다.
# 생성기 객체인 rng는 numpy.random 모듈을 사용할 수 있는 다른 코드와도 분리되어 있다.
type(rng)

numpy.random._generator.Generator

### 유니버설 함수: 배열의 각 원소를 빠르게 처리하는 함수
- ufunc라고도 부르는 유니버설(universal) 함수는 ndarray 안의 데이터 원소별로 연산을 수행하는 함수다.
- 유니버설 함수는 하나 이상의 스칼라 값을 받아서 하나 이상의 스칼라 결과값을 반환하는
- 간단한 함수를 빠르게 수행하는 벡터화된 래퍼 함수라고 생각하면 된다.

In [154]:
# 많은 ufunc는 numpy.sqrt나 numpy.exp 같은 간단한 변경을 전체 원소에 적용할 수 있다.
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [155]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [156]:
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [157]:
# 위의 두 함수들은 단항(unary) 유니버설 함수다.
# numpy.add나 numpy.maximum 처럼 2개의 매개변수를 취해서 단일 배열을 반환하는 함수는 이항(binary) 유니버설 함수다.
x = rng.standard_normal(8)
y = rng.standard_normal(8)
x

array([-1.3677927 ,  0.6488928 ,  0.36105811, -1.95286306,  2.34740965,
        0.96849691, -0.75938718,  0.90219827])

In [158]:
y

array([-0.46695317, -0.06068952,  0.78884434, -1.25666813,  0.57585751,
        1.39897899,  1.32229806, -0.29969852])

In [159]:
np.maximum(x, y)

array([-0.46695317,  0.6488928 ,  0.78884434, -1.25666813,  2.34740965,
        1.39897899,  1.32229806,  0.90219827])

In [160]:
# 위 예제에서 mumpy.maximum은 x와 y의 원소별로 가장 큰 값을 계산한다.
# 여러 개의 배열을 반환하는 유니버설 함수도 있다.
# numpy.modf는 파이썬 내장 함수인 math.modf의 벡터화 버전이며 분수를 받아서 몫과 나머지를 함께 반환한다.
arr = rng.standard_normal(7) * 5
arr

array([ 4.51459671, -8.10791367, -0.7909463 ,  2.24741966, -6.71800536,
       -0.40843795,  8.62369966])

In [161]:
remainder, whole_part = np.modf(arr)
remainder

array([ 0.51459671, -0.10791367, -0.7909463 ,  0.24741966, -0.71800536,
       -0.40843795,  0.62369966])

In [162]:
whole_part

array([ 4., -8., -0.,  2., -6., -0.,  8.])

In [163]:
# 유니버설 함수는 선택적으로 out 인수를 사용해 계산 결과를 새로운 배열로 만들지 않고 기존 배열에 할다할 수도 있다.
arr

array([ 4.51459671, -8.10791367, -0.7909463 ,  2.24741966, -6.71800536,
       -0.40843795,  8.62369966])

In [164]:
out = np.zeros_like(arr)
np.add(arr, 1)

array([ 5.51459671, -7.10791367,  0.2090537 ,  3.24741966, -5.71800536,
        0.59156205,  9.62369966])

In [165]:
np.add(arr, 1, out=out)

array([ 5.51459671, -7.10791367,  0.2090537 ,  3.24741966, -5.71800536,
        0.59156205,  9.62369966])

In [166]:
out

array([ 5.51459671, -7.10791367,  0.2090537 ,  3.24741966, -5.71800536,
        0.59156205,  9.62369966])

### Pandas에서 누락된 데이터
---

In [167]:
# None: 센티널 값
import numpy as np
import pandas as pd

In [168]:
vals1 = np.array([1, None, 2, 3])
vals1

array([1, None, 2, 3], dtype=object)

In [169]:
%timeit np.arange(1E6, dtype=int).sum()

1.4 ms ± 13 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [170]:
timeit np.arange(1E6, dtype=object).sum()

47.8 ms ± 229 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [171]:
vals1.sum()

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [None]:
vals1.min()

In [None]:
# NaN: 누락된 숫자 데이터
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

In [None]:
1 + np.nan

In [None]:
0 * np.nan

In [None]:
vals2.sum(), vals2.min(), vals2.max()

In [None]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

In [None]:
# Panda에서 Nan과 None
pd.Series([1, np.nan, 2, None])

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

In [None]:
# Pandas의 널러블(Nullable) 데이터 타입
pd.Series([1, np.nan, 2, None, pd.NA])

In [None]:
# Pandas의 널러블(Nullable) 데이터 타입
pd.Series([1, np.nan, 2, None, pd.NA], dtype='Int32')

### Pandas 누락된 데이터 처리
- 결측값(missing value) : 값(숫자, 문자열 등)이 있어야 할 곳에 값이 존재하지 않는 것을 의미
- NaN : Not a Number, 숫자 형태의 누락된 데이터(결측값 표현-NumPy)
- None : 파이썬에서 누락된 데이터(결측값 표현-Pandas)
- NA : Not Available, 누락된 데이터(결측값 표현, NaN, None), 다른 언어에서는 Null로 표현

In [195]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [196]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [197]:
data.notnull()    # 결측값이 아닌 것

0     True
1    False
2     True
3    False
dtype: bool

In [198]:
data[ data.notnull() ]    # 결측값이 아닌 것 추출

0        1
2    hello
dtype: object

In [199]:
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [200]:
data.dropna()

0        1
2    hello
dtype: object

In [201]:
df = pd.DataFrame( [[1, np.nan, 2],
                   [2, 3, 5],
                   [np.nan, 4, 6]] )
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [202]:
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [203]:
df.dropna()        # 행 삭제

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [204]:
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [205]:
df.dropna(axis='columns')   # 열 삭제

Unnamed: 0,2
0,2
1,5
2,6


In [206]:
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [207]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [208]:
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [209]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [210]:
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


In [211]:
# 널 값 채우기
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [212]:
data.fillna(1000)

a       1.0
b    1000.0
c       2.0
d    1000.0
e       3.0
dtype: float64

In [213]:
data.fillna(method='ffill')

  data.fillna(method='ffill')


a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [214]:
data.ffill()

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [215]:
data.fillna(method='bfill')

  data.fillna(method='bfill')


a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [216]:
data.bfill()

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [217]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [218]:
df.ffill()

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,2.0,4.0,6,


In [219]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [220]:
df.ffill(axis='columns')

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


In [221]:
# 다중 인덱스된 Series

In [222]:
# 나쁜 방식
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]

population = [33871648, 37253956,
              18976457, 19378102,
              20851820, 25145561]

pop = pd.Series(population, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [223]:
pop[('California', 2000):('Texas', 2000)]

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

In [224]:
pop.index

Index([('California', 2000), ('California', 2010),   ('New York', 2000),
         ('New York', 2010),      ('Texas', 2000),      ('Texas', 2010)],
      dtype='object')

In [225]:
pop.index[1]

('California', 2010)

In [226]:
pop.index[1][1]

2010

In [227]:
pop[ [i                          # pop['...']
      for i in pop.index 
      if i[1] == 2010] ]

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

In [228]:
# 더 나은 방식: Pandas MultiIndex
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [229]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [230]:
pop[:, 2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

In [231]:
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [232]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [233]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [234]:
pop_df = pd.DataFrame( {'total': pop,
                        'under18': [9267089, 9284094,
                                    4687374, 4318033,
                                    5906301, 6879014]} )

pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [235]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18

California  2000    0.273594
            2010    0.249211
New York    2000    0.247010
            2010    0.222831
Texas       2000    0.283251
            2010    0.273568
dtype: float64

In [236]:
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


In [237]:
# 명시적 MultiIndex 생성자
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [238]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('d', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('d', 2)],
           )

In [239]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [240]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              codes=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [241]:
# MultiIndex 레벨 이름
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [242]:
# 열의 MultiIndex
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]], names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 19
data += 37

health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,37.0,36.4,52.2,36.9,46.5,37.5
2013,2,50.3,37.9,50.3,38.0,29.4,37.9
2014,1,44.6,35.5,69.3,37.4,42.7,36.7
2014,2,14.2,36.5,23.7,39.2,27.5,36.0


In [243]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,52.2,36.9
2013,2,50.3,38.0
2014,1,69.3,37.4
2014,2,23.7,39.2


In [244]:
# 다중 인덱스를 가진 Series
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [245]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [246]:
pop['California', 2000]

33871648

In [247]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [248]:
pop['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [249]:
pop[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [250]:
pop > 22000000

state       year
California  2000     True
            2010     True
New York    2000    False
            2010    False
Texas       2000    False
            2010     True
dtype: bool

In [251]:
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [252]:
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

In [253]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,37.0,36.4,52.2,36.9,46.5,37.5
2013,2,50.3,37.9,50.3,38.0,29.4,37.9
2014,1,44.6,35.5,69.3,37.4,42.7,36.7
2014,2,14.2,36.5,23.7,39.2,27.5,36.0


In [254]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,52.2,36.9
2013,2,50.3,38.0
2014,1,69.3,37.4
2014,2,23.7,39.2


In [255]:
health_data['Guido', 'HR']

year  visit
2013  1        52.2
      2        50.3
2014  1        69.3
      2        23.7
Name: (Guido, HR), dtype: float64

In [256]:
health_data['Guido', 'HR'].unstack()

visit,1,2
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,52.2,50.3
2014,69.3,23.7


In [257]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,37.0,36.4,52.2,36.9,46.5,37.5
2013,2,50.3,37.9,50.3,38.0,29.4,37.9
2014,1,44.6,35.5,69.3,37.4,42.7,36.7
2014,2,14.2,36.5,23.7,39.2,27.5,36.0


In [258]:
health_data.iloc[0]

subject  type
Bob      HR      37.0
         Temp    36.4
Guido    HR      52.2
         Temp    36.9
Sue      HR      46.5
         Temp    37.5
Name: (2013, 1), dtype: float64

In [259]:
health_data.iloc[0].unstack()

type,HR,Temp
subject,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,37.0,36.4
Guido,52.2,36.9
Sue,46.5,37.5


In [260]:
health_data.iloc[:2, :2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,37.0,36.4
2013,2,50.3,37.9


In [261]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        37.0
      2        50.3
2014  1        44.6
      2        14.2
Name: (Bob, HR), dtype: float64

In [262]:
health_data.loc[(:, 1), (:, 'HR')]

SyntaxError: invalid syntax (3311942670.py, line 1)

In [263]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,37.0,52.2,46.5
2014,1,44.6,69.3,42.7


In [264]:
# 정렬된 인덱스와 정렬되지 않은 인덱스
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.944086
      2      0.760801
c     1      0.611471
      2      0.601967
b     1      0.234279
      2      0.462049
dtype: float64

In [265]:
data['a']

int
1    0.944086
2    0.760801
dtype: float64

In [266]:
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [267]:
data = data.sort_index()
data

char  int
a     1      0.944086
      2      0.760801
b     1      0.234279
      2      0.462049
c     1      0.611471
      2      0.601967
dtype: float64

In [268]:
data['a':'b']

char  int
a     1      0.944086
      2      0.760801
b     1      0.234279
      2      0.462049
dtype: float64

In [269]:
# 인덱스 스태킹, 언스태킹
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [270]:
pop.unstack()

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [271]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [272]:
pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [273]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [274]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [275]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


In [276]:
pop_flat.set_index(['state', 'population'])

Unnamed: 0_level_0,Unnamed: 1_level_0,year
state,population,Unnamed: 2_level_1
California,33871648,2000
California,37253956,2010
New York,18976457,2000
New York,19378102,2010
Texas,20851820,2000
Texas,25145561,2010


### 데이터세트 결합: Concat과 Append
---

In [297]:
import numpy as np
import pandas as pd

In [298]:
def make_df(cols, ind):
    '''빠르게 DataFrmae 생성'''
    data = {c: [str(c) + str(i) 
                for i in ind]
                    for c in cols}
    return pd.DataFrame(data, ind)

# DataFrame 예제
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [278]:
class display(object):
    '''Display HTML representation of multiple objects'''
    template = '''<div style='float': left; padding: 10px;'>
    <p style='font-family:'Courier New', Courier, monospace'>{0]{1}'''

    def __init__(self, *args):
        self.args = args
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
            for a in self.args)
    def __repr__(self):
        return '\n\n'.join(a + '\n' +repr(eval(a))
            for a in self.args)

In [279]:
# 복습: NumPy 배열 연결
x = [1, 2, 3]; y = [4, 5, 6]; z = [7, 8, 9];
np.concatenate( [x, y, z] )

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [280]:
x = [[1, 2], [3, 4]]
np.concatenate([x, x, x])

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

In [281]:
x = [[1, 2], [3, 4]]
np.concatenate([x, x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [282]:
# pd.concat을 이용한 간단한 연결
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat( [ser1, ser2] )

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [283]:
pd.concat( [ser2, ser1] )

4    D
5    E
6    F
1    A
2    B
3    C
dtype: object

In [284]:
pd.concat( [ser1, ser2], axis=1 )

Unnamed: 0,0,1
1,A,
2,B,
3,C,
4,,D
5,,E
6,,F


In [285]:
ser1 = pd.Series(['A', 'B', 'C'])
ser2 = pd.Series(['D', 'E', 'F'])
pd.concat( [ser1, ser2] )

0    A
1    B
2    C
0    D
1    E
2    F
dtype: object

In [286]:
pd.concat( [ser1, ser2], axis=1 )

Unnamed: 0,0,1
0,A,D
1,B,E
2,C,F


In [299]:
df1 = make_df('AB', [0, 1])
df2 = make_df('AB', [2, 3])

print(df1); print(df2); print(pd.concat([df1, df2]));

    A   B
0  A0  B0
1  A1  B1
    A   B
2  A2  B2
3  A3  B3
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [288]:
df1 = make_df('AB', [0, 1])
df2 = make_df('AB', [2, 3])
df2.index = df1.index
print(df1); print(df2); print(pd.concat([df1, df2]));

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [289]:
# 반복(인덱스)을 에러로 잡아낸다
try:
    pd.concat([df1, df2], verify_integrity=True)
except ValueError as e:
    print('ValueError:', e)

ValueError: Indexes have overlapping values: Index([0, 1], dtype='int64')


In [290]:
df1 = make_df('AB', [0, 1])
df2 = make_df('AB', [2, 3])
df2.index = df1.index
print(df1); print(df2); print(pd.concat([df1, df2], ignore_index=True));

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [291]:
df1 = make_df('AB', [0, 1])
df2 = make_df('AB', [2, 3])
df2.index = df1.index
print(df1); print(df2); print(pd.concat([df1, df2], keys=['cat', 'dog']));

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
        A   B
cat 0  A0  B0
    1  A1  B1
dog 0  A2  B2
    1  A3  B3


In [292]:
# 조인을 이용한 연결
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])

print(df5); print(df6); print(pd.concat([df5, df6]));

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [293]:
print(df5); print(df6); 
print(pd.concat([df5, df6], join='inner'));

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [294]:
print(df5); print(df6); 
print(pd.concat([df5, df6], join_axes=[df5.columns]));

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4


TypeError: concat() got an unexpected keyword argument 'join_axes'

In [295]:
df5.columns

Index(['A', 'B', 'C'], dtype='object')

In [296]:
print(pd.concat([df5, df6]));

     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [304]:
# append() 메서드 P.167
print(df1); print(df2); print(pd.concat([df1, df2]))

    A   B
0  A0  B0
1  A1  B1
    A   B
2  A2  B2
3  A3  B3
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [305]:
# append() 메서드 P.167
print(df1); print(df2); print(df1.append(df2))

    A   B
0  A0  B0
1  A1  B1
    A   B
2  A2  B2
3  A3  B3


AttributeError: 'DataFrame' object has no attribute 'append'

### 데이터세트 결합하기: 병합과 조인
---

In [306]:
class display(object):
    template = '''<div style='float: left; padding: 10px;'>
    <p style='font-family:'Courier New', Courier, monospace'>{0}{1}
    '''

    def __init__(self, *args):
        self.args = arags
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

In [307]:
# 일대일 조인
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})

print(df1); print(df2);

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [309]:
pd.concat([df1, df2])

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,
1,Jake,Engineering,
2,Lisa,Engineering,
3,Sue,HR,
0,Lisa,,2004.0
1,Bob,,2008.0
2,Jake,,2012.0
3,Sue,,2014.0


In [310]:
pd.concat([df1, df2], axis='columns')

Unnamed: 0,employee,group,employee.1,hire_date
0,Bob,Accounting,Lisa,2004
1,Jake,Engineering,Bob,2008
2,Lisa,Engineering,Jake,2012
3,Sue,HR,Sue,2014


In [313]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [315]:
# 다대일 조인
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})

print(df3); print(df4); print(pd.merge(df3, df4))

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve
  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


In [317]:
# 다대다 조인
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})

print(df1); print(df5); print(pd.merge(df1, df5))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization
  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


In [318]:
# 병합 키 지정
# on 키워드
print(df1); print(df2); print(pd.merge(df1, df2, on='employee'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [319]:
print(df1); print(df2); print(pd.merge(df1, df2))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [320]:
print(df1); print(df2); print(pd.merge(df2, df1))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee  hire_date        group
0     Lisa       2004  Engineering
1      Bob       2008   Accounting
2     Jake       2012  Engineering
3      Sue       2014           HR


In [325]:
# left_on과 right_on 키워드
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 
                    'salary': [70000, 80000, 120000, 90000]})

print(df1); print(df3); print(pd.merge(df1, df3))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000


MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [322]:
# left_on과 right_on 키워드
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 
                    'salary': [70000, 80000, 120000, 90000]})

print(df1); print(df3); print(pd.merge(df1, df3, left_on='employee', right_on='name'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa  120000
3      Sue           HR   Sue   90000


In [324]:
pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis='columns')

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [327]:
help(pd.merge)

Help on function merge in module pandas.core.reshape.merge:

merge(left: 'DataFrame | Series', right: 'DataFrame | Series', how: 'MergeHow' = 'inner', on: 'IndexLabel | None' = None, left_on: 'IndexLabel | None' = None, right_on: 'IndexLabel | None' = None, left_index: 'bool' = False, right_index: 'bool' = False, sort: 'bool' = False, suffixes: 'Suffixes' = ('_x', '_y'), copy: 'bool | None' = None, indicator: 'str | bool' = False, validate: 'str | None' = None) -> 'DataFrame'
    Merge DataFrame or named Series objects with a database-style join.
    
    A named Series object is treated as a DataFrame with a single named column.
    
    The join is done on columns or indexes. If joining columns on
    columns, the DataFrame indexes *will be ignored*. Otherwise if joining indexes
    on indexes or indexes on a column or columns, the index will be passed on.
    When performing a cross merge, no column specifications to merge on are
    allowed.
    
    
        If both key columns co

In [333]:
print(df1); print(df2);

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [328]:
# left_index와 right_index 키워드
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')

print(df1a); print(df2a);

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014


In [330]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [331]:
pd.merge(df1a, df2a)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [334]:
print(df1a); print(df2a); print(df1a.join(df2a))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [335]:
print(df1a); print(df2a); print(df2a.join(df1a))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
          hire_date        group
employee                        
Lisa           2004  Engineering
Bob            2008   Accounting
Jake           2012  Engineering
Sue            2014           HR


In [339]:
print(df1); print(df2); print(df1.join(df2))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


ValueError: columns overlap but no suffix specified: Index(['employee'], dtype='object')

In [338]:
print(df1a); print(df3); print(pd.merge(df1a, df3, left_index=True, right_on='name'))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
         group  name  salary
0   Accounting   Bob   70000
1  Engineering  Jake   80000
2  Engineering  Lisa  120000
3           HR   Sue   90000


In [350]:
# 조인을 위한 집합 연산 지정하기
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'], 'food': ['fish', 'beans', 'bread']})
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'], 'drink': ['wine', 'beer']})

print(df6); print(); print(df7); print(); print(pd.merge(df6, df7))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread

     name drink
0    Mary  wine
1  Joseph  beer

   name   food drink
0  Mary  bread  wine


In [345]:
pd.merge(df6, df7, how='inner')   # 교집합

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [346]:
pd.merge(df6, df7, how='outer')   # 합집합

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [351]:
print(df6); print(); print(df7); print(); print(pd.merge(df6, df7, how='left'))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread

     name drink
0    Mary  wine
1  Joseph  beer

    name   food drink
0  Peter   fish   NaN
1   Paul  beans   NaN
2   Mary  bread  wine


In [352]:
print(df6); print(); print(df7); print(); print(pd.merge(df6, df7, how='right'))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread

     name drink
0    Mary  wine
1  Joseph  beer

     name   food drink
0    Mary  bread  wine
1  Joseph    NaN  beer


In [360]:
# 열 이름이 겹치는 경우: suffixes 키워드
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'rank': [3, 1, 4, 2]})

print(df8); print(df9); print(pd.merge(df8, df9, on='name'))

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_x  rank_y
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


In [362]:
print(df8); print(df9); print(pd.merge(df8, df9, on='name', suffixes=['_왼', '_오']))

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_왼  rank_오
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2
