### __배열 축 바꾸기__

다차원 array 생성
    - array.T
    - array.transpose()

In [1]:
import numpy as np
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [143]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [144]:
arr.transpose()

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

### __리스트와의 차이점__
    - 리스트보다 훨씬 간결하다!

In [3]:
xarr = np.array([1, 2, 3, 4, 5])

In [4]:
yarr = np.array([1000, 2000, 2000, 2000, 2000])

In [6]:
condition = np.array([True, False, True, True, False])

In [7]:
cond

array([ True, False,  True,  True, False])

#### 순수 파이썬 문제점

- 큰 배열 빠르게 처리 불가
- 다차원 배열 사용 불가

In [8]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]

In [9]:
result

[1, 2000, 3, 4, 2000]

#### numpy.where 
    - numpy.where(조건, 참값, 거짓값)
    - 조건이 True일 때 참값이 실행되며, 조건이 False일 때 거짓값이 실행
    - 참값과 거짓값 인수의 형태는 ndarray가 아니어도 괜찮다(list, 상수, ...)

In [10]:
result = np.where(condition, xarr, yarr)

In [12]:
result

array([   1, 2000,    3,    4, 2000])

#### numpy.random
    - 임의의 값을 할당하기 위한 메서드

In [13]:
arr = np.random.randn(4, 4)

In [14]:
arr

array([[-0.18147824, -0.01693398, -1.67484628, -0.56818387],
       [ 0.89026647,  1.65941307, -0.71378119, -0.38467894],
       [ 1.03517673,  0.4759792 ,  1.31914164, -1.23920886],
       [ 0.90248042,  0.56315833, -0.08107466, -0.17695243]])

In [15]:
np.where(arr > 0, 2, -2)

array([[-2, -2, -2, -2],
       [ 2,  2, -2, -2],
       [ 2,  2,  2, -2],
       [ 2,  2, -2, -2]])

In [16]:
np.where(arr > 0, 2, arr)

array([[-0.18147824, -0.01693398, -1.67484628, -0.56818387],
       [ 2.        ,  2.        , -0.71378119, -0.38467894],
       [ 2.        ,  2.        ,  2.        , -1.23920886],
       [ 2.        ,  2.        , -0.08107466, -0.17695243]])

### __수학 & 통계 메서드__
    - mean
    - sum

In [17]:
arr = np.random.randn(5, 4)

In [18]:
arr

array([[-0.39438186,  1.01805001,  0.18431752, -0.34205295],
       [-0.28821158, -0.68921104,  1.02820947, -2.37041557],
       [-1.20019136, -0.73510881,  0.63286954,  0.52575974],
       [-0.45005123,  1.2725125 ,  0.14865691, -0.50988832],
       [-0.01894872, -1.16973699, -0.30844332, -0.94241151]])

In [19]:
arr.mean()

-0.2304338773290031

In [20]:
np.mean(arr)

-0.2304338773290031

In [21]:
arr.sum()

-4.608677546580062

mean과 sum은 축을 지정할 수 있다
    - axis = 1 : 행으로 계산
    - axis = 0 : 열로 계산

In [22]:
arr.mean(axis=1)

array([ 0.11648318, -0.57990718, -0.19416772,  0.11530747, -0.60988513])

In [23]:
# axis 인자를 넘긴 것과 넘기지 않은 것의 결과값이 같다.
arr.sum(axis=0)

array([-2.35178474, -0.30349433,  1.68561012, -3.6390086 ])

In [24]:
arr.sum(0)

array([-2.35178474, -0.30349433,  1.68561012, -3.6390086 ])

In [25]:
arr.sum(axis=1)

array([ 0.46593272, -2.31962871, -0.77667088,  0.46122986, -2.43954053])

In [26]:
arr.sum(1)

array([ 0.46593272, -2.31962871, -0.77667088,  0.46122986, -2.43954053])

### __불리언 메서드__
    - True : 1, False : 0 으로 할당 됨
    - sum을 하게 되면 True의 수를 알 수 있음
    - any(): 하나 이상의 True값 검사
    - all(): 모든 원소가 True인지 검사

In [35]:
arr = np.random.randn(100)
arr

array([ 1.70535537, -1.01619315,  0.19988377, -1.16200648,  0.79598022,
       -2.37762733,  0.57851405, -0.88577138, -0.3173421 ,  1.76024019,
        0.60521247,  0.66754565,  0.16766856,  0.93320677, -0.06344693,
       -0.97782996,  0.13932899, -1.3679395 , -0.51924741,  1.4504034 ,
        0.37776532,  0.69519744,  0.29629589, -0.1111719 , -1.07894097,
       -0.21268891,  0.21091171, -0.94026448, -0.84427856,  0.2885446 ,
        0.83244184,  0.08424877, -0.47670794,  0.04742912,  0.84884744,
        0.55491099, -0.0924403 ,  0.31012379,  0.96679084,  1.18352665,
       -0.08915664,  1.70000955,  0.41640425,  1.30004536,  1.48620868,
        0.7088457 , -0.26323223,  0.07548725,  0.72930611,  0.46863062,
       -0.78995775, -0.03199214, -0.07000134,  0.88510628,  0.29488816,
        1.78972708,  0.88233911, -0.70780042, -1.55559086, -1.28638384,
        0.3676214 ,  1.18245872,  0.88897266, -0.28175258,  1.80355704,
        0.56133189, -1.0619592 ,  1.40857449,  0.6697191 , -2.53

In [36]:
(arr > 0).sum()

58

In [37]:
conditions = np.array([False, False, True, False])

In [38]:
conditions.any()

True

In [39]:
conditions.all()

False

In [40]:
bools = np.array([True, True, True, True])

In [41]:
bools.any()

True

In [42]:
bools.all()

True

### __정렬__
    - sort()

In [58]:
arr = np.random.randn(8)

In [59]:
arr

array([ 0.8557136 , -0.61827667,  0.56301157, -1.11269379,  0.15597147,
       -1.42375269, -0.31564628,  0.01925893])

In [47]:
arr.sort()

In [49]:
arr

array([-0.6057902 , -0.5893776 ,  0.29832385,  0.3680541 ,  0.57287871,
        0.74696888,  0.97304327,  1.47601788])

In [62]:
arr[::-1].sort()

In [55]:
arr

array([ 1.47601788,  0.97304327,  0.74696888,  0.57287871,  0.3680541 ,
        0.29832385, -0.5893776 , -0.6057902 ])

#### 다차원 배열의 정렬은 sort 메서드에 넘긴 축의 값에 따라 1차원 부분 정렬

In [64]:
arr =  np.random.randn(5, 3)

In [65]:
arr

array([[ 0.3187949 ,  0.16438552,  0.1766644 ],
       [ 1.75622686, -0.0546645 , -0.47434712],
       [ 1.10625607, -1.04383456,  0.34960862],
       [-1.87399708,  0.46224405, -0.52836995],
       [-1.22386902,  0.55129914,  0.19065712]])

In [66]:
# row sort
arr.sort(1)

In [67]:
arr

array([[ 0.16438552,  0.1766644 ,  0.3187949 ],
       [-0.47434712, -0.0546645 ,  1.75622686],
       [-1.04383456,  0.34960862,  1.10625607],
       [-1.87399708, -0.52836995,  0.46224405],
       [-1.22386902,  0.19065712,  0.55129914]])

In [68]:
# column sort
arr.sort(0)

In [69]:
arr

array([[-1.87399708, -0.52836995,  0.3187949 ],
       [-1.22386902, -0.0546645 ,  0.46224405],
       [-1.04383456,  0.1766644 ,  0.55129914],
       [-0.47434712,  0.19065712,  1.10625607],
       [ 0.16438552,  0.34960862,  1.75622686]])

In [70]:
# row sort == arr.sort(1)
arr.sort()

In [71]:
arr

array([[-1.87399708, -0.52836995,  0.3187949 ],
       [-1.22386902, -0.0546645 ,  0.46224405],
       [-1.04383456,  0.1766644 ,  0.55129914],
       [-0.47434712,  0.19065712,  1.10625607],
       [ 0.16438552,  0.34960862,  1.75622686]])

### __집합 함수__

#### 배열 집합 연산

Method | Comment
--- |----
unique(x) | 배열 x에서 중복된 원소를 제거한 후 정렬하여 반환한다.
intersect1d(x, y) | 배열 x와 y에 공통적으로 존재하는 원소를 정렬하여 반환한다.
union1d(x, y) | 두 배열의 합집합을 반환한다.
in1d(x, y) | x의 원소 중 y의 원소를 포함하는지를 나타내는 불리언 배열을 반환한다.
setdiff1d(x, y) | x와 y의 차집합을 반환한다.
setxor1d(x, y) | 한 배열에는 포함되지만 두 배열 모두에는 포함되지 않는 원소들의 집합인 대칭차집합을 반환한다.

In [72]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [73]:
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [74]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])

In [75]:
np.unique(ints)

array([1, 2, 3, 4])

####순수 파이썬 구현

In [76]:
sorted(set(names))

['Bob', 'Joe', 'Will']

In [77]:
%timeit np.unique(names)

3.31 µs ± 83.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [78]:
%timeit sorted(set(names))

2.01 µs ± 15.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
