# array 관련 함수 사용하기
 
## 각 성분에 적용되는 함수
 
 
** numpy에서 한 개의 array의 각 성분에 적용되는 함수 정리**

- abs        : 각 성분의 절댓값 계산

- sqrt       : 각 성분의 제곱근 계산 (array ** 0.5 의 결과와 동일) 

- square     :각 성분의 제곱 계산 (array ** 2 의 결과와 동일) 

- exp        :각 성분을 무리수 e의 지수로 삼은 값을 계산 

- log, log10, log2    : 자연로그(밑이 e), 상용로그(밑이 10), 밑이 2인 로그를 계산 

- sign       :각 성분의 부호 계산 (+인 경우 1, -인 경우 -1, 0인 경우 0) 

- ceil       :각 성분의 소수 첫 번째 자리에서 올림한 값을 계산 

- floor      :각 성분의 소수 첫 번째 자리에서 내림한 값을 계산 

- isnan      :각 성분이 NaN(Not a Number)인 경우 True를, 그렇지 않은 경우 False를 반환 

- isinf      :각 성분이 무한대(infinity)인 경우 True를, 그렇지 않은 경우 False를 반환 

- cos, cosh, sin, sinh, tan, tanh    : 각 성분에 대한 삼각함수 값을 계산 


In [35]:
import numpy as np

In [36]:
arr = np.arange(1,10)

In [37]:
arr

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
np.square(arr)

array([ 1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

In [39]:
np.log10(arr)

array([ 0.        ,  0.30103   ,  0.47712125,  0.60205999,  0.69897   ,
        0.77815125,  0.84509804,  0.90308999,  0.95424251])

In [40]:
x = np.random.randn(8)
y = np.random.randn(8)

In [41]:
x

array([ 1.00361594, -0.93926972,  1.02171487,  0.70135733,  1.40277287,
        0.66000435, -0.55700724, -0.00630813])

In [42]:
y

array([ 1.47609645, -1.20379729, -1.07534692, -1.61808922, -0.2225007 ,
       -1.15396431,  0.24198625, -0.45052085])

In [43]:
#x 와 y의 위치값을 비교하여 maximum을 수행
np.maximum(x,y)

array([ 1.47609645, -0.93926972,  1.02171487,  0.70135733,  1.40277287,
        0.66000435,  0.24198625, -0.00630813])

** numpy에서 두 개의 array의 각 성분에 적용되는 함수 정리 **


- add         :                         두 array에서 동일한 위치의 성분끼리 더한 값을 계산 (arr1 + arr2의 결과와 동일) 

- subtract    :               두 array에서 동일한 위치의 성분끼리 뺀 값을 계산 (arr1 - arr2의 결과와 동일) 

- multiply    :              두 array에서 동일한 위치의 성분끼리 곱한 값을 계산 (arr1 * arr2의 결과와 동일) 

- divide      :             두 array에서 동일한 위치의 성분끼리 나눈 값을 계산 (arr1 / arr2의 결과와 동일) 

- maximum     :            두 array에서 동일한 위치의 성분끼리 비교하여 둘 중 최댓값을 반환 

- minimum     :           두 array에서 동일한 위치의 성분끼리 비교하여 둘 중 최솟값을 반환 


## 통계 함수
 
 
numpy의 array에 적용되는 통계 함수 정리

** numpy에서 array에 적용되는 통계함수 정리 **

- sum  :                     전체 성분의 합을 계산 

- mean  :                    전체 성분의 평균을 계산 

- std, var :                  전체 성분의 표준편차, 분산을 계산 

- min, max  :                전체 성분의 최솟값, 최댓값을 계산 

- argmin, argmax :            전체 성분의 최솟값, 최댓값이 위치한 인덱스를 반환 

- cumsum  :                   맨 첫번째 성분부터 각 성분까지의 누적합을 계산 (0에서부터 계속 더해짐) 

- cumprod  :                 맨 첫번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐) 

In [44]:
arr = np.random.randn(5,4)

In [45]:
arr

array([[-0.02918725, -0.60926701,  0.42322609,  1.4200465 ],
       [ 0.99209058,  1.9448833 ,  0.07778033,  0.19592971],
       [-0.09879754,  3.41631214, -0.08050296,  0.57988365],
       [ 0.6487635 , -0.72647959, -0.36809462,  1.46037492],
       [ 0.02267972, -1.96656152,  0.1041369 , -1.05143002]])

In [46]:
# 'arr' array의 모든 값에 대하여 sum을 수행
arr.sum()

6.3557868414336465

In [47]:
arr.mean()

0.3177893420716823

In [48]:
# 행방향으로 열 값들을 전체 sum을 수행 (각 열의 합을 구함)
arr.sum(axis=0)

array([ 1.53554902,  2.05888733,  0.15654574,  2.60480476])

In [49]:
# 열방향으로 행의 값들을 전체 sum을 수행 ( 각 행의 합을 구함)
arr.sum(axis=1)

array([ 1.20481834,  3.21068393,  3.81689529,  1.0145642 , -2.89117492])

In [50]:
# 조건부 연산
arr > 0

array([[False, False,  True,  True],
       [ True,  True,  True,  True],
       [False,  True, False,  True],
       [ True, False, False,  True],
       [ True, False,  True, False]], dtype=bool)

In [51]:
# True값 
(arr > 0).sum()

12

## 정렬 함수 및 기타 함수


In [52]:
arr = np.random.randn(8)

In [53]:
arr

array([-0.89586198, -2.1738823 ,  0.85250672, -0.94882067, -0.79086555,
        0.1988241 , -0.18247359, -1.01136384])

In [54]:
# 오름차순 정렬
np.sort(arr)

array([-2.1738823 , -1.01136384, -0.94882067, -0.89586198, -0.79086555,
       -0.18247359,  0.1988241 ,  0.85250672])

In [55]:
# 내림차순 정렬
np.sort(arr)[::-1]

array([ 0.85250672,  0.1988241 , -0.18247359, -0.79086555, -0.89586198,
       -0.94882067, -1.01136384, -2.1738823 ])

In [56]:
# 2차원 array 정렬
arr = np.random.randn(5,3)

In [57]:
arr

array([[ 0.1450054 ,  0.46572219, -0.7858127 ],
       [-0.29019684, -0.52600326, -0.06249059],
       [-0.20862485, -0.08037487, -0.81524624],
       [-0.16471237, -0.5369893 ,  0.03536702],
       [ 1.94777723,  1.1629859 ,  0.62633104]])

In [58]:
# 행방향으로 열의 값을 오름차순 정렬
np.sort(arr, axis=0)

array([[-0.29019684, -0.5369893 , -0.81524624],
       [-0.20862485, -0.52600326, -0.7858127 ],
       [-0.16471237, -0.08037487, -0.06249059],
       [ 0.1450054 ,  0.46572219,  0.03536702],
       [ 1.94777723,  1.1629859 ,  0.62633104]])

In [59]:
# 열방향으로 행의 값을 오름차순 정렬
np.sort(arr, axis = 1)

array([[-0.7858127 ,  0.1450054 ,  0.46572219],
       [-0.52600326, -0.29019684, -0.06249059],
       [-0.81524624, -0.20862485, -0.08037487],
       [-0.5369893 , -0.16471237,  0.03536702],
       [ 0.62633104,  1.1629859 ,  1.94777723]])

In [60]:
large_arr = np.random.randn(150)

In [61]:
large_arr

array([ 0.17769502,  0.87009197,  0.17786421,  0.49626934, -1.60909767,
        0.69452363,  2.01007025,  1.08022522,  0.33640642,  0.44962293,
        0.74706887, -0.12954649,  0.24335529, -1.92386922, -0.37139271,
       -0.20847161, -0.42700569, -0.04293927, -1.59086651, -0.75034797,
        0.80675677,  0.5093497 , -0.23187811,  1.14222102, -0.71158039,
        0.58743938, -0.55062522,  0.80517455, -0.3390992 , -1.03407598,
        0.02506508,  0.36623417, -0.26773164,  1.09194289, -0.08126688,
       -1.53349872,  0.04282613, -1.55845604, -0.85022053, -1.49338991,
       -0.20252454,  1.0586393 , -1.62629174, -0.76987367,  1.33652332,
       -0.77803579,  0.96009012, -0.47204166,  0.51126223,  1.07103455,
        1.03751917,  1.23515302,  0.28393679, -1.25177391, -0.95259631,
       -0.47412315, -0.7352677 , -0.13732861,  0.43711324, -1.33061601,
       -0.27997688, -0.36880159,  1.3605289 , -1.21218525, -0.61687237,
        1.26725678,  0.51288849,  0.81604123, -0.12995327,  1.07

In [62]:
#상위 5%의 값을 찾기

In [63]:
np.sort(large_arr)[::-1]  # 먼저 내림차순으로 sort

array([ 2.12625237,  2.01007025,  1.86716163,  1.69409054,  1.51070858,
        1.39582308,  1.3605289 ,  1.35928068,  1.33652332,  1.33311197,
        1.26725678,  1.23515302,  1.21586212,  1.17551742,  1.16747324,
        1.15984315,  1.14222102,  1.12778463,  1.09194289,  1.08022522,
        1.07281011,  1.07103455,  1.0586393 ,  1.03751917,  1.00798049,
        0.96009012,  0.94645666,  0.89817279,  0.87009197,  0.85701218,
        0.81604123,  0.80675677,  0.80517455,  0.74706887,  0.70450326,
        0.69452363,  0.68439509,  0.67842469,  0.65163564,  0.58743938,
        0.51288849,  0.51126223,  0.5093497 ,  0.49626934,  0.49031858,
        0.48752086,  0.48392369,  0.46512059,  0.45904951,  0.44962293,
        0.43711324,  0.40367124,  0.36623417,  0.33640642,  0.28393679,
        0.24335529,  0.23939137,  0.20129249,  0.19140006,  0.18771154,
        0.18282894,  0.17786421,  0.17769502,  0.1522421 ,  0.14300802,
        0.09793307,  0.08098534,  0.07004315,  0.05171216,  0.04

In [64]:
np.sort(large_arr)[::-1][int(0.05 * len(large_arr))]       
# 내림차순된 array에서 0.05 * 150을 수행하여 int값으로 변경, 계산된 7번째 자리값이 5%의 값이다.     

1.359280679439749

In [65]:
# 중복된 값 제거하기 - unique()
names = np.array(['charles', 'hyunsuk','charles', 'hayoung','hyunsuk','joohee','joohee'])
ints = np.array([3,3,3,4,4,1,1,2,5,5,6,8])

In [66]:
np.unique(names)

array(['charles', 'hayoung', 'hyunsuk', 'joohee'],
      dtype='<U7')

In [67]:
np.unique(ints)

array([1, 2, 3, 4, 5, 6, 8])