# Numpy

- list : 많은 memory 
- array : 적은 memory 
- C for 문을 사용해서 빠른 동작

In [1]:
import numpy as np

In [6]:
a = np.array([[1,2,3]])

In [9]:
# 차원 알아보기 
a.ndim

2

In [8]:
a.shape

(1, 3)

In [13]:
# numpy 자료형 
x = np.array([1,2,3])
x.dtype

dtype('int64')

In [16]:
# 자료형 지정
x = np.array([1,2,3],dtype='f')
x.dtype

dtype('float32')

In [18]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
np.arange(10,20,2)

array([10, 12, 14, 16, 18])

In [21]:
np.linspace(10,20,4)

array([10.        , 13.33333333, 16.66666667, 20.        ])

In [22]:
np.logspace(10,20,4)

array([1.00000000e+10, 2.15443469e+13, 4.64158883e+16, 1.00000000e+20])

In [29]:
# 다차원을 무조건 1차원으로 변경 
a.flatten()
a.ravel()

array([1, 2, 3])

In [39]:
# 차원만 1차원 증가 

In [40]:
x = np.arange(4)

In [41]:
x.reshape(1,4)

array([[0, 1, 2, 3]])

In [42]:
x[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3]])

In [46]:
# 배열 연결 
# hstack 행의 수가 같은 두개 이상의 배열을 옆으로 연결해서 열이 많은 배열로, 행의 수가 같아야한다

In [52]:
a1 = np.ones((2,3))
a2 = np.zeros((2,2))
np.hstack([a1,a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

In [56]:
# vstack 
# 밑으로 붙이는거, 열의 수가 같아야함 
b1 = np.ones((3, 3))
b2 = np.zeros((4,3))
np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [59]:
# dstack
# 차원을 늘리는거 
c1 = np.ones((3,4))
c2 = np.zeros((3,4))
np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [60]:
# stack 
# 차원 늘리는데 axis 정할수 있다 
np.stack([c1, c2])

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [61]:
np.stack([c1, c2], 1)

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

In [62]:
np.stack([c1, c2], 2)

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [64]:
# np.r_ hstack 과 비슷하게 배열을 좌우로 연결
# 인덱서라는 특수 메서드 

np.r_[np.array([1, 2, 3]), np.array([2, 3, 4])]

array([1, 2, 3, 2, 3, 4])

In [65]:
# np.c_ 배열 차원을 증가하고 좌우로 연결한다 

np.c_[np.array([1, 2, 3]), np.array([2, 3, 4])]

array([[1, 2],
       [2, 3],
       [3, 4]])

In [74]:
# tile 동일한 배열을 반복 연결
a = np.array([[0, 1, 2], [3, 4, 5]])
np.tile(a, 2)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

In [76]:
np.tile(a, (3,2)) # 행으로 3번 반복 열로 2번 반복 시켜준다

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

# 2차원 그리드 포인트 생성

- 2차원 영역에 대한 (x, y) 좌표값 쌍을 그리드 포인트 라고 한다

In [78]:
x = np.arange(3)
y = np.arange(5)

In [79]:
X, Y = np.meshgrid(x, y)

In [80]:
X

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

In [81]:
Y

array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2],
       [3, 3, 3],
       [4, 4, 4]])

In [82]:
[list(zip(x,y)) for x,y in zip(X, Y)]

[[(0, 0), (1, 0), (2, 0)],
 [(0, 1), (1, 1), (2, 1)],
 [(0, 2), (1, 2), (2, 2)],
 [(0, 3), (1, 3), (2, 3)],
 [(0, 4), (1, 4), (2, 4)]]

In [88]:
list(zip(X, Y))

[(array([0, 1, 2]), array([0, 0, 0])),
 (array([0, 1, 2]), array([1, 1, 1])),
 (array([0, 1, 2]), array([2, 2, 2])),
 (array([0, 1, 2]), array([3, 3, 3])),
 (array([0, 1, 2]), array([4, 4, 4]))]

# 벡터화 연산 

In [92]:
a = np.array([[1.1], [2,2]])

  a = np.array([[1.1], [2,2]])


In [94]:
x = np.array([[1, 1], [2, 2]])
y = np.array([[1, 1], [2, 2]])
z = np.array([[1, 1], [2, 3]])

In [95]:
np.all(x == y)

True

In [97]:
np.all(x == z)

False

In [98]:
np.any(x == z)

True

In [99]:
x 

array([[1, 1],
       [2, 2]])

In [103]:
# 차원 축소 연산 같은 경우 axis 를 정하면 그 axis 축만 연산해준다 

In [100]:
x.sum()

6

In [101]:
x.sum(axis=0)

array([3, 3])

In [102]:
x.sum(axis=1)

array([2, 4])

# 정렬
- .sort 함수는 inplace 매서드(자체 변화) 주의!

In [104]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [107]:
a.sort() # Default axis=1
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [109]:
a.sort(axis=0)
a

array([[ 1,  2,  5,  7],
       [ 1,  4, 11, 12],
       [ 3,  9, 14, 15]])

In [110]:
# 자료를 정리하는것이 아닌 순서만 알고 싶다면 argsort 사용

np.argsort(a)

array([[0, 1, 2, 3],
       [0, 1, 2, 3],
       [0, 1, 2, 3]])

# 기술통계

- 분산 : $s^2$
- 표준편차 : s

In [113]:
# 사분위수 
# 데이터를 가장 작은 수 부터 가장 큰 수까지 크기가 커지는 순서로 정렬했을떄
# 1/4, 2/4, 3/4 위치에 있는 수를 말한다 "

In [124]:
x = np.array([[18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13]])

In [126]:
np.percentile(x,0) # 최솟값

-24.0

In [127]:
np.percentile(x,25) # 1사분위 수

0.0

In [128]:
np.percentile(x,50) # 2사분위 수

5.0

In [130]:
np.percentile(x,75) # 3사분위 수

10.0

# 난수 발생 카운팅 

In [131]:
np.random.seed(0)

In [133]:
#np.random.rand 난수 생성 
np.random.rand(5)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

In [135]:
# 데이터 순서 바꾸기 
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [139]:
# np.random.shuffle() 도 inplace 함수라 주의가 요함
np.random.shuffle(x)
x

array([0, 2, 6, 3, 9, 8, 5, 4, 1, 7])

In [143]:
# 데이터 샘플링 
# 데이터 집합에서 일부를 무작위로 선택하는걸 표본 선택 or sampling 
# np.random.choice(a, size =none, replace =True, p=None)
# a: 데이터 넣는곳 , size = 정수, replace = True 선택한 데이터 다시 선택 가능, p 각 데이터가 선택될 확률
# a: 배열이면 원래의 데이터, 정수면 arnage(a) 명령으로 데이터 생성된다 

np.random.choice(5, 5, replace=False)  # shuffle 명령과 같다.

array([0, 1, 4, 2, 3])

In [142]:
np.random.choice(5, 3, replace=False)  # 3개만 선택

array([1, 4, 2])

In [144]:
np.random.choice(5, 10)

array([4, 2, 0, 0, 4, 0, 4, 1, 4, 1])

In [146]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 선택 확률을 다르게 해서 10개 선택

array([2, 0, 3, 3, 3, 3, 3, 3, 3, 3])

In [147]:
# 난수 생성 
# rand : 0부터 1 사이의 균일 분포 (0과 1 사이에)
# randn: 표준 정규 분포 (평균 0 과 표준편차 1 사이에)
# randint : 균일 분포의 정수 난수  원하는 정수 사이에 

In [149]:
np.random.rand(10)

array([0.971945  , 0.87819347, 0.50962438, 0.05571469, 0.45115921,
       0.01998767, 0.44171092, 0.97958673, 0.35944446, 0.48089353])

In [150]:
np.random.rand(3, 5)


array([[0.68866118, 0.88047589, 0.91823547, 0.21682214, 0.56518887],
       [0.86510256, 0.50896896, 0.91672295, 0.92115761, 0.08311249],
       [0.27771856, 0.0093567 , 0.84234208, 0.64717414, 0.84138612]])

In [4]:
np.random.randn(10)

array([-1.03675347,  0.74451431, -0.10150477,  0.62658086,  1.26115168,
        0.03429574,  0.86835625,  0.92452897,  2.47237365, -1.2956393 ])

In [152]:
# np.random.randint(low, high, size)

In [153]:
np.random.randint(10, 20, size=10)

array([18, 13, 18, 12, 18, 14, 13, 10, 14, 13])

# 정수 데이터 카운팅

In [156]:
# unique는 중복된 값 제거후 중복되지 않는 값 리스트 출력
# return counts 인수를 true 설정하면 각 값을 가진 데이터 갯수도 출력 

np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [158]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index = np.unique(a, return_counts=True)

In [159]:
index

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [161]:
# 특정 범위 안의 수인 경우 
# bincount 함수에 minlength 인수를 설정하여 쓰는것이 더 편리하다 
# minlength 는 -1 까지
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0])