In [1]:
import numpy as np

## array

In [3]:
np.array([1,4,2,5,3]) # list를 array 객체로 만들어줌 

array([1, 4, 2, 5, 3])

In [4]:
# list는 이질적인 데이터를 담당, array는 동질의 데이터를 다룰 수 있는 구조
# list보다 빠른 접근을 할 수 있고, 생성할 때 타입을 지정할 수 있다. 

In [5]:
np.array([1,2,3,4], dtype=np.float)

array([1., 2., 3., 4.])

In [6]:
np.array([range(i,i+3) for i in [1,4,7]]) # 2차원 구조의 array 생성

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## 초기화 가능한 여러 함수

In [8]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [9]:
np.ones((3,5)) # 3행 5열을 만들고 1로 채워라

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [10]:
np.full((2,3),5) # 2행 3열을 5로 채움

array([[5, 5, 5],
       [5, 5, 5]])

## arrange

In [12]:
np.arange(0,10,2)

array([0, 2, 4, 6, 8])

In [13]:
np.linspace(0,100,5, dtype=int)

array([  0,  25,  50,  75, 100])

## 난수 생성

In [14]:
np.random.random((3,3)) # 3행 3열 랜덤한 수(0~!사이의 값)

array([[0.54570558, 0.89827396, 0.8046679 ],
       [0.22755521, 0.83950025, 0.83803397],
       [0.75620757, 0.47326076, 0.36972114]])

In [15]:
np.random.randint(0,10,(3,3)) #0과 10 사이의 정수값 (10포함안함)

array([[1, 9, 4],
       [6, 9, 6],
       [9, 9, 3]])

In [16]:
np.random.normal(0,1,(3,3)) # 0=평균 1=표준편차의 정규분포

array([[-1.68739315, -0.85342759, -0.30458571],
       [ 0.84413577,  0.11736572, -0.49213013],
       [ 0.72790308,  1.9565652 , -0.42253103]])

## 랜덤값을 재현성 문제 
### 랜덤값들은 실행할 때마다 값이 다르게 나오는데, 
### 이를 해결하기 위해 seed 함수 사용

In [18]:
np.random.seed(0)

arr1 = np.random.randint(10,size=6) #0부터 10사이
arr2 = np.random.randint(10,size=(2,3)) # 2행 3열의 구조

# ndim 차원, shape 행/열 정보와 차원정보 size : 갯수 dtype: 데이터 타입
print("arr1:\n%s" % arr1)
print("ndim: %d, shape: %s, size: %d, dtype: %s\n" % (arr1.ndim, arr1.shape, arr1.size, arr1.dtype))
print("arr2:\n%s" % arr2)
print("ndim: %d, shape: %s, size: %d, dtype: %s\n" % (arr2.ndim, arr2.shape, arr2.size, arr2.dtype))


arr1:
[5 0 3 3 7 9]
ndim: 1, shape: (6,), size: 6, dtype: int32

arr2:
[[3 5 2]
 [4 7 6]]
ndim: 2, shape: (2, 3), size: 6, dtype: int32



## 인덱싱 : 단일 원소에 접근하는 기법

In [19]:
arr1 # 012345 / -6-5-4-3-2-1

array([5, 0, 3, 3, 7, 9])

In [20]:
arr1[0], arr1[5]

(5, 9)

In [23]:
arr1[-6], arr1[-1]

(5, 9)

In [24]:
arr2 # 2행 3열 의 2차원 shape

array([[3, 5, 2],
       [4, 7, 6]])

In [26]:
arr2[0,0],arr2[0,2] #[행, 열]

(3, 2)

In [27]:
arr2[-1,-3],arr2[-1,-1]

(4, 6)

In [28]:
arr2[0,0]=9
arr2

array([[9, 5, 2],
       [4, 7, 6]])

## 슬라이싱 (부분집합 추출 기능) - ':' 이용

In [29]:
arr1 = np.arange(10) # 0,10,1 (0,1 티폴트 값= 생략가능)

In [38]:
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
arr1[0:5:1]

array([0, 1, 2, 3, 4])

In [31]:
arr1[:5:1]

array([0, 1, 2, 3, 4])

In [32]:
arr1[:5:],arr1[:5] # step 생략 가능,end 가 없으면 끝까지 

(array([0, 1, 2, 3, 4]), array([0, 1, 2, 3, 4]))

In [34]:
arr1[2:9:2], arr1[2::2]

(array([2, 4, 6, 8]), array([2, 4, 6, 8]))

In [35]:
arr1[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [36]:
arr1[-1:-11:-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [37]:
arr1[5::-1]

array([5, 4, 3, 2, 1, 0])

## 형태 변환

In [40]:
arr2 = np.arange(12).reshape(-1,4) #열의 개수에 따라 행이 가변적으로 움직일 수 있도록 -1 로 지정 
arr2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [41]:
arr2[:2,:3]

array([[0, 1, 2],
       [4, 5, 6]])

In [42]:
arr2[::]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [43]:
arr2[:2,:3]

array([[0, 1, 2],
       [4, 5, 6]])

In [44]:
arr2[:2,2::-1] # -1 역순으로 진행 

array([[2, 1, 0],
       [6, 5, 4]])

In [45]:
arr2[1:,-1] #행에 대해서는 슬라이싱, 열에 대해서는 인덱싱 

array([ 7, 11])

In [47]:
arr2[-1,:], arr2[-1] # 마지막 행의 모든 열

(array([ 8,  9, 10, 11]), array([ 8,  9, 10, 11]))

## 배열 객체의 연결

In [48]:
list1 = [1,2,3]
list2 = [4,5,6]

In [49]:
np.concatenate([list1,list2]) # 두개의 리스트를 리스트에 담아서 연결

array([1, 2, 3, 4, 5, 6])

In [50]:
arr1 = np.concatenate([list1,list2],axis=0) #첫번째 축 = 0 (x축)
arr1

array([1, 2, 3, 4, 5, 6])

In [51]:
arr2 = arr1.reshape(-1,3)#열의 개수에 따라 행이 가변적으로 움직일 수 있도록 -1 로 지정 
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [52]:
np.concatenate([arr2,arr2],axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [53]:
np.concatenate([arr2,arr2],axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [57]:
np.vstack([arr2,arr2])#vertical stack

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [56]:
np.hstack([arr2,arr2])# horizonal stack

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

## numpy 배열 객체의 내장 함수 사용

In [58]:
# numpy 배열 객체에 내장되어 있는 함수가 있는데 그걸 벡터화 함수(universal function)라고 한다. 
# python의 loop 보다 훨씬 빠른 속도 !
# ufunction 사용 권장

In [59]:
np.random.seed(0)

arr2 = np.random.randint(1,10,(3,4))
arr2

array([[6, 1, 4, 4],
       [8, 4, 6, 3],
       [5, 8, 7, 9]])

In [60]:
np.sum(arr2),arr2.sum()

(65, 65)

In [61]:
np.sum(arr2,axis=0), arr2.sum(axis=0) # 열의 방향으로 sum

(array([19, 13, 17, 16]), array([19, 13, 17, 16]))

In [62]:
np.sum(arr2,axis=1), arr2.sum(axis=1) # 행의 방향으로 sum

(array([15, 21, 29]), array([15, 21, 29]))

In [63]:
np.min(arr2,axis=0),np.max(arr2,axis=0)

(array([5, 1, 4, 3]), array([8, 8, 7, 9]))

In [64]:
arr2.min(axis=0),arr2.max(axis=0)

(array([5, 1, 4, 3]), array([8, 8, 7, 9]))

In [65]:
np.min(arr2,axis=1),np.max(arr2,axis=1)

(array([1, 3, 5]), array([6, 8, 9]))

In [66]:
arr2.min(axis=1),arr2.max(axis=1)

(array([1, 3, 5]), array([6, 8, 9]))

## 브로드캐스팅

In [68]:
np.random.seed(0)

X = np.random.random((10,3)) # 0과1 사이의 값을 10행 3열로 만듬 
X

array([[0.5488135 , 0.71518937, 0.60276338],
       [0.54488318, 0.4236548 , 0.64589411],
       [0.43758721, 0.891773  , 0.96366276],
       [0.38344152, 0.79172504, 0.52889492],
       [0.56804456, 0.92559664, 0.07103606],
       [0.0871293 , 0.0202184 , 0.83261985],
       [0.77815675, 0.87001215, 0.97861834],
       [0.79915856, 0.46147936, 0.78052918],
       [0.11827443, 0.63992102, 0.14335329],
       [0.94466892, 0.52184832, 0.41466194]])

In [71]:
Xmean = X.mean(axis=0) # 행열 구조를 동일하게 맞춰주는 부로드 캐스팅 (shape의 차원을 같게함.)
Xmean

array([0.52101579, 0.62614181, 0.59620338])

In [72]:
Xcentered = X - Xmean # 평균을 중심으로 값들이 이동 --> 연산을 위해 브로드캐스팅으로 구조 맞춤
Xcentered

array([[ 0.02779771,  0.08904756,  0.00655999],
       [ 0.02386739, -0.20248701,  0.04969073],
       [-0.08342858,  0.26563119,  0.36745938],
       [-0.13757427,  0.16558323, -0.06730846],
       [ 0.04702877,  0.29945483, -0.52516732],
       [-0.43388649, -0.60592341,  0.23641646],
       [ 0.25714096,  0.24387034,  0.38241496],
       [ 0.27814277, -0.16466245,  0.18432579],
       [-0.40274137,  0.01377921, -0.45285009],
       [ 0.42365312, -0.10429349, -0.18154144]])

## Numpy 배열 객체의 부울 배열과 마스킹 연산  
- 부울 배열: bool 값을 갖는 배열 (true, false 두가지 값만 갖는다. =bool)
- 마스킹 연산 : 이진수로 표기 (1,0)

In [73]:
np.random.seed(0)

X=np.random.randint(1,10,size=(3,4))
X

array([[6, 1, 4, 4],
       [8, 4, 6, 3],
       [5, 8, 7, 9]])

In [74]:
(X>5) & (X<8)

array([[ True, False, False, False],
       [False, False,  True, False],
       [False, False,  True, False]])

In [75]:
np.sum((X>5) & (X<8))

3

In [76]:
np.sum((X>5) | (X<8))

12

In [77]:
np.sum((X>5) & (X<8),axis=0)

array([1, 0, 2, 0])

In [78]:
np.sum((X>5) | (X<8),axis=1)

array([4, 4, 4])

In [79]:
X[(X>5) & (X<8)]

array([6, 6, 7])

## 팬시 인덱싱 : 인덱스를 담고 있는 배열

In [80]:
X = np.arange(12).reshape((3,4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [87]:
row = np.array([0,1,2]) # 인덱스 배열 
col = np.array([1,2,3]) #인덱스 배열 

In [88]:
X[row] # 인덱스 배열을 만족하는 부분집합을 추출하는 팬시 인덱싱 

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [85]:
X[:,col]

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

In [89]:
X[row,col]

array([ 1,  6, 11])

In [91]:
X[row.reshape(-1,1),col] # replace를 이용해 구조를 변환해도 동일한 결과를 내는 팬시 인덱싱

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

## 복합 인덱싱 

In [92]:
X = np.zeros(12).reshape((3,4))
X

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [94]:
X[1,0]=1
X

array([[0., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [96]:
X[1,[1,3]]=1 # 팬시 인덱싱: 두번째열과 네번째 열에 1이라는 함수 넣기 
X

array([[0., 0., 0., 0.],
       [1., 1., 0., 1.],
       [0., 0., 0., 0.]])

In [98]:
X[[0,2],[1,3]]=2
X

array([[0., 2., 0., 0.],
       [1., 1., 0., 1.],
       [0., 0., 0., 2.]])

In [99]:
X[0:3,[0,2]]=3 # 슬라이싱(범위집합) + 팬시 인덱싱 
X

array([[3., 2., 3., 0.],
       [3., 1., 3., 1.],
       [3., 0., 3., 2.]])

In [None]:
# 팬시 인덱싱: 배열에 인덱싱 배열을 전달했다. 

In [100]:
np.random.seed(0)

x=np.array(np.random.randint(10,size=5)) #0~10까지 5개
x

array([5, 0, 3, 3, 7])

In [102]:
np.sort(x) # np.sort를 이용하면 x는 바뀌지 않고 array 반환

array([0, 3, 3, 5, 7])

In [104]:
x

array([5, 0, 3, 3, 7])

In [106]:
x.sort() # 실제로 데이터가 정렬된다. 값이 바뀐다. 
x

array([0, 3, 3, 5, 7])

In [107]:
np.random.seed(0)

x=np.array(np.random.randint(10,size=5))
x

array([5, 0, 3, 3, 7])

In [108]:
idx = np.argsort(x) #sort된 인덱스를 전달하는 argsort 함수 /값이 아니라 인덱스를 전달 
idx

array([1, 2, 3, 0, 4], dtype=int64)

In [109]:
x[idx] # 팬시 인덱싱을 이용해 정렬도 가능 

array([0, 3, 3, 5, 7])