파이썬의 리스트
+ 여러 개의 값들을 저장할 수 있는 자료구조로서 강력하고 활용도가 높다.
+ 하지만 리스트와 리스트 간 다양한 연산 기능이 부족하고(벡터로 간주 X), 속도도 빠르지 않다.  
#### => Numpy 배열 필요!
+ 1차원은 벡터, 2차원은 행렬로 간주하고 연산한다.
+ 2차원 배열은 수학에서의 행렬과 같으며, 역행렬이나 행렬식을 구하는 등의 행렬연산이 가능해 수학, 과학 분야의 응용에 적합하다.
+ 데이터 분석을 위한 패키지인 pandas, 머신러닝을 위한 패키지인 scikit-learn, tensorflow 등이 numpy 위에서 작동한다.

In [1]:
import numpy as np

In [11]:
#2차원 배열(3X3)
a = np.array([[1,2,3],
             [4,5,6],
             [7,8,9]])

print(a[0][2])
print(a[0,2])   #넘파이에서는 이렇게 더 많이 표기함

3
3


In [15]:
#2차원 배열(4X4)
b = np.array([[1,2,3,4],
              [5,6,7,8],
              [9,10,11,12],
              [13,14,15,16]])

print(b[0:2][2:4])   #리스트 방식 => b[0:2]의 길이가 2(인덱스 0,1)이므로 [2:4]를 적용하면 해당값이 없음
print(b[0:2, 2:4])   #4X4 행렬에서 2X2 행렬 추출 가능

[]
[[3 4]
 [7 8]]


#### ndarray 객체(n차원 배열)
+ C언어에 기반한 배열 구조로, 메모리를 적게 차지하고 속도가 빠르다.
+ 배열과 배열 간 수학적 연산을 적용할 수 있다.
+ 고급 연산자와 풍부한 함수들을 제공한다.

In [3]:
a = np.array([1, 2, 3])

print(a.shape)       #형태
print(a.ndim)        #차원
print(a.dtype)       #자료형(모든 요소가 같은 자료형이어야 함)
print(a.itemsize)    #크기(byte)
print(a.size)        #요소 개수

(3,)
1
int32
4
3


#### Broadcasting
+ 스칼라 : 1, 2, 3.14 같이 크기 값만을 가지는 양
+ 벡터 : 순서가 있는 스칼라 값의 배열로, 크기(norm)와 방향 값을 가짐(열벡터, 행벡터가 있음)
+ 스칼라 값을 벡터의 각 원소로 전파하여 연산하여 벡터와 스칼라 간 연산을 가능하게 하는 방법이다.
+ 스칼라 값을 복사해 벡터와 같은 차원으로 만드는 과정이 없기 때문에, 복사에 의한 속도 저하를 피할 수 있다.

In [7]:
salary = np.array([240, 260, 220, 255])

list_salary = salary + [100, 100, 100, 100]
numpy_salary = salary + 100

list_salary, numpy_salary

(array([340, 360, 320, 355]), array([340, 360, 320, 355]))

#### Vectorization
+ 배열의 원소 각각을 가져와 연산하는 것이 아니라, 하나의 명령이 여러 데이터에 동시에 적용되는 방식이다.
+ 전통적 병렬 처리는 큰 작업을 분할하여 다수의 프로세서에서 나누어 처리하지만,  
벡터화 연산은 하나의 프로세서 내에서 병렬적 데이터 처리가 묵시적으로 이루어진다.

In [31]:
#전통적 병렬처리
import time
start = time.time()

values = np.random.rand(1000000)
weights = np.random.rand(1000000)
weighted_values = np.empty(len(values))    #빈 행렬 생성
for i in range(len(values)):               #명시적으로 작업 지시
    weighted_values[i] = weights[i] + values[i]
    
#print(f'{values} * {weights} = {weighted_values}')
end = time.time()
print(end - start)

0.21900010108947754


In [32]:
#벡터화 연산
start = time.time()

values = np.random.rand(1000000)
weights = np.random.rand(1000000)
weighted_values = values * weights   #묵시적으로 벡터 요소별 곱셈

#print(f'{values} * {weights} = {weighted_values}')
end = time.time()
print(end - start)

0.017995119094848633


In [25]:
#명시적 방법 함수화
def matmult_naive(a, b):
    c = np.zeros((a.shape[0], b.shape[1]), dtype=int)
    
    for i in range(a.shape[0]):
        for j in range(b.shape[0]):
            for k in range(a.shape[1]):
                c[i,j] += a[i,k] * b[k,j]   #시간복잡도 O(N3)으로, 행렬이 조금만 커져도 계산 부담이 매우 커짐
                
    return c

In [None]:
#벡터화 연산 함수화
def matmul2d(a, b):
    c = np.zeros((a.shape[0], b.shape[1]), dtype=int)
    for i in range(a.shape[0]):
        c[i,:] = (a[i,:] * b.T).sum(axis=1)
        
    return c

#### 논리 인덱싱
+ 어떤 조건을 주어서 배열에서 원하는 값을 추려내는 것이다.
+ 특정 수의 배수를 추출하는 등 필터링 작업을 손쉽게 할 수 있다.

In [34]:
ages = np.array([18, 19, 25, 30, 28])

print(ages > 20)
print(ages[ages > 20])

[False False  True  True  True]
[25 30 28]


In [36]:
ages = np.array([[18, 19, 25, 30, 28],
                [5, 29, 50, 15, 22]])

print(ages > 20)
print(ages[ages > 20])  #2차원 배열을 논리인덱싱해도 1차원 배열로 출력

[[False False  True  True  True]
 [False  True  True False  True]]
[25 30 28 29 50 22]
