# 3. 1 넘파이 배열
---
많은 숫자 데이터를 하나의 변수에 넣고 관리 할 때 `리스트는 속도가 느리고 메모리를 많이 차지하는 단점이 있다.` 배열(array)을 사용하면 적은 메모리로 많은 데이터를 빠르게 처리할 수 있다.

배열과 리스트 자료형의 차이점
1. 모든 원소가 같은 자료형이어야 한다.
2. 원소의 갯수를 바꿀 수 없다.

파이썬에서 배열을 사용하기 위한 표준 패키지는 넘파이(NumPy)다.  
넘파이는 수치해석용 파이썬 패키지이다. `다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원`하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용된다.  
내부적으로는 BLAS 라이브러리와 LAPACK 라이브러리를 사용하고 있으며 C로 구현된 CPython에서만 사용할 수 있다.


넘파이의 배열 연산은 
1. `C로 구현된 내부 반복문을 사용하기 때문에 파이썬 반복문에 비해 속도가 빠르`며 
2. `벡터화 연산(vectorized operation)을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행`할 수 있다. 또한 
3. `배열 인덱싱(array indexing)을 사용한 질의(Query) 기능을 이용하여 간단한 코드로도 복잡한 수식을 계산`할 수 있다.

## 1. numpy package import
> 넘파이는 np라는 이름으로 임포트하는 것이 관례

In [1]:
import numpy as np

## 2. 1차원 배열 만들기 

In [2]:
# 넘파이의 array 함수에 리스트를 넣으면
ar = np.array(list(range(10)))
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
# ndarray 클래스 객체 즉, 배열로 변환해 준다.
type(ar)

numpy.ndarray

### ndarray 객체와 리스트의 차이점

배열 객체 객체는 C언어의 배열처럼 연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 한다.  
이러한 제약사항이 있는 대신 원소에 대한 접근과 반복문 실행이 빨라진다.

## 3. 벡터화 연산
> 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리하는 벡터화 연산(vectorized operation)을 지원

In [4]:
# 배열 내의 모든 원소에 대한 반복 연산을 하나의 명령어로 처리 가능
data = [i for i in range(10)]
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [5]:
x = np.array(data) # 배열로 만들기
type(x) # numpy.ndarray

x 
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

2 * x 
# array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [6]:
# 참고로 일반적인 리스트 객체에 정수를 곱하면 
# 객체의 크기가 정수배 만큼으로 증가한다.

L = [i for i in range(10)]
print(2 * L)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


> 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용된다. 

In [7]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

a, b

(array([1, 2, 3]), array([10, 20, 30]))

In [8]:
# 사칙 연산
2 * a + b

array([12, 24, 36])

In [9]:
# 논리 연산
a == 2

array([False,  True, False])

In [10]:
# 비교 연산
b > 10

array([False,  True,  True])

In [11]:
# 비교연산 + 논리연산 + 비교연산
(a == 2) & (b > 10)

array([False,  True, False])

## 4. 2차원 배열 만들기
---
2차원 배열은 행렬(matrix)이라고 하는데 행렬에서는 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 부른다.

In [12]:
# 3 x 4 행렬 생성
# 바깥쪽 리스트의 길이는 행렬의 행의 수 x 안쪽 리스트의 길이는 행렬의 열의 수
# 세로 크기(바깥쪽) x 가로 크기(안쪽)
arr = [[i for i in range(3)] for j in range(3)]
arr

[[0, 1, 2], [0, 1, 2], [0, 1, 2]]

In [4]:
# 0 ~ 8까지 2차원 배열(행렬) 생성

arr = np.arange(9).reshape(3,3)
print(arr, '\n\n')
# arr = np.reshape(np.arange(9), (3,3)) # reshape의 Output은 numpy.ndarray 객체
# ndarray.reshape -> Equivalent method.

# 3차원으로 변환
arr = np.arange(8)
arr.reshape(2,-1,2)


[[0 1 2]
 [3 4 5]
 [6 7 8]] 




array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

In [3]:
# np.reshape() : numpy.ndarray의 shape 조절 함수

# 정수형태의 난수를 이용해서 (3,4) shape을 가지는 ndarray 생성
np.random.seed(10)
arr = np.random.randint(0, 10, (3,4))
print(arr, '\n\n')

'''
Usage :
reshape() 함수는 요소의 개수가 맞지 않으면 reshape가 되지 않음
reshape(-1, 2) : 2열로 설정하고 행의 차원은 원래 배열로 추정한다.
reshape(-1) : 1차원 배열로 변환
'''


# a2 = a1.ravel() # 또는 a2 = a1.reshape(-1) 또는 a2 = a1.flatten()
arr = arr.reshape(-1) # 원본이 변하지 않는 메서드
print(arr)

[[9 4 0 1]
 [9 0 1 8]
 [9 0 8 6]] 


[9 4 0 1 9 0 1 8 9 0 8 6]


In [24]:
# np.resize()

arr = np.array([i for i in range(8)])

# resize() 함수는 요소의 개수가 맞지 않아도 shape 변경 가능
# 요소수가 줄어들면 기존 데이터를 버리고, 늘어나면 0으로 설정
# result = arr.resize(2,6) 
# Wrong Usage : view가 생성되는 것이 아니라 원본이 변함, return None

arr.resize(3,4) # 요소수가 늘어남
print(arr)
arr.resize(2,2)	# 요소수가 줄어듬
print(arr)

arr.resize(3,5)
print(arr)

[[0 1 2 3]
 [4 5 6 7]
 [0 0 0 0]]
[[0 1]
 [2 3]]
[[0 1 2 3 0]
 [0 0 0 0 0]
 [0 0 0 0 0]]


In [37]:
# 2차원 배열의 행과 열의 갯수 구하기
c = np.array([[0, 1, 2], [3, 4, 5]])  # 2 x 3 array
c

array([[0, 1, 2],
       [3, 4, 5]])

In [38]:
# 행의 갯수
len(c)

2

In [39]:
# 열의 갯수
len(c[0])

3

In [29]:
# 연습 문제 1
c = np.array([i * 10 for i in range(1,9)])
c = c.reshape(2, 4)
c

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

## ※ 정리

1. np.array() 메서드 
```python
# input : 리스트
# output : numpy.ndarray 클래스 객체(배열)
# method : AttributeError: 'numpy.ndarray' object has no attribute 'array'
ar = np.array([i for i in range(10)])
```

2. np.reshape() 메서드
```python
# input : numpy.reshape(배열, 정수나 정수들의 tuple, optionaly C언어같은 index order로 읽고 쓰기 order='C')
# output : Gives a new shape to an array without changing its data.
# method : 데이터는 변하지 않음.
```

3. np.resize() 메서드
```python
# input : numpy.resize(배열, new_shape)
# output : Return a new array with the specified shape. # numpy 패키지 함수로 호출하면, repeated copies of a로 채워진다.
# mothod : ndarray.resize - ndarray 객체를 resize가능 # 객체의 메소드로 호출하면 0으로 채워지고
```

In [12]:
# 연습 문제 1

np.array([i * 10 for i in range(1,9)]).reshape(2,4)

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

## 5. 3차원 배열 만들기 

In [23]:
d = np.array([i for i in range(1, 13)] + [i for i in range(11, 23)]).reshape(2,3,4)
d

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [24]:
# 3차원 배열의 깊이, 행, 열은 다음과 같이 구할 수 있다.
len(d), len(d[0]), len(d[0][0])

(2, 3, 4)

## 6. 배열의 차원과 크기 알아내기
> ndim 속성은 배열의 차원, shape 속성은 배열의 크기를 반환한다.

In [25]:
print(d.ndim)
print(d.shape)

3
(2, 3, 4)


In [30]:
print(c.ndim)
print(c.shape)

2
(2, 4)


## 7. 배열의 인덱싱
> 다차원 배열일 때는 다음과 같이 콤마(comma ,)를 사용하여 접근할 수 있다.  
콤마로 구분된 차원을 축(axis)이라고도 한다. 그래프의 x축과 y축을 떠올리면 될 것이다.

In [31]:
a = np.array([i for i in range(6)]).reshape(2,3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [32]:
a[0, 0] # 첫번째 행의 첫번째 열

0

In [33]:
a[-1, -1] # 마지막 행의 마지막 열

5

## 8. 배열 슬라이싱
> 배열 객체로 구현한 다차원 배열의 원소 중 `복수 개를 접근`하려면  
일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용하면 된다.

In [34]:
a = np.array([i for i in range(8)]).reshape(2,4)
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [35]:
a[0, :] # 첫번째 행 전체

array([0, 1, 2, 3])

In [36]:
# 두번째 열 전체
a[:, 1]

array([1, 5])

In [37]:
# 두번째 행의 두번째 열부터 끝열까지
a[1, 1:]

array([5, 6, 7])

In [45]:
# 연습 문제 2
m = np.array([i for i in range(15)]).reshape(3,5)
'''
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])
'''

# 1. 이 행렬에서 값 7 을 인덱싱한다.
print(m[1, 2])

# 2. 이 행렬에서 값 14 을 인덱싱한다.
print(m[-1, -1])

# 3. 이 행렬에서 배열 [6, 7] 을 슬라이싱한다.
print(m[1, 1:3])

# 4. 이 행렬에서 배열 [7, 12] 을 슬라이싱한다.
print(m[1:3, 2])

# 5. 이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.
print(m[0:2, 3:5])

7
14
[6 7]
[ 7 12]
[[3 4]
 [8 9]]


## 9. 배열 인덱싱(fancy indexing, array indexing)
인덱싱이라는 이름이 붙었지만 사실은 데이터베이스의 질의(Query) 기능을 수행한다.  
배열 인덱싱에서는 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 **위치 정보를 나타내는 또 다른 ndarray 배열**을 받을 수 있다. 여기에서는 **이 배열을 편의상 인덱스 배열이라고 부르겠다.** 배열 인덱싱의 방식에은  
1. 불리언(Boolean) 배열 방식(인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 한다.)
2. 정수 배열 방식
두가지가 있다.

In [52]:
# 1. 불리언 배열 방식

## 1차원 ndarray에서 짝수인 원소만 골라내는 법
a = np.array([i for i in range(10)])
idx = np.array([True if i % 2 == 0 else False for i in range(10)])

a[idx]

array([0, 2, 4, 6, 8])

In [53]:
# 벡터화 조건문 연산을 사용하면 간단히 쓸 수 있다.

a % 2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

In [54]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [55]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

In [59]:
# 정수 배열 인덱싱
## 인덱스 배열의 원소 각각이 원래 ndarray 객체 원소 하나를 가리키는 인덱스 정수이여야 한다.
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([i for i in range(10) if i % 2 == 0])
print(a[idx])

## 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없다. 
## 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 한다.
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
print(a[idx])

[11 33 55 77 99]
[11 11 11 11 11 11 22 22 22 22 22 33 33 33 33 33]


In [62]:
# 배열 인덱싱은 다차원 배열의 각 차원에 대해서도 할 수 있다.

a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
idx = [True, False, False, True]
print(a[:, idx])

[[ 1  4]
 [ 5  8]
 [ 9 12]]


In [65]:
a[[2, 0, 1], :]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [3]:
# 연습 문제 3
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

# 1.이 배열에서 3의 배수를 찾아라.
print(x[x % 3 == 0])

# 2.이 배열에서 4로 나누면 1이 남는 수를 찾아라.
print(x[x % 4 == 1])

# 3.이 배열에서 3으로 나누면 나누어지고(And) 4로 나누면 1이 남는 수를 찾아라.
print(x[(x % 3 == 0) & (x % 4 == 1)]) 
## and(Boolean) 와 &(bit wise, 비트 연산자), 배열의 T/F를 각각 계산하고 싶다면 비트 연산자 사용

[ 3  6  9 12 15 18]
[ 1  5  9 13 17]
[9]
