# ![title](https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/NumPy_logo.svg/1200px-NumPy_logo.svg.png)

NumPy는 Pandas, Scikit-learn, Tensorflow등 데이터 사이언스 분야에서 사용되는 라이브러리들의 토대가 되는 라이브러리.

NumPy 그 자체로는 높은 수준의 데이터 분석 기능을 제공하지 않지만 NumPy를 활용해 데이터를 Python상에서 표현하고 다룰 줄 알아야만 데이터 분석이라는 그 이후 단계로 나아갈 수 있다.

데이터 과학에서 다차원 배열의 필요성
숫자 자료형
파이썬에서는 데이터를 숫자형 변수에 저장할 수 있다.

# <font color="blue">데이터 과학에서 다차원 배열의 필요성</font>

### <font color="orange">1. 숫자 자료형</font>

파이썬에서는 데이터를 숫자형 변수에 저장할 수 있다.

세 명의 학생들로 이루어진 반이 있고 이 학생들의 수학 점수를 각각의 **숫자형 변수**에 저장하는 경우 아래처럼 처리할 수 있다.

In [0]:
math1 = 11
math2 = 12
math3 = 13

점수들의 합과, 평균은 다음과 같이 구할 수 있다.

In [0]:
mathSum = math1 + math2  + math3
mathAverage = mathSum / 3

print("수학점수 합: {}".format(mathSum))
print("수학점수 평균: {}".format(mathAverage))

그런데 만약 새로운 학생이 전학을 와서 시험을 치렀고 이 학생의 성적을 추가한 점수들의 합과 평균을 구하려면 어떻게 해야 할까?

새로운 변수를 추가해야 한다.

In [0]:
math4 = 14

그리고 합과 평균을 구하는 코드 역시 수정해야 한다.

In [0]:
mathSum = math1 + math2 + math3 + math4     # 추가된 math4를 합 구할때 고려
mathAverage = mathSum / 4                    # 수정: 분모를 3에서 4로

print("수학점수 합: {}".format(mathSum))
print("수학점수 평균: {}".format(mathAverage))

추가된 데이터를 새로 선언해 주는 것은 어쩔 수 없다 하더라도 합과 평균을 구하는 <font color="red">코드를 매번 변경하는 것은 비효율적</font>이다.

### <font color="orange">2. 리스트 자료형</font>

리스트 자료형에 데이터를 저장하여 이 문제를 해결할 수 있다.

세 명의 학생들로 이루어진 반이 있고 이 학생들의 수학 점수를 **리스트**에 저장하는 경우 아래와 같이 처리할 수 있다.

In [0]:
mathList = [11, 12, 13]

점수들의 합과, 평균은 다음과 같이 구할 수 있다.

In [0]:
mathSum = 0       # 변수 선언&초기화
mathAverage = 0   # 변수 선언&초기화

for e in mathList:
    mathSum += e
mathAverage = mathSum / len(mathList)

print("수학점수 합: {}".format(mathSum))
print("수학점수 평균: {}".format(mathAverage))

그런데 만약 새로운 학생이 전학을 와서 시험을 치렀고 이 학생의 성적을 추가한 점수들의 합과 평균을 구하려면 어떻게 해야 할까?

~~새로운 변수를 추가해야 한다.~~

**기존의 리스트에 새로운 데이터를 추가한다.**

In [0]:
mathList.append(14)

~~그리고 합과 평균을 구하는 코드 역시 수정해야 한다.~~

새로운 데이터가 추가되더라도 합과 평균을 구하는 **코드는 수정 없이 그대로 사용할 수 있다**.

In [0]:
mathSum = 0       # 변수 선언&초기화
mathAverage = 0   # 변수 선언&초기화

for e in mathList:
    mathSum += e
mathAverage = mathSum / len(mathList)

print("수학점수 합: {}".format(mathSum))
print("수학점수 평균: {}".format(mathAverage))

그런데 만약 시험문제의 오류가 발견되어 모두 정답처리를 해 모든 학생의 점수를 1점씩 올려줘야 하는 상황이 발생하면?

반복문이나 List comprehension같은 방법이 있다.

In [0]:
mathList2 = []
for e in mathList:
    mathList2.append(e+1)
print(mathList2)

In [0]:
mathList3 = [e + 1 for e in mathList]
print(mathList3)

### <font color="orange">3. 파이썬 기본 자료형으로 구현한 다차원 배열</font>

1반의 점수가 11, 12, 13

2반의 점수가 21, 22, 23

3반의 점수가 31, 32, 33점이라고 한다면,

리스트 안에 리스트를 넣어 위 데이터를 아래처럼 나타낼 수 있다.

In [0]:
nestedMathList = [[11, 12, 13], [21, 22, 23], [31, 32, 33]]
print(nestedMathList)

이중 리스트에서 각 원소에 1을 더하는 코드는 다음과 같다.

In [0]:
nestedMathList2 = []

for innerList in nestedMathList:
    tempList = []

    for e in innerList:
        tempList.append(e + 1)

    nestedMathList2.append(tempList)

print(nestedMathList2)

####<font color="red"> 문제점</font>

1차원에서 2차원으로 자료구조의 중첩이 증가하니 반복문도 하나 더 사용해야 한다.

자료구조의 중첩이 증가할수록 코드는 복잡해질 수밖에 없다.

### <font color="orange">4. NumPy로 구현한 다차원 배열</font>

**NumPy**를 사용하면 다차원 배열을 효율적으로 다룰 수 있다.
 
`import numpy as np` 형태로 import하는게 일반적이다.

In [0]:
import numpy as np

In [0]:
mathNdarray = np.array(nestedMathList)
# mathNdarray = np.array([[11, 12, 13], [21, 22, 23], [31, 32, 33]])

print(mathNdarray)
print(type(mathNdarray))

각 원소에 1을 더하려면,

In [0]:
mathNdarray + 1 # 이것이 바로 브로드캐스팅!

NumPy에 구현된 메서드를 활용해 합이나 평균도 쉽게 구할 수 있다.

In [0]:
# 전체 합 구하기
np.sum(mathNdarray)

In [0]:
# 전체 평균 구하기
np.mean(mathNdarray)

In [0]:
# 열의 평균 구하기
np.mean(mathNdarray, axis=0)

In [0]:
# 행의 평균 구하기
np.mean(mathNdarray, axis=1)

## <font color="green">파이썬 기본 자료형과 Numpy 비교 </font>

In [0]:
import time
class Timer(object):
    def __init__(self, name=None):
        self.name = name

    def __enter__(self):
        if self.name:
            print('[%s]' % self.name)
        self.tstart = time.time()

    def __exit__(self, type, value, traceback):
        print('경과 시간: %.6f 초' % (time.time() - self.tstart))

In [0]:
with Timer('여기에 이름을 입력하세요'):
#     아래에 시간측정을 하고자 하는 코드를 입력
    time.sleep(1)

In [0]:
# rows ,cols가 2일떄 아래 타이머코드를 실행해 보고 rows, cols를 1000으로 바꾼 뒤 다시 코드를 실행 해 볼 것
rows = 1000 # 행
cols = 1000 # 열
sampleRand2Darray = np.random.rand(rows, cols)  # ndarray 선언
sampleRand2Dlist = sampleRand2Darray.tolist()   # ndarray를 list로 변환

In [0]:
# rows, cols가 1000을 넘어갈 땐 되도록 실행하지 말 것. (노트북 멈춤.)
print(sampleRand2Darray)
print(type(sampleRand2Darray))

In [0]:
# rows, cols가 1000을 넘어갈 땐 되도록 실행하지 말 것. (노트북 멈춤.)
print(sampleRand2Dlist)
print(type(sampleRand2Dlist))

In [0]:
with Timer('파이썬 기본 자료형 사용 - 모든 원소의 합 구하기'):
    sum = 0
    for innerList in sampleRand2Dlist:
        for e in innerList:
            sum += e
    print("합계:", sum)

print()

with Timer('파이썬 기본 자료형 사용 - 모든 원소에 1 더하기'):
    sampleRand2Dlist2 = []
    for innerList in sampleRand2Dlist:
        tempList = []
        for e in innerList:
            tempList.append(e + 1)
        sampleRand2Dlist2.append(tempList)
#     print(sampleRand2Dlist2) # rows, cols가 1000을 넘어갈 땐 이 코드를 지울 것.

print("=" * 20)

with Timer('NumPy사용 - 모든 원소의 합 구하기'):
    sum = np.sum(sampleRand2Darray)
    print("합계:", sum)
    
print()

with Timer('NumPy사용 - 모든 원소에 1 더하기'):
    sampleRand2Darray2 = sampleRand2Darray + 1
#     print(sampleRand2Darray2) # rows, cols가 1000을 넘어갈 땐 이 코드를 지울 것.

### <font color="orange">1. NumPy 장점</font>

- 코어 부분이 C로 구현되어 동일한 연산을 하더라도 Python에 비해 속도가 빠름
- 라이브러리에 구현되어있는 함수들을 활용해 짧고 간결한 코드 작성 가능
- (효율적인 메모리 사용이 가능하도록 구현됨)

### <font color="orange">**2. 파이썬 list가 느린 이유**</font>

- 파이썬 리스트는 결국 포인터의 배열
- 경우에 따라서 각각 객체가 메모리 여기저기 흩어져 있음
- 그러므로 캐시 활용이 어려움

### <font color="orange"> **3. NumPy ndarray가 빠른 이유**</font>

- ndarray는 타입을 명시하여 원소의 배열로 데이터를 유지
- 다차원 데이터도 연속된 메모리 공간이 할당됨
- 많은 연산이 dimensions과 strides를 잘 활용하면 효율적으로 가능
    - 가령 transpose는 strides를 바꾸는 것으로 거의 공짜
    - ndarray 구현 방식을 떠올리면 어떻게 성능을 낼 수 있는지 상상 가능

![title](http://jakevdp.github.io/images/array_vs_list.png)

예) NumPy에서 Transpose 구현

In [0]:
x = np.array([[1,2],[3,4]], dtype=np.int8)
y = x.T #

In [0]:
x

In [0]:
y

In [0]:
print(x.strides)
print(y.strides)

# <font color="blue">다차원 배열 생성 - 1</font>

### <font color="orange">1. 다차원 배열의 자료형</font>

![alt text](https://docs.scipy.org/doc/numpy/_images/dtype-hierarchy.png)

(출처) https://docs.scipy.org/doc/numpy/_images/dtype-hierarchy.png

다차원 배열의 원소는 위와 같은 자료형을 가질 수 있다.

어느 한 다차원 배열의 모든 원소는 동일한 자료형을 가져야 한다.

### <font color="orange">2. 직접 원소를 입력해서 다차원 배열 생성하기</font>

**np.array()** 함수를 사용해 다차원 배열을 생성할 수 있다.

#### (1) bool

bool 데이터를 입력해서 다차원 배열을 생성한다.

In [0]:
boolArray = np.array([True, False, True, True, False])

In [0]:
boolArray

In [0]:
boolArray.dtype

#### (2) number

number 데이터를 입력해서 다차원 배열을 생성한다.

정수형, 부호 없는 정수형, 실수형, 복소수형 등이 있다.

##### 정수형

<font color="red">default data type은 운영체제에 따라 다르다.</font>

In [0]:
intArray = np.array([[1, 2], [3, 4]])

In [0]:
intArray

In [0]:
intArray.dtype

##### 부호 없는 정수형

<font color="red">default data type은 운영체제에 따라 다르다.</font>

In [0]:
# uintArray = np.array([[1, 2], [3, 4]], dtype='uint64')
uintArray = np.array([[1, 2], [3, 4]], dtype='uint32')

In [0]:
uintArray

In [0]:
uintArray.dtype

##### 실수형

실수형의 default data type은 'float64'이다.

In [0]:
floatArray = np.array([[1.1, 2.2], [3.3, 4.4]])
floatArray

In [0]:
floatArray.dtype

In [0]:
floatArray = np.array([[1.1, 2.2], [3.3, 4.4]], dtype='float64')

In [0]:
floatArray

In [0]:
floatArray.dtype

##### 형변환

정수형 데이터를 입력해도 dtype 인수를 실수형으로 명시한다면 실수형으로 자동 형변환이 발생한다.

In [0]:
floatArray2 = np.array([[1, 2], [3, 4]], dtype='float64')

In [0]:
floatArray2

In [0]:
floatArray2.dtype

물론 반대로 실수형 데이터로 입력한 후 dtype 인수를 정수형으로 명시해도 자동으로 변환된다.

In [0]:
intArray2 = np.array([[1.1, 2.2], [3.3, 4.4]], dtype='int64')

In [0]:
intArray2

In [0]:
intArray2.dtype

##### 표준 코딩방법

In [0]:
floatArray3 = np.array([[1., 2.], [3., 4.]])

In [0]:
floatArray3

In [0]:
floatArray3.dtype

# <font color="blue">다차원 배열 생성 - 2</font>

### numpy.empty

엔트리를 초기화하지 않고, 지정한 크기의 새로운 다차원 배열을 생성

In [0]:
np.empty((4,3))

In [0]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [0]:
A

In [0]:
np.empty_like(A) #주어진 모양과 같은 유형의 새로운 배열을 생성.

### numpy.zeros

모든 요소가 0으로 이루어진, 지정한 크기의 새로운 다차원 배열을 생성

In [0]:
np.zeros((2, 3))

In [0]:
np.zeros((2, 3), dtype=int)

In [0]:
np.zeros_like(A) # 지정된 배열과 같은 형태의 새로운 배열 생성

### numpy.ones

모든 요소가 1로 이루어진, 지정한 크기의 새로운 다차원 배열을 생성

In [0]:
np.ones((2, 3))

In [0]:
np.ones((2,3), dtype=int)

In [0]:
np.ones_like(A)

### numpy.identity, numpy.eye

지정한 크기의 정방 단위 행렬을 생성.

선형대수학에서, 단위 행렬은 주대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각 행렬이다.

In [0]:
np.identity(2)

In [0]:
np.identity(3, dtype=int) 

eye() 함수도 identity() 함수와 같은 기능을 한다.

In [0]:
np.eye(3)

다만, eye() 함수는 행과 열의 크기가 다른 단위 행렬도 만들 수 있다.

In [0]:
np.eye(3, 4)

1로 초기화하는 주대각선의 위치도 바꿀 수 있다.

In [0]:
np.eye(3, 4, 1)

In [0]:
np.eye(3, 4, -1)

### numpy.full

지정한 크기에 입력한 원소를 전부 채운 다차원 배열을 만든다.

In [0]:
np.full((2, 3), 10)

In [0]:
10 * np.ones((2,3), dtype=int)  # 이 방법을 더 선호

### numpy.arange

일정한 간격 값을 정해서 시작 값부터 끝 값까지 반복해서 증가시킨 값들로 이루어진 다차원 배열을 만든다.

In [0]:
# default value
# start = 0
# step = 1
np.arange(10)

In [0]:
np.arange(start=1.0, stop=5.0, step=0.5)

### numpy.linspace

시작 값과 끝 값을 입력받고, 지정한 간격만큼 떨어진 숫자들로 이루어진 다차원 배열을 만든다.

In [0]:
np.linspace(2.0, 3.0, num=5)


# <font color="blue">다차원 배열 다루기 - 1</font>

다차원 배열을 이용하여 각종 통계 값들을 손쉽게 구할 수 있다.

이후에 등장할 axis 인수는 0으로 초기화될 경우 열의 방향을 가리키며 1로 초기화될 경우 행의 방향을 가리킨다.

![alt text](https://lh3.googleusercontent.com/zXC7mbgObMUkQoUnkfMvog5wU8Qh2bvLEwINZo7eilDpq_aun8c3D_qCvaCZhQQLnC-iz7XxFP3iWylf3RZWNsKUaw2MFU0c4Oiu3cbZIPM4AsgSSUVYlDzZKVgG-ldbaEt2vty-cqaHNqrIYNPjsN6n8gT5XbJPqEk5GJjjTfL61t5ugfaDtHjbskwoZm45x8xbWJgkilc8fZ70hWGr8tpskk_5P4G3dI9zy0-ZNTDF9R2nGknAjcmCT3cP5nKhL0YM8mhhbWxS7jTotR1A-hKBPRXbu-5tFa1W54F8k4Do17Wvhz_JNaj0EX-5z0BT8ryE6XPvsJd4vlQAAzwYKdy9oIL7KYzTiIy3vi7MicCg7opIc87ueczPBpZUv2vczrUzzOT-6Yczc9Ay2UPvzyS6SmB2QJI2gGXXvdRFZAElecn83X98psuIHAGx7xii7OplLOQLNaDN3o0tCt4v0e2mgnP8zU87MfUGMCgs-zJwCZYeJz-2rt1EHGGk0IuiiDJQ-R_X91KUE1Z76VOHOjBt_saj-UJ40dTB2w_ITArQa1dH2GhPZCz7wC4_UmwYlr1BHUiohA1ByDBHRB2cA8sBF5MU3s7F1KKWPQUcBQqf2NhQgUJTYWnvWUrgqdmvEKRVRiXwqlJiwGVc1_nCFUAOtzXqLtJAvT0mlKso-GUEPy6NPFjR-Yvv4ci_QFfhtUh87MyVYTEphY7xcNwTaswPqw=w652-h341-no)

(출처) https://docs.scipy.org/doc/numpy/reference/routines.statistics.html

### numpy.amin, numpy.amax, numpy.median


- 행 또는 열의 최소, 최대, 중간값을 구하는 함수.

In [0]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [0]:
a

axis를 키워드 인수로 전달해서 행 또는 열을 지정한다.

In [0]:
np.amin(a, axis=0)

키워드명을 생략하여 위치 인수로 전달할 수도 있다.

In [0]:
np.amin(a, 1)

axis 인수를 생략하면 행렬 전체에 대한 처리를 한다.

In [0]:
np.amin(a)

최대값을 구하는 함수인 amax() 또한 마찬가지로 동작한다.

In [0]:
np.amax(a, 0)

In [0]:
np.amax(a, 1)

In [0]:
np.amax(a)

median() 함수는 행 또는 열에 대해 요소들을 순차적으로 나열했을 때 순서상 가장 가운데에 있는 요소를 선택한다.

In [0]:
b = np.array([[9, 2, 7], [4, 5, 6], [3, 8, 1]])

In [0]:
b

In [0]:
np.median(b, 0)

In [0]:
np.median(b, 1)

In [0]:
np.median(b)

행 또는 열의 개수가 짝수인 경우 가운데에 있는 두 요소의 평균이 출력된다.

In [0]:
c = np.array([[1, 2, 3], [12, 11, 10], [4, 5, 6], [9, 8, 7]])

In [0]:
c

In [0]:
np.median(c, 0)

In [0]:
np.median(c, 1)

In [0]:
np.median(c)

### numpy.mean

- 행 또는 열의 **산술 평균**을 구하는 함수.
- 가중 평균을 구하려면 numpy.average()를 사용.

In [0]:
a

In [0]:
np.mean(a, 0)

In [0]:
np.mean(a, 1)

In [0]:
np.mean(a)

### numpy.var, numpy.std

- 행 또는 열의 분산(variance), 표준 편차(standard deviation)를 구하는 함수.

In [0]:
np.var(a, 0)

In [0]:
np.var(a, 1)

In [0]:
np.var(a)

In [0]:
np.std(a, 0)

In [0]:
np.std(a, 1)

In [0]:
np.std(a)

# <font color="blue">다차원 배열 다루기 - 2</font>

(참고) https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html

## <font color="orange">1. 슬라이싱(Slicing)</font>

- NumPy의 다차원 배열도 파이썬의 리스트와 유사하게 슬라이싱을 할 수 있다.

- NumPy의 다차원 배열을 슬라이싱 하면 연속된 값을 가져오기에 결과로 얻어지는 배열은 언제나 원본 배열의 부분 배열이다.

**슬라이싱 방법**

- `a[행 시작 번호:행 끝 번호, 열 시작 번호:열 끝 번호]`

- **시작 값**부터 **끝 값 <font color="red">전</font>**까지 슬라이싱

In [0]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a)

In [0]:
a[0:2, 0:4]

In [0]:
a[:2, :]

In [0]:
a[:2]

- 열을 슬라이싱 하지 않는 경우, 열 부분은 생략할 수 있다.
 
- 행 부분은 생략할 수 없다.

## <font color="orange">2. 인덱싱(Indexing)</font>

- NumPy의 다차원 배열을 슬라이싱 하면 연속된 값을 가져오기에 결과로 얻어지는 배열은 언제나 원본 배열의 부분 배열이다.

- 그러나 인덱싱을 하면 연속되지 않는 값을 가져 올 수 있으므로 원본과 다른 배열을 만들 수 있다.

**인덱싱 방법**

- `a[행 번호][열 번호]`

또는

- `a[행 번호, 열 번호]`

In [0]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a)

In [0]:
a[0][0]

In [0]:
a[0, 0]

행과 열의 위치를 조합해서 선택할 수 있다.

In [0]:
a[[0, 2], [1, 3]] # 0행 1열에 위치하는 요소와 2행 3열에 위치하는 요소를 선택

인덱싱과 슬라이싱을 혼합하여 사용할 수도 있다.

In [0]:
# 0열, 1열, 3열만 인덱싱
a[:, [0,1,3]]

## <font color="orange">3. 인덱싱 & 슬라이싱 시 유의할 점</font>

### 차원

- 슬라이싱만 사용하면 원본 배열과 동일한 차원의 배열이 생성된다.

- 인덱싱을 사용하면 원본 배열보다 낮은 차원의 배열이 생성된다.

In [0]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a, a.shape, a.ndim)

행의 경우

In [0]:
# 슬라이싱만 사용
slicedRow = a[0:1, :]
print(slicedRow, slicedRow.shape, slicedRow.ndim)

In [0]:
# 인덱싱만 사용
indexedRow = a[0]
print(indexedRow, indexedRow.shape, indexedRow.ndim)

In [0]:
# 인덱싱 & 슬라이싱 혼합 사용
mixedRow = a[0, :]
print(mixedRow, mixedRow.shape, mixedRow.ndim)

열의 경우

In [0]:
print(a, a.shape, a.ndim)

In [0]:
# 슬라이싱만 사용
slicedCol = a[:, 0:1]
print(slicedCol, slicedCol.shape, slicedCol.ndim)

In [0]:
# 인덱싱만 사용
indexedCol = a[[0, 1, 2], 0]
print(indexedCol, indexedCol.shape, indexedCol.ndim)

In [0]:
# 인덱싱&슬라이싱 혼합 사용
mixedCol = a[:, 0]
print(mixedCol, mixedCol.shape, mixedCol.ndim)

### 값 복사

- 인덱싱한 결과 배열은 원본 배열의 값을 복사한 뒤 새로 조합하여 만드므로 결과 배열의 값을 변경해도 원본 배열의 값이 변하지 않는다.

- 슬라이싱한 결과 배열은 원본 배열과 같은 데이터를 참조한다.

인덱싱의 경우,

In [0]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a)

In [0]:
b = a[0, 0]
print(b)

In [0]:
b = 100

In [0]:
print("a[0, 0]: {}".format(a[0, 0]))
print("b: {}".format(b))

슬라이싱의 경우,

In [0]:
print(a)

In [0]:
c = a[1:3, 1:3]
print(c)

In [0]:
# c[0, 0]은 a[1, 1]과 같은 데이터.
c[0, 0] = 100

In [0]:
print("원본 배열(a)")
print(a)
print("-" * 20)
print("복사한 배열(c)")
print(c)

## <font color="orange">4. 전치(Transpose)


- 기존 행렬의 행과 열을 교환하는 것, 즉 주대각선을 기준으로 반사 대칭하는 것을 말한다.

- 배열 객체의 ‘T’ 속성을 사용한다.

In [0]:
x = np.array([[1, 2], [3, 4]])
print(x)

In [0]:
print(x.T)

차원이 1인 배열을 전치할 경우 결과 배열은 원본 배열과 동일하다.

In [0]:
y = x.flatten()
print(y, y.ndim)

In [0]:
print(y.T, y.T.ndim)

## <font color="orange">5. shape 변경 관련 함수들</font>

### numpy.reshape() 혹은 numpy.ndarray.reshape()

데이터를 변경하지 않고 배열을 새로운 shape로 수정한다.

In [0]:
a = np.arange(6)
print(a)

In [0]:
a.reshape((3, 2))

In [0]:
b = a.reshape((3, 2))
print(b)

In [0]:
np.reshape(b, (2, 3))

In [0]:
# 결과가 2차원이다.
c = np.reshape(a, (1, 6))
print(c, c.ndim)

In [0]:
# 결과가 1차원이다.
d = np.reshape(a, 6)
print(d, d.ndim)

### numpy.ndarray.flatten()

배열을 납작하게 만든다!

In [0]:
a = np.array([[1, 2], [3, 4]])
print(a)

In [0]:
print(a.flatten())

### numpy.concatenate()

두 개 이상의 배열을 연결한다.

concatenate() 함수를 수행하려면 차원 수가 같아야 한다.

In [0]:
a = np.array([[1, 2], [3, 4]])
print(a)

In [0]:
b = np.array([5, 6])
print(b)

In [0]:
np.concatenate((a, b)) # 차원 수가 다르기 때문에 안 됨

In [0]:
b = np.array([[5, 6]])
print(b)

In [0]:
c = np.concatenate((a, b))
print(c)

In [0]:
세 개 이상의 배열을 연결할 수도 있다.

In [0]:
d = np.concatenate((a, b, c))
print(d)

axis 인수를 설정하여 연결 방향을 정할 수 있다.

In [0]:
e = np.concatenate((a, d.T), axis=1)
print(e)

# <font color="blue"> 다차원 배열 연산</font>

(참고) https://docs.scipy.org/doc/numpy/reference/routines.math.html

## <font color="orange">1. 사칙연산<font>

다차원 배열끼리 사칙연산을 할 때는 각 배열의 shape가 일치해야 한다.

각 배열의 같은 위치에 있는 요소끼리 연산이 이루어진 결과를 반환한다.

In [0]:
x = np.array([[1, 2], [7, 8]])
y = np.array([[3, 4], [5, 6]])
print(x)
print("-" * 10)
print(y)

In [0]:
# 덧셈
print(x + y)
print("-" * 10)
print(np.add(x, y))

In [0]:
# 뺄셈
print(x - y)
print("-" * 10)
print(np.subtract(x, y))

In [0]:
# 곱셈
print(x * y)
print("-" * 10)
print(np.multiply(x, y))

In [0]:
# 나눗셈
print(x / y)
print("-" * 25)
print(np.divide(x, y))

In [0]:
# 몫 구하기
print(x // y)
print("-" * 10)
print(np.floor_divide(x, y))

In [0]:
# 나머지 구하기
print(x % y)
print("-" * 10)
print(np.remainder(x, y))

## <font color="orange">2. 스칼라, 벡터, 행렬, 텐서</font>

![대체 텍스트](https://art28.github.io/assets/lecture_asset/linear_algebra/1_1.png)

* 스칼라(Scalar)

    하나의 값. 0차원 배열로 표현됨.
           
* 벡터(Vector)

    1차원 배열로 표현되는 값들의 집합.
        
* 행렬(Matrix)

    2차원 배열로 표현되는 값들의 집합.
        
* 텐서(Tensor)

    2차원 이상의 배열로 표현되는 값들의 집합.

### 벡터의 내적(스칼라곱 혹은 점곱)

벡터의 내적이라고도 표현되는 스칼라곱(scalar product) 혹은 점곱(dot product)은 두 벡터로 스칼라를 얻는 연산이다.

벡터의 내적은 @ 연산자 혹은 dot() 함수를 사용한다.

In [0]:
v = np.array([9, 10])
w = np.array([11, 12])

In [0]:
print(v @ w)
print("-" * 5)
print(v.dot(w))
print("-" * 5)
print(np.dot(v, w))

행렬과 벡터 간 내적도 가능하다.

결과는 벡터로 표현된다.

In [0]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])

In [0]:
print(x @ v)
print("-" * 10)
print(x.dot(v))
print("-" * 10)
print(np.dot(x, v))

행렬과 행렬의 내적도 지원한다.

결과는 행렬로 표현된다.

In [0]:
print(x @ y)
print("-" * 10)
print(x.dot(y))
print("-" * 10)
print(np.dot(x, y))

## <font color="orange">3. 브로드캐스팅(Broadcasting)</font>


### 차원이 다른 두 배열끼리의 연산

만약 다음과 같은 행렬이 있다고 하자.

In [0]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
print(x)

위 행렬의 각 행에 아래와 같은 벡터를 더하고자 한다.

In [0]:
y = np.array([1, 2, 3])
print(y)

이를 위해 우선 영행렬을 만들어 준다.

In [0]:
z = np.zeros_like(x)
print(z)

그리고 아래와 같은 반복문을 통해 더해줄 수 있다.

In [0]:
for i in range(4):
    z[i, :] = x[i, :] + y

In [0]:
print(z)

`x`가 매우 큰 행렬이라면, 파이썬의 반복문을 이용한 위 코드는 매우 느려질 수 있다.

행렬의 각 행에 벡터를 더하는 것은 벡터를 여러 개 복사해서 수직으로 쌓은 행렬을 만들고 이 행렬을 원래의 행렬에 더하는 것과 동일하다.

### 브로드캐스팅의 개념

NumPy에서는 차원이 다른 두 배열의 연산을 지원한다.

이때, **차원이 낮은 배열을 차원이 큰 배열의 크기만큼 복사한 뒤 연산**한다.

In [0]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
print(x)

In [0]:
y = np.array([1, 2, 3])
print(y)

In [0]:
z = x + y
print(z)

이를 **브로드캐스팅(broadcasting)**이라고 한다.

### 스칼라와 행렬의 연산

NumPy는 스칼라를 0차원 배열로 취급하므로 스칼라 또한 고차원 배열과의 연산에서 브로드캐스팅 될 수 있다.

In [0]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
print(x)

In [0]:
y = np.array(2)
print(y)
print(type(y))
print(y.shape)
print(y.ndim)

In [0]:
print(x * y)

ndarray 객체를 거치지 않고 바로 숫자와 행렬 간의 연산 시에도 숫자를 스칼라로 변환하여 처리한다.

In [0]:
print(x * 2)

앞서 보았던 수학 점수의 배열에 대한 일괄 가산 처리 예시 또한 브로드캐스팅의 일종이다.

In [0]:
nestedMathList = [[11, 12, 13], [21, 22, 23], [31, 32, 33]]

In [0]:
nestedMathList2 = []

for innerList in nestedMathList:
    tempList = []

    for e in innerList:
        tempList.append(e + 1)

    nestedMathList2.append(tempList)

print(nestedMathList2)

In [0]:
mathNdarray = np.array(nestedMathList)
newNdarray = mathNdarray + 1
print(newNdarray)

브로드캐스팅은 코드를 간결하게 만들어준다.