### Numpy

- 머신러닝 애플리케이션에서 데이터 추출, 가공, 변환과 같은 데이터 처리 부분을 담당한다.
- 넘파이 기반의 사이킷런을 이해하기 위해서는 넘파이는 필수이다.
- 사이킷런은 직관적이고 간결하기 때문에 상대적으로 개발하기 쉽지만 넘파이는 양도 많고 배워야 할 것도 많다.
- 넘파이 전체를 다 이해하고 공부하는 것은 머신러닝을 포기하게 만들기 때문에 기본 문법과 중요 API만 이해하는 것이 전략적으로 좋다.

### ndarray
- N차원(Dimension) 배열 객체
- 파이썬 list를 array() 메소드에 전달하면 ndarray로 변환되고 다양하고 편리한 기능들을 사용할 수 있게 된다.  
📌반드시 같은 자료형의 데이터만 담아야 한다.

![](./image/numpy1.png)

In [21]:
import numpy as np

In [22]:
ndarray1 = np.array([1, 2, 3])
ndarray2 = np.array([[1, 2, 3], [4, 5, 6]])

# shape: 차원을 알 수 있으며, 각 차원별 개수를 나타냄
print(ndarray1.shape, ndarray2.shape, sep="\n")

# ndim: 차원만 나타냄
print(ndarray1.ndim, ndarray2.ndim, sep="\n")

(3,)
(2, 3)
1
2


### astype()
- ndarray에 저장된 요소의 타입을 변환 시킬 때 사용한다.
- 대용량 데이터 처리 시, 메모리 절약을 위해 사용한다.

In [23]:
ndarray1 = np.array([1, 2, 3])
print(type(ndarray1))
# dtype: 요소의 타입
print(ndarray1, ndarray1.dtype)

<class 'numpy.ndarray'>
[1 2 3] int32


In [24]:
ndarray_int = np.array([1, 2, 3])

# ndarray_float = ndarray_int.astype(np.float64)
ndarray_float = ndarray_int.astype('float64')
print(ndarray_float, ndarray_float.dtype)

ndarray_int= ndarray_float.astype('int32')
print(ndarray_int, ndarray_int.dtype)

ndarray_float = np.array([4.5, 5.6, 6.7])
ndarray_int= ndarray_float.astype('int32')
print(ndarray_int, ndarray_int.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[4 5 6] int32


### ndarray의 axis
- 축의 방향성을 표현할 때 axis로 표현할 수 있다.
- 2차원(행, 열)일 경우 순서대로 행: axis 0(위에서 아래로), 열: axis 1(왼쪽에서 오른쪽)이다.
- 3차원(면, 행, 열)일 경우 순서대로 면: axis 0(뒤에서 앞으로), 행: axis 1(위에서 아래로), 열: axis 2(왼쪽에서 오른쪽)이다.

![](./image/numpy2.png)

### arange(), zeros(), ones()
- ndarray의 요소를 원하는 범위의 연속값, 0 또는 1로 초기화할 때 사용한다.

In [25]:
# 0~9까지 1차원
ndarray = np.arange(0, 10)
print(ndarray, ndarray.dtype, ndarray.shape)

# 2행 3열 요소 모두 0으로 초기화
ndarray = np.zeros((2, 3))
print(ndarray, ndarray.dtype, ndarray.shape)

# 1차원 3칸 배열 요소 모두 1로 초기화
ndarray = np.ones((3, ))
print(ndarray, ndarray.dtype, ndarray.shape)

# 요소 타입 정수로 변환
print(ndarray.astype(np.int32))

[0 1 2 3 4 5 6 7 8 9] int32 (10,)
[[0. 0. 0.]
 [0. 0. 0.]] float64 (2, 3)
[1. 1. 1.] float64 (3,)
[1 1 1]


### Task

In [26]:
# axis0이 10인 shape이면서 모든 원소가 0, dtype은 int32 인 ndarray 만들기
# axis0이 3, axis1이 4인 shape이면서 모든 원소가 1인 ndarray 만들기
# axis0이 5, 각 요소가 0~4인 ndarray 만들기

In [27]:
# axis0이 10인 shape이면서 모든 원소가 0, dtype은 int32 인 ndarray 만들기
ndarray = np.zeros((10, ), dtype=np.int32)
print(ndarray, ndarray.dtype, ndarray.shape)

# axis0이 3, axis1이 4인 shape이면서 모든 원소가 1인 ndarray 만들기
# ndarray = np.ones((3, 4), dtype=np.int32)
ndarray = np.ones((3, 4))
print(ndarray, ndarray.dtype, ndarray.shape)

# axis0이 5, 각 요소가 0~4인 ndarray 만들기
ndarray = np.arange(5)
print(ndarray, ndarray.dtype, ndarray.shape)

[0 0 0 0 0 0 0 0 0 0] int32 (10,)
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]] float64 (3, 4)
[0 1 2 3 4] int32 (5,)


### reshape()
- ndarray의 기존 shape를 다른 shape로 변경한다.

In [28]:
ndarray1 = np.arange(8)
print(ndarray1)

ndarray2 = ndarray1.reshape(2, 4)
print(ndarray2)

# axis 0에 -1을 작성하면, 자동으로 열 개수로 나누어 맞춰진다. 직접 계산해서 작성하는 번거로움을 줄여준다.
ndarray2 = ndarray1.reshape(-1, 2)
print(ndarray2)

# 나누어 떨어지지 않으면 오류 발생.
# ndarray2 = ndarray1.reshape(-1, 5)

[0 1 2 3 4 5 6 7]
[[0 1 2 3]
 [4 5 6 7]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]]


### Task

In [29]:
ndarray1 = np.arange(start=0, stop=16)
print(ndarray1)

# 2 Dimension, axis 1은 2로 변경
# 2 Dimension, axis 0은 8로 변경
# 3 Dimension으로 변경
# ndarray3을 axis 1이 1인 2차원 ndarray로 변환
# ndarray3을 1 Dimension으로 변환

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]


In [30]:
ndarray1 = np.arange(start=0, stop=16)
print(ndarray1)

# 2 Dimension, axis 1은 2로 변경
ndarray2 = ndarray1.reshape(-1,2)
print(ndarray2.shape)

# 2 Dimension, axis 0은 8로 변경
ndarray2 = ndarray1.reshape(8,-1)
print(ndarray2.shape)

# 3 Dimension으로 변경
ndarray3 = ndarray1.reshape((2,2,4))
print(ndarray3)

# ndarray3을 axis 1이 1인 2차원 ndarray로 변환
ndarray2 = ndarray3.reshape(-1, 1)
print(ndarray2, ndarray2.shape)

# ndarray3을 1 Dimension으로 변환
ndarray1 = ndarray3.reshape(-1,)
print(ndarray1.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(8, 2)
(8, 2)
[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]
 [15]] (16, 1)
(16,)


### Indexing
- 특정 위치의 데이터를 가져오는 것
1. 위치 인덱싱: 전달한 위치(인덱스)의 값 한 개 추출
2. 슬라이싱(Slicing): 시작 위치와 종료 위치에 해당하는 ndarray 추출
3. 팬시 인덱싱(Fancy indexing): list를 전달하여 한 번에 여러 요소를 추출, 특정 위치 값들을 콕 찝어서 추출
4. 불린 인덱싱(Boolean indexing): True인 위치의 ndarray 추출

In [31]:
# 1. 위치 인덱싱

# 2부터 10까지 순서대로 요소를 갖는 1차원 ndarray
ndarray = np.arange(start=2, stop=10)
print(ndarray)

data = ndarray[2]
print(data)
print(type(data))

print('마지막 >> ',ndarray[-1])
print('마지막에서 두 번째 >> ',ndarray[-2])

ndarray[-1] = 2
ndarray[0] = 9
print(ndarray)

[2 3 4 5 6 7 8 9]
4
<class 'numpy.int32'>
마지막 >>  9
마지막에서 두 번째 >>  8
[9 3 4 5 6 7 8 2]


In [32]:
ndarray1 = np.arange(start=1, stop=10)
ndarray2 = ndarray1.reshape(3,3)
print(ndarray2)

print(ndarray2[1,0])
print(ndarray2[1,1])
print(ndarray2[2,0])
print(ndarray2[2,1])
print(ndarray2[0], ndarray2[0].shape)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
4
5
7
8
[1 2 3] (3,)


In [33]:
# 2. 슬라이싱(Slicing)

ndarray1 = np.arange(start=2, stop=11, step=2)
print(ndarray1)

print(ndarray1[:3])
print(ndarray1[3:])
print(ndarray1[:])
print(ndarray1[-4:])

[ 2  4  6  8 10]
[2 4 6]
[ 8 10]
[ 2  4  6  8 10]
[ 4  6  8 10]


In [34]:
ndarray1 = np.arange(start=1, stop=28)
print(ndarray1)
ndarray2 = ndarray1.reshape(-1,3)
print(ndarray2)

print(ndarray2[:3, :2])
print(ndarray2[4:9])
print(ndarray2[4:, :])
print(ndarray2[:])
print(ndarray2[-2:-1, 0:2])
print(ndarray2[::-1])
print(ndarray2[::-1, ::-1])

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[1 2]
 [4 5]
 [7 8]]
[[13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]
 [13 14 15]
 [16 17 18]
 [19 20 21]
 [22 23 24]
 [25 26 27]]
[[22 23]]
[[25 26 27]
 [22 23 24]
 [19 20 21]
 [16 17 18]
 [13 14 15]
 [10 11 12]
 [ 7  8  9]
 [ 4  5  6]
 [ 1  2  3]]
[[27 26 25]
 [24 23 22]
 [21 20 19]
 [18 17 16]
 [15 14 13]
 [12 11 10]
 [ 9  8  7]
 [ 6  5  4]
 [ 3  2  1]]


In [35]:
# 팬시 인덱싱

ndarray1 = np.arange(start=1, stop=21)
ndarray2 = ndarray1.reshape(4,5)
print(ndarray2)


print(ndarray2[[0,1, 3], 2:5])

print(ndarray2[[0,1]])

# ndarray2[[a, b], [c, d]] : a행 c열 값, b행 d열 값, 무조건 1차원 배열
print(ndarray2[[1, 2], [1, 3]])
print(ndarray2[[3, 2, 1], [1, 2, 4]])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]
[[ 3  4  5]
 [ 8  9 10]
 [18 19 20]]
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
[ 7 14]
[17 13 10]


In [36]:
# 불린 인덱싱

ndarray1 = np.arange(start=1, stop=10)
print(ndarray1)
print(ndarray1 % 2 == 0)

ndarray1 = ndarray1[ndarray1 % 2 == 0]
print(ndarray1)

[1 2 3 4 5 6 7 8 9]
[False  True False  True False  True False  True False]
[2 4 6 8]


### 정렬
> 모두 오름차순 정렬이며, 내림차순은 오름차순 정렬 후 [::-1]을 붙여 사용한다.  

1. np.sort(ndarray)
> 전달한 기존 행렬은 그대로 놔둔 채 새롭게 정렬된 행렬을 리턴한다.

2. np.sort(ndarray, axis=n)
> 전달한 축(axis)을 기준으로 정렬한다.

3. ndarray.sort()
> 기존 행렬을 정렬하며 리턴은 없다.  

4. np.argsort(ndarray)
> 요소를 정렬하고 나서 정렬된 요소의 원래 인덱스(정렬 전 인덱스)를 리턴한다.  
> numpy로 데이터 분석 시 array의 인덱스를 key(컬럼)로 사용할 경우 argsort()가 사용된다(정렬 후 어떤 컬럼인지 알아내기 위해).

In [37]:
# np.sort(ndarray)

original_ndarray = np.array([0, 4, 2, 5]) 

sorted_ndarray = np.sort(original_ndarray)         
print('원본 배열:', original_ndarray)
print('정렬된 배열:', sorted_ndarray)

원본 배열: [0 4 2 5]
정렬된 배열: [0 2 4 5]


In [38]:
# np.sort(ndarray, axis=n)

ndarray1 = np.array([i for i in range(20, 0, -2)])
ndarray2 = ndarray1.reshape(2, -1)
print("원본", ndarray2, sep="\n")

sorted_ndarray_axis0 = np.sort(ndarray2, axis=0)
print("axis0 정렬\n{}".format(sorted_ndarray_axis0))

sorted_ndarray_axis1 = np.sort(ndarray2, axis=1)
print("axis1 정렬\n{}".format(sorted_ndarray_axis1))

원본
[[20 18 16 14 12]
 [10  8  6  4  2]]
axis0 정렬
[[10  8  6  4  2]
 [20 18 16 14 12]]
axis1 정렬
[[12 14 16 18 20]
 [ 2  4  6  8 10]]


In [39]:
# ndarray.sort()

original_ndarray = np.array([1, 2, 0, 4]) 
original_ndarray.sort()

print('원본 배열:', original_ndarray)

sorted_ndarray = original_ndarray[::-1]
print('내림 차순:', sorted_ndarray)

원본 배열: [0 1 2 4]
내림 차순: [4 2 1 0]


In [40]:
# np.argsort(ndarray)

original_ndarray = np.array([0, 3, 2, 6]) 
sorted_indexes = np.argsort(original_ndarray)
print('정렬 후 원래 인덱스:', sorted_indexes, type(sorted_indexes))

sorted_indexes_desc = sorted_indexes[::-1]
print('정렬 후 원래 인덱스:', sorted_indexes_desc, type(sorted_indexes_desc))

정렬 후 원래 인덱스: [0 2 1 3] <class 'numpy.ndarray'>
정렬 후 원래 인덱스: [3 1 2 0] <class 'numpy.ndarray'>


In [41]:
cars = np.array(['Lamborghini', 'Mclaren', 'Benz', 'Bentley', 'The New Morning'])
zeroTo100 = np.array([2.8, 2.9, 5.2, 3.7, 13.5])

sorted_indexes = np.argsort(zeroTo100)
print('정렬 후 zeroTo100 인덱스:', sorted_indexes)
print('정렬 된 인덱스로 자동차 조회:', cars[sorted_indexes])

정렬 후 zeroTo100 인덱스: [0 1 3 2 4]
정렬 된 인덱스로 자동차 조회: ['Lamborghini' 'Mclaren' 'Bentley' 'Benz' 'The New Morning']


### Task

In [50]:
import numpy as np
# 데이터를 분석하여, 각 수치별 오름차순 및 내림차순 후 이름을 출력하세요.
# ndarray.ravel(): 2차원 넘파이 배열을 1차원 넘파이 배열로 변경(mutable)
# ndarray.flatten(): 2차원 넘파이 배열을 1차원 넘파이 배열로 변경(immutable)

# [[과일이름], [가격]], 가격별 내림차순
array1 = [['Mango', 'Apple', 'Pear', 'Pitch', 'Melon'], [1500, 1800, 2000, 2500, 8500]]

# [[이름], [나이], [학점]], 나이별 내림차순, 학점별 오름차순
array2 = [['둘리', '또치', '길동', '도너', '마이콜'], [7, 9, 40, 5, 20], ['C', 'A', 'B', 'F', 'D']]

# [[국가이름], [GDP 성장률]], GDP 성장률별 오름차순
array3 = [['영국', '러시아', '남아프리카 공화국', '미국', '한국'], ['-0.6%', '0.3%', '1.2%', '1.4%', '1.7%']]

In [43]:
# [[과일이름], [가격]], 가격별 내림차순
array1 = [['Mango', 'Apple', 'Pear', 'Pitch', 'Melon'], [1500, 1800, 2000, 2500, 8500]]
ndarray = np.array(array1)

# fruit_names = ndarray[:1].ravel()
# fruit_names[0] = 'hi'
# print(ndarray)

fruit_names = ndarray[:1].flatten()
fruit_prices = ndarray[1:2].flatten()
print(fruit_names, fruit_prices)

fruit_names_sorted_by_prices = fruit_names[np.argsort(fruit_prices)[::-1]]
print(fruit_names_sorted_by_prices)

['Mango' 'Apple' 'Pear' 'Pitch' 'Melon'] ['1500' '1800' '2000' '2500' '8500']
['Melon' 'Pitch' 'Pear' 'Apple' 'Mango']


In [44]:
# [[이름], [나이], [학점]], 나이별 내림차순, 학점별 오름차순
array2 = [['둘리', '또치', '길동', '도너', '마이콜'], [7, 9, 40, 5, 20], ['C', 'A', 'B', 'F', 'D']]
ndarray = np.array(array2)

names = ndarray[:1].flatten()
# ages = np.array(ndarray[1:2].flatten(), dtype=np.int32)
ages = ndarray[1:2].flatten().astype(np.int32)
grades = ndarray[2:3].flatten()
print(names, ages, grades, sep="\n")

names_sorted_by_ages = names[np.argsort(ages)[::-1]]
print(names_sorted_by_ages)

names_sorted_by_grades = names[np.argsort(grades)]
print(names_sorted_by_grades)

['둘리' '또치' '길동' '도너' '마이콜']
[ 7  9 40  5 20]
['C' 'A' 'B' 'F' 'D']
['길동' '마이콜' '또치' '둘리' '도너']
['또치' '길동' '둘리' '마이콜' '도너']


In [45]:
# [[국가이름], [GDP 성장률]], GDP 성장률별 오름차순
array3 = [['영국', '러시아', '남아프리카 공화국', '미국', '한국'], ['0.3%', '-0.6%', '1.4%', '1.2%', '1.7%']]
ndarray = np.array(array3)

nations = ndarray[:1].flatten()

increase_ratings_of_GDP = []
increase_ratings_of_GDP_data = ndarray[1:2].flatten()

for i in increase_ratings_of_GDP_data:
    increase_ratings_of_GDP.append(i.replace('%', ''))

increase_ratings_of_GDP = np.array(increase_ratings_of_GDP, dtype=np.float32)
    
print(nations, increase_ratings_of_GDP)

print(nations[np.argsort(increase_ratings_of_GDP)])

['영국' '러시아' '남아프리카 공화국' '미국' '한국'] [ 0.3 -0.6  1.4  1.2  1.7]
['러시아' '영국' '미국' '남아프리카 공화국' '한국']


### 선형대수
- 전치 행렬
> 행과 열을 반대로 바꾸는 작업.
- 행렬 내적
> 행렬끼리 연산을 수행하는 작업.
- 역행렬
> 행렬의 역수  
> 역수란, 곱셈에 대한 항등원인 1이 나오게 하는 수이며, A행렬의 역수는 A<sup>-1</sup>로 표기한다.

#### 📌연립 방정식을 쉽게 정리하고 풀기 위해 나온 것이 선형대수이다.
#### k = [[k<sub>1</sub>], [k<sub>2</sub>]], A = [[x<sub>1</sub>, x<sub>2</sub>], [y<sub>1</sub>, y<sub>2</sub>]], w = [[w<sub>1</sub>], [w<sub>2</sub>]]
> #### 1. k<sub>1</sub> = x<sub>1</sub>w<sub>1</sub> + x<sub>2</sub>w<sub>2</sub>
> #### 2. k<sub>2</sub> = y<sub>1</sub>w<sub>1</sub> + y<sub>2</sub>w<sub>2</sub>
> #### 3. k = Aw
#### 위와 같이 선형대수를 사용하면, 최소한의 타이핑으로 대량의 데이터를 쉽게 계산할 수 있게 된다.

In [46]:
A = np.array([1, 2, 3, 4]).reshape(2, 2)
w = np.array([5, 6]).reshape(2, 1)
print(A)
print(w)
print("===============")
print(np.dot(A, w))

[[1 2]
 [3 4]]
[[5]
 [6]]
[[17]
 [39]]


In [47]:
# 전치 행렬
ndarray1 = np.arange(1, 5).reshape(2, 2)
ndarray1_T = ndarray1.T
print(ndarray1, ndarray1_T, sep="\n\n")
print("=============================")
ndarray2 = np.arange(1, 33).reshape(4, -1)
ndarray2_T = ndarray2.T
print(ndarray2, ndarray2_T, sep="\n\n")

[[1 2]
 [3 4]]

[[1 3]
 [2 4]]
[[ 1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16]
 [17 18 19 20 21 22 23 24]
 [25 26 27 28 29 30 31 32]]

[[ 1  9 17 25]
 [ 2 10 18 26]
 [ 3 11 19 27]
 [ 4 12 20 28]
 [ 5 13 21 29]
 [ 6 14 22 30]
 [ 7 15 23 31]
 [ 8 16 24 32]]


In [48]:
# 행렬 내적
ndarray1 = np.array([[1, 2, 3],
              [4, 5, 6]])
ndarray2 = np.array([[7, 8],
              [9, 10],
              [11, 12]])

result = np.dot(ndarray1, ndarray2)
print(result)

[[ 58  64]
 [139 154]]


### Task

In [55]:
# 다음 연립방정식을 전치 행렬과 행렬 내적 
# 그리고 역행렬(np.linalg.inv())을 통해 해결하세요.

# x + 2y + 3z = 1
# x + 2y + z = 3
# x + 3z = 5

A = np.array([[1, 2, 3], [1, 2, 1], [1, 0, 3]])
k = np.array([[1, 3, 5]]).T
print(A, k, sep="\n\n")
print(np.dot(np.linalg.inv(A), k))

[[1 2 3]
 [1 2 1]
 [1 0 3]]

[[1]
 [3]
 [5]]
[[ 8.]
 [-2.]
 [-1.]]
