## **Newly realized knowledge**
>- numpy의 datatype : ndarray
- ndarray 내의 data type은 연산의 특성상 같은 data type만 가능하다
- 한 개의 ndarry 객체에 int, float이 같이 존재할 수 없다
- array.dtype 속성으로 데이터 타입을 확인 가능
- **data type이 섞여 있는 list를 ndarray로 변경하면 data type이 더 큰 data type으로 변환되어 모두 같은 type을 가지게 된다.**

```python
# - np.shape만을 보고는 정확한 차원을 알 수 없다.
import numpy as np
# 예시 1: (3, 4) 형상의 2차원 배열
arr_1 = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])
# 예시 2: (3, 4, 1) 형상의 3차원 배열이지만 두 번째 차원이 크기 1
arr_2 = np.array([[[1], [2], [3], [4]],
                  [[5], [6], [7], [8]],
                  [[9], [10], [11], [12]]])
shape_1 = np.shape(arr_1)
shape_2 = np.shape(arr_2)
print("Shape of arr_1:", shape_1)  # 출력: (3, 4)
print("Shape of arr_2:", shape_2)  # 출력: (3, 4, 1)
# arr_2는 3차원 배열이지만 두 번째 차원의 크기가 1입니다.
# 따라서 arr_2는 사실상 2차원 배열과 유사하게 동작할 수 있습니다.

```
- **배열의 차원을 확인하려면 ndim 속성을 이용해야한다.**
---
```python
array4 = np.array([[1,2,3],[4,5]])
print(array4.shape)
# (2,)
```
```python
array4 = np.array([[[1,2,3],[4,5]]])
print(array4.shape)
# (1,2)
```
```python
array4 = np.array([[[[1,2,3],[4,5]]]])
print(array4.shape)
# (1,1,2)
```
```python
array4 = np.array([[[[1],[2],[3]],[[4],[5],[6]]]])
print(array4.shape)
# (1,2,3,1)
# [] : 겉 껍데기 => 1번째 차원
# [] : 속 껍데기 => 요소 2개 들어있음 => 2번째 차원
# [] : list 요소가 들어있는 list => 3번째 차원
# [] : 각 숫자들이 []로 감싸져 있음 => 4번째 차원 (data가 보관되어있는 격자의 두께라고 생각)
```
---
### **Numpy의 Broadcasting**
- NumPy에서 배열 간의 연산을 수행할 때, 크기가 서로 다른 배열 간에 자동으로 형상을 맞춰주는 기능
- 더 작은 배열을 자동으로 더 큰 배열의 형상에 맞추어주는 메커니즘
- 코드를 간결하게 작성하고 메모리 사용을 최적화하는 데 도움이 된다

> 1. 차원이 더 작은 배열이 큰 배열에 맞춰진다.
2. 한 배열에서 해당 차원의 크기가 1이고 다른 배열에서는 1보다 큰 경우, 크기가 1인 차원이 해당 차원의 크기에 맞게 브로드캐스팅됩니다.
3. 브로드캐스팅 후, 모든 차원의 크기가 일치해야 합니다.

```python
import numpy as np
c = np.array([[1, 2, 3],
              [4, 5, 6]])
d = np.array([10, 20, 30])
result2 = c + d  # d가 c의 각 행에 브로드캐스팅되어 더해짐
print(result2)
# result
[[11 22 33]
 [14 25 36]]
```



In [1]:
import numpy as np

> array1 과 array 3는 동일한 data 건수를 가지고 있지만, 명확히 차원이 다르다. 이는 매우 중요한 개념이다. **머신러닝 알고리즘과 data set 간의 입출력과 변환을 수행하다 보면 명확히 입력 data의 차원을 요구하는 경우가 있다. data값은 서로 동일한데, 차원이 달라서 오류가 발생하기도 하기에, 잘 알아두어야 한다. => reshape() 함수로 해결 가능한 오류**

In [2]:
# ndarray.shape
# 길이가 3인 1차원 배열
array1 = np.array([1,2,3])
print('array1 type :', type(array1))
print('array1 array:', array1.shape)

# 2차원 배열로 2개의 row, 3개의 column으로 구성된 data
array2 = np.array([[1,2,3],[2,3,4]])
print('array2 type :', type(array2))
print('array2 array:', array2.shape)

# 1개의 row, 3개의 column으로 이루어진 2차원 data
array3 = np.array([[1,2,3]])
print('array3 type :', type(array3))
print('array3 array:', array3.shape)

array1 type : <class 'numpy.ndarray'>
array1 array: (3,)
array2 type : <class 'numpy.ndarray'>
array2 array: (2, 3)
array3 type : <class 'numpy.ndarray'>
array3 array: (1, 3)


In [3]:
print('array1: {0}차원, array2: {1}차원, array3: {2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3: 2차원


### **문자열 formating**


```python
# 1 => %
print("김파이의 점수는 %d 점 입니다." % 85)
# %d : 정수형   %s : string 문자열
```

```python
# 2 => string.format
k = '나는 {}입니다'.format('이찬')
```

```python
# 3 => f'string'
s ='coffee'
n = 5
result1 = f'저는 {s}를 좋아합니다. 하루 {n}잔 마셔요.'
```
> **f-string과 리스트**
- n=[100, 200, 300]
- print(f'list: {n[0]}, {n[1]}, {n[2]}')

>
```python
# 왼쪽 정렬
result1 = f'|{ stirng :<10}|'
# 가운데 정렬
result2 = f'|{ stirng :^10}|'
# 오른쪽 정렬
result1 = f'|{ stirng :>10}|'
```


In [4]:
list1 = [1,2,3]
print(type(list))
array1 = np.array([1,2,3])
print(type(array1))
print(array1, array1.dtype)

<class 'type'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [5]:
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1,2,3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


In [6]:
# astype() 메서드로 데이터 값의 타입 변경도 가능
# float -> int : 메모리를 절약
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


In [7]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [8]:
zero_array = np.zeros((3,2), dtype = 'int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


 > int는 정수형, uint는 부호가 없는 정수형, float는 부동소수형을 의미합니다. 그리고 뒤에 붙는 숫자는 값을 저장하는데 사용되는 비트수를 의미합니다. 클수록 더 넓은 범위의 숫자를 담을 수 있습니다. 다루는 숫자의 크기를 고려해서 적절한 자료형을 선택해주면 됩니다.

 - int8 => 2^8 => 256개 숫자


In [9]:
# reshape() : 지정된 사이즈로 변경이 불가능하면 오류를 발생시킴
array1 = np.arange(10)
print('array1: \n', array1)

array2 = array1.reshape(2,5)
print('array2:\n',array2)

array3 = array1.reshape(5,2)
print('array3:\n',array3)

array1: 
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [10]:
# reshape는 실전에서 보통 인자로 -1을 적용하는 경우가 많다.
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(-1,5)
print('array2 shape: ',array2.shape)

array3 = array1.reshape(5,-1)
print('array3 shape: ', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape:  (2, 5)
array3 shape:  (5, 2)


- reshape(-1,1)은 원본 ndarray가 어떤 형태라도 2차원이고, 여러 개의 로우를 가지되 반드시 1개의 column을 가진 ndarray로 변환됨을 보장한다.

- 여러 개의 ndarray는 stack이나 concat으로 결합할 때 각각의 ndarray의 형태를 통일해 유용하게 사용된다.

In [11]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n', array3d.tolist())
# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape: ', array5.shape)
# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape: ', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape:  (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape:  (8, 1)


#### **넘파이의 ndarray의 data set 선택하기**

In [12]:
# 단일 값 추출
array1 = np.arange(1,10)
print('array1:' , array1)
value = array1[2]
print('value : ', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value :  3
<class 'numpy.int64'>


In [13]:
print('맨 뒤의 값 : ', array1[-1], '맨 뒤에서 두 번째 값 : ', array1[-2])

맨 뒤의 값 :  9 맨 뒤에서 두 번째 값 :  8


In [14]:
# 단일 인덱스를 이용해 ndarray 내의 데이터 값도 간단히 수정 가능
array1[0] = 9
array1[8] = 0
print('array1 : ',array1)

array1 :  [9 2 3 4 5 6 7 8 0]


In [15]:
# 2차원의 경우 : 콤마(,)로 분리된 로우와 컬럼 위치의 인덱스를 통해 접근하는 것
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0, col = 0) index 가리키는 값 : ', array2d[0,0])
print(array2d[0,1])
print(array2d[1,0])
print(array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col = 0) index 가리키는 값 :  1
2
4
9


### numpy의 ndarray에서는 **axis0는 row 방향의 축을 의미하고, axis1은 칼럼 방향의 축을 의미**하는데, 이때 지칭한 로우와 컬럼은 ndarray에서는 사용되지 않는 표현방식이다.

- 정확한 표현으로는 axis0, axis1이 맞다.

- in 3차원 (axis0, axis1, axis2) => (행, 열, 높이)로 이해

In [16]:
# slicing
# 단일 data 값 추출을 제외하고 slicing, fancy indexing, boolean indexing 으로 추출된 data set은 모두 ndarray타입이다
array1 = np.arange(1,10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [17]:
# 2차원
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)
print(array2d, end = '\n\n')

print(array2d[0:2, 0:2], end = '\n\n')
print(array2d[1:3, 0:3], end = '\n\n')
print(array2d[:2, 1:], end = '\n\n')
print(array2d[:2, 2], end = '\n\n')

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[[1 2]
 [4 5]]

[[4 5 6]
 [7 8 9]]

[[2 3]
 [5 6]]

[3 6]



In [18]:
print(array2d[0])
print(array2d[1])
print(array2d[0].shape, array2d[1].shape)
# 반환되는 ndarray는 1차원

[1 2 3]
[4 5 6]
(3,) (3,)


In [19]:
# fancy indexing
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)

array3 = array2d[[0,1],2]
# 행은 슬라이싱이라 ndarray 타입으로 추출되고 column열에서는 단일 값 추출이라 단순히 data만 추출되어 1차원 ndarray가 출력된다.
print(array3)
print('\n')

array32 = array2d[[0,1],2:3]
# column 부분도 slicing으로 추출하면 2차원 ndarray가 추출된다.
print('\n')

array4 = array2d[[0,1], 0 : 2]
print(array4)
print('\n')
array5 = array2d[[0,1]]
print(array5.tolist())

[3 6]




[[1 2]
 [4 5]]


[[1, 2, 3], [4, 5, 6]]


## 팬시 인덱싱(Fancy Indexing)
- 팬시 인덱싱은 정수나 불린(Boolean) 값을 가지는 다른 Numpy 배열로 배열을 인덱싱할 수 있는 기능을 의미
- Boolean 값을 가진 배열을 사용하여 직관적으로 인덱싱 가능


```python
arr = np.array([i for i in range(10)])
print([arr[arr%3 == 0]])
>>> [0 3 6 9]
```



In [20]:
# Boolean Indexing
array1d = np.arange(1,10)
array3 = array1d[array1d>5]
print(array3)

[6 7 8 9]


In [21]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [22]:
# 행렬의 정렬
org_array = np.array([3,1,9,5])
print('원본 행렬 : ', org_array)
# np.sort 사용
sort_array1 = np.sort(org_array)
print(sort_array1)
print(org_array)

print('\n')

# ndarray.sort()
sort_array2 = org_array.sort()
print(sort_array2)
print(org_array)

원본 행렬 :  [3 1 9 5]
[1 3 5 9]
[3 1 9 5]


None
[1 3 5 9]


In [23]:
# default : 오름차순
# 내림차순으로 하고 싶으면 np.sort()[::-1]
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬 : ', sort_array1_desc)

내림차순으로 정렬 :  [9 5 3 1]


In [24]:
array2d = np.array([[8,12],[7,1]])

# 행 axis0에 대해서 정렬
sort_array2d_axis0 = np.sort(array2d, axis = 0)
print(sort_array2d_axis0)

# 열 axis1에 대해서 정렬
sort_array2d_axis1 = np.sort(array2d, axis = 1)
print(sort_array2d_axis1)


[[ 7  1]
 [ 8 12]]
[[ 8 12]
 [ 1  7]]


In [25]:
# 행에 대하여 내림차순
import numpy as np

array2d = np.array([[8, 12], [7, 1]])

# Sort along axis 0 and reverse the order
sort_array2d_axis0_desc = np.sort(array2d, axis=0)[::-1]
print(sort_array2d_axis0_desc)

[[ 8 12]
 [ 7  1]]


In [26]:
# 열에 대하여 내림차순
import numpy as np

array2d = np.array([[8, 12], [7, 1]])

# Sort along axis 1 and reverse the order
sort_array2d_axis1_desc = np.sort(array2d, axis=1)[:, ::-1]
print(sort_array2d_axis1_desc)

[[12  8]
 [ 7  1]]


## **argsort()**

In [27]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print(sort_indices)

<class 'numpy.ndarray'>
[1 0 3 2]


In [29]:
org_array = np.array([3,1,9,5])
sort_indices_desc = np.argsort(org_array)[::-1]
print(sort_indices_desc)

[2 3 0 1]


In [31]:
import numpy as np

# john = 78, mike = 95.... 이러한 정보를 ndarray로 표현하기 위해서는 이름과 성적을 각각 ndarray로 가져야 한다.
#numpy의 ndarray는 판다스의 데이터프레임과 RDBMS의 Table 칼럼처럼 실제 value와 그 value가 의미하는 것이 무엇인지를 나타내는 메타 데이터가 없다.

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78, 95, 84, 98, 88])
sort_indices_asc = np.argsort(score_array)
print(sort_indices_asc)
print(name_array[sort_indices_asc])
# 시험 성적 순으로 학생 이름을 출력하고자 할 때!

[0 2 4 1 3]
['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 행렬 내적과 전치 행렬 구하기

In [32]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])
dot_product = np.dot(A,B)
print(dot_product)

[[ 58  64]
 [139 154]]


### 전치 행렬
- 원래 행렬의 행과 열의 위치를 교환한 원소로 구성한 행렬

In [33]:
A = np.array([[1,2],[3,4]])
transpose_mat = np.transpose(A)
print(transpose_mat)

[[1 3]
 [2 4]]
