# Numpy tutorial

In [1]:
!pip install numpy



In [2]:
import numpy as np

## Array

In [3]:
# 1D array
arr_1 = np.array([1, 2, 3, 4, 5])

In [4]:
arr_1

array([1, 2, 3, 4, 5])

In [5]:
type(arr_1)

numpy.ndarray

In [6]:
# 2D array
arr_2 = np.array([[1, 2, 3],
                  [4, 5, 6]])

In [7]:
arr_2

array([[1, 2, 3],
       [4, 5, 6]])

In [8]:
arr_3 = np.array([[[1, 2, 3],
                   [4, 5, 6]],
                  [[1, 2, 3],
                   [4, 5, 6]]])

In [9]:
arr_3

array([[[1, 2, 3],
        [4, 5, 6]],

       [[1, 2, 3],
        [4, 5, 6]]])

### 3차원 배열
- 구조: [depth, row, column] or [x, y, x]
- 만약 3차원 배열의 형태가 (3, 4, 5)라면, 이는 3개의 층, 4개의 행, 5개의 열로 구성된 배열
- 컬러 이미지의 경우, RGB 채널(깊이)로 3차원 배열로 표현됨

In [10]:
arr_3.shape

(2, 2, 3)

In [11]:
arr_3.ndim

3

In [12]:
arr_1.shape, arr_2.shape, arr_3.shape

((5,), (2, 3), (2, 2, 3))

In [13]:
arr_1.ndim, arr_2.ndim, arr_3.ndim

(1, 2, 3)

## Indexing

- 배열 인덱싱은 배열 요소에 접근하는 것과 같습니다.
- 인덱스 번호를 참조하여 배열 요소에 접근할 수 있습니다.
- NumPy 배열의 인덱스는 0부터 시작합니다.

In [14]:
arr = np.array([1, 2, 3, 4])

In [15]:
arr[0]

1

In [16]:
arr[1]

2

In [17]:
arr[-1]

4

# Slicing

In [18]:
arr = np.array(range(1,7))

In [19]:
arr

array([1, 2, 3, 4, 5, 6])

In [20]:
arr[4:]

array([5, 6])

In [21]:
arr[:3]

array([1, 2, 3])

In [67]:
arr[1:-1] # 주의하기!!! 첫 번째 인덱스부터 마지막에 하나 전 인덱스까지

array([[3, 4],
       [5, 6]])

### 슬라이싱 종료 인덱스로, 여기서는 마지막 원소의 직전까지 포함

## Types

배열을 생성하기 위해 array() 함수를 사용합니다. 이 함수는 선택적인 인자인 dtype을 받을 수 있는데, 이를 통해 배열 요소의 예상 데이터 타입을 정의할 수 있습니다.

In [23]:
arr = np.array([1,2,3,4], dtype=float)

In [24]:
arr

array([1., 2., 3., 4.])

In [25]:
arr.dtype

dtype('float64')

In [26]:
type(arr[0])

numpy.float64

In [27]:
arr = np.array([1,2,3,4], dtype=str)

In [28]:
arr

array(['1', '2', '3', '4'], dtype='<U1')

### dtype='<U1'
- <: 메모리에서 바이트 순서를 나타낸다. <는 little-endian을, >는 big-endian을 의미
- U: 유니코드 문자열
- 1: 각 문자열의 최대 길이 (1글자로 제한된 문자열 타입)

In [29]:
type(arr[0])

numpy.str_

In [30]:
arr.dtype

dtype('<U1')

## type() VS .dtype
- type(): 파이썬 내장 함수로, 객체의 타입 확인 용도
- type()의 경우 반환값이 객체의 클래스 (<class 'numpy.ndarray'> 등)
- .dtype: Numpy 배열의 속성으로, 배열에 저장된 요소들의 데이터 타입 확인 용도
- dtype은 NumPy에서 사용되는 타입으로, 더 세밀하게 데이터의 형태를 정의할 수 있습니다 (예: int32, float64, <U1 등).

In [68]:
arr.astype(float) # astype() 데이터 타입 변환할 때 사용되는 메소드 => 데이터 타입을 원하는 형태로 변환 가능

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.]])

In [32]:
arr

array(['1', '2', '3', '4'], dtype='<U1')

## Copy

In [33]:
arr = np.array([1, 2, 3, 4, 5])
arr_copy = arr.copy()
arr[0] = 42

In [34]:
arr

array([42,  2,  3,  4,  5])

In [35]:
arr_copy

array([1, 2, 3, 4, 5])

## Reshape

In [36]:
arr = np.array(range(2*3))

In [37]:
arr

array([0, 1, 2, 3, 4, 5])

In [38]:
arr.reshape(2,3)

array([[0, 1, 2],
       [3, 4, 5]])

In [39]:
arr.reshape(3,2)

array([[0, 1],
       [2, 3],
       [4, 5]])

In [40]:
arr_2

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
arr_2.flatten()

array([1, 2, 3, 4, 5, 6])

### flatten(): Numpy에서 사용되는 메서드로, 다차원 배열을 1차원 배열로 변환하는 역할
- 다차원 배열을 평평하게 만들어서 1차원 배열로 변환
- 원래 배열의 모든 요소를 순서대로 1차원 배열에 나열

### flatten(): 항상 원본 배열과 독립적인 새로운 배열 반환
### ravel(): 원본 배열을 참조하는 형태로, 1차원 배열 반환 => 원본 배열의 데이터가 변경될 수 있음

## 순회

In [42]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

for x in arr:
  print(x)

[1 2 3]
[4 5 6]


In [43]:
for x in arr.flatten():
  print(x)

1
2
3
4
5
6


## 연결하기

In [44]:
arr1 = np.array([1, 2, 3])

arr2 = np.array([4, 5, 6])

arr = np.concatenate((arr1, arr2))

In [45]:
arr

array([1, 2, 3, 4, 5, 6])

In [46]:
arr1 = np.array([[1, 2], [3, 4]])

arr2 = np.array([[5, 6], [7, 8]])

arr = np.concatenate((arr1, arr2), axis=0)

In [47]:
arr

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

### concat() VS concatenate()
- concat(): pandas 라이브러리에서 제공하는 함수로, 데이터 프레임(Dataframe)이나 시리즈(Series)를 이어 붙일 때 사용
- concatenate(): Numpy 라이브러리에서 제공하는 함수로, 배열(ndarray)을 이어 붙일 때 사용

## Random

In [48]:
x = np.random.randint(3)

In [49]:
x

2

In [50]:
x = np.random.rand()

In [51]:
x

0.16197701767587513

In [52]:
np.random.randint(100, size=(5))

array([57, 27, 43, 33,  1])

In [53]:
np.random.randint(100, size=(3, 5))

array([[72, 44, 95,  9,  9],
       [85, 18, 91, 96, 48],
       [96, 97, 35, 30, 96]])

In [54]:
np.random.choice([3, 5, 7, 9])

7

In [55]:
np.random.choice([3, 5, 7, 9], size=(3, 5))

array([[5, 9, 7, 3, 9],
       [7, 3, 5, 5, 5],
       [5, 3, 7, 7, 7]])

## 연산

In [56]:
x = [1, 2, 3, 4]
y = [4, 5, 6, 7]
# 두개를 더한 리스트를 만들려면?

In [57]:
x = np.array(x)
y = np.array(y)

In [58]:
z = x+y

In [59]:
z

array([ 5,  7,  9, 11])

In [60]:
x*y

array([ 4, 10, 18, 28])

In [61]:
x/y

array([0.25      , 0.4       , 0.5       , 0.57142857])

In [62]:
x.sum(), y.sum()

(10, 22)

In [63]:
x.mean(), y.mean()

(2.5, 5.5)

In [64]:
x.std(), y.std()

(1.118033988749895, 1.118033988749895)

In [65]:
x

array([1, 2, 3, 4])

In [66]:
np.power(x, 2) # power()는 Numpy에서 사용하는 함수로, 거듭제곱 연산 수행

array([ 1,  4,  9, 16])