# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용

In [None]:
# 파이썬 pip -> 외부 패키지 관리자(툴들, 기능들 -> 패키지 -> 불러오기)
# 1. 파이썬은 numpy가 내장이 아니기 때문에... -> pip install numpy
# 2. colab -> numpy가 이미 설치
import numpy # import 가져오기 -> 이미 설치된 numpy라는 기능을 가져오겠다...
# 너무 자주 쓰이기 때문에 numpy라는 전체 이름을 쓰지 않고 np라는 축약어를 사용한다.
import numpy as np # np라는 축약어 외에는 다른 이름을 주지 마세요
# tab 입력시 자동입력

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [None]:
np.array([1,2,3]) # 마지막에 실행된 실행문으 ㅣ결과를 아래 블록에 표시 (변수명, 값, 함수들...)

array([1, 2, 3])

In [None]:
np.array([range(0,10)]), type(np.array([range(0,10)]))

(array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]]), numpy.ndarray)

## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

In [None]:
import random

def average_python(n): #n개의 길이
    '''
    n개의 랜덤한 0-1 사이의 실수를 평균해주는 함수
    '''

    s = 0 # 총 합계
    for i in range(n):
      s += random.random()

    return s / n # 총합 / 갯수  => 산술 평균

In [None]:
%time average_python(100_000)  # % time : 시간 재기 -> 1번 실행

CPU times: user 12.6 ms, sys: 0 ns, total: 12.6 ms
Wall time: 16.7 ms


0.5012627999879504

In [None]:
%timeit average_python(100_000) # % timeit : 시간 재기 (여러 번 실행)

12.9 ms ± 4.09 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [None]:
def average_numpy(n):
  'n개의 랜덤한 0-1 사이의 실수를 numpy를 사용해서 평균내는 함수'
  s = np.random.random(n) # n개의 랜덤한 실수를 불러오는 numpy 의 기능
  return s.mean() # mean(avaerage) : 평균
# shift + enter : 현재 칸을 실행하고 다음 칸으로 넘어가기

In [None]:
%time average_numpy(100_000)

CPU times: user 1.5 ms, sys: 996 µs, total: 2.5 ms
Wall time: 2.02 ms


0.49966184761870175

In [None]:
%timeit average_numpy(100_000) # 속도가 1/10 감소되는 것으로 볼 수 있다.

907 µs ± 11.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
# alt + enter : 새로운 코드 블록 (윗 블록 실행)
# python 3.11 <- 리스트의 속도가 상당히 빨라졌음...
# list comprehension > numpy > list, for

## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [None]:
data = range(10)
data

range(0, 10)

In [None]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# 리스트 객체에 정수를 곱하면 ?
data * 2 # 2번 반복
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가한다 (n > 2 클 때)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
%%time
# 전체 블록을 실행해준다.(한 번 실행)
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
  answer.append(d * 2)
answer

CPU times: user 27 µs, sys: 0 ns, total: 27 µs
Wall time: 32.4 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
# 전체 블록을 실행해준다.(한 번 실행)
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
answer = []
for d in data:
  answer.append(d * 2)
answer

938 ns ± 269 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 리스트 컴프리헨션
%time
[d * 2 for d in data]

CPU times: user 4 µs, sys: 0 ns, total: 4 µs
Wall time: 7.39 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
%%timeit
[d * 2 for d in data]

591 ns ± 17.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [None]:
# 벡터화 연산
arr = np.array(data)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
%time
arr * 2

CPU times: user 3 µs, sys: 0 ns, total: 3 µs
Wall time: 7.39 µs


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
%%timeit
arr * 2

1.5 µs ± 461 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [None]:
# 3.9 버전까지는 웬만하면 numpy 가 속도가 더 빠르다 -> 3.10(리스트 속도 개선을 위한 작업을 진행함) / 그 이후 버전은 속도가 비슷하다

In [None]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가
data * 3

[0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 0,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9]

* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [None]:
a = np.array(range(1, 4))
b = np.array(range(10, 40, 10))
a, b

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
a, a * 10

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
a * 2 + b #벡터화 연산을 통한 산술연산

array([12, 24, 36])

In [None]:
a ** 2, b ** 0.5

(array([1, 4, 9]), array([3.16227766, 4.47213595, 5.47722558]))

In [None]:
a == 2, b > 10, b <= 10 # 비교연산

(array([False,  True, False]),
 array([False,  True,  True]),
 array([ True, False, False]))

In [None]:
a, b

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
(a == 2) & (b > 10), (a == 2) | (b > 10)

(array([False,  True, False]), array([False,  True,  True]))

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [None]:
arr = np.array([[0,1,2], [3,4,5]])
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
# 행의 갯수, 열의 갯수
len(arr), len(arr[0]),  len(arr[1])

(2, 3, 3)

## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

In [None]:
np.array([[10,20,30,40], [50,60,70,80]])

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [None]:
np.array([[(a * 4 + (b+1)) * 10 for b in range(4)]] for a in range(2))

array(<generator object <genexpr> at 0x7fea94e0d0e0>, dtype=object)

## 3차원 배열

In [None]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시
# m : matrix (2차원 배열, 행렬)
# t : three-dimention
t = np.array(
    [
        [
            [1,2,3,4],
            [5,6,7,8],
            [9,10,11,12]
        ],
        [
            [13,14,15,16],
            [17,18,19,20],
            [21,22,23,24]
        ]
    ]
)
t

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

In [None]:
# 깊이, 행, 열
len(t), len(t[0]), len(t[0][0])

(2, 3, 4)

## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

In [None]:
a = np.array(range(1, 4))
a

array([1, 2, 3])

In [None]:
a.ndim, a.shape

(1, (3,))

In [None]:
m = np.array((range(3), range(3,6)))
m

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
m.ndim, m.shape

(2, (2, 3))

In [None]:
t.ndim, t.shape

(3, (2, 3, 4))

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

In [None]:
# 할당
arr = np.array(range(1, 6))
arr2 = arr # 복사 -> 할당/대입
arr[0] = 50
arr, arr2

(array([50,  2,  3,  4,  5]), array([50,  2,  3,  4,  5]))

In [None]:
# View
arr = np.array(range(1, 6))
arr2 = arr.view() # 읽기 전용의 사본 (일부러 원본과 연결된 사본)
arr[0] = 50
arr, arr2

(array([50,  2,  3,  4,  5]), array([50,  2,  3,  4,  5]))

In [None]:
# 얕은 복사
arr = np.array(range(1, 6))
arr2 = arr.copy() # 얕은 복사 X <- 깊은 복사
arr[0] = 50
arr, arr2

(array([50,  2,  3,  4,  5]), array([1, 2, 3, 4, 5]))

In [None]:
arr3 = [arr, arr]
arr4 = arr3.copy()
arr3, arr4

([array([50,  2,  3,  4,  5]), array([50,  2,  3,  4,  5])],
 [array([50,  2,  3,  4,  5]), array([50,  2,  3,  4,  5])])

In [None]:
arr[0] = 41
arr3, arr4

([array([41,  2,  3,  4,  5]), array([41,  2,  3,  4,  5])],
 [array([41,  2,  3,  4,  5]), array([41,  2,  3,  4,  5])])

## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

In [None]:
a = np.array(range(5))
# 1차원 배열
a, a[0], a[2], a[-2], a[3]

(array([0, 1, 2, 3, 4]), 0, 2, 3, 3)

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

In [None]:
b = np.array([range(3), range(3, 6)])
b, b.ndim, b.shape

(array([[0, 1, 2],
        [3, 4, 5]]),
 2,
 (2, 3))

In [None]:
# b[0][0]
b[0, 0] # np.array 통해 만든 것만 가능하다.

0

In [None]:
# 첫번째 행의 두번째 열
b[0][1], b[0,1]

(1, 1)

In [None]:
# 마지막 행의 마지막 열
b[-1][-1], b[-1, -1]

(5, 5)

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

In [None]:
a = np.array([range(4), range(4, 8)])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [None]:
# 첫 번째 행의 전체 열
a[0], a[0, :]

(array([0, 1, 2, 3]), array([0, 1, 2, 3]))

In [None]:
# 두 번째 '열'의 모든 행
a[:, 1]

array([1, 5])

In [None]:
# 두 번째 행의, 두 번째 열부터 끝까지
a[1, 1:]

array([5, 6, 7])

In [None]:
# 첫번째 행에서 두번째 행까지, 첫번째 열에서 두번째 열까지
a[:1, :1]

array([[0]])

## 💡 연습문제 2

In [None]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
#@markdown (1) 값 7을 인덱싱
m[1, 2], m[1, -3], m[-2, 2], m[-2, -3]

(7, 7, 7, 7)

In [None]:
#@markdown (2) 값 14을 인덱싱
m[2, 4], m[-1, -1], m[2, -1], m[-1, 4]

(14, 14, 14, 14)

In [None]:
#@markdown (3) 배열 [6,7]을 슬라이싱
m[1, 1:3], m[-2, 1:3], m[1,-4:-2], m[-2, -4:-2]

(array([6, 7]), array([6, 7]), array([6, 7]), array([6, 7]))

In [None]:
#@markdown (4) 배열 [7,12]을 슬라이싱
m[1:3, 2], m[1:3, -3], m[-2:, 2], m[-2:, -3]

(array([ 7, 12]), array([ 7, 12]), array([ 7, 12]), array([ 7, 12]))

In [None]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱
m[:2, :]

[[3 4]
 [8 9]]
[[3 4]
 [8 9]]
[[3 4]
 [8 9]]
[[3 4]
 [8 9]]


## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [None]:
import numpy as np
# 0~8 사이의 (끝포함) 짝수만
a1 = np.array(range(0, 9, 2))
a2 = np.array([i for i in range(0, 9) if i % 2 == 0])
a3 = np.array(range(9))[::2] # 배열 슬라이싱도 증가폭이 된다
a1, a2, a3

(array([0, 2, 4, 6, 8]), array([0, 2, 4, 6, 8]), array([0, 2, 4, 6, 8]))

In [None]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False
a = np.array(range(10))
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
idx = np.array([True, False, True, False,True, False,True, False, True, False])
idx

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [None]:
# 조건문 연산
a % 2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])

In [None]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [None]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

In [None]:
a[a % 3 ==0], a[a % 3 != 0], a[a // 2 == 1]

(array([0, 3, 6, 9]), array([1, 2, 4, 5, 7, 8]), array([2, 3]))

### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

In [None]:
a = np.array(range(1, 10)) * 11
a

array([11, 22, 33, 44, 55, 66, 77, 88, 99])

In [None]:
# 0, 2, 4, 6 ,8 -> 인덱스 가져오기
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

In [None]:
idx = np.array([0] * 6 + [1] * 5 + [2] * 5)
print(idx)
a[idx] # 해당 인덱스가 반복해서 등장하는 만큼

[0 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2]


array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

### 다차원 배열에서의 배열 인덱싱

In [None]:
a = np.array([range(1, 5), range(5, 9), range(9, 13)])
a, a.ndim, a.shape

(array([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]),
 2,
 (3, 4))

In [None]:
print(a[:, [0,3]])
print(a[:, [0, -1]])
print(a[:, [True, False, True, False]])
print(a[:, [i % 2 == 0 for i in range(4)]])

[[ 1  4]
 [ 5  8]
 [ 9 12]]
[[ 1  4]
 [ 5  8]
 [ 9 12]]
[[ 1  3]
 [ 5  7]
 [ 9 11]]
[[ 1  3]
 [ 5  7]
 [ 9 11]]


In [None]:
a[[2, 0, 1], :]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

## 💡 연습문제 3

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [None]:
# (1) 3의 배수 찾기
x[x % 3 == 0]
# x[x % 3 != 0]

array([ 3,  6,  9, 12, 15, 18])

In [None]:
# (2) 4로 나누면 1이 남는 수 찾기
x[x % 4 == 1]
# x[x // 4 == 1]

array([ 1,  5,  9, 13, 17])

In [None]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기
x[(x % 3 == 0) & (x % 4 == 1)]
# x[(x % 3 == 0) | (x % 4 == 1)]

array([9])

## 배열 검색

In [None]:
arr = np.array([1,2,3,4,5,4,4])
arr

array([1, 2, 3, 4, 5, 4, 4])

In [None]:
# np.where(배열 비교 / 논리 연산) -> 조건을 만족시킨 값의 인덱스 반환
x = np.where(arr== 4)
x, arr[x]
# y = arr(arr = 4)

((array([3, 5, 6]),), array([4, 4, 4]))

In [None]:
arr = np.array(range(1, 9))
print(arr)
x = np.where(arr % 2 == 0) # 인덱스 번호 짝수
x, arr[x], arr[arr % 2 == 0]

[1 2 3 4 5 6 7 8]


((array([1, 3, 5, 7]),), array([2, 4, 6, 8]), array([2, 4, 6, 8]))

In [None]:
a = np.array(range(100, 1000, 100))
b = np.array([i + "파이썬" for i in "김이박최류유조고손"])
a, b[np.where(a % 200 == 0)]

(array([100, 200, 300, 400, 500, 600, 700, 800, 900]),
 array(['이파이썬', '최파이썬', '유파이썬', '고파이썬'], dtype='<U4'))