<a href="https://colab.research.google.com/github/mastgm0817/DataAnalysis/blob/main/mastgm0817/ch05_01_numpy_%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용 

In [None]:
import numpy as np

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [None]:
a = np.arange(1,4)
a

array([1, 2, 3])

In [None]:
print(type(a))

<class 'numpy.ndarray'>


## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

CPU times: user 11.7 ms, sys: 0 ns, total: 11.7 ms
Wall time: 12.3 ms


0.49918047222864326

6.48 ms ± 220 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


CPU times: user 1.54 ms, sys: 28 µs, total: 1.57 ms
Wall time: 1.19 ms


0.5002374035185094

In [None]:
def average_numpy(n):
  '''
    n개의 랜덤한 0~1의 실수를 numpy를 사용하여 평균을 나타내는 함수
  '''
  s = np.random.random(n)
  return s.mean()


In [None]:
%time average_numpy(100_00)

CPU times: user 1.48 ms, sys: 0 ns, total: 1.48 ms
Wall time: 1.49 ms


0.5043707386968617

## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [None]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [None]:
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
%%time
answer = []
for v in data:
  answer.append(v*2)
answer

CPU times: user 22 µs, sys: 0 ns, total: 22 µs
Wall time: 26 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [None]:
# 리스트 컴프리헨션
%%time
[v * 2 for v in data]
v

CPU times: user 23 µs, sys: 0 ns, total: 23 µs
Wall time: 26.5 µs


9

In [None]:
# 벡터화 연산
%%time
arr = np.array(data)
arr * 2

CPU times: user 96 µs, sys: 9 µs, total: 105 µs
Wall time: 110 µs


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
a = np.arange(0,20,2)
b = np.arange(0,10) * 2
b

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가
a = [ i for i in range(10)] * 2
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [None]:
arr1 = np.arange(1,4)
arr2 = np.arange(10,40,10)
arr1, arr2

(array([1, 2, 3]), array([10, 20, 30]))

In [None]:
arr1 * 2 + arr2 # 산술연산


array([16, 32, 48])

In [None]:
arr1 == 2, arr2 > 10 # 비교연산

(array([False,  True, False]), array([ True,  True,  True]))

In [None]:
(arr1==2) & (arr2>10), (arr1==2) | (arr2>10) # 논리연산

(array([False,  True, False]), array([ True,  True,  True]))

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [None]:
arr = np.array([[0,1,2],[3,4,5]])
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
# 행의 갯수, 열의 갯수
len(arr), len(arr[0])

(2, 3)

## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

In [None]:
arr = np.array([
    [10,20,30,40],
    [50,60,70,80]
    ])
arr
# arr1 = [list(range(10,50,10)),list(range(50,90,10))]
# arr1

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [None]:
arr = np.array([
    [1,2,3,4],
    [5,6,7,8]
    ]) * 10
arr

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [None]:
arr2 = np.arange(20).reshape(4,5)
arr2

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

## 3차원 배열

In [None]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시
arr_3 = np.array([
    [
        [1,2,3,4],
        [5,6,7,8],
        [9,10,11,12]
    ],
    [
        [13,14,15,16],
        [17,18,19,20],
        [21,22,23,24]
    ]
])
arr_3

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

In [None]:
len(arr_3), len(arr_3[0]), len(arr_3[0][0]) # 깊이, 행, 열


(2, 3, 4)

In [None]:
# 깊이, 행, 열


(2, 3, 4)

## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

In [None]:
a = np.array(range(1,4))
a

array([1, 2, 3])

In [None]:
a.ndim, a.shape # 1차원이고 길이가 3인 배열열

(1, (3,))

In [None]:
m = np.array((range(3), range(3,6)))
m

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
m.ndim, m.shape

(2, (2, 3))

In [None]:
n = np.array([
    [
        [range(3)],
        [range(4,7)],
        [range(5,8)]
    ],
    [
        [range(3)],
        [range(3,6)],
        [range(5,8)]
    ]
])
n

array([[[[0, 1, 2]],

        [[4, 5, 6]],

        [[5, 6, 7]]],


       [[[0, 1, 2]],

        [[3, 4, 5]],

        [[5, 6, 7]]]])

In [None]:
n.ndim, n.shape

(4, (2, 3, 1, 3))

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

In [None]:
arr = np.array(range(1,6))
x = arr.copy()
arr[0] = 40
print(f"arr : {arr}")
print(f"x: {x}")

arr : [40  2  3  4  5]
x: [1 2 3 4 5]


In [None]:
arr = np.array(range(1,6))
x = arr.view()
arr[0] = 40
print(f"arr : {arr}")
print(f"x: {x}")

arr : [40  2  3  4  5]
x: [40  2  3  4  5]


In [None]:
import numpy as np
arr = np.array(range(1,6))

x = arr.copy()
y = arr.view()

# 배열 데이터 소유 여부 반환
print(x.base) # x는(copy) 깊은 복사
print(y.base) # y는(view) 얕은 복사 

None
[1 2 3 4 5]


## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

In [None]:
a = np.array(range(5))
print(a)
a[2], a[-1]

[0 1 2 3 4]


(2, 4)

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

In [None]:
b = np.array([[0,1,2],[3,4,5]])
print(b, b.ndim, b.shape)

[[0 1 2]
 [3 4 5]] 2 (2, 3)


In [None]:
# b[0][0] python list 표현법
b[0,0] # numpy 스러운 표현법

0

In [None]:
b[0,1]

1

In [None]:
b[-1,-1]

5

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

In [None]:
a = np.array((range(4),range(4,8)))
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [None]:
a[0] # a[0, :] 의미: 첫번째행의 전체열열

array([0, 1, 2, 3])

In [None]:
#두번째 열에, 전체 행행
a[:,1]

array([1, 5])

In [None]:
#두번째 행에 두번째 열 끝까지
a[1,1:]

array([5, 6, 7])

In [None]:
# 첫번째 행에서 두번째 행까지, 첫번째 열에서 두번째 열까지
a[0:2,0:2]

array([[0, 1],
       [4, 5]])

In [None]:
# 세번째째 열에서 끝까지

## 💡 연습문제 2

In [None]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
#@markdown (1) 값 7을 인덱싱
m[1,2], m[1,-3], m[-2,2], m[-2,-3]

(7, 7, 7, 7)

In [None]:
#@markdown (2) 값 14을 인덱싱
m[2,-1],m[-1,-1],m[2,4],m[-1,4]

(14, 14, 14, 14)

In [None]:
#@markdown (3) 배열 [6,7]을 슬라이싱
m[1,1:3],m[-2,1:3],m[1,-4:-2],m[-2,-4:-2]

(array([6, 7]), array([6, 7]), array([6, 7]), array([6, 7]))

In [None]:
#@markdown (4) 배열 [7,12]을 슬라이싱
m[1:,2], m[-2:,2], m[1:,-3], m[-2:,-3]

(array([ 7, 12]), array([ 7, 12]), array([ 7, 12]), array([ 7, 12]))

In [None]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱
m[0:2,-2:],m[-2:-4,-2:]

(array([[3, 4],
        [8, 9]]), array([], shape=(0, 2), dtype=int64))

## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [None]:
# 0~8 사이의 (끝 포함) 짝수감 가진 배열
a1 = np.array(range(0,9,2))
a2 = np.array([v for v in range(9) if v % 2 == 0])
a1,a2

(array([0, 2, 4, 6, 8]), array([0, 2, 4, 6, 8]))

In [None]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False
a = np.array(range(10))
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# boolean 방식식
idx = np.array([True, False, True, False, True, False, True, False, True, False])
idx

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [None]:
a[idx]

array([0, 2, 4, 6, 8])

In [None]:
# 조건문 연산
a % 2 

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])

In [None]:
a[a%2 == 0], a[a%2 != 0], a[a%3 == 0], a[a%3 == 1]

(array([0, 2, 4, 6, 8]),
 array([1, 3, 5, 7, 9]),
 array([0, 3, 6, 9]),
 array([1, 4, 7]))

### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

In [None]:
a = np.array(range(1,10)) * 11
a

array([11, 22, 33, 44, 55, 66, 77, 88, 99])

In [None]:
idx = np.array([0,2,4,6,8]) 
a[idx] # index로 쓰인것임 풀어서 설명하면 a[0], a[2], a[4], a[6], a[8] 번째 데이터

array([11, 33, 55, 77, 99])

In [None]:
idx = np.array([0]*6 + [1]*5 + [2]*5) # 0인덱스 6개, 1인덱스 5개 2 인덱스 5개개
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

### 다차원 배열에서의 배열 인덱싱

In [None]:
a = np.array([range(1,5), range(5,9), range(9,13)])
a, a.ndim, a.shape

(array([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]), 2, (3, 4))

In [None]:
print(a[:,[0,3]])
print(a[:,[0,-1]])
print(a[:,[True,False,False,True]])

[[ 1  4]
 [ 5  8]
 [ 9 12]]
[[ 1  4]
 [ 5  8]
 [ 9 12]]
[[ 1  4]
 [ 5  8]
 [ 9 12]]


array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

## 💡 연습문제 3

In [None]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [None]:
# (1) 3의 배수 찾기
x[x%3==0]

array([ 3,  6,  9, 12, 15, 18])

In [None]:
# (2) 4로 나누면 1이 남는 수 찾기
x[x%4 == 1]


array([ 1,  5,  9, 13, 17])

In [None]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기
x[ (x%3==0)& (x%4 ==1) ],x[ (x%3==0) | (x%4 ==1) ]

(array([9]), array([ 1,  3,  5,  6,  9, 12, 13, 15, 17, 18]))

## 배열 검색

In [None]:
arr = np.array([1,2,3,4,5,4,4])
arr

array([1, 2, 3, 4, 5, 4, 4])

In [None]:
# np.where(배열 비교/논리 연산) -> 조건을 만족시킨 값의 인덱스 반환
x = np.where(arr == 4)
x

(array([3, 5, 6]),)

In [None]:
arr = np.array(range(1,10))
x = np.where(arr % 2 == 0)
x, arr[x], arr[arr % 2 == 0]

((array([1, 3, 5, 7]),), array([2, 4, 6, 8]), array([2, 4, 6, 8]))