<a href="https://colab.research.google.com/github/Yeaaaaaaah/DataAnalysis/blob/main/Yeaaaaaaah/ch05_01_numpy_%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy 기초

## 배열(Array)
* 많은 데이터를 하나의 변수에 넣는 법? : **리스트**
* 하지만 리스트는...
    * 속도가 느리다
    * 메모리를 많이 차지한다

> 그래서? **배열(Array)**을 사용한다

* 적은 메모리로 많은 데이터를 빠르게 처리할 수 있음

## 특징
1. 모든 원소가 같은 **자료형**이어야 함
2. 원소의 갯수를 바꿀 수 없음

> 그런데 파이썬은 자체적으로 배열 자료형을 제공하지 않음<br>
> 그래서 우리는 **넘파이(Numpy)** 패키지를 import해서 사용 

In [3]:
#!pip install numpy
import numpy as np

## 1차원 배열
* 리스트나 튜플처럼 한 줄로 이루어진 형태의 배열

In [4]:
np.array([1, 2, 3])

array([1, 2, 3])

In [7]:
arr = np.array(range(10))
arr, type(arr)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), numpy.ndarray)

## ndarray
* 배열 객체 타입(자료형)
* 리스트와 동일해 보이지만 차이가 많음

|자료형|특징|
|:-|:-|
|리스트(list)|각각의 원소가 다른 자료형이 될 수 있음|
|배열(array)|연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 함<br>원소에 대한 접근과 반복문 실행이 빨라짐|

In [10]:
import random
def average_python(n):
    '''
    n개의 랜덤한 0~1의 실수를 평균해주는 함수
    '''
    s = 0 
    for i in range(n):
      s += random.random()
    return s/n

In [11]:
%time average_python(100000)

CPU times: user 19.8 ms, sys: 0 ns, total: 19.8 ms
Wall time: 24.5 ms


0.49868123815205034

In [12]:
%timeit average_python(100_000)

13.4 ms ± 2.64 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [15]:
def average_numpy(n):
    """
    n개의 랜덤한 0~1의 실수를 numpy를 사용해서 평균내는 함수
    """
    s = np.random.random(n)
    return s.mean()   #mean = 평균

In [16]:
from numpy.lib.function_base import average
%time average_numpy(100_000)

CPU times: user 2.53 ms, sys: 24 µs, total: 2.55 ms
Wall time: 2.57 ms


0.5005779227983933

In [17]:
%timeit average_numpy(100_000)

951 µs ± 140 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


## 벡터화 연산
* 배열 객체는 **배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리**하는 벡터화 연산(vectorized operation)을 지원

In [18]:
data = list(range(10))
data

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [19]:
# 여러 개의 데이터를 모두 2배 할 때 (파이썬)
%%time
answer = []
for v in data:
  answer.append(v *2)
answer 

CPU times: user 26 µs, sys: 1 µs, total: 27 µs
Wall time: 32.7 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [21]:
# 리스트 컴프리헨션
%%time
[v*2 for v in data]

CPU times: user 10 µs, sys: 0 ns, total: 10 µs
Wall time: 14.5 µs


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [22]:
# 리스트 컴프리헨션
%%timeit
[v*2 for v in data]

792 ns ± 17.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [23]:
# 벡터화 연산
arr = np.array(data)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
%time arr * 2

CPU times: user 54 µs, sys: 0 ns, total: 54 µs
Wall time: 58.2 µs


array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [26]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 해당 정수 배만큼 증가
%timeit arr * 2

1.25 µs ± 461 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


* 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [29]:
a = np.array(range(1,4))
b = np.array(range(10, 40, 10))
a,b

(array([1, 2, 3]), array([10, 20, 30]))

In [30]:
a * 2 + b

array([12, 24, 36])

In [31]:
a == 2 # 산술 연산

array([False,  True, False])

In [33]:
a == 2, b > 10 # 비교연산

(array([False,  True, False]), array([False,  True,  True]))

In [37]:
(a==2) & (b>10), (a==2) | (b>10), 

(array([False,  True, False]), array([False,  True,  True]))

In [38]:
(a==2) and (b>10), (a==2) or (b>10)

ValueError: ignored

## 2차원 배열
* `ndarray`는 N-dimensional Array의 약자, 즉 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원
* 2차원 배열 = 행렬 (matrix)
* 가로줄 : 행(row), 세로줄 : 열(column)
> 엑셀 스프레드시트와 같은 형태의 배열

* 리스트의 리스트(list of list)를 이용하여 2차원 배열 생성
    * 안쪽 리스트의 길이 : 행렬의 열의 수 (가로 크기)
    * 바깥쪽 리스트의 길이 : 행렬의 행의 수 (세로 크기)

In [39]:
arr = np.array([[0,1,2],[3,4,5]])
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [40]:
# 행의 갯수, 열의 갯수
len(arr), len(arr[0])

(2, 3)

## 💡 연습문제 1
> 아래 모양의 행렬 만들어 보기
```
10 20 30 40
50 60 70 80
```

In [43]:
arr = np.array([[10, 20, 30, 40],[50, 60, 70, 80]])
arr

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [49]:
np.array([
    [10, 20, 30, 40],
    [50, 60, 70, 80]
])

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [50]:
np.array([
    [1, 2, 3, 4],
    [5, 6, 7, 8]
]) * 10

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [52]:
np.arange(10, 90, 10).reshape(2,-1)

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

In [53]:
(np.arange(1, 9)* 10).reshape(2,-1)

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

## 3차원 배열

In [56]:
# 크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시
# m : matrix
# t : three-dimention
t = np.array(
    [[
        [1,2,3,4],
     [5,6,7,8],
     [9,10,11,12]
    ], [
        [11,12,13,14],
        [15,16,17,18],
        [19,20,21,22]
    ]]
) # 2 x 3 x 4 배열식, 깊이 x 행 x 열
t

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [57]:
# 깊이, 행, 열
len(t), len(t[0]), len(t[0][0])

(2, 3, 4)

## 배열의 차원과 크기 알아내기
* `ndim`, `shape` **속성** 사용
> 속성 : 괄호 없이 이름만 써서 값을 호출

* `ndim` : 배열의 차원
* `shape` : 배열의 크기

In [58]:
a = np.array(range(1,4))
a

array([1, 2, 3])

In [60]:
a.ndim , a.shape  #속성들.*뒤에 매서드를 나타내는()가없다* 순서대로 차원, 크기

(1, (3,))

In [62]:
m = np.array((range(3),range(3,6)))
m

array([[0, 1, 2],
       [3, 4, 5]])

In [65]:
m.ndim, m.shape

(2, (2, 3))

In [66]:
t.ndim, t.shape

(3, (2, 3, 4))

## 배열의 복사
* copy와 view의 차이점은 copy는 새 배열(깊은 복사)이고 view는 원래 배열과 연결 되어 있다는 것(얕은 복사)
* copy는 데이터를 소유하며 copy에 대한 변경 사항은 원본 배열에 영향을 미치지 않으며 원본 배열에 대한 변경은 copy에 영향을 주지 않음
* view는 데이터를 소유하지 않으며 view에 대한 모든 변경 사항은 원래 배열에 영향을 미치고 원래 배열에 대한 모든 변경 사항은 보기에 영향을 줌

In [69]:
import numpy as np

arr = np.array(range(1, 6))
x = arr.copy()
arr[0] = 40
print(f"arr: {arr}")
print(f"x: {x}")

arr: [40  2  3  4  5]
x: [1 2 3 4 5]


In [70]:
arr = np.array(range(1, 6))
x = arr.view()  #x = arr 과 같은데 view쓰는 이유는 타입을 바꿀때 사용처가있다.
arr[0] = 40
print(f"arr: {arr}")
print(f"x: {x}")

arr: [40  2  3  4  5]
x: [40  2  3  4  5]


In [71]:
import numpy as np

arr = np.array(range(1,6))

x = arr.copy()
y = arr.view()

#배열 데이터 소유 여부 반환
print(x.base)
print(y.base)

None
[1 2 3 4 5]


## 배열의 인덱싱

### 일차원 배열
* 리스트의 인덱싱과 같음

In [72]:
a = np.array(range(5))
print(a)
a[2], a[-1]

[0 1 2 3 4]


(2, 4)

### 다차원 배열
* 콤마(comma, `,`)를 사용하여 접근
* 콤마로 구분된 차원을 축(axis)라고 함
    * like 그래프의 x축, y축

In [75]:
b = np.array([[0,1,2], [3,4,5]])
print(b, b.ndim, b.shape)

[[0 1 2]
 [3 4 5]] 2 (2, 3)


In [None]:
# b [0][0]
b[0,0] # 첫번째 행의 첫번째 열

0

In [None]:
b[0,1] # 첫번째 행의 두번째 열

1

In [76]:
b[ -1,-1] # 마지막 행의 마지막 열

5

## 배열 슬라이싱
* 다차원 배열의 원소 중 2개 이상의 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용

In [77]:
a = np.array((range(4),range(4,8)))
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [80]:
# a[0]
a[0, :] #두줄 다 첫번째 행의 전체 열을 나타냄

array([0, 1, 2, 3])

In [81]:
#두번째 열 전체( 모든 행의 두번째 열)
a[: , 1]

array([1, 5])

In [83]:
a[1, 1:] # 두번째 행의 두번째 열부터 끝열까지

array([5, 6, 7])

In [85]:
#첫번째 행에서 두번째행까지, 첫번째 열에서 두번째 열까지
a[:2, :2]

array([[0, 1],
       [4, 5]])

In [87]:
#세번째 행에서 끝까지, 세번째 열에서 끝까지
a[2:,2:]

array([], shape=(0, 2), dtype=int64)

## 💡 연습문제 2

In [92]:
m = np.array([[0,  1,  2,  3,  4],
              [5,  6,  7,  8,  9],
              [10, 11, 12, 13, 14]])
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [96]:
#@markdown (1) 값 7을 인덱싱
m[1,2], m[1, -3], m[-2,2], m[-2,-3]

(7, 7, 7, 7)

In [98]:
#@markdown (2) 값 14을 인덱싱
m[2,4], m[2,-1], m[-1,4], m[-1,-1]

(14, 14, 14, 14)

In [101]:
#@markdown (3) 배열 [6,7]을 슬라이싱
m[1, 1:3], m[-2, 1:3], m[1, -4:-2]

(array([6, 7]), array([6, 7]), array([6, 7]))

In [104]:
#@markdown (4) 배열 [7,12]을 슬라이싱
m[1:,2], m[-2:,2], m[1:,-3], m[-2:,-3]

(array([ 7, 12]), array([ 7, 12]), array([ 7, 12]), array([ 7, 12]))

In [109]:
#@markdown (5) 배열 [[3,4],[8,9]]을 슬라이싱
print(m[:2,3:])
print(m[:-1,3:])
print(m[:2,-2:])
print(m[:-1,-2:])

[[3 4]
 [8 9]]
[[3 4]
 [8 9]]
[[3 4]
 [8 9]]
[[3 4]
 [8 9]]


## 배열 인덱싱
* 대괄호(Bracket, [])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또다른 `ndarray` 배열을 받을 수 있음 (인덱스 배열)
* 일종의 조건 검색 기능

### 불리언 (Boolean) 배열 인덱싱
* 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 함

In [110]:
#0-8 사이의 (끝포함) 짝 수만 가진 배열
a1 = np.array(range(0, 9, 2))
a2 = np.array([i for i in range(9) if not (i % 2)])
a1,a2

(array([0, 2, 4, 6, 8]), array([0, 2, 4, 6, 8]))

In [113]:
# 짝수인 원소만 골라내고 싶다면?
# 짝수에 대응하는 곳에 True, 홀수에 대응하는 곳에 False
a = np.array(range(10))
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [114]:
idx = np.array([True, False,True, False,True, False,True, False,True, False,])
idx

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [116]:
a[idx]

array([0, 2, 4, 6, 8])

In [117]:
# 조건문 연산
a % 2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1])

In [118]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [120]:
a[a % 2 == 0], a[a % 2 !=0], a[a % 3 == 0], a[a % 3== 1]
#불리언 인덱싱을 통해 조건에 맞는 항목만 인덱싱이 가능하다

(array([0, 2, 4, 6, 8]),
 array([1, 3, 5, 7, 9]),
 array([0, 3, 6, 9]),
 array([1, 4, 7]))

### 정수 배열 인덱싱
* 인덱스 배열의 원소 각각이 원래 `ndarray` 객체 원소 하나를 가리키는 인덱스 정수이여야 함

In [125]:
a = np.array(range(1,10)) * 11
a

array([11, 22, 33, 44, 55, 66, 77, 88, 99])

In [126]:
idx = np.array([0,2,4,6,8])
a[idx]

array([11, 33, 55, 77, 99])

* 이 때는 배열 인덱스의 크기가 원래의 배열 크기와 달라도 상관없음
* 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 함

In [130]:
idx = np.array([0]*6 + [1]*5 + [2]*5)
print(idx)
a[idx] #정수 인덱스는 크기가 같지않아도 호출한것만 쏙쏙들어감

[0 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2]


array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

### 다차원 배열에서의 배열 인덱싱

In [133]:
a = np.array([range(1,5), range(5,9), range(9,13)])
a, a.ndim, a.shape

(array([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]), 2, (3, 4))

In [136]:
print(a[:,[0,3]]), 
print(a[:,[0,-1]]), 
print(a[:,[True, False, True, False]])

[[ 1  4]
 [ 5  8]
 [ 9 12]]
[[ 1  4]
 [ 5  8]
 [ 9 12]]
[[ 1  3]
 [ 5  7]
 [ 9 11]]


In [137]:
a[[2, 0, 1],:]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

## 💡 연습문제 3

In [139]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [146]:
# (1) 3의 배수 찾기
x[x % 3 == 0], x[x % 3 !=0]

(array([ 3,  6,  9, 12, 15, 18]),
 array([ 1,  2,  4,  5,  7,  8, 10, 11, 13, 14, 16, 17, 19, 20]))

In [147]:
# (2) 4로 나누면 1이 남는 수 찾기
x[x % 4 == 1], x[x//4 ==1]

(array([ 1,  5,  9, 13, 17]), array([4, 5, 6, 7]))

In [148]:
# (3) 3로 나누면 나누어지고 4로 나누면 1이 남는 수 찾기
x[(x % 3 == 0) & (x % 4 == 1)], x[(x % 3 == 0) | (x % 4 == 1)]

(array([9]), array([ 1,  3,  5,  6,  9, 12, 13, 15, 17, 18]))

## 배열 검색

In [149]:
arr = np.array([1,2,3,4,5,4,4])
arr

array([1, 2, 3, 4, 5, 4, 4])

In [151]:
# np.where(배열 비교/논리 연산) -> 조건을 만족시킨 값의 인덱스 반환
x = np.where(arr == 4)
x

(array([3, 5, 6]),)

In [152]:
arr = np.array(range(1,9))
x = np.where(arr % 2 ==0) # 짝수

x, arr[x], arr[arr % 2 == 0] # 다르지만 같은 역할을 하는 두 코드

((array([1, 3, 5, 7]),), array([2, 4, 6, 8]), array([2, 4, 6, 8]))