# Numpy 란?
- 수치 계산을 하기위한 파이썬 라이브러리
- 딥러닝에서 사용되는 텐서와 매우유사
- 백터와 행렬 단위의 대용량 수치 연상을 빠르게 진행
    - 병렬 연산한다
- 백처(vector)
    - 1차원 데이터(1차원 배열)
    - 스칼라가 연속적으로 여러개 모여 있는것
        - 스칼라(scalar) : 단순하게 측정한 하나의 값
- 행렬(Matrix)
    - 2차원 데이터(2차원 배열)
    - 1 차원 데이터가 여러개 모여 있는것

In [1]:
import numpy as np

## 백터

In [None]:
lst = [1,2,3,4,5,6]
arr = np.array(lst)
arr

array([1, 2, 3, 4, 5, 6])

## 행렬

In [None]:
lst =[
    [1,2,3],
    [4,5,6]
    
]
arr = np.array(lst)
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
lst = [
    [
        [1,2,3],
        [4,5,6]
    ],
    [
        [7,8,9],
        [10,11,12]
    ]
]
arr = np.array(lst)
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
type(arr)

numpy.ndarray

In [None]:
len(arr) # 펏번쨰 차원의 길이

2

In [None]:
arr.__len__() # 2번째 차원의 길이

2

In [None]:
arr.shape

(2, 2, 3)

In [None]:
arr = np.array([1,2,3,4,5])
arr.shape

(5,)

## 인덱싱과 슬라이싱
- 기본적으로 파이썬에서 사용되는 인덱싱과 슬라이싱을 그대로 따라간다.


In [None]:
arr[3]

4

In [None]:
arr[1:3]

array([2, 3])

## 자주쓰는 numpy 데이터 타입

In [None]:
np.array([1,2,3],dtype = np.int32) # 4 바이트 크기의 정수  1 바이트 =8

array([1, 2, 3], dtype=int32)

In [None]:
np.array([1,2,3],dtype = np.int64) # 8 바이트 크기의 정수

array([1, 2, 3])

In [None]:
np.array([1,2,3],dtype = np.uint8) # 1바이트 크기의 부호 없는 정수(0~255)

array([1, 2, 3], dtype=uint8)

In [None]:
np.array([1,2,3],dtype = np.float32) # 4바이트 크기의 실수

array([1., 2., 3.], dtype=float32)

In [None]:
np.array([1,2,3],dtype = np.float64) # 8바이트 크기의 실수

array([1., 2., 3.])

In [None]:
np.array([1,0,1],dtype = np.bool_) # 불 자료형

array([ True, False,  True])

In [None]:
arr = np.array([
    [1,2,3],
    [4,5,6],
    [7,8,9],
    [10,11,12]
])
arr

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [None]:
arr[0::3,0::2]

array([[ 1,  3],
       [10, 12]])

In [None]:
arr[::2,::2]

array([[1, 3],
       [7, 9]])

In [None]:
arr.shape[0] # 행 갯수

4

In [None]:
arr.shape[1] # 열 갯수

3

## 다차원 슬라이싱

In [None]:
arr[:,1] # , 는 1번 열 전부를 가져오겠다

array([ 2,  5,  8, 11])

In [None]:
arr[:,:2]

array([[ 1,  2],
       [ 4,  5],
       [ 7,  8],
       [10, 11]])

In [None]:
arr[:,0]

array([ 1,  4,  7, 10])

In [None]:
arr[0::2,:2]

array([[1, 2],
       [7, 8]])

In [None]:
arr[0::2]

array([[1, 2, 3],
       [7, 8, 9]])

In [None]:
arr[:,1:]

array([[ 2,  3],
       [ 5,  6],
       [ 8,  9],
       [11, 12]])

In [None]:
arr[::,2::2]

array([[ 3],
       [ 6],
       [ 9],
       [12]])

## 마스킹 (masking)
- boll 배열을 마스크로 사용하여 데이터의 특정 부분을 선책하수 있다.

In [None]:
mask_list = [True,False,True,False]
arr[mask_list]

array([[1, 2, 3],
       [7, 8, 9]])

In [None]:
mask_list = [True,False,True]
arr[:,mask_list]

array([[ 1,  3],
       [ 4,  6],
       [ 7,  9],
       [10, 12]])

In [None]:
mask = arr > 2
mask

array([[False, False,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [None]:
arr[mask] # 모든 스칼라에 마스킹을 할경우 백터로 반환된다.

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

- 여러개의 인덱스 값들을 이용해서 가져오기

In [None]:
index_list = [0,2]
arr[index_list]

array([[1, 2, 3],
       [7, 8, 9]])

In [None]:
arr[::,2]

array([ 3,  6,  9, 12])

## numpy 함수 알아보기

## 배열의 각 요소별로 연산

In [None]:
arr1 = np.array([1,5,1])
arr2 = np.array([3,2,7])

np.add(arr1,arr2)# (+)

array([4, 7, 8])

In [None]:
arr * 2

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18],
       [20, 22, 24]])

In [None]:
arr * np.array([
    [1],
    [2],
    [3],
    [4],
])


array([[ 1,  2,  3],
       [ 8, 10, 12],
       [21, 24, 27],
       [40, 44, 48]])

- Norm
- 백터의 크기를 측정하는 함수

In [None]:
np.linalg.norm([-1,2,3])

3.7416573867739413

- 내적(dot product
    - 두벡터의 각요소끼리의 곱의합
    - 결과값은 스칼라

In [None]:
a = np.array([1,2,3]) # 사과 딸기 참외
b = np.array([4,5,6])
np.dot(a,b)

32

In [None]:
a@b

32

- 행렬곱
    - 2차원 공간에서 내적을 한다.
    - 앞에 행렬의 열개수와 뒤에 행렬의 행개수가 동일해야한다.
    - 연산결과의 shape 앞에 핼렬의 행개수와 뒤에 행렬의 열개수가 나온다.

In [None]:
x = np.array([
    [80,90,70],
    [81,93,72],
    [71,73,62],
    [61,70,72] # 한행은 한학생 과거 모의고사 점수
])

In [None]:
w = ([
    [0.4],
    [0.2],
    [0.3]
])
x @ w

array([[71. ],
       [72.6],
       [61.6],
       [60. ]])

In [None]:
x = np.array([                             # 한행은 한학생 현재 모의고사 점수
    [77],
    [80],
    [71],
    [65],
])

# 배열만들기

- np.arange
    - range 함수와 비슷하지만 ndarray 가 반환된다

In [None]:
q = np.arange(10)
q[1::2]    

array([1, 3, 5, 7, 9])

## np.zeros
 - 0으로 채워진 배열 만들기

In [None]:
np.zeros([4,1,3])

array([[[0., 0., 0.]],

       [[0., 0., 0.]],

       [[0., 0., 0.]],

       [[0., 0., 0.]]])

## np.ones
    - 1로 채워진 배열
    

## numpy 집계함수

In [None]:
scoers = np.array([80,90,70,60,50,40])

In [None]:
np.sum(scoers),np.std(scoers)

(390, 17.07825127659933)

In [None]:
np.std(scoers)

17.07825127659933

In [None]:
np.min(scoers)

40

In [None]:
np.argmin(scoers),np.argmax(scoers) # 데이터의 최소값,최대값의 인덱스 반환

(5, 1)

In [None]:
d = np.array([1,1,1,2,3,4,5,5,5,6,7,7,]) # 고유값
np.unique(d)

array([1, 2, 3, 4, 5, 6, 7])

## sqrt  루트 round 반올림 ceil 소수점 올림 floor 소수점 버림

In [None]:
np.square(scoers) # 제곱
#sqrt  루트 round 반올림 ceil 반버림

array([6400, 8100, 4900, 3600, 2500, 1600])

In [None]:
np.sqrt(scoers)

array([8.94427191, 9.48683298, 8.36660027, 7.74596669, 7.07106781,
       6.32455532])

- exp 함수

In [None]:
np.exp([1,2,3])

array([ 2.71828183,  7.3890561 , 20.08553692])

## 자연로그 함수:$y=\log_e x$
- 오일러수를 밑으로하는 로그함수
- x 에 0이하가 들어가면 무한대,1 이 들어가면 0

In [None]:
np.log([100000,10000,1111])

array([11.51292546,  9.21034037,  7.01301579])

In [None]:
np.average(scoers)

65.0

- 분위수
    - 데이터를 크기 순서에 따른 위치값
    - 이상치 영향을 덜 받는다
    - 0.5 를 줄경우 중앙값이 나온다

In [None]:
arr = np.array([100,344,23,45,64,64,10])
np.quantile(arr,0.5) , np.median(arr),np.mean(arr)

(64.0, 64.0, 92.85714285714286)

In [None]:
np.quantile(arr,0.9)

197.60000000000008

In [None]:
np.quantile(arr,[0.9,])

array([197.6])

In [None]:
np.sort(arr)[::-1] #내림차순

array([344, 100,  64,  64,  45,  23,  10])

In [None]:
np.sort(arr)[::1] # 오름차순

array([ 10,  23,  45,  64,  64, 100, 344])

In [None]:
scoers = np.array([80,90,100,110,30])

In [None]:
scoers >= 80

array([ True,  True,  True,  True, False])

In [None]:
np.any(scoers >= 100) # 하나라도 참이면 참(or)

True

In [None]:
np.all(scoers >= 70) # 모두참이면참(and)

False

In [None]:
np.all(scoers == scoers)

True

In [None]:
np.where(scoers >= 80, 1,0) # 1이면 참 0이면 거짓 반환

array([1, 1, 1, 1, 0])

In [None]:
np.where(scoers >= 80 , scoers,0) # 80 이상이면 숫자 80보다 작으면 0

array([ 80,  90, 100, 110,   0])

In [None]:
arr = np.array([
    [1,2,3],
    [0,0,3],
    [0,5,3]
])

In [None]:
np.where(arr>0,1,arr)

array([[1, 1, 1],
       [0, 0, 1],
       [0, 1, 1]])

In [None]:
np.clip(arr,1,3)

array([[1, 2, 3],
       [1, 1, 3],
       [1, 3, 3]])

np.clip(arr,[1,3,1],[3,4,2])
            숫자보다 작은게 있다면 그숫자로바꾼다
            숫자보다 큰게 있다면 그숫자로바꾼다

In [None]:
np.clip(arr,[1,3,1],[3,4,2])

array([[1, 3, 2],
       [1, 3, 2],
       [1, 4, 2]])

In [None]:
np.clip(arr,[3,3,4],[3,4,3])

array([[3, 3, 3],
       [3, 3, 3],
       [3, 4, 3]])

In [None]:
np.nan # 결측지

nan

In [None]:
arr = np.array([np.inf ,np.nan,4,5,7,8,1])
arr

array([inf, nan,  4.,  5.,  7.,  8.,  1.])

In [None]:
np.isinf(arr)

array([ True, False, False, False, False, False, False])

In [None]:
arr[np.isinf(arr)]=0
arr

array([ 0., nan,  4.,  5.,  7.,  8.,  1.])

In [None]:
np.isnan(arr)

array([False,  True, False, False, False, False, False])

In [None]:
arr[np.isnan(arr)]=0
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
np.isfinite(arr)

array([ True, False,  True,  True,  True,  True,  True])

In [None]:
arr[np.isfinite(arr) ==False] = 0
arr 

array([0., 0., 4., 5., 7., 8., 1.])

In [None]:
lst = [
    [
        [1,2,3],
        [4,5,6]
    ],
    [
        [7,8,9],
        [10,11,12]
    ]
]
arr = np.array(lst)
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
np.isnan(arr)

array([[[False, False, False],
        [False, False, False]],

       [[False, False, False],
        [False, False, False]]])

In [None]:
arr[np.isnan(arr)] =0
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
arr[np.isfinite(arr)==False]=0
arr

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

# rand 함수
0~1 사이의 랜덤값 반환

In [None]:
np.random.rand() # np.random.seed() 고정값 

0.7069445008375015

In [None]:
np.random.rand(2,7,3) # n개 n행 n 열

array([[[0.92908681, 0.37724166, 0.08851154],
        [0.40941691, 0.46123658, 0.62042291],
        [0.78893884, 0.24289605, 0.22583355],
        [0.22813315, 0.99178992, 0.44116525],
        [0.367626  , 0.45813609, 0.18801338],
        [0.71825478, 0.91995478, 0.70026107],
        [0.35006165, 0.99012193, 0.16024383]],

       [[0.04291615, 0.12856985, 0.30758288],
        [0.10310448, 0.39525891, 0.65930864],
        [0.51128951, 0.29694251, 0.63119218],
        [0.58648806, 0.63222706, 0.72528489],
        [0.40521194, 0.78776605, 0.60526099],
        [0.67749703, 0.23590815, 0.23482064],
        [0.77555876, 0.99608793, 0.99616729]]])

In [None]:
np.random.seed(42)
arr = np.random.rand(100)
arr

array([0.37454012, 0.95071431, 0.73199394, 0.59865848, 0.15601864,
       0.15599452, 0.05808361, 0.86617615, 0.60111501, 0.70807258,
       0.02058449, 0.96990985, 0.83244264, 0.21233911, 0.18182497,
       0.18340451, 0.30424224, 0.52475643, 0.43194502, 0.29122914,
       0.61185289, 0.13949386, 0.29214465, 0.36636184, 0.45606998,
       0.78517596, 0.19967378, 0.51423444, 0.59241457, 0.04645041,
       0.60754485, 0.17052412, 0.06505159, 0.94888554, 0.96563203,
       0.80839735, 0.30461377, 0.09767211, 0.68423303, 0.44015249,
       0.12203823, 0.49517691, 0.03438852, 0.9093204 , 0.25877998,
       0.66252228, 0.31171108, 0.52006802, 0.54671028, 0.18485446,
       0.96958463, 0.77513282, 0.93949894, 0.89482735, 0.59789998,
       0.92187424, 0.0884925 , 0.19598286, 0.04522729, 0.32533033,
       0.38867729, 0.27134903, 0.82873751, 0.35675333, 0.28093451,
       0.54269608, 0.14092422, 0.80219698, 0.07455064, 0.98688694,
       0.77224477, 0.19871568, 0.00552212, 0.81546143, 0.70685

In [None]:
arr.var(),arr.mean()

(0.08761495016957914, 0.47018074337820936)

In [None]:
np.random.seed(42)
np.random.randint(50,100,(4,3,)) # 50 부터 100까지 4행 3열

array([[88, 78, 64],
       [92, 57, 70],
       [88, 68, 72],
       [60, 60, 73]])

In [None]:
from numpy.random.mtrand import shuffle


In [None]:
np.random.seed(42)  # 섞어준다.
arr = np.arange(50)
np.random.shuffle(arr)
arr

array([13, 39, 30, 45, 17, 48, 26, 25, 32, 19, 12,  4, 37,  8,  3,  6, 41,
       46, 47, 15,  9, 16, 24, 34, 31,  0, 44, 27, 33,  5, 29, 11, 36,  1,
       21,  2, 43, 35, 23, 40, 10, 22, 18, 49, 20,  7, 42, 14, 28, 38])

In [None]:
np.random.choice(4,2) # 0~4 사이의 랜덤하게 추출

array([1, 0])

In [None]:
np.random.choice(5,3,replace=False) # 중복값 없애기

array([3, 1, 2])

In [None]:
np.random.choice(5,3,p=[1,0,0,0,0]) # 확률값이 1이 넘으면 안됨

array([0, 0, 0])

In [None]:
np.random.choice(5,3,p=[0.2,0.2,0.2,0.2,0.2])# 확률값이 1이 넘으면 안됨

array([3, 3, 0])

In [None]:
ada =([40,30,20,10,3,2])
ada = len(ada)
ada

6

In [None]:
np.random.seed(42)
arr = np.random.randint(50,91,[4,3])
arr

array([[88, 78, 64],
       [57, 70, 88],
       [68, 72, 60],
       [60, 73, 85]])

In [None]:
arr.sum(axis=0)

array([273, 293, 297])

In [None]:
arr.sum(axis=1)

array([230, 215, 200, 218])

In [None]:
np.random.seed(42)
arr = np.random.randint(50,91,[4,3,2])
arr

array([[[88, 78],
        [64, 57],
        [70, 88]],

       [[68, 72],
        [60, 60],
        [73, 85]],

       [[89, 73],
        [52, 71],
        [51, 73]],

       [[79, 87],
        [51, 70],
        [82, 61]]])

In [None]:
arr.sum(axis=2) # 3차원에선  1이 열 2가 행

array([[166, 121, 158],
       [140, 120, 158],
       [162, 123, 124],
       [166, 121, 143]])

In [None]:
arr[::2,::2]

array([[[88, 78],
        [70, 88]],

       [[89, 73],
        [51, 73]]])

In [3]:
arr = np.arange(6)
arr

array([0, 1, 2, 3, 4, 5])

## arr 에서 차원추가하기

In [5]:
arr[:,np.newaxis] # 열백터 라고부름

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

In [8]:
np.expand_dims(arr,axis=1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

In [21]:
arr.reshape(2,3)

array([[0, 1, 2],
       [3, 4, 5]])

In [26]:
arr2 = np.reshape(arr,[2,3])
arr2

array([[0, 1, 2],
       [3, 4, 5]])

## 전치
    - transpose 는 차원을 맞바꿈
    - reshape는 순서대로 차원을 변경함

In [27]:
np.transpose(arr2)

array([[0, 3],
       [1, 4],
       [2, 5]])

In [29]:
arr2.T

array([[0, 3],
       [1, 4],
       [2, 5]])

In [33]:
arr = np.arange(12)
arr.reshape(2,3,2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [35]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [40]:
arr.flatten() # 평평하게 만들기

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [41]:
arr.reshape(-1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 차원이 1인 차원제거

In [45]:
np.random.seed(42)
arr = np.random.randint(50,91,[4,1,2,1])
arr.shape

(4, 1, 2, 1)

In [46]:
arr.squeeze()

array([[88, 78],
       [64, 57],
       [70, 88],
       [68, 72]])

In [50]:
arr.squeeze(axis=1).shape

(4, 2, 1)

## 배열 합치기
- concatenate 함수
- axis 방향으로 

In [68]:
arr1 = np.array([
    [1,2],
    [3,4],
    [5,6]
])

arr2 = np.array([
    [10,20]
])
np.concatenate([arr1,arr2],axis=0)

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [10, 20]])

In [66]:
arr2 = np.array([
    [10],
    [20],
    [30]
])
np.concatenate([arr1,arr2],axis=1)

array([[10, 20, 10],
       [30, 40, 20],
       [50, 60, 30]])

## stack 함수
- 함치련는 차원의 크기가 모두 동일해야함
- 합치려는 배열리 하나의 행으로 취급됨

In [63]:
arr1 = np.array([
    [1,2],
    [3,4],
    [5,6]
])

arr2 = np.array([
    [10,20]
])
np.stack([arr1,arr2],axis = 0)

ValueError: ignored

In [69]:
arr2 = np.array([
    [10,20],
    [30,40],
    [50,60]
])


np.stack([arr1,arr2])

array([[[ 1,  2],
        [ 3,  4],
        [ 5,  6]],

       [[10, 20],
        [30, 40],
        [50, 60]]])

In [70]:
np.stack([arr1,arr2]).shape

(2, 3, 2)

# numpy 배열 리스트로 변경하기

In [75]:
arr =np.arange(6).reshape(2,3)
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [76]:
list(arr)

[array([0, 1, 2]), array([3, 4, 5])]

In [77]:
arr.tolist() # 리스트로 변경

[[0, 1, 2], [3, 4, 5]]

In [81]:
arr.copy()

array([[0, 1, 2],
       [3, 4, 5]])

# numpy 배열 파일로 저장

In [83]:
arr
np.save("arr",arr) #.npy 확장자로 저장

In [86]:
np.load("arr.npy")

array([[0, 1, 2],
       [3, 4, 5]])

In [88]:
are = np.load("arr.npy") # 변수 저장 가능

In [89]:
are

array([[0, 1, 2],
       [3, 4, 5]])

# 배열 복사하기(기본적으로 깊은 복사

In [90]:
ar2 = arr.copy()