# Numpy
- NumPy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 필수 패키지중 하나이다.
- 과학 계산을 위한 대부분의 패키지는 NumPy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.
- 효율적인 다차원 배열인 ndarray(n dimensional array)는 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공한다.
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수이다.
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구이다.
- 선형대수, 난수 생성기등에 사용된다.
- C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API가 제공된다.


공식문서 https://numpy.org/doc/stable/  
numpy 100 문제 https://github.com/rougier/numpy-100

1.데이터 생성

In [3]:
#!pip install numpy

import numpy as np

In [None]:
a = np.zeros(3) # 1차원 배열 = 벡터
a

array([0., 0., 0.])

In [None]:
print(a)

[0. 0. 0.]


np.array()

In [None]:
# 1차원 배열 = 벡터
a = np.array([1,2,3])  # 지정한 값으로 배열
print(a)

[1 2 3]


In [None]:
# 2차원 배열 = 행령
b = np.array([[1,2],[3,4]])    # 2행 2열
print(b)
print(b.shape)

[[1 2]
 [3 4]]
(2, 2)


In [None]:
# 3차월 배열 = 텐서(tensor)

c = np.array([[[1,2],[3,4]],[[5,7],[7,8]]])  # 2층(면,공간), 2행,2열
print(c)
print(c.shape)

[[[1 2]
  [3 4]]

 [[5 7]
  [7 8]]]
(2, 2, 2)


In [None]:
a = np.array([1,2,3])
print(a)
print(a[0])   # 인덱싱 이용해서 가져오는거

[1 2 3]
1


In [None]:
# 문자 데이터가 하나라도 있으면 전체가 문자로 바뀐다.
# numpy는 homogenous 즉 같은 데이터 타입만 저장할 수 있다.
a = np.array([1,'2',3])   # 다 문자로 바껴버림
print(a)
print(a[0])

['1' '2' '3']
1


In [None]:
a = np.array([1,'2',True])   # 다 문자로 바껴버림
print(a)
print(a[0])

['1' '2' 'True']
1


In [None]:
a = np.array([1,0,True,False])   # 논리값은 전부 int로 바뀜
print(a)
print(a[0])

[1 0 1 0]
1


###np.zeros
- tuple로 인자를 넣으면 그대로 모양을 만든다..
- (2,3,) : 2행 3열의 행랼을 만든다
- zeros는 기본값으로 0.으로 값을 모두 채운다
 - np.zeros((2,3))
 - np.zeros([2,3])

In [None]:
a = np.zeros((2,3))
print(a)
print(a.shape)

[[0. 0. 0.]
 [0. 0. 0.]]
(2, 3)


In [None]:
np.zeros?

In [None]:
np.zeros

<function numpy.zeros>

###np.eye
- eye는 단위행렬
- 숫자만 사용할수 있다

In [None]:
a= np.eye(3)
print(a.shape)
print(a)

(3, 3)
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
#eye 는 행과 열의 크기를 지정할 수 있다.
a = np.eye(3,2)
a

array([[1., 0.],
       [0., 1.],
       [0., 0.]])

In [None]:
# 1이 시작되는 위치를 지정할수 있다
a = np.eye(3,4,k=1)
a

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

### identity
- 수학에서 단위행열을 뜻한다
- 크기 한개만 지정해서 생성할 수 있다


In [None]:
a = np.identity(3)
a

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

np.full
- 지정한 크기의 배열을 생성학 채울 값을 지정한다


In [None]:
# 2행 2열의 행렬을 생성하고 1로 초기화 해준다
a = np.full((2,2),1)   # np.full(shape,value)
a

array([[1, 1],
       [1, 1]])

In [None]:
a = np.full((2,2),[[1,2],[3,4]])   # np.full(shape,value)
a

array([[1, 2],
       [3, 4]])

### np.empty
- 배열을 생성하고 초기화를 지정하지 않는다
- 메모리에 있는 값이나 이전에 사용했던 값들로 채워진다


In [4]:
# 2행 2열이 생성됨
a = np.empty((2,2))
a

array([[5.05944021e-310, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000]])

In [6]:
a[0,0] = 1
a

array([[1., 0.],
       [0., 0.]])

### np.ones
- 배열의 모든 값을 1로 채운다

In [None]:
a = np.ones(3)
a

array([1., 1., 1.])

In [None]:
a = np.ones((2,3))
a

array([[1., 1., 1.],
       [1., 1., 1.]])

### _like
 - _like가 붙은면 shape가 같게 만들어 진다
 - 연산하기 위해서 shape를 맞춰야 하는 경우가 있다.

In [None]:
# 2행 3열의 배열 생성
a = np.array([[1,2,3],[4,5,6]])
print(a)

[[1 2 3]
 [4 5 6]]


In [None]:
b = np.ones_like(a)    # a배열의 shape 복사
b

array([[1, 1, 1],
       [1, 1, 1]])

In [None]:
 c = a + b
 c

array([[2, 3, 4],
       [5, 6, 7]])

### linspace
 - 동등한 간격으로 값을 생성한다.
 - 0부터 49까지 50개가 생성된다면 세번째 num인자 값이 생략되어 있으므로 start와 end 계산해서 default 50이 생성된다.
 - linspace(start, end,num)
 - linspace(0,49) # 50

In [None]:
a = np.linspace(0,49)
a

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38.,
       39., 40., 41., 42., 43., 44., 45., 46., 47., 48., 49.])

In [None]:
a = np.linspace(0,5)
a

array([0.        , 0.10204082, 0.20408163, 0.30612245, 0.40816327,
       0.51020408, 0.6122449 , 0.71428571, 0.81632653, 0.91836735,
       1.02040816, 1.12244898, 1.2244898 , 1.32653061, 1.42857143,
       1.53061224, 1.63265306, 1.73469388, 1.83673469, 1.93877551,
       2.04081633, 2.14285714, 2.24489796, 2.34693878, 2.44897959,
       2.55102041, 2.65306122, 2.75510204, 2.85714286, 2.95918367,
       3.06122449, 3.16326531, 3.26530612, 3.36734694, 3.46938776,
       3.57142857, 3.67346939, 3.7755102 , 3.87755102, 3.97959184,
       4.08163265, 4.18367347, 4.28571429, 4.3877551 , 4.48979592,
       4.59183673, 4.69387755, 4.79591837, 4.89795918, 5.        ])

In [None]:
# endpoint=False 하면 5가 포함이 안된다
a = np.linspace(0,5,endpoint=False)
a

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9])

### logspace
- linspace와 비슷하다
- log scale을 사용하는 차이가 있다.
- 1부터 50까지 사이의 10개 요소를 생성한다

In [None]:
np.logspace(1,50,10)

array([1.00000000e+01, 2.78255940e+06, 7.74263683e+11, 2.15443469e+17,
       5.99484250e+22, 1.66810054e+28, 4.64158883e+33, 1.29154967e+39,
       3.59381366e+44, 1.00000000e+50])

In [None]:
np.logspace(1,10,10)

array([1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06, 1.e+07, 1.e+08,
       1.e+09, 1.e+10])

In [None]:
a = np.array([1,2,3])
a

array([1, 2, 3])

In [None]:
print(type(a))
print(a.dtype)  # int 64 정수 64bit 8byte

<class 'numpy.ndarray'>
int64


In [None]:
b = np.array([1,2,3], dtype = np.int8)
b

array([1, 2, 3], dtype=int8)

In [None]:
b = np.array([-128,127,5,100,127], dtype = np.int8)
b

array([-128,  127,    5,  100,  127], dtype=int8)

In [None]:
#np.int8은 -128 ~ 127 사이의 값을 저장할 수 있다.
b = np.array([-128,127,5,100,128], dtype = np.int8)
b

array([-128,  127,    5,  100, -128], dtype=int8)

In [None]:
c = np.array([127,2,3,-128], dtype = int)
c

array([ 127,    2,    3, -128])

In [None]:
print(c.dtype)                 #python의 int == numpy의 int64 가 같다

int64


numpy 도움말

In [None]:
np.lookfor('sum')

a =

In [None]:
a = np.array([[1,2,3],[4,5,6]])
#array 의 shape알려준다
a.shape

(2, 3)

In [None]:
# array이 몇차원 인지 알려준다
a.ndim

2

In [None]:
#array의 타 입을 알려준다
a.dtype

dtype('int64')

In [None]:
#3요소의 개수 shape로도 알수있다
a.size

6

In [None]:
#요소당 byte수를 알려준다
a.itemsize

8

numpy와 python의 속도차이

In [None]:
np.arange(10) # ([start], end ,[step])

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
#numpy를 이용한 계산
%time np.sum(np.arange(1000000000))

CPU times: user 1.78 s, sys: 4.29 s, total: 6.07 s
Wall time: 6.14 s


499999999500000000

같은 np.sum()을 사용하더라도 값을 생성하는 방법에 따라 속도가 달라진다

In [None]:
# python 을 이용한 계산
%time sum(range(1000000000))

CPU times: user 25.3 s, sys: 150 ms, total: 25.4 s
Wall time: 29.7 s


499999999500000000

###copy

대입문 6 가지

 a = 1   
 a = b = 1   
 a, *b = 1, 2, 3   
 a += 1    
 globla, nolocal   

##python에서 copy

In [None]:
a = [1,2,3]

In [None]:
b=a

In [None]:
b

[1, 2, 3]

In [None]:
a is b   # 메모리 주소 비교

True

In [None]:
# a와 b 가 메모리 주소를공유
# b값을 변경하면 a값도 변경됨
b[0] = 7

In [None]:
print(b)
print(a)

[7, 2, 3]
[7, 2, 3]


In [None]:
a = [1,2,3]

In [None]:
b = a.copy()

In [None]:
b

[1, 2, 3]

In [None]:
a is b

False

In [None]:
b[0]=7

In [None]:
print(a)
print(b)

[1, 2, 3]
[7, 2, 3]


list가 2차원 일때 카피

In [None]:
# shallow copy (얉은 카피)
a = [[1,2,3]]
b = a.copy()

In [None]:
print(a is b)  # 메모리 주소비교
print(a == b)  # 메모리 값 비교

False
True


In [None]:
import copy

In [None]:
a = [[1,2,3]]
b = copy.deepcopy(a) # list가 2차원일때 deep copy을 하기 위해서 copy모듈에있는 deepcopy메소드를 사용한다

In [None]:
print(a == b)
print(a is b)

True
False


In [None]:
print(b[0])
print(a[0])

[1, 2, 3]
[1, 2, 3]


In [None]:
b[0][0]= 10

In [None]:
print(b[0])
print(a[0])

[10, 2, 3]
[1, 2, 3]


In [None]:
print(a[0] is b[0])
print(a[0] == b[0])

False
False


[:] 는 전체라는  뜻이다.   
슬라이싱 방식으로 1차 리스트일떄는  재할당하면 deepcopy가 된다.   
슬라이싱 방식으로 2차 리스트 이상인 경우는 shallowcopy가 발생 된다   

In [None]:
a = [1,2,3]
b =a[:]

print(a is b)
print( a == b)

a = [[1,2,3]]
b =a[:]

print(a is b)
print( a == b)

print(a[0] is b[0])
print( a[0] == b[0])

False
True
False
True
True
True


In [None]:
a = [256,2,3]
b =a[:]         # deep카피 발생

In [None]:
print(a is b)
print( a == b)

False
True


In [None]:
print(a[0] is b[0])
print( a[0] == b[0])

True
True


In [None]:
a = [1,2,3]
b =a

In [None]:
print(a is b)
print( a == b)

True
True


In [None]:
print(a[0] is b[0])
print( a[0] == b[0])

True
True


In [None]:
#intering   속도 개선을 위해
# 파이썬은 느리기때문에 중간에 cache 저장하는 기법이 있다
# -5에서 256은 파이썬에서  같은 메모리 주소를 사용한다 (interning기법)
# 문자열에서 a-zA-Z0-9는 내부적으로 interning 기법을 사용한다  (한글은 지원안함)
m = 256
n = 256
print(m is n)
print(m == n)
m = 257
m = 257
print(m is n)
print(m == n)



True
True
False
False
