## Numpy01; ndarray, ndarray creation

In [6]:
import numpy as np

In [3]:
np?

#### Provides
  1. An array object of arbitrary homogeneous items
  2. Fast mathematical operations over arrays
  3. Linear Algebra, Fourier Transforms, Random Number Generation


#### 가장 중요한 포인트는 homogeneous item이라는것이다 => 즉 파이썬의 내장 list와는 다르다. 하나의 일정한 타입을 저장한다
- 왜 homogeneous item이 중요할까? => 속도가 빠르다
- 동적 프로그래밍 언어인 파이썬은 동적 타이핑을 위해 부가적인 정보가 각 item에 저장이 되어있어야한다
- 예를 들어 list안에 각 element들은 하나의 객체로 참조 값이 담겨있다. 이는 언어의 유연성은 증가시키나 많은 데이터를 저장하기에 효율적이지 않다
- Numpy의 배열은 이를 homogeneous item 을 가는 array 객체를 제공한다. 이는 유연성은 줄어드나 데이터를 저장하고 처리하기에 더 효율적이다

### Array module 
- 파이썬의 내장 모듈인 array도 단일타입의 배열을 만들어준다 
- 하지만 Numpy가 더 효율적인 이유는 Fast mathematical operations over arrays, array 모듈이 못하는 연산기능이 추가로 제공된다 

In [7]:
import array

In [14]:
array01 = array.array('i',range(10))  # i는 정수임을 나타내는 코드
print(array01)

array01 = array.array('f',range(10))  # f는 실수임을 나타내는 코드
print(array01)

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
array('f', [0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0])


### Numpy
- NumPy’s main object is the homogeneous multidimensional array
- NumPy’s array class is called 'ndarray'

### 📎Array creation
- 1. python의 데이터 타입 활용
- 2. Numpy의 내장 함수 활용 

#### 1.python의 데이터 타입 활용
- np.array(내장 데이터 타입) 함수를 이용한다
- 기본적으로 list, tuple, range

In [19]:
# 차원이 없는 스칼라 값이다
# 그냥 궁금해서 해봤다
print(np.array(1))
print(type(np.array(1)))


1
<class 'numpy.ndarray'>


In [17]:
# list
print(np.array([1,2,3,4]))
print(type(np.array([1,2,3,4]))) # ndarray 타입이다 

[1 2 3 4]
<class 'numpy.ndarray'>


In [36]:
# tuple
# tuple을 넣어도 출력되는것은 [] 형식일거다
print(np.array((1,2,3,4)))
print(type(np.array((1,2,3,4))))

[1 2 3 4]
<class 'numpy.ndarray'>


In [22]:
# range
print(np.array(range(1,5)))
print(type(np.array(range(1,5))))

[1 2 3 4]
<class 'numpy.ndarray'>


In [38]:
# 자주 발생하는 에러 참고하자
print(np.array(1,2,3,4)) 

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

#### ⭐️ attributes of an ndarray object
- ndarray객체는 배열의 크기나 차원들의 정보를 나타내는 유용한 속성들을 갖는다 

In [31]:
ndarray01 = np.array([1,2,3,4])
print(ndarray01.ndim)     # dimension의 갯수
print(ndarray01.shape)    # dimensions of the array ex) (n,m):nrows,mcols
print(ndarray01.size)     # total element 갯수
print(ndarray01.dtype)    # 저장되어있는 데이터 타입 => 강제하지 않으면 자동응로 추론한다
print(ndarray01.itemsize) # byte size

1
(4,)
4
int64
8


In [48]:
# 데이터 타입 dtype
# 데이터 타입 강제 가능하다
ndarray01 = np.array([1,2,3,4])
print(ndarray01.dtype)
print(ndarray01)
ndarray01 = np.array([1,2,3,4],dtype=float)
print(ndarray01.dtype)
print(ndarray01)
ndarray01 = np.array([1,2,3,4],dtype=complex)
print(ndarray01.dtype)
print(ndarray01)
ndarray01 = np.array([1,2,3,4],dtype=str)
print(ndarray01.dtype)
print(ndarray01)

int64
[1 2 3 4]
float64
[1. 2. 3. 4.]
complex128
[1.+0.j 2.+0.j 3.+0.j 4.+0.j]
<U1
['1' '2' '3' '4']


#### ⭐️ dimension?
- NumPy’s main object is the homogeneous multidimensional array
- 위에 ndarray object들의 속성들을 보니 ndarray는 multi dimensional 한 배열이라는것을 알 수 있다
- 사실 파이썬 내장 리스트도 2차원 혹은 3차원 리스트를 사용하면 다차원 리스트로 만들 수는 있지만 사용하기 편리하지 않다 
- Numpy는 이를 위한 편리한 기능들을 제공한다

In [63]:
ndarray01 = np.array([[1,2,3,4],[5,6,7,8]])
print(ndarray01)       # 출력 결과를 명식적으로 다차원으로 보여준다
print(ndarray01.ndim)  # 자동으로 dimension 인식한다
print(ndarray01.shape) # 2행 4열을 의미한다

[[1 2 3 4]
 [5 6 7 8]]
2
(2, 4)


In [32]:
# nested 데이터 타입은 자동으로 다차원으로 인식한다
ndarray01 = np.array([range(i,i+5) for i in [2,4,6]])
print(ndarray01) 

ndarray02 = np.array([(1,2,3),[4,5,6],(7,8,9)])
print(ndarray02)

[[ 2  3  4  5  6]
 [ 4  5  6  7  8]
 [ 6  7  8  9 10]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [35]:
# 내가 직접 shape를 지정해줄수도 있다
# reshape
ndarray01 = np.array([1,2,3,4])
ndarray01 = ndarray01.reshape(2,2)
print(ndarray01)

[[1 2]
 [3 4]]


In [68]:
#3 차원 이상
ndarray01 = np.array(range(12)).reshape(2,2,3) 
print(ndarray01) #순서를 잘 확인해보자 R이랑 조금 다르다 오히려 이게 더 좋다

[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


#### 2. Numpy의 내장 함수 사용

#### np.zeors(shape), np.ones(shape), np.empty(shape), np.full(shpae,value)

In [5]:
print(np.zeros((3,4)))
print(np.ones((2,2)))  # nd array는 신기하게
print(np.empty((3,4)))   # 1로 채운다
print(np.full((2,2),10))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1.]
 [1. 1.]]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[10 10]
 [10 10]]


#### np.aragne()
-  range와 똑같이 인자를 받는다
- 수열로 ndarray를 만든다 

In [67]:
print(np.arange(0,10,2))
print(np.arange(0,10,0.7)) # step을 float으로도 지원한다

[0 2 4 6 8]
[0.  0.7 1.4 2.1 2.8 3.5 4.2 4.9 5.6 6.3 7.  7.7 8.4 9.1 9.8]


#### np.linspace()

In [70]:
print(np.linspace(0,10,5))

[ 0.   2.5  5.   7.5 10. ]


#### ⭐️ np.random
- random 서브 모듈이다
- 여러 확률분포 사용 가능하다

#### rand(axis1,aixs2,,)
 - [0, 1) 사이의 분포로 랜덤한 ndarray 생성

In [90]:
# 이미 [0,1)가 지정되어있어서 필요한 인수는 shape뿐이다
print(np.random.rand(2,3))

[[0.57197171 0.32330749 0.40014638]
 [0.96038835 0.62882381 0.18314451]]


#### randn(axis1,aixs2,,)
 - n: normal distribution(정규분포)
 - 정규분포로 샘플링된 랜덤 ndarray 생성

In [107]:
# 이미 [0,1)가 지정되어있어서 필요한 인수는 shape뿐이다
print(np.random.randn(2,2))

[[-0.43231462  1.99748355]
 [-0.88759403  0.56849451]]


#### randint(start,end,size)
 - 특정 정수 사이에서 랜덤하게 샘플링
 - 당연히 앞에꺼 포함 뒤에꺼 안포함

In [93]:
# 특정 정수 두개 인자로 입력 + size = (shape)형식으로
print(np.random.randint(0,100,size=(2,2)))

[[33 29]
 [ 3 77]]


#### seed()
 - 랜덤한 값을 동일하게 다시 생성하고자 할때 사용

In [95]:
np.random.seed(100)
print(np.random.randint(0,100,size=(2,2)))
np.random.seed(100)
print(np.random.randint(0,100,size=(2,2))) #동일한 결과 산출

[[ 8 24]
 [67 87]]
[[ 8 24]
 [67 87]]


#### choice(ndarray,size,replace=False)
 - 주어진 1차원 ndarray로 부터 랜덤으로 샘플링
 - 정수가 주어진 경우, np.arange(해당숫자)로 간주

In [104]:
ndarray01=np.random.randint(0,100,size=100)
print(np.random.choice(ndarray01,size=(3,3)))

[[47 76 76]
 [42 55 94]
 [37 47 81]]


In [103]:
ndarray01=np.random.randint(0,100,size=10)
print(np.random.choice(ndarray01,size=(3,3),replace=True))

[[49  1 57]
 [ 7 57 90]
 [49 14  1]]


In [105]:
print(np.random.choice(100, size=(3, 4)))
# 100을 np.arange(100)으로 가눚하고 뽑음

[[34 93 96 15]
 [82 12 85 23]
 [67 60 79  9]]
