# Numpy 배열 생성
- 리스트는 여러가지 자료형 저장이 가능하다.
- 넘파이배열은 하나의 자료형만 저장할 수 있다.
- 만약, 숫자와 문자가 동시에 저장된다면, capa(메모리 용량이 더 큰)가 더 큰 문자로 변환되어서 저장되어진다.

<br>

- 넘파이 배열은 이러한 제약을 가지는 대신에(동일한 데이터 타입으로만 저장가능) 내부 원소에 대한 접근과 반복문 실행이 빨라지도록 설계되어져 있다.

<br>

- 값의 타입을 지정해서 저장할 때는 dtype 속성을 사용해서 저장한다.
    - int32, int64, float64.... 등으로 지정할 수 있다.

In [1]:
import numpy as np

In [2]:
# 리스트 : 다른 데이터타입이 섞여도 괜찮다. (서로 다른 데이터 타입저장)
myList = [1,2,3, '4', 5,6]
print(myList)
print(type(myList))

[1, 2, 3, '4', 5, 6]
<class 'list'>


In [3]:
# 넘파이 배열 : 한가지 데이터타입만 넣을 수 있다.
myArr = np.array([1,2,3,'4',5,6])
print(myArr)
print(type(myArr))

['1' '2' '3' '4' '5' '6']
<class 'numpy.ndarray'>


In [4]:
myArr2 = np.array([1,2,3,4.0,5])
print(myArr2)
print(type(myArr2))

[1. 2. 3. 4. 5.]
<class 'numpy.ndarray'>


In [5]:
myArr3 = np.array([1,2,3,4], dtype='float32')
print(myArr3)
print(type(myArr3))
print(myArr3.dtype)

[1. 2. 3. 4.]
<class 'numpy.ndarray'>
float32


In [6]:
myArr4 = np.array([1,2,3,4], dtype=np.int32)
print(myArr4)
print(type(myArr4))
print(myArr4.dtype)

[1 2 3 4]
<class 'numpy.ndarray'>
int32


# Numpy 배열의 속성과 함수
- ndim, shape, reshape, size, type, dtype
- Numpy 배열의 타입은 ndarray 클래스이다.\
클래스는 다양한 field와 method를 가지고 있고 ndim, shape, reshape, size, type, dtype은 필드와 메서드 둘다 사용 가능하다.

In [7]:
myArr = np.array([1,2,3,4,5,6])

In [8]:
# method
print(myArr)
print(np.ndim(myArr)) # 몇차원인지 리턴
print(np.shape(myArr)) # 행렬 모양을 튜플형으로 리턴
print(np.size(myArr)) # element의 갯수(즉, 벡터의 크기)
print(type(myArr)) # 전체 클래스의 타입

[1 2 3 4 5 6]
1
(6,)
6
<class 'numpy.ndarray'>


In [9]:
# attribute
print(myArr.ndim)
print(myArr.shape)
print(myArr.size)
print(myArr.reshape(2,3))
print(myArr.dtype) # 배열 안 데이터(element)의 타입

1
(6,)
6
[[1 2 3]
 [4 5 6]]
int32


In [10]:
# 넘파이 배열의 원소값을 한번에 바꿀 수 있음. astype()
print(myArr.astype(np.float64))
# == print(myArr.astype('float64'))
myArr_1 = myArr.astype(np.float64)
print(myArr_1.dtype)
print(type(myArr_1))

# astype(), type(), dtype을 서로 각각 구분하자.

[1. 2. 3. 4. 5. 6.]
float64
<class 'numpy.ndarray'>


In [11]:
# reshape : 1차원 -> 2차원
arr_1 = np.arange(32)
print(arr_1)
print('-'*30)
print(arr_1.reshape(2,16))
print(arr_1.reshape(2,16).shape)
print('-'*30)
print(arr_1.reshape(4,8))
print(arr_1.reshape(4,8).shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31]
------------------------------
[[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31]]
(2, 16)
------------------------------
[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]]
(4, 8)


### numpy random seed값 지정
- 특정한 시작 숫자를 정해주어서 난수를 발생시키면 고정적인 난수가 발생된다.
- 결과 확인시 시작 숫자가 동일하다면 테스트 확인시 용이하다.
- seed() 함수에 정수를 지정하면 된다.

In [12]:
np.random.seed(0) # 0~2**32까지된다. (음수x)
arr_2 = np.random.randn(4,4)
print(arr_2)

[[ 1.76405235  0.40015721  0.97873798  2.2408932 ]
 [ 1.86755799 -0.97727788  0.95008842 -0.15135721]
 [-0.10321885  0.4105985   0.14404357  1.45427351]
 [ 0.76103773  0.12167502  0.44386323  0.33367433]]


In [15]:
# reshape할때 지정하는 값은 정확한 값을 줘야한다. 아니면 에러 발생
# 시드값은 한번만 주면 계속 적용된다.
# randint는 계속 실행시 값이 바껴도 시드값에 맞춰서 달라지는 거라서 결과적으로 다른사람과 같다.
arr_3 = np.random.randint(10,20,16).reshape(4,4)
arr_3

array([[11, 17, 19, 19],
       [13, 16, 17, 12],
       [10, 13, 15, 19],
       [14, 14, 16, 14]])

# 인덱싱과 조건 슬라이싱 

In [20]:
print(arr_2)
print('*'*30)
print(arr_2[arr_2<0]) # 0보다 작은 값만 찾아보자.
print('*'*30)
print(arr_2[arr_2>0]) # 0보다 큰 값만 찾아보자

[[ 1.76405235  0.40015721  0.97873798  2.2408932 ]
 [ 1.86755799 -0.97727788  0.95008842 -0.15135721]
 [-0.10321885  0.4105985   0.14404357  1.45427351]
 [ 0.76103773  0.12167502  0.44386323  0.33367433]]
******************************
[-0.97727788 -0.15135721 -0.10321885]
******************************
[1.76405235 0.40015721 0.97873798 2.2408932  1.86755799 0.95008842
 0.4105985  0.14404357 1.45427351 0.76103773 0.12167502 0.44386323
 0.33367433]


In [23]:
# 0보다 작은 값들을 전부다 0으로 바꿔보자.
arr_2[arr_2<0]=0
print(arr_2)

[[1.76405235 0.40015721 0.97873798 2.2408932 ]
 [1.86755799 0.         0.95008842 0.        ]
 [0.         0.4105985  0.14404357 1.45427351]
 [0.76103773 0.12167502 0.44386323 0.33367433]]


In [24]:
arr_2 # ndarray의 값 반영 특징 : 값을 바꾸면 원본도 함께 바뀐다.

array([[1.76405235, 0.40015721, 0.97873798, 2.2408932 ],
       [1.86755799, 0.        , 0.95008842, 0.        ],
       [0.        , 0.4105985 , 0.14404357, 1.45427351],
       [0.76103773, 0.12167502, 0.44386323, 0.33367433]])

In [26]:
# where 함수를 적용. 조건부 슬라이싱
arr_2_1 = np.where(arr_2>0, arr_2, -1) # 상항 연산자와 유사
arr_2_1

# arr_2>0을 만족하면 arr_2를 리턴, 아니면 -1을 리턴한다.

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -1.        ,  0.95008842, -1.        ],
       [-1.        ,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433]])

In [46]:
### 중요!!
arr5 = np.array([[1,2], [3,4], [5,6]])
print(arr5[arr5>2])
# print(arr5>2)로 하면 boolean이 나온다.
arr5[arr5>2].reshape(2,2)

[3 4 5 6]


array([[3, 4],
       [5, 6]])

### 참고
### 파이썬 삼항연산자

조건1 if 조건 else 조건2
- if문이 참이면 조건1, 거짓이면 조건2