## Numpy 

**1차 배열 만들기**
- np.array() 함수로 수동 배열 생성
- np.aragne() 함수로 자동으로 배열 생성
- 배열 a의 데이터 타입은 int64

In [1]:
# Numpy 배열 생성 - 1차 배열 만들기

import numpy as np
a = np.arange(5)

a

array([0, 1, 2, 3, 4])

In [2]:
a.shape

(5,)

In [3]:
b = np.array([0, 1, 2, 3, 4])

b

array([0, 1, 2, 3, 4])

**2차 배열 만들기**
- arange() 함수로 2X2 배열 생성

In [4]:
m = np.array([np.arange(2), np.arange(2)])

In [5]:
m

array([[0, 1],
       [0, 1]])

In [6]:
m.shape

(2, 2)

**- 배열 인덱싱**

In [7]:
m[0,0] = 0
m[0,1] = 1
m[1,0] = 2
m[1,1] = 3

**- 배열 연산하기**

In [8]:
m + 2

array([[2, 3],
       [4, 5]])

In [9]:
m * 2

array([[0, 2],
       [4, 6]])

**numpy 초기화 배열 생성**
- numpy.empty()
- numpy.zeros()

In [10]:
np.empty([2, 2])

array([[5.e-324, 5.e-324],
       [0.e+000, 0.e+000]])

In [11]:
np.zeros(5) #소수점이 있으면 float

array([0., 0., 0., 0., 0.])

In [12]:
np.zeros((5), dtype=np.int) # int형으로 데이터 타입 설정

array([0, 0, 0, 0, 0])

In [13]:
np.zeros((2, 1)) #2x1 행렬

array([[0.],
       [0.]])

In [14]:
s = (2,2) #변수 설정해서 2x2 행렬 생성
np.zeros(s)

array([[0., 0.],
       [0., 0.]])

**numpy 랜덤 배열 생성**
- np.random.randn(d0, d1,..., dn)은 정규화 분산 데이터로부터 랜덤한 값 리턴



In [15]:
np.random.randn()

-0.262830439837087

In [16]:
2.5 + np.random.randn(2, 4) * 3

array([[-4.66775927, -1.53558816,  0.51011225, -0.36625084],
       [ 5.63485277,  1.86682914, -7.17446473,  7.48194216]])

- np.random.randint(n1, n2)은 n1과 n2 사이의 정수를 생성해준다.

In [17]:
np.random.randint(2, size=10)

array([1, 1, 0, 1, 0, 0, 1, 0, 1, 1])

In [18]:
np.random.randint(1,  size=4)

array([0, 0, 0, 0])

## Numpy 자료형 - 형 선언하기

- 배열을 만들 때 인자에 dtype을 사용하여 적용 가능

In [33]:
arr1 = np.array([1, 2, 3])
arr1

array([1, 2, 3])

In [34]:
arr1 = np.array([1, 2, 3], dtype = np.float)
arr1 

array([1., 2., 3.])

In [35]:
arr2 = np.array([1, 2, 3], dtype = np.int32)
arr2

array([1, 2, 3])

In [36]:
arr1.dtype

dtype('float64')

In [37]:
arr2.dtype

dtype('int32')

* ndarray의 astype 함수를 사용하여 배열의 형 변환 가능
* float형을 int형으로 변환하는 경우에는 float 형의 소수 부분은 버려짐


In [39]:
arr1 = np.array([1.5, 1.2, 1.4], dtype = np.float)
arr1

array([1.5, 1.2, 1.4])

In [41]:
arr2 = arr1.astype(np.int32)
arr2 

array([1, 1, 1])

In [42]:
arr2.dtype

dtype('int32')

### Numpy 속성 사용하기

In [43]:
import numpy as np
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [44]:
type(a)

numpy.ndarray

In [45]:
a.ndim

2

In [46]:
a.itemsize

4

In [47]:
a.size

15

In [48]:
a.nbytes

60

In [49]:
a.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [50]:
a.dtype.name

'int32'

### Numpy 마스킹 - 배열 선택적으로 골라내기
- ndarray에 배열을 집어 넣거나 mask를 적용하면 컬럼 선택이 가능
- 물결 기호(~) 사용 시 선택 컬럼 반전 가능

In [73]:
mask = np.array([0,1,0,1,0,1,0], dtype = bool)

In [74]:
mask

array([False,  True, False,  True, False,  True, False])

In [75]:
#정규화된 숫자 생성
data = np.random.randn(7,4)
data # 각각 인덱스 0,1,2,3,4,5까지 있음

array([[ 0.24381649,  1.75636889,  1.59299649,  0.90101089],
       [ 0.80091066, -0.2411823 , -0.78704067,  0.12591483],
       [ 2.02487989,  1.04282723,  0.65437362,  1.38309786],
       [ 1.11382394, -0.39034436,  0.48228057,  1.83690433],
       [-1.67563387,  1.26313656,  0.88108479,  1.7498209 ],
       [-0.78026667,  0.90107861, -1.38170157,  0.37988933],
       [-0.65885047,  0.1762702 , -0.68679558,  0.45635329]])

In [76]:
# 검사 수행
data [[1,2,3,4]] #인덱스 해당하는 줄 출력

array([[ 0.80091066, -0.2411823 , -0.78704067,  0.12591483],
       [ 2.02487989,  1.04282723,  0.65437362,  1.38309786],
       [ 1.11382394, -0.39034436,  0.48228057,  1.83690433],
       [-1.67563387,  1.26313656,  0.88108479,  1.7498209 ]])

In [77]:
data[mask] #각각 해당하는 true 줄만 출력

array([[ 0.80091066, -0.2411823 , -0.78704067,  0.12591483],
       [ 1.11382394, -0.39034436,  0.48228057,  1.83690433],
       [-0.78026667,  0.90107861, -1.38170157,  0.37988933]])

In [78]:
data[~mask] #~는 반전의 의미, 각각 해당하는 Flase 줄만 출력

array([[ 0.24381649,  1.75636889,  1.59299649,  0.90101089],
       [ 2.02487989,  1.04282723,  0.65437362,  1.38309786],
       [-1.67563387,  1.26313656,  0.88108479,  1.7498209 ],
       [-0.65885047,  0.1762702 , -0.68679558,  0.45635329]])

- []안에 조건을 전달하여 데이터 선택

In [79]:
over0 = data[data>0] 

In [80]:
over0

array([0.24381649, 1.75636889, 1.59299649, 0.90101089, 0.80091066,
       0.12591483, 2.02487989, 1.04282723, 0.65437362, 1.38309786,
       1.11382394, 0.48228057, 1.83690433, 1.26313656, 0.88108479,
       1.7498209 , 0.90107861, 0.37988933, 0.1762702 , 0.45635329])

In [81]:
over0.shape

(20,)

In [83]:
over1 = data[1][data[1]>0]
over1

array([0.80091066, 0.12591483])

### Numpy 배열 모양 조작 함수

![image.png](attachment:aba81b6a-e967-48db-b9f6-c82c3249ebd1.png)

In [85]:
# 테스트할 배열을 하나 생성
import numpy as np
b = np.arange(24)
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [90]:
#튜플 사용해서 배열의 속성 바꿔주기
b.shape = (6, 4) 
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [95]:
# Flatten 사용해서 1차원 배열로 바꿔주기
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [96]:
# Transpose(교차)
b.transpose()

array([[ 0,  4,  8, 12, 16, 20],
       [ 1,  5,  9, 13, 17, 21],
       [ 2,  6, 10, 14, 18, 22],
       [ 3,  7, 11, 15, 19, 23]])

In [99]:
# resize()는 reshape()처럼 동작
b.resize((2, 12))
b

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])

### 배열 쌓기
- 배열은 수평적으로 깊고, 수직적으로 쌓일 수 있다.
![image.png](attachment:71a14b33-3299-4729-a0c6-97ea1225f4fa.png)

In [100]:
# 1) array([0, 1, 2, 3, 4, 5, 6, 7, 0, 2, 4, 6, 8, 10, 12, 14])

In [101]:
import numpy as np

In [102]:
a = np.arange(8)
a

array([0, 1, 2, 3, 4, 5, 6, 7])

In [103]:
np.hstack([a, a*2])

array([ 0,  1,  2,  3,  4,  5,  6,  7,  0,  2,  4,  6,  8, 10, 12, 14])

In [105]:
# 2) array ([[0, 1, 2, 3, 4, 5, 6, 7],
         #   [0, 2, 4, 6, 8, 10, 12, 14]])

In [106]:
np.vstack([a, a*3])

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 0,  3,  6,  9, 12, 15, 18, 21]])

In [107]:
# 3) Dstack
np.dstack([a, a*3])

array([[[ 0,  0],
        [ 1,  3],
        [ 2,  6],
        [ 3,  9],
        [ 4, 12],
        [ 5, 15],
        [ 6, 18],
        [ 7, 21]]])

### 배열 쪼개기
![](https://images.velog.io/images/hm1lee/post/568999c6-5c90-48bc-ac36-b38d5748f13c/image.png)

In [111]:
# 수평 쪼개기 - hsplit
import numpy as np
a = np.arange(9)
a.shape = (3,3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [113]:
np.hsplit(a, 3)

[array([[0],
        [3],
        [6]]),
 array([[1],
        [4],
        [7]]),
 array([[2],
        [5],
        [8]])]

In [119]:
# 수직 쪼개기 - vsplit
a = np.arange(9)
a.shape = (3, 3)
np.vsplit(a, 3)

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

In [121]:
# 깊게 쪼개기 - dsplit
c = np.arange(27).reshape(3,3,3)
c

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [122]:
np.dsplit(c,3)

[array([[[ 0],
         [ 3],
         [ 6]],
 
        [[ 9],
         [12],
         [15]],
 
        [[18],
         [21],
         [24]]]),
 array([[[ 1],
         [ 4],
         [ 7]],
 
        [[10],
         [13],
         [16]],
 
        [[19],
         [22],
         [25]]]),
 array([[[ 2],
         [ 5],
         [ 8]],
 
        [[11],
         [14],
         [17]],
 
        [[20],
         [23],
         [26]]])]

#### 연습해보기

In [125]:
from sklearn import datasets

# 데이터 로드하기
iris = datasets.load_iris()
irisdt = iris['data']


In [127]:
irisdt

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3