# numpy 배열

In [2]:
import numpy as np

## 1차원 배열 만들기

In [3]:
# 1차원 배열 만들기
ar = np.array([0,1,2,3,4,5,6,7,8,9])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

넘파이의 array 함수에 리스트를 넣으면 ndarray 클래스 객체 즉, 배열로 변환해 준다. 따라서 1 차원 배열을 만드는 방법은 다음과 같다.

In [4]:
# 타입 확인
type(ar)

numpy.ndarray

리스트와 비슷해 보이지만 type 명령으로 자료형을 살펴보면 ndarray임을 알 수 있다.

만들어진 ndarray 객체의 표현식(representation)을 보면 바깥쪽에 array()란 것이 붙어 있을 뿐 리스트와 동일한 구조처럼 보인다. 그러나 배열 객체와 리스트 객체는 많은 차이가 있다.

우선 리스트 클래스 객체는 각각의 원소가 다른 자료형이 될 수 있다. 그러나 배열 객체 객체는 C언어의 배열처럼 연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 한다. 이러한 제약사항이 있는 대신 원소에 대한 접근과 반복문 실행이 빨라진다.

## 벡터화 연산

배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리하는 벡터화 연산(vectorized operation)을 지원한다. 예를 들어 다음처럼 여러개의 데이터를 모두 2배 해야 하는 경우를 생각하자.

In [5]:
data = [0,1,2,3,4,5,6,7,8,9]

In [6]:
# for문으로 구현 
answer = []
for di in data:
    answer.append(2*di)
answer

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [7]:
x = np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
2*x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [9]:
L = [0,1,2,3,4,5,6,7,8,9]
print(2*L)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [10]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

In [11]:
2 * a + b

array([12, 24, 36])

In [12]:
(a == 2) & (b > 10)

array([False,  True, False])

## 2차원 배열 만들기

In [13]:
# 2 * 3 배열 만들기
c = np.array([[0,1,2],[3,4,5]])
c

array([[0, 1, 2],
       [3, 4, 5]])

In [14]:
# 2차원 배열 행의 갯수
len(c)

2

In [15]:
# 열의 갯수
len(c[0])

3

## 3차원 배열 만들기

In [16]:
# 2 * 3 * 4 배열 만들기
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])

In [17]:
# 3차원 배열의 깊이, 행, 열
len(d), len(d[0]), len(d[0][0])

(2, 3, 4)

## 배열의 차원과 크기 알아내기

In [18]:
a = np.array([1,2,3])
print(a.ndim)
print(a.shape)

1
(3,)


In [19]:
c = np.array([[0,1,2],[3,4,5]])
print(c.ndim)
print(c.shape)

2
(2, 3)


In [20]:
print(d.ndim)
print(d.shape)

3
(2, 3, 4)


## 배열의 인덱싱

In [21]:
a = np.array([0,1,2,3,4])
a[2]

2

In [22]:
a[-1]

4

In [23]:
# 다차원 배열
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])

In [24]:
d[0,1,1]

6

## 배열의 슬라이싱

In [25]:
a = np.array([[0,1,2,3],[4,5,6,7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [26]:
# 첫번쨰 행 전체
a[0,:]

array([0, 1, 2, 3])

In [27]:
# 두번째 열 전체
a[:,1]

array([1, 5])

![image.png](attachment:image.png)

In [28]:
m = np.array([[ 0,  1,  2,  3,  4],
            [ 5,  6,  7,  8,  9],
            [10, 11, 12, 13, 14]])

In [29]:
m[1,2]

7

In [30]:
m[-1,-1]

14

In [31]:
m[1,1:3]

array([6, 7])

In [32]:
m[1:,2]

array([ 7, 12])

In [33]:
m[:2,-2:]

array([[3, 4],
       [8, 9]])

## 배열 인덱싱

In [34]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True,
               False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

In [35]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

In [36]:
# 홀수 골라내기
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])

In [37]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

In [38]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [39]:
a[:, [True, False, False, True]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [40]:
a[[2, 0, 1], :]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

![image.png](attachment:image.png)

In [41]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])
x[x % 3 == 0]

array([ 3,  6,  9, 12, 15, 18])

In [42]:
x[x %4 ==1]

array([ 1,  5,  9, 13, 17])

In [43]:
x[(x%3==0)&(x%4==1)]

array([9])

# 배열의 생성과 변형

## 넘파이의 자료형

In [45]:
# 자료형을 명시하지 않으면 스스로 유추함
x = np.array([1, 2, 3])
x.dtype

dtype('int32')

In [46]:
x = np.array([1, 2, 3.0])
x.dtype

dtype('float64')

![image.png](attachment:image.png)

In [47]:
x = np.array([1, 2, 3], dtype='f')
x.dtype

dtype('float32')

## 배열 생성

In [48]:
# 크기가 정해져 있고 모든 값이 0인 배열 생성
a = np.zeros(5)
a

array([0., 0., 0., 0., 0.])

In [55]:
# 튜플을 입력하면 다차원 가능
b = np.zeros((3,1))
b

array([[0.],
       [0.],
       [0.]])

In [56]:
c = np.zeros((5, 2), dtype="i")
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

In [57]:
d = np.zeros(5, dtype="U4")
d

array(['', '', '', '', ''], dtype='<U4')

In [58]:
# 0이 아닌 1로
e = np.ones((2,3,4), dtype= 'i8')

In [59]:
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int64)

In [61]:
# 튜플 대신 다른배열과 같은 크기의 배열은 ones_like, zeros_like
f = np.ones_like(b, dtype='f')
f

array([[1.],
       [1.],
       [1.]], dtype=float32)

In [62]:
# arange는 특정한 규칙에 따른 수열 생성
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [64]:
# 선형 구간 분할
np.linspace(0,10,4)

array([ 0.        ,  3.33333333,  6.66666667, 10.        ])

In [65]:
# 로그 구간 분할
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

## 전치 연산

In [67]:
# 전치 = 행과 열을 바꾸는 작업
a = np.array([[1,2,3],[4,5,6]])
a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

## 배열의 크기 변형

In [68]:
# reshpae
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [70]:
b = a.reshape(6,2)
b

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [71]:
# -1을 사용해 자동으로 계산
a.reshape(4,-1)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [73]:
# 다차원을 1차원으로 -> flatten, ravel
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [74]:
b.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [75]:
# 같은 배열에 1차원 증가시키는 경우 -> newaxis
x = np.arange(5)
x[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4]])

## 배열연결

![image.png](attachment:image.png)

In [76]:
# hstack = 행의 수가 같은 배열을 옆으로 연결
a1 = np.ones((2,3))
a1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [77]:
a2 = np.zeros((2, 2))
a2

array([[0., 0.],
       [0., 0.]])

In [78]:
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

In [79]:
# vstack = 열의 수가 같은 배열을 위아래로 연결
b1 = np.ones((2, 3))
b1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [82]:
b2 = np.zeros((3, 3))
b2

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [83]:
np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [84]:
# dstack = 깊이 방향으로 배혈을 합침
c1 = np.ones((3, 4))
c1

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [85]:
c2 = np.zeros((3, 4))
c2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [86]:
np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [87]:
# stack 은 내가 axis를 지정
c = np.stack([c1, c2])
c

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [88]:
c = np.stack([c1, c2], axis=1)
c

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

# 배열의 연산

## 브로드 캐스팅
- 크기가 다른 벡터/행렬의 연산을 지원

![image.png](attachment:image.png)

## 차원 축소 연산

In [89]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [90]:
# 최솟값의 위치
x.argmin()

0

In [92]:
# 최댓값의 위치
x.argmax()

3

![image.png](attachment:image.png)

# 기술 통계

![image.png](attachment:image.png)

## 사분위수

![image.png](attachment:image.png)

In [102]:
np.percentile(x, 0)  # 최소값

1.0

In [103]:
np.percentile(x, 25)  # 1사분위 수

1.75

In [104]:
np.percentile(x, 50)  # 2사분위 수

2.5

In [105]:
np.percentile(x, 75)  # 3사분위 수

3.25

In [106]:
np.percentile(x, 100)  # 최댓값

4.0

# 난수 발생과 카운팅

## 시드 설정하기

![image.png](attachment:image.png)

In [116]:
np.random.seed(0)

In [117]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [118]:
np.random.rand(5)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

## 데이터의 순서 바꾸기

In [119]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [122]:
np.random.shuffle(x)
x

array([0, 2, 6, 3, 9, 8, 5, 4, 1, 7])

## 데이터 샘플링
- 이미 있는 데이터에서 일부를 무작위로 선택하는 것 -> choice
- numpy.random.choice(a, size=None, replace=True, p=None)

![image.png](attachment:image.png)

In [123]:
np.random.choice(5, 5, replace=False)  # shuffle 명령과 같다.

array([0, 4, 2, 1, 3])

In [124]:
np.random.choice(5, 3, replace=False)  # 3개만 선택

array([4, 2, 3])

In [125]:
np.random.choice(5, 10)  # 반복해서 10개 선택

array([0, 2, 4, 3, 3, 2, 4, 2, 0, 0])

In [126]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 선택 확률을 다르게 해서 10개 선택

array([2, 2, 2, 2, 3, 3, 3, 3, 0, 3])

## 난수 생성
- rand: 0부터 1사이의 균일 분포
- randn: 기댓값이 0이고 표준편차가 1인 표준 정규 분포를 따르는 난수
- randint: 균일 분포의 정수 난수

In [127]:
np.random.rand(10)

array([0.65314004, 0.17090959, 0.35815217, 0.75068614, 0.60783067,
       0.32504723, 0.03842543, 0.63427406, 0.95894927, 0.65279032])

In [128]:
np.random.rand(3, 5)

array([[0.63505887, 0.99529957, 0.58185033, 0.41436859, 0.4746975 ],
       [0.6235101 , 0.33800761, 0.67475232, 0.31720174, 0.77834548],
       [0.94957105, 0.66252687, 0.01357164, 0.6228461 , 0.67365963]])

In [129]:
np.random.randn(10)

array([-0.68658948,  0.01487332, -0.3756659 , -0.03822364,  0.36797447,
       -0.0447237 , -0.30237513, -2.2244036 ,  0.72400636,  0.35900276])

'''
numpy.random.randint(low, high=None, size=None)
만약 high를 입력하지 않으면 0과 low사이의 숫자를, high를 입력하면 
low와 high는 사이의 숫자를 출력한다. 
size는 난수의 숫자이다
'''

In [134]:
np.random.randint(10, 20, size=(3, 5))

array([[13, 12, 13, 14, 11],
       [12, 19, 11, 14, 16],
       [18, 12, 13, 10, 10]])

![image.png](attachment:image.png)