# ***인덱싱 보충***

In [2]:
import numpy as np

In [3]:
# 인덱싱 정리
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
a

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [4]:
# 인덱스를 저장할 배열 생성
idx = np.array([0, 2, 0, 1]); idx

array([0, 2, 0, 1])

In [9]:
# 원본 배열 a의 각 행에서 인덱스에 일치하는 값 추출

a[(0, 1, 2, 3), idx]

array([ 1,  6,  7, 11])

In [11]:
a[np.arange(4), idx]

array([ 1,  6,  7, 11])

In [None]:
# a[:, idx]
# 슬라이싱이므로 전체 행의 전체 열에 대해 idx 배열만큼 값을 추출함

In [19]:
# 원본 배열 a의 각 행에서 인덱스에 일치하는 값 추출하면서 연산
result = a[np.arange(4), idx] * 2
result

array([ 2, 12, 14, 22])

In [12]:
# 부울 인덱싱 정리
b = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]); b

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
# 부울 인덱싱으로 짝수 구하기
boolean = np.array([True, False, True, False, True, False, True, False, True, False])
b[boolean]

array([0, 2, 4, 6, 8])

In [20]:
b[b%2==0]

array([0, 2, 4, 6, 8])

# ***선형대수 ( Linear algebra )***


In [None]:
# 선형 : 그래프가 원점을 지나는 직선 y = mx 함수
# 대수(학) : '흩어진 조각들을 모아서 재조합' 함수그래프에서 보이는 둘 이상의 함수를 합쳐 만드는 것
# 인공지능에서는 '데이터 분석에 필요한 여러 계산을 돕기 위한 학문'으로 사용 중

# 물리량(데이터)의 유형
# - 스칼라 (Scalar) : 하나의 수치로 이루어진 데이터
# - 벡터 (Vector) : 여러 개의 수치로 이루어진 데이터 (Data Record)
# - 행렬 (Matrix) : 여러 개의 벡터로 이루어진 데이터 집합

In [21]:
# 스칼라
x = 1
x

1

In [22]:
# 벡터
# numpy에서 벡터를 표현할 때는 열의 개수가 하나인 2차원 배열 객체로 표현하는 것을 권장함.
x = np.array([[2], [2], [2]])
x

array([[2],
       [2],
       [2]])

In [None]:
# 벡터
x = np.array([2, 2, 3])
# 위와 같은 1차원 배열 객체도 벡터로 인정하긴 함


In [25]:
# 행렬
# : 복수의 데이터 집합을 행렬이라고 표현

x = np.array([[2, 2], [3, 3], [4, 4], [5, 5]])
x

array([[2, 2],
       [3, 3],
       [4, 4],
       [5, 5]])

In [None]:
# 특수한 벡터와 행렬

# - 영벡터 : 몇 차원인지는 무관하게, 모든 원소가 0인 n차원 벡터
# - 일벡터 : 모든 원소가 1인 n차원 벡터

# - 전치행렬 : 행렬에서 가장 기본이 되는 연산 (행과 열을 바꾸는 연산)
#            : 전치연산으로 만들어진 행렬을 원래 행렬에 대한 전치행렬이라고 함
# - 정방행렬 (square matrix) : 행과 열의 개수가 같은 행렬
# - 단위행렬 (identify matrix) : 대각행렬 중에서 모든 대각요소(주요소)값이 1인 대각행렬
# - 대각행렬 (diagonal matrix) : 모든 비대각요소(off-diagonal)가 0인 정방 행렬
# - 대칭행렬 (sysmetic matrix) : 전치연산을 통해서 얻은 전치행렬과 원래의 행렬이 같은 경우 


In [26]:
# 전치 연산
x.T

array([[2, 3, 4, 5],
       [2, 3, 4, 5]])

In [27]:
x = np.array([[2], [2], [3]])
x

array([[2],
       [2],
       [3]])

In [28]:
x.T
# 3열로 이루어진 행렬 x는 2차원 벡터이고 전치행렬로 바꾸면 
# 2차원 벡터를 1차원으로 표현하고 있는 것이므로 벡터로 인정할 수 있는 것.
# ==> 행벡터

array([[2, 2, 3]])

In [29]:
# cf
x = np.array([2, 2, 3])
x

array([2, 2, 3])

In [30]:
x.T
# 3행으로 이루어진 행렬 x는 1차원 행렬이고 전치행렬 함수를 수행해도
# 1차원을 2차원으로 표현하는 것이 불가능하므로 수행되지 않음

# 열로 이루어진 벡터에서 행벡터로의 전환은 가능하지만 
# 행벡터는 열벡터로 전환이 불가능

array([2, 2, 3])

In [31]:
# 대각행렬
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [32]:
# 단위행렬1
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [33]:
# 단위행렬2
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

# ***결측치***

In [None]:
# 결측치 : 없는 데이터, 잘못된 데이터
# pyhton에서 결측치 처리 방식 : NULL(object), NaN
# numpy : nan

In [34]:
a = np.array([np.nan, 1, 2, np.nan, 3, 4, 5]); a

array([nan,  1.,  2., nan,  3.,  4.,  5.])

In [36]:
np.isnan(a)

array([ True, False, False,  True, False, False, False])

# ***numpy 자료형***

In [37]:
'''
dtype 속성에 해당 자료형 첫글자를 부여

- b : boolean        ==> dtype='b'
- i : int(정수형)    ==> dtype='i8' (64bit)
- u : 부호 없는 정수 ==> dtype='u8'
- f : 부동소수점     ==> dtype='f8'
- c : 복소수 부동소수점 ==> dtype='c16' (128bit)
- O : 객체              ==> dtype='O' (객체에 대한 포인터)
- S : 바이트 문자열     ==> dtype='S24' (24글자)
- U : 유니코드 문자열   ==> dtype='U24' (24 유니코드 문자)

- Inf : 무한대
- NaN (Not a Number)
- N/A (Not Available, Not application)
'''

# numpy 자료형을 지정할 때,
# 직접 값을 넣거나
# dtype 속성을 이용해서 지정할 수 있다.

"\ndtype 속성에 해당 자료형 첫글자를 부여\n\n- b : boolean        ==> dtype='b'\n- i : int(정수형)    ==> dtype='i8' (64bit)\n- u : 부호 없는 정수 ==> dtype='u8'\n- f : 부동소수점     ==> dtype='f8'\n- c : 복소수 부동소수점 ==> dtype='c16' (128bit)\n- O : 객체              ==> dtype='O' (객체에 대한 포인터)\n- S : 바이트 문자열     ==> dtype='S24' (24글자)\n- U : 유니코드 문자열   ==> dtype='U24' (24 유니코드 문자)\n\n- Inf : 무한대\n- NaN (Not a Number)\n- N/A (Not Available, Not application)\n"

In [39]:
x = np.array([1, 2, 3])
print(x)
x.dtype

[1 2 3]


dtype('int64')

In [49]:
x = np.array([1, 2, 3], dtype='float')
print(x.dtype)

x = np.array([1, 2, 3.0], dtype='f')
print(x.dtype)

# float 과 f는 bit에 변화가 생긴다. f는 32bit , float은 64bit

float64
float32


In [46]:
x = np.array([1, 2, 3], dtype='U')
x.dtype

dtype('<U1')

In [47]:
x[0] + x[1]

'12'

In [54]:
# np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

# 0으로 나누는 연산은 에러 발생함

array([0, 0, 0, 0])

# ***배열 연결(concatenate)***

In [None]:
'''
행의 수나 열의 수가 같은 2개 이상의 배열을 
연결하여 더 큰 배열을 만들 때 사용하는 방법

 (h : horizontal)
- hstack : 행의 수가 같은 두 개 이상의 배열을 
           옆으로 연결하여 열의 수가 더 많은 배열을 생성
           (주의 - 연결할 배열이 하나의 리스트에 담겨 있어야 함)

 (v : vertical)
- vstack : 열의 수가 같은 두 개 이상의 배열을
           위아래로 연결하여 행의 수가 더 많은 배열을 생성
           (주의 - 연결한 배열이 하나의 리스트에 담겨 있어야 함)
 
 (d : depth)
- dstack : 깊이 방향으로 배열을 연결

- stack : dstack 확장 버전
          (주의 - 배열이 겹쳐지듯이 사용되므로 연결하고자 하는 배열의 크기가 모두 같아야 함)
        : axis 인수를 사용할 수 있고 0~2까지 가능

- tile : 동일한 배열을 반복해서 연결할 때 사용 (비슷한 명령 repeat)

# 인덱서 (특수 메소드) : 메소드이지만 ()를 사용하지 않음. 
인덱싱과 같이 대괄호[]를 사용하므로 인덱서라고 지칭
- r_메소드 : hstack과 비슷한 명령, 배열을 좌우로 연결
- c_메소드 : 배열의 차원을 증가시킨 후 좌우로 연결
             => ex) 1차원 배열을 c_메소드 적용하면 2차원 배열이 됨

In [58]:
a1 = np.ones((2, 3))
a2 = np.zeros((2, 2))

print(a1)
print(a2)

[[1. 1. 1.]
 [1. 1. 1.]]
[[0. 0.]
 [0. 0.]]


In [56]:
# hstack

np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

In [60]:
# vstack

a1 = np.ones((2, 3))
a2 = np.zeros((3, 3))

np.vstack([a1, a2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [61]:
c1 = np.ones((3, 4)); c1
c2 = np.zeros((3, 4)); c2

#dstack
np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [62]:
(np.dstack([c1, c2])).shape            # shape 확인시 (깊이, 행, 열)형태로 출력된다. 

(3, 4, 2)

In [63]:
# stack

np.stack([c1, c2])

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [64]:
np.stack([c1, c2], axis=0)       # axis=0 : default

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [65]:
np.stack([c1, c2], axis=1)       # axis=1 : 각 행끼리 차원 결합

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

In [66]:
np.stack([c1, c2], axis=1).shape

(3, 2, 4)

In [67]:
# r_인덱서
r1 = np.array([1, 2, 3])
r2 = np.array([4, 5, 6])

np.r_[r1, r2]

array([1, 2, 3, 4, 5, 6])

In [68]:
# c_인덱서
np.c_[r1, r2]

array([[1, 4],
       [2, 5],
       [3, 6]])

In [71]:
# tile             # []로 묶인 객체들을 반복
t = np.array([[0, 1, 2], [11, 22, 33]])
np.tile(t, 2)

array([[ 0,  1,  2,  0,  1,  2],
       [11, 22, 33, 11, 22, 33]])

In [72]:
# 행, 열 모두 반복 - tuple로 적용
np.tile(t, (3, 2))

array([[ 0,  1,  2,  0,  1,  2],
       [11, 22, 33, 11, 22, 33],
       [ 0,  1,  2,  0,  1,  2],
       [11, 22, 33, 11, 22, 33],
       [ 0,  1,  2,  0,  1,  2],
       [11, 22, 33, 11, 22, 33]])

In [74]:
# repeat - 요소값을 그대로 반복
rp = np.array([[1, 2], [3, 4]])
np.repeat(rp, 2)

array([1, 1, 2, 2, 3, 3, 4, 4])

In [75]:
# repeat에도 axis 속성이 있다
print(np.repeat(rp, 2))
print(np.repeat(rp, 2, axis=1))
print(np.repeat(rp, 3, axis=0))


[1 1 2 2 3 3 4 4]
[[1 1 2 2]
 [3 3 4 4]]
[[1 2]
 [1 2]
 [1 2]
 [3 4]
 [3 4]
 [3 4]]


# ***난수 ( Random Number)***


In [None]:
'''
numpy에서 난수 생성 : np.rand()  -   0부터 1사이의 실수
seed(씨앗값) : 보통의 프로그래밍 언어는 난수값이 설정되어있음 
             : 조금 더 난수를 만들고 싶으면 이 씨앗값을 바꾸는 형태로 사용
'''

In [81]:
import numpy as np

np.random.seed(0)
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [83]:
np.random.rand(5)         # 실행시마다 결과가 바뀜

array([0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [84]:
np.random.seed(0)         # 시드값을 설정하면 5 실행 시 결과이 정해진 대로 나옴
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [86]:
# shuffle

x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
np.random.shuffle(x)
x

array([4, 2, 3, 9, 6, 1, 7, 8, 5])

In [None]:
'''
# 데이터 샘플링 : 이미 있는 데이터 집합에서 무작위로 선택하는 것
np.random.choice(원본데이터, size, replace=True/False, p)


- 원본데이터 : 데이터 집합
- size : 샘플 숫자
- replace : True면 한 번 선택한 데이터를 다시 선택할 수 있다. 
- p : 각 데이터가 선택될 수 있는 확률

In [88]:
x = np.random.choice(5, 5, replace=False); x

array([0, 2, 3, 4, 1])

In [89]:
x = np.random.choice(5, 3, replace=False); x

array([2, 3, 4])

In [95]:
x = np.random.choice(5, 10, replace=True); x
# replace=True로 설정하면, 데이터를 넘는 샘플 수도 뽑을 수 있게 된다.
# replace=False이면 데이터 집합의 수를 초과하는 만큼 샘플을 뽑을 수 없음

array([3, 0, 3, 4, 1, 2, 4, 3, 4, 4])

In [100]:
x = np.random.choice(5, 10, replace=True, p=[0.1, 0, 0, 0.3, 0.6]); x

array([4, 3, 3, 4, 3, 3, 3, 4, 4, 3])