# Numpy에 대해

### Numerical Python

#### 과학계산용 파운데이션 패키지.
기능은 다음과 같다.
###### 다차원 배열 객체인 ndarray 제공
###### 배열 원소 다루거나 배열 간 수학계산 수행
###### 배열 기반 데이터 읽거나 쓸 수 있음
###### 선형대수, 푸리에 변환, 난수 발생기
###### 파이썬, C, C++, 포트란 코드 통합 가능

알고리즘에 사용할 데이터 컨테이너 / Numpy는 수치 데이터를 파이썬 기본 자료구조보다 효율적으로 저장하고 다룰 수 있음

스칼라 원소 간의 연산에 사용하는 문법과 비슷한 방식을 사용해 전체 데이터 블록에 수학적 연산 수행 가능

### 4.1 NumPy ndarray : 다차원 배열 객체 

In [1]:
import numpy as np
import pandas as pd

In [37]:
data = np.random.randn(2, 3) # np.random.randn(x, y)는 x행과 y열로 구성된 난수 배열을 생성하라는 메소드다.

In [38]:
data

array([[-0.26609982, -0.84311882, -0.85569701],
       [ 0.13239346, -0.51019406, -0.37233276]])

In [39]:
data * 10

array([[-2.66099818, -8.43118822, -8.55697007],
       [ 1.3239346 , -5.10194061, -3.72332758]])

In [40]:
data + data

array([[-0.53219964, -1.68623764, -1.71139401],
       [ 0.26478692, -1.02038812, -0.74466552]])

ndarray는 같은 종류 데이터를 담을 수 있는 다차원 배열이며, 모든 원소들은 같은 자료형이어야만 한다.

모든 배열은 차원의 크기를 알려주는 shape라는 튜플과 배열 저장된 자료형을 알려주는 dtype이라는 객체를 가지고 있다.

In [41]:
data.shape # 차원의 크기를 알려주는 튜플 객체 shape

(2, 3)

In [42]:
data.dtype # 배열에 저장된 자료형을 알려주는 객체 dtype

dtype('float64')

자료형 설명

In [3]:
type_data = {'dtype 접두사' : ['b','i','u','f','c','0','S','U'],
            '설명' : ['불리언','정수','부호 없는 정수','부동소수점','복소 부동소수점','객체','바이트 문자열','유니코드 문자열'],
            '사용 예' : ['b (참 혹은 거짓)','i8 (64비트)','u8 (64비트)','f8 (64비트)','c16 (128비트)','0 (객체에 대한 포인터)','S24 (24 글자)','U24 (24 유니코드 글자)']}

In [5]:
type_frame = pd.DataFrame(type_data)

In [6]:
type_frame

Unnamed: 0,dtype 접두사,사용 예,설명
0,b,b (참 혹은 거짓),불리언
1,i,i8 (64비트),정수
2,u,u8 (64비트),부호 없는 정수
3,f,f8 (64비트),부동소수점
4,c,c16 (128비트),복소 부동소수점
5,0,0 (객체에 대한 포인터),객체
6,S,S24 (24 글자),바이트 문자열
7,U,U24 (24 유니코드 글자),유니코드 문자열


### ndarray 생성

In [8]:
data1 = [6, 7.5, 8, 0, 1]

In [9]:
arr1 = np.array(data1)

In [10]:
arr1

array([ 6. ,  7.5,  8. ,  0. ,  1. ])

In [11]:
data2 = [[1,2,3,4],[5,6,7,8]]

In [12]:
arr2 = np.array(data2)

In [13]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [14]:
arr2.ndim #ndim은 배열의 차수를 표현해줌

2

In [15]:
arr2.shape

(2, 4)

In [50]:
np.zeros(10) # 0이 들어있는 배열을 만듦

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [8]:
np.zeros((3,6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [56]:
np.empty((2,3,2)) # np.empty는 0으로 초기화 된 배열을 반환하지 않음. 대부분의 경우 empty는 초기화되지 않은 값으로 채워진 배열을 반환함.

array([[[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]],

       [[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]]])

In [55]:
np.arange(15) # range함수의 배열 버전

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

#### 배열 생성 함수들 

array = 입력 데이터를 ndarray로 변환, dtype 명시 안 되어있을 시 자료형을 추론해 저장함.

asarry = 입력 데이터를 ndarray로 변환하지만 입력 데이터가 이미 ndarray인 경우 복사 안됨.

arange = 내장 range 함수와 유사하지만 리스트 대신 ndarray 반환

ones, ones_like = 주어진 dtype과 주어진 모양을 가지는 배열 생성 후 내용을 모두 1로 초기화함. ones_like는 주어진 배열과 동일한 모양과 dtype
을 가지는 배열을 새로 생성해 내용을 모두 1로 초기화한다.

zeros, zeros_like = 위와 같은 내용으로 모두 내용을 0으로 채운다.

empty, empty_like = 메모리 할당해 새로운 배열 생성하지만 ones나 zeros처럼 값을 초기화하지는 않음.

eye, identity = N x N 크기 단위행렬 생성

In [62]:
np.identity(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

In [63]:
np.eye(2,2)

array([[ 1.,  0.],
       [ 0.,  1.]])

In [64]:
int_array = np.arange(10)

In [65]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [66]:
int_array.astype(calibers.dtype)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

#### 배열과 스칼라 간의 연산 

배열은 for 반복문 없이 데이터 일괄처리 가능하므로 중요하다. 이를 벡타화하라고 하는데, 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용된다.

In [67]:
arr = np.array([[1.,2.,3.],[4.,5.,6.]])

In [68]:
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [69]:
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [70]:
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [72]:
1 / arr # 스칼라 값에 대한 산술연산은 각 요소로 전달된다.

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [74]:
arr ** 0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

크기가 다른 배열 간 연산은 브로드캐스팅이라고 함.

#### 색인과 슬라이싱

In [75]:
arr = np.arange(10)

In [76]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [77]:
arr[5]

5

In [78]:
arr[5:8]

array([5, 6, 7])

In [79]:
arr[5:8] = 12

In [80]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [81]:
arr_slice = arr[5:8]

In [82]:
arr_slice[1] = 12345

In [83]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [85]:
arr_slice[:] = 64

In [86]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [87]:
# 데이터가 복사되지 않고, 뷰에 대한 변경이 그대로 원본 배열에 반영된다.
# 위의 [:] 예시가 그것을 보여주고 있다.

In [90]:
arr2d = np.array([[1,2,3,],[4,5,6],[7,8,9]]) # 다차원 배열을 다뤄보기

In [89]:
arr2d[2]

array([7, 8, 9])

In [91]:
# 다차원 배열을 다루는 데에는 많은 옵션이 필요. 2차원 배열에서 각 색인에 해당되는 요소는 스칼라 값이 아니라 1차원 배열
# 고로 재귀적 방식을 사용해야 함. 여기서는 콤마로 구분된 색인 리스트를 넘겨서 사용

In [92]:
arr2d[0][2]

3

In [93]:
arr2d[0,2]

3

In [94]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]]) # 2 X 2 X 3 크기의 배열 arr3d, 2 X 3 크기의 배열 arr3d[0]

In [95]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [98]:
arr3d[1,0]

array([7, 8, 9])

In [104]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [107]:
## np.array를 추가해야 다차원 배열로 인식한다. 그렇지 않은 경우, 단순히 스칼라가 1차원적으로 나열된 배열로 인식하게 된다.

#### 슬라이스 색인

In [108]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [110]:
arr2d[:2, 1:] # 배열의 각 2번째 행에 해당되는 내용과 1번째부터의 열 내용을 출력한다는 이야기.

array([[2, 3],
       [5, 6]])

In [112]:
arr2d[1, :2] # 1번째 행의 0,1번째 요소들을 출력

array([4, 5])

In [114]:
arr2d[2, :1] # 2번째 행의 0번째 요소들을 출력

array([7])

In [129]:
arr2d[:, :1] # :이 인덱스에 들어가게 되면 이는 전체 레코드에 대해(즉, 열에 해당되는 데이터 전체) 그것을 선택하겠다는 의미.

array([[1],
       [4],
       [7]])

In [119]:
arr2d[:2, 1:] = 0 # 선택 영역에 대해 값을 일괄적으로 할당 가능

In [120]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

#### 불리언 색인

In [131]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])

In [132]:
data = np.random.randn(7,4)

In [133]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], 
      dtype='<U4')

In [134]:
data

array([[-0.69885467,  0.1460189 ,  0.23484915,  0.69631227],
       [-0.27955757,  0.71004134, -0.64694183,  0.95572665],
       [ 0.21282635, -0.53447596, -1.0127386 ,  0.367372  ],
       [-0.79861285, -0.11484586, -0.69263309,  0.7439887 ],
       [ 0.7985009 , -1.35750564, -0.29978551, -1.06903938],
       [ 2.96226623, -1.34219302,  0.43017501, -1.38213342],
       [ 0.07943241, -1.15310788, -0.37699257,  2.85465342]])

In [135]:
names == 'Bob' # bool 값으로 만들어진 배열

array([ True, False, False,  True, False, False, False], dtype=bool)

In [138]:
data[names == 'Bob'] # names의 배열은 총 7개의 행과 1개의 열로 이뤄졌다.
                     # 즉, 여기서는 names=='Bob'을 만족하는, True 값을 가지는 행만 추출하게 된다.

array([[-0.69885467,  0.1460189 ,  0.23484915,  0.69631227],
       [-0.79861285, -0.11484586, -0.69263309,  0.7439887 ]])

In [139]:
#이러한 불리언 배열은 색인하려는 축의 길이와 동일한 길이를 가져아 함 불리언 배열 색인도 슬라이스, 숫자 색인과 혼용 가능

In [140]:
data[names=='Bob', 2:]

array([[ 0.23484915,  0.69631227],
       [-0.69263309,  0.7439887 ]])

In [141]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True], dtype=bool)

In [145]:
data[-(names == 'Bob')] #책에서는 '-'(마이너스)를 이용해 제거하라고 했으나 이제는 '~'(물결)을 사용하는 것이 좋을 듯 싶다.

  """Entry point for launching an IPython kernel.


array([[-0.27955757,  0.71004134, -0.64694183,  0.95572665],
       [ 0.21282635, -0.53447596, -1.0127386 ,  0.367372  ],
       [ 0.7985009 , -1.35750564, -0.29978551, -1.06903938],
       [ 2.96226623, -1.34219302,  0.43017501, -1.38213342],
       [ 0.07943241, -1.15310788, -0.37699257,  2.85465342]])

In [149]:
mask = (names == 'Bob') | (names =='Will') #역슬래쉬(|)는 or 연산자이고, &는 and 연산자이다. and와 or 자체를 실제로 쓸 수 는 없다.

In [147]:
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [148]:
data[mask]

array([[-0.69885467,  0.1460189 ,  0.23484915,  0.69631227],
       [ 0.21282635, -0.53447596, -1.0127386 ,  0.367372  ],
       [-0.79861285, -0.11484586, -0.69263309,  0.7439887 ],
       [ 0.7985009 , -1.35750564, -0.29978551, -1.06903938]])

#### 팬시색인

정수 배열 사용한 색인 설명 위해 Numpy에서 차용한 단어.

In [153]:
arr = np.empty((8,4))

In [154]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [155]:
for i in range(8):
    arr[i] = i

In [156]:
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [157]:
arr[[4,3,0,6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

In [159]:
arr[[-3,-5,-7]] # 음수 사용시 끝에서부터 로우를 선택한다.

array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

In [163]:
arr = np.arange(32).reshape((8,4))

In [164]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [166]:
arr[[1,5,7,2],[0,3,1,2]] # 각기 행렬 리스트의 첫번째 요소부터 돌아가며 주소로써 요소를 색출함.

array([ 4, 23, 29, 10])

In [168]:
arr[[1,5,7,2]][:,[0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [170]:
arr[np.ix_([1,5,7,2],[0,3,1,2])] # 1차원 정수 배열 2개를 사각형 영역에서 사용할 색인으로 변환 가능

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

#### 배열 전치와 축 바꾸기 

transpose 메서드와 T라는 이름의 특수한 속성 활용

In [171]:
arr = np.arange(15).reshape((3,5))

In [172]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [174]:
arr.T # 행열의 전치. 3 X 5 행렬이 5 X 3 행렬로 전환되었다.

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [177]:
arr = np.random.randn(6,3)

In [178]:
arr

array([[-0.24552441,  1.27393672,  2.70654801],
       [ 0.44831739,  1.51549981, -0.2140916 ],
       [-0.34735039, -2.87312339,  1.2687922 ],
       [-0.95786918, -0.51014715, -0.76338069],
       [-1.47332073,  0.34344321, -0.74158691],
       [-1.06795254,  0.37538697, -0.83758533]])

In [180]:
np.dot(arr.T, arr) # 행렬의 내적 XtX를 np.dot을 이용해서 계산

array([[  4.61063298,   0.94637965,   1.51709552],
       [  0.94637965,  12.6936112 ,  -0.70155655],
       [  1.51709552,  -0.70155655,  10.81532139]])

여기서 주목해야할 것은 선형대수의 '전치행렬 개념'
전치 행렬은 기본 행렬의 행과 열을 전환한 행렬을 의미한다.
교재에서 내적 XTX라는 것은 X라는 행렬과, X의 전치 행렬에 대한 곱인데
공부를 좀 해봐야 알 듯 말 듯