# Numpy 기초

* NumPy의 핵심 기능 중 하나는 N차원의 배열 객체 또는 ndarray
* ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 타차원 배열
* ndarray의 모든 원소는 같은 자료형이어야만 한다.
* 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 dtype이라는 객체를 가지고 있다.

In [1]:
import numpy as np

In [2]:
data = np.random.randn(2, 3)
data

array([[-1.24544425, -1.4606544 , -1.01975391],
       [ 0.39550533, -0.16334785,  1.45519118]])

In [3]:
data.shape

(2, 3)

In [4]:
data.dtype

dtype('float64')

* 대부분의 데이터 분석 애플리케이션을 작성하기 위해 NumPy에 대해 깊이 있게 이해할 필요는 없으며
* 배열 위주의 프로그래미오가 생각하는 방법에 능숙해지는 것이 좋다.

## ndarray 생성

* 배열을 생성하는 가장 쉬운 방법은 array 함수를 이용하는 것이다.

In [5]:
data1 = [6, 7,5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6, 7, 5, 8, 0, 1])

In [6]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [7]:
arr2.ndim

2

In [8]:
arr2.shape

(2, 4)

In [9]:
arr2.dtype

dtype('int32')

* zeros, ones는 주어진 길이나 모양에 각각 0과 1일 들어있는 배열을 생성한다.

In [10]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

* empty 함수는 초기화되지 않은 배열을 생성

In [12]:
np.empty((2, 3, 2))

array([[[1.50691037e-312, 0.00000000e+000],
        [8.76794447e+252, 2.15895723e+227],
        [6.48224638e+170, 3.67145870e+228]],

       [[8.04887531e-096, 9.03292329e+271],
        [9.08366793e+223, 1.41075687e+232],
        [1.16070543e-028, 1.30857857e+295]]])

* arange는 파이썬의 range 함수의 배열 버전이다.

In [13]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

## ndarray의 자료형

* dtype은 ndarray가 특정 데이터를 메모리에서 해석하기 위해 필요한 정보를 담고 있는 특수한 객체다.

In [14]:
arr1 = np.arange(5, dtype=np.int32)
arr1

array([0, 1, 2, 3, 4])

In [15]:
arr2 = np.arange(5, dtype=np.float64)
arr2

array([0., 1., 2., 3., 4.])

* ndarray의 astype 메서드를 사용하여 배열의 dtype을 다른 형으로 명시적 변경이 가능하다.

In [16]:
float_arr = arr1.astype(np.float32)
float_arr

array([0., 1., 2., 3., 4.], dtype=float32)

* 부동소수점 숫자를 정수형으로 변환하면 소수점 아랫자리는 버려진다.
* 숫자 형식의 문자열을 담고 있는 배열은 astype을 사용하여 숫자로 변환할 수 있다.
* **astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열(데이터를 복사)을 생성한다.**

## 배열과 스칼라 간의 연산

* 배열은 for문을 사용하지 않고 데이터를 일괄처리할 수 있다.
* 이를 벡터화라고 하는데, 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용된다.

## 색인과 슬라이싱 기초

* 1차원 배열은 파이썬의 리스트와 유사하게 동작한다.

In [17]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
arr[5:8]

array([5, 6, 7])

In [19]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

* 슬라이싱 구문에 스칼라 값을 대입하면 선택 영역 전체로 전파된다.(브로드캐스팅이라도 한다.)
* slice는 원본 배열의 view다.
* 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다.
* 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용하여 명시적으로 배열을 복사한다.

In [20]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [21]:
arr2d[2]

array([7, 8, 9])

In [22]:
arr2d[2][1]

8

In [23]:
arr2d[2, 1]

8

In [24]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [25]:
arr[1:6]

array([ 1,  2,  3,  4, 12])

In [26]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [27]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

* 첫 번째 축인 0번 축을 기준으로 슬라이싱 되었다.
* 색인을 여러 개 넘겨서 다차원을 슬라이싱하는 것도 가능하다.

In [28]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

* 정수 색인과 슬라이스를 함께 사용하면 한 차원 낮은 슬라이스를 얻을 수 있다.

In [29]:
arr2d[1, 1:]

array([5, 6])

* 콜론만 쓰면 전체 축을 선택한다는 의미가 된다.

In [30]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

* 슬라이싱 구문에 값을 대입하면 슬라이싱 선택 영역 전체에 값이 할당된다.

## 불리언 색인

In [31]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [32]:
data = np.empty((7, 4))
for i in range(7):
    data[i] = i
data

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.]])

* 산술연산과 마찬가지로 배열에 대한 비교연산도 벡터화된다.

In [33]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

* 불리언 배열은 배열의 색인으로 사용할 수 있다.

In [34]:
data[names == 'Bob']

array([[0., 0., 0., 0.],
       [3., 3., 3., 3.]])

* 불리언 배열은 반드시 색인하려는 축의 길이와 동일한 길이를 가져야 한다.
* 불리언 배열 색인도 슬라이스 또는 숫자 색인과 함께 혼용할 수 있다.

In [35]:
data[names == 'Bob', 2:]

array([[0., 0.],
       [3., 3.]])

In [36]:
data[names == 'Bob', 3]

array([0., 3.])

* != 연산자를 사용하거나 -를 사용하여 조건절을 부정할 수 있다.
* **-가 아니라 ~로 변경되었다.**

In [37]:
data[names != 'Bob']

array([[1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.]])

In [38]:
data[~(names == 'Bob')]

array([[1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.]])

* & (and), | (or) 같은 논리연산자를 사용하여 불리언 조건을 조합할 수 있다.

In [39]:
mask = (names == 'Bob') | (names == 'Joe')

In [40]:
mask

array([ True,  True, False,  True, False,  True,  True])

In [41]:
data[mask]

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [3., 3., 3., 3.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.]])

* 배열에 불리언 색인을 이용해서 데이터를 선택하면 반환되는 배열의 내용이 바뀌지 않더라도 항상 데이터 복사가 발생한다.

In [42]:
data = np.random.randn(7, 4)

In [43]:
data

array([[ 1.13356535, -1.89703484,  0.2845485 ,  0.48844429],
       [ 0.70505665,  0.2876986 ,  2.33876701,  0.23763703],
       [-0.24808252,  1.36121247, -1.53011012,  1.33987062],
       [ 0.28589535,  0.83155998, -0.12465307,  0.52753907],
       [-1.00216563,  0.4913385 , -0.84340292,  0.08716809],
       [-1.45155921,  1.46198845, -1.5711503 , -2.93189316],
       [ 0.01243528,  1.00115233, -2.2012531 , -1.38210295]])

* data의 모든 음수를 0으로 변경한다.

In [44]:
data[data < 0] = 0

In [45]:
data

array([[1.13356535, 0.        , 0.2845485 , 0.48844429],
       [0.70505665, 0.2876986 , 2.33876701, 0.23763703],
       [0.        , 1.36121247, 0.        , 1.33987062],
       [0.28589535, 0.83155998, 0.        , 0.52753907],
       [0.        , 0.4913385 , 0.        , 0.08716809],
       [0.        , 1.46198845, 0.        , 0.        ],
       [0.01243528, 1.00115233, 0.        , 0.        ]])

## 팬시 색인

* 팬시 색인은 정수 배열을 사용한 색인을 설명하기 위해 NumPy에서 차용한 단어다.

In [46]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i

In [47]:
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

* 특정한 순서로 로우를 선택하고 싶다면 원하는 순서가 명시된 정수가 담긴 ndarray나 리스트를 넘기면 된다.

In [48]:
arr[[4, 3, 0]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.]])

* 4번째, 3번째, 0번째 row가 선택되었다.

In [49]:
arr[[-1, -3, -5]]

array([[7., 7., 7., 7.],
       [5., 5., 5., 5.],
       [3., 3., 3., 3.]])

* 색인으로 음수를 사용하면 끝에서부터 row를 선택한다.

In [50]:
arr = np.arange(32).reshape((8, 4))

In [51]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [52]:
arr[[0, 1, 2, 3], [3, 2, 1, 0]]

array([ 3,  6,  9, 12])

* 다차원 색인 배열을 넘기는 것은 조금 다르게 동작한다.
* (0, 3), (1, 2) ... 에 대응하는 요소가 선택되었다.

In [53]:
arr[[0, 1, 2, 3]][:, [3, 2, 1, 0]]

array([[ 3,  2,  1,  0],
       [ 7,  6,  5,  4],
       [11, 10,  9,  8],
       [15, 14, 13, 12]])

* 첫 팬시 색인으로 row를 지정하고 선택된 row의 전체에 axis=1의 순서만을 변경한 것 같은 결과다.

In [54]:
arr[np.ix_([0, 1, 2, 3], [3, 2, 1, 0])]

array([[ 3,  2,  1,  0],
       [ 7,  6,  5,  4],
       [11, 10,  9,  8],
       [15, 14, 13, 12]])

* np.ix_ 함수를 사용하면 같은 결과를 얻을 수 있다.