# 2.1. 파이썬 Numpy 소개

- Numerical Python

- 파이썬의 내장 타입인 리스트보다 데이터의 저장 및 처리에 있어 효율적인 Numpy 배열을 제공

- 선형 대수와 관련된 기능을 제공

- 파이썬을 기반으로 한 데이터 과학 도구의 핵심 패키지

- 데이터 사이언스 영역의 대부분의 도구(Pandas, Scipy, scikit-learn 등)가 Numpy기반으로 만들어져 있다.


# 2.2. Numpy 주요 기능

### 배열(ndarray) 객체



In [1]:
import numpy as np

- 별칭으로 np 사용

In [6]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

- array() 함수 사용

- array의 경우에는 동질의 데이터를 다룰 수 있는 구조

In [7]:
np.array([1, 4, 2, 5, 3], dtype=np.float)

array([1., 4., 2., 5., 3.])

- 데이터 타입을 지정하여 구성 할 수 있음

In [5]:
np.array([range(i, i+3) for i in [1, 4, 7]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

- 2차원 구조를 가진 행렬

### 초기화가 가능한 여러 가지 함수 제공

In [16]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

- 1차원을 만드는 zeros

In [13]:
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [15]:
np.full((2, 3), 5)

array([[5, 5, 5],
       [5, 5, 5]])

- 초기값을 임의로 채움

In [18]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

- 배열을 생성하는 np.arange()
- range()와 사용법이 유사함

In [20]:
np.linspace(0, 100, 5, dtype=int)

array([  0,  25,  50,  75, 100])

- 균등하게 interval을 구성할 수 있는 linspace
- 구간을 나눔

### 난수와 관련된 부분
테스트용 데이터를 만들때 많이 사용함

In [25]:
np.random.random((3, 3))

array([[0.76479099, 0.77915986, 0.93668991],
       [0.2174754 , 0.10023194, 0.1301609 ],
       [0.68776077, 0.47090621, 0.51572396]])

- np.random.random(size))

In [23]:
np.random.randint(0, 10, (3, 3))

array([[6, 2, 1],
       [2, 3, 3],
       [3, 6, 0]])

- 범위를 제공하는 randint()

In [24]:
np.random.normal(0, 1, (3, 3))

array([[-0.68142585, -0.46699814,  1.97989139],
       [-1.2271463 , -1.01094442, -0.40013344],
       [ 0.40150389, -0.00327347,  0.38362782]])

- 정규분포를 나타내는 normal

- np.random.normal(평균, 표준편차, size)

### 랜덤값의 재현성 문제

In [35]:
np.random.seed(0)

arr1 = np.random.randint(10, size=6)
arr2 = np.random.randint(10, size=(2, 3))

print(f"arr1: {arr1}")
print(f"ndim: {arr1.ndim}, shape: {arr1.shape}, size: {arr1.size}, dtype: {arr1.dtype}")

print(f"arr2: \n{arr2}")
print(f"ndim: {arr2.ndim}, shape: {arr2.shape}, size: {arr2.size}, dtype: {arr2.dtype}")

arr1: [5 0 3 3 7 9]
ndim: 1, shape: (6,), size: 6, dtype: int32
arr2: 
[[3 5 2]
 [4 7 6]]
ndim: 2, shape: (2, 3), size: 6, dtype: int32


- seed 함수에 seed값을 주면 재현성 문제가 해결됨

- nidm: 차원 정보
- shape: 행/열, 원소의 구조 정보

- size: 원소의 개수

- dtype: data type



### 객체의 인덱싱

- 단일 원소에 접근하는 기법

In [42]:
arr1

array([5, 0, 3, 3, 7, 9])

In [38]:
arr1[0], arr1[5]

(5, 9)

In [39]:
arr1[-6], arr1[-1]

(5, 9)

- 음수를 이용하는 인덱싱

In [43]:
arr2

array([[3, 5, 2],
       [4, 7, 6]])

In [41]:
arr2[0]

array([3, 5, 2])

In [45]:
arr2[0, 0], arr2[0, 2]

(3, 2)

- \[  \]를 사용
- \[행, 열\]

In [46]:
arr2[-1, -3], arr2[-1, -1]

(4, 6)

In [47]:
arr2[0, 0] = 9

arr2

array([[9, 5, 2],
       [4, 7, 6]])