# 2.1. 파이썬 Numpy 소개

- Numerical Python

- 파이썬의 내장 타입인 리스트보다 데이터의 저장 및 처리에 있어 효율적인 Numpy 배열을 제공

- 선형 대수와 관련된 기능을 제공

- 파이썬을 기반으로 한 데이터 과학 도구의 핵심 패키지

- 데이터 사이언스 영역의 대부분의 도구(Pandas, Scipy, scikit-learn 등)가 Numpy기반으로 만들어져 있다.


# 2.2. Numpy 주요 기능

### 배열(ndarray) 객체



In [1]:
import numpy as np

- 별칭으로 np 사용

In [2]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

- array() 함수 사용

- array의 경우에는 동질의 데이터를 다룰 수 있는 구조

In [3]:
np.array([1, 4, 2, 5, 3], dtype=np.float)

array([1., 4., 2., 5., 3.])

- 데이터 타입을 지정하여 구성 할 수 있음

In [4]:
np.array([range(i, i+3) for i in [1, 4, 7]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

- 2차원 구조를 가진 행렬

### 초기화가 가능한 여러 가지 함수 제공

In [5]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

- 1차원을 만드는 zeros

In [6]:
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [7]:
np.full((2, 3), 5)

array([[5, 5, 5],
       [5, 5, 5]])

- 초기값을 임의로 채움

In [8]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

- 배열을 생성하는 np.arange()
- range()와 사용법이 유사함

In [9]:
np.linspace(0, 100, 5, dtype=int)

array([  0,  25,  50,  75, 100])

- 균등하게 interval을 구성할 수 있는 linspace
- 구간을 나눔

### 난수와 관련된 부분
테스트용 데이터를 만들때 많이 사용함

In [10]:
np.random.random((3, 3))

array([[0.68263978, 0.30693195, 0.67857483],
       [0.90962027, 0.41252713, 0.47142326],
       [0.49985856, 0.62840288, 0.91895531]])

- np.random.random(size))

In [11]:
np.random.randint(0, 10, (3, 3))

array([[4, 5, 5],
       [7, 0, 4],
       [0, 8, 5]])

- 범위를 제공하는 randint()

In [12]:
np.random.normal(0, 1, (3, 3))

array([[ 1.96485345,  0.00980479,  0.30230139],
       [ 0.58349048, -0.52988671,  0.67556873],
       [ 0.27349903,  0.81945795,  0.20089474]])

- 정규분포를 나타내는 normal

- np.random.normal(평균, 표준편차, size)

### 랜덤값의 재현성 문제

In [13]:
np.random.seed(0)

arr1 = np.random.randint(10, size=6)
arr2 = np.random.randint(10, size=(2, 3))

print(f"arr1: {arr1}")
print(f"ndim: {arr1.ndim}, shape: {arr1.shape}, size: {arr1.size}, dtype: {arr1.dtype}")

print(f"arr2: \n{arr2}")
print(f"ndim: {arr2.ndim}, shape: {arr2.shape}, size: {arr2.size}, dtype: {arr2.dtype}")

arr1: [5 0 3 3 7 9]
ndim: 1, shape: (6,), size: 6, dtype: int32
arr2: 
[[3 5 2]
 [4 7 6]]
ndim: 2, shape: (2, 3), size: 6, dtype: int32


- seed 함수에 seed값을 주면 재현성 문제가 해결됨

- nidm: 차원 정보
- shape: 행/열, 원소의 구조 정보

- size: 원소의 개수

- dtype: data type



### 객체의 인덱싱

- 단일 원소에 접근하는 기법

In [14]:
arr1

array([5, 0, 3, 3, 7, 9])

In [15]:
arr1[0], arr1[5]

(5, 9)

In [16]:
arr1[-6], arr1[-1]

(5, 9)

- 음수를 이용하는 인덱싱

In [17]:
arr2

array([[3, 5, 2],
       [4, 7, 6]])

In [18]:
arr2[0]

array([3, 5, 2])

In [19]:
arr2[0, 0], arr2[0, 2]

(3, 2)

- \[  \]를 사용
- \[행, 열\]

In [20]:
arr2[-1, -3], arr2[-1, -1]

(4, 6)

In [21]:
arr2[0, 0] = 9

arr2

array([[9, 5, 2],
       [4, 7, 6]])

- 인덱스를 이용해서 새로운값 생성

### 객체의 슬라이싱

- 배열의 부분집합 출력

In [22]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
arr1[0:5:1]

array([0, 1, 2, 3, 4])

- arr\[start:end:step\]
- start 생략 가능(처음부터)
- step 생략 가능


In [24]:
arr1[:5:1]

array([0, 1, 2, 3, 4])

In [25]:
arr1[:5:], arr1[:5]

(array([0, 1, 2, 3, 4]), array([0, 1, 2, 3, 4]))

- 위 두개는 같은 표현
- start의 : 생략 가능

In [26]:
arr1[2:9:2], arr1[2::2]

(array([2, 4, 6, 8]), array([2, 4, 6, 8]))

- end를 생략하면 끝까지를 의미함

In [27]:
arr1[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

- step이 -1이면 거꾸로 출력

In [28]:
arr1[-1:-11:-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

- -11은 범위에 포함되지 않으므로 -1 ~ -10까지 출력됨

In [29]:
arr1[5::-1]

array([5, 4, 3, 2, 1, 0])

- 5에서 거꾸로 끝까지 출력

#### 형태 변환

In [30]:
arr2 = np.arange(12)
print(f"arr2: {arr2}")

arr2 = np.arange(12).reshape(-1, 4)
arr2

arr2: [ 0  1  2  3  4  5  6  7  8  9 10 11]


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

- reshape(행, 열)
- 행/열 변환

In [31]:
arr2[:3, :4]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [32]:
arr2[:, :]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [33]:
arr2[:2, :3]

array([[0, 1, 2],
       [4, 5, 6]])

- 2x3 구조의 부분집합 추출

In [34]:
arr2[:2, 2::-1]

array([[2, 1, 0],
       [6, 5, 4]])

In [35]:
arr2[1:, -1]

array([ 7, 11])

- 행에 대해서는 슬라이싱
- 열에 대해서는 인덱싱

In [36]:
arr2[-1, :], arr2[-1]

(array([ 8,  9, 10, 11]), array([ 8,  9, 10, 11]))

### 객체의 연결

In [37]:
list1 = [1, 2, 3]
list2 = [4, 5, 6]

print(list1)
print(list2)

[1, 2, 3]
[4, 5, 6]


In [38]:
np.concatenate([list1, list2])

array([1, 2, 3, 4, 5, 6])

- np.concatenate(리스트로 담은 값들)

In [39]:
arr1 = np.concatenate([list1, list2], axis=0)
arr1

array([1, 2, 3, 4, 5, 6])

- axis 파라미터
    - 방향 지정

In [40]:
arr2 = arr1.reshape(-1, 3)
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
np.concatenate([arr2, arr2], axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [42]:
np.concatenate([arr2, arr2], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

- 축이 2개인 경우 0과 1 두개의 축이 생김

- axis=0
    - 세로 연결

- axis=1
    - 가로 연결

In [43]:
np.vstack([arr2, arr2])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

- np.vstack()
    - vertical stack
    - => axis=0



In [44]:
np.hstack([arr2, arr2])

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

- np.hstack()
    - horizontal stack
    - => axis=1

<br/>


이어서...

2. numpy-2