# NUMPY 기초
- 파이썬에서 수치해석을 하기 위한 기능을 제공
- ndarray 데이터 타입을 제공
    - 파이썬의 기본 자료형인 리스트와는 다른 형태의 자료형
- Verctor, Matrix 와 같은 형태를 편하게 표현

In [None]:
# 거의 관례수준
# 이것은 국룰이기 때문에 따르겠습니다.
import numpy as np
import matplotlib.pyplot as plt

## 1차원 배열
- array()로 감싸진것 외에는 리스트와 큰 차이는 없어 보이지만, 
- 내부적으로는 큰 차이가 존재

In [None]:
array = np.array([1, 2, 3, 4, 5])
array

In [None]:
type(array)

## 리스트와 차이점

In [None]:
lists = [1, 2, 3, 4, 5]
2 * lists

In [None]:
lists = [ 2*x for x in lists]
lists

In [None]:
2 * array

In [None]:
array = np.array([1, 'hello', 0.9])
array

In [None]:
2 * array

## 2차원 배열(행렬, Matrix)

In [None]:
# 2(행) x 3(열) array
array = np.array([[1,2,3,], [4,5,6]])
array

### 다음과 같은 행렬은 어떻게 만들까요? 

\begin{bmatrix}
1 & 4 & 2 \\
9 & 5 & 0 \\
4 & 0 & 2 \\
6 & 1 & 8 
\end{bmatrix}

- 자주 사용하는 코드와 모양이기 때문에, 익숙해져야 합니다. 

In [None]:
# 4 x 3 
array = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
array

### Vector
- 일반적으로, 열벡터를 `벡터`라고 표현한다. 

In [None]:
array = np.array([
    [1],
    [2],
    [3],
    [4]
])
array

## ndarray 객체의 속성

- ndarray(N - dimensional array)
- ndim(N - Dimension): 배열의 차원
- shape: 배열의 모양, 크기

In [None]:
array = np.array([1,2,3,4,5])

In [None]:
print(array.ndim)
print(array.shape)

In [None]:
# 4 x 3 
array = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
array

In [None]:
print(array.ndim)
print(array.shape)

In [None]:
array = np.array([
    [1],
    [2],
    [3],
    [4]
])
array

In [None]:
print(array.ndim)
print(array.shape)

## 배열의 인덱싱
- 파이썬 리스트의 인덱싱과는 달라서 익숙해져야 합니다. 
- 진짜 많이 사용하는 표현이라서, ... 

### 1D(Deimensional/차원) 배열 의 인덱싱은 리스트와 같다. 
- 어떤 언어든지 1차원은 쉬운것 같아요 ... 
- C언어만 빼고,... 얘는 1차원도 쉽지 않아요 ... 

In [None]:
array = np.array([1,2,3,4,5])

In [None]:
print(array[0]) # 인덱스는 0부터 시작
print(array[-1]) # 음수 인덱스도 사용 가능 

### n-dimensinal(다차원)
- 다차원 이라고 해봐야 2차원 까지만 다룰 꺼라서.. 
- 3차원도 사용하긴 하는데 수업에는 다루지 않아요 .. 왜냐면 되게 어려워요 ... 
- 콤마를 사용해서 인덱싱

In [None]:
# 4 x 3 
array = np.array([
    [1,4,2],
    [9,5,0],
    [4,0,2],
    [6,1,8]
])
array

In [None]:
print(array[0,0]) # 좌표 표현 처럼 사용(x,y)
print(array[0,1])
print(array[-1, -1])

### 일반적인 파이썬 리스트에서는 콤마를 이용한 인덱싱은 지원하지 않는다. 

In [None]:
lists = [ 
    [1,2,3,4], [5,6,7,8] 
]
lists

In [None]:
lists[0,0]

### 배열 슬라이싱
- 파이썬의 슬라이스(:) 기능을 이용하여 복수개의 원소를 인덱싱 할 수 있다. 
- 기본적으로 데이터 분석을 할 때, 파이썬은 기본적으로 pandas 라이브러리를 사용 
- 이 pandas는 ndarray 타입을 기본적으로 사용
- 때문에, 그 중에서도 이 배열 슬라이싱은 참 많이 쓰여요 

### 사용예
- array[ 행, 열 ]
- array[ 행(from:to), 열(from:to) ]

In [None]:
array

In [None]:
# 항 행 전체를 표현
print(array[0,]) 
print(array[0,:])

In [None]:
# 한 열 전체를 인덱싱 하려면 슬라이스와 함께 사용
print(array[,0])

In [None]:
# 한 열 전체를 표현
print(array[:,0])

In [None]:
# 두번째 행의 첫번째 열부터 끝까지
print(array[1,0:])

In [None]:
# 세번째 행부터 마지막 행까지
print(array[2:])

In [None]:
# 첫번째 행부터 두번째 행까지 
print(array[:2])

In [None]:
print(array[:2, :2])

In [None]:
arr = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]
])
arr

In [None]:
# 값 16을 인덱싱 
print(arr[1,5]) # 두번째 행, 네번째 열의 값

In [None]:
# 값 29을 인덱싱 
print(arr[2,8]) # 세번째 행, 일곱번째 열의 값

In [None]:
# 배열 [14, 15, 16]인덱싱(슬라이스)
print(arr[1,3:6]) # 두번째 행, 네번째 열 부터(from) 여섯번째 열 까지(to)

In [None]:
# 배열 [18, 28]을 인덱싱(슬라이스)
print(arr[1:,7]) # 두번째 행 부터, 여덟번째 열 전체

In [None]:
# 배열 [[9,10], [19, 20]]을 인덱싱(슬라이스)
print(arr[:2, 8:10]) # 두번째 행까지(to), # 아홉번째 열부터(from) 열번째 열까지(to)

In [None]:
# 배열 [[16,17,18], [26,27,29]]을 인덱싱(슬라이스)
print(arr[1:, 5:8])

In [None]:
arr = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
    [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
    [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]
])
arr

#### [[14, 15, 16, 17], [24, 25, 26, 27], [34, 35, 36, 37]] 만 인덱싱

#### [12, 22, 32]만 인덱싱

## 배열 인덱싱(array indexing) 혹은 팬시 인덱싱(fancy indexing)
- 이것도 특히 많이 사용되는 방법
- pandas에서, 조건에 따른 검색등에 많이 사용되는 방법
- 조건에 맞는 인덱스를 생성해서 데이터에 접근 하는 방식으로 많이 쓰임

In [None]:
array = np.array([1,2,3,4,5])

# Boolean 인덱스 배열이라고 부른다. 
idx = np.array([True, False, True, True, False]) # 보통 인덱스 배열은 자동으로 생성

array[idx]

In [None]:
array = np.array([1,2,3,4,5])

# 정수 인덱스 배열이라고 부른다. 
# 인덱싱 하려는 배열의 크기와 달라도 상관이 없다.
idx = np.array([1,3,1,1,1,1,1,1,1,1,1,1,2]) 

array[idx]

## 넘파이 자료형: dtype
- dtype을 지정하지 않아도 타입을 자동으로 유추

In [None]:
arr = np.array([
    [1,2,3,4,5,6,7,8,9,10],
    [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
    [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
    [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]
])
arr

In [None]:
arr.dtype

In [None]:
arr = np.array([1.2, 0.9, 10.3, 1, 2])
print(arr)
print(arr.dtype)

In [None]:
arr = np.array([1,2,3], dtype='f')
arr

In [None]:
arr.dtype

## dtype 매개변수 지정 

- 파이썬의 타입들이 앞머리 글자를 따서 사용
- 직관적으로 되어 있기 때문에, 굳이 외울 필요는 없다.

|type | dtype ||
|:---|:---:|:---:|
| boolean | b | |
| integer | i | 부호있는 정수 |
| unsigned integer | u | 부호없는 정수 |
| float | f | 부동소수점 |
| complext float | c | 복소 부동소수점 |
| object | o | 객체 |
| string | S | 문자열 |
| unicode string | U | 유니코드 문자열 |

## inf(무한대), nan(Not a Number)

In [None]:
print(np.inf)
print(np.nan)

In [None]:
np.log(0)

In [None]:
a = np.array([0])
b = np.array([0])
print(a/b)

## ndarray를 생성하는 몇가지 방법

### 제로 배열 생성

In [None]:
arr = np.zeros(5)
print(arr)

arr = np.zeros((4,3))
print(arr)
print(arr.dtype)

arr = np.zeros((4,3), dtype='i')
print(arr)
print(arr.dtype)

### 다른 제로 배열과 같은 크기의 배열을 만들고 싶다면, ... 

In [None]:
arrCopy = np.zeros_like(arr)
print(arrCopy)

### 초기화된 배열 생성 

In [None]:
arr = np.ones((4,3), dtype='i')
print(arr)

### 다른 초기화된 배열과 같은 크기의 배열을 만들고 싶다면 ... 

In [None]:
arrCopy = np.ones_like(arr)
print(arrCopy)

### 초기화 하지 않은 배열 생성
- 배열을 생성할 때 초기화 하지 않았기 때문에, ... (아련하다)
- 메모리의 값이 출력 되고 있는 것

In [None]:
arr = np.empty((100,50))
print(arr)

### 초기화된 배열 생성 (초기값 지정)

In [None]:
arr = np.full((4,3), 10)
print(arr)

### 파이썬의 range와 같은 역할

In [None]:
arr = np.arange(10)
print(arr)

In [None]:
arr = np.linspace(0, 100)
print(arr)

## ndarray 데이터 생성하기 (랜덤)
- zeros, ones, empty, full, linspace, ... 외에 추가로
- random 모듈의 함수를 통해 ndarray 생성

### rand: 0, 1사이에 랜덤한 ndarray를 생성

In [None]:
np.random.rand(10)

In [None]:
# 다차원 ndarray도 생성 가능
np.random.rand(4,3)

### randn(random normal distribution)
- 정규분포
- 정규분포로 샘플링된 랜덤한 데이터를 생성

In [None]:
np.random.randn(5)

In [None]:
np.random.randn(4,3)

### randint
- 지정된 정수 사이에서 랜덤한 ndarray를 생성

In [None]:
np.random.randint(1, 10)

In [None]:
np.random.randint(1, 10, size=(5))

In [None]:
np.random.randint(1, 10, size=(4,3))

### choice 
- 주어진 정수나, 1차원 ndarray로 부터 랜덤하게 샘플링 하여 ndarray를 생성

In [None]:
# np.arange(10)한 ndarray로 부터 랜덤하게 샘플링(초이스)
np.random.choice(10, size=(4,3))

In [None]:
x = np.arange(10)
np.random.choice(x, size=(4,3))

### 확률분포에 따른 ndarray 생성
- 잘 알려진 분포: 정규, 포아송, 베타분포, ... 
- 수집된 데이터로부터 확률분포를 구할 수 있다. 

In [None]:
np.random.uniform(1.0, 3.0, size=(4,3))

In [None]:
np.random.seed(1)
np.random.normal(size=(4,3))

In [None]:
np.random.randn(4,3)

### seed
- 랜덤 데이터 생성의 기준(?)
- 랜덤하게 생성된 값을 고정시키고 싶은 경우 

In [None]:
np.random.seed(10)
np.random.randn(5,4)

In [None]:
arr = np.logspace(0, 100)
print(arr)

## reshape
- 주의점: 변경되기 전, 후의 데이터의 크기가 같아야 한다.

In [None]:
arr = np.arange(1, 10)
print(arr)

#### 1차원을 다차원으로 변경

In [None]:
print(arr.reshape(3,3))
print(arr.reshape(3,-1))
print(arr.reshape(-1,3))

In [None]:
print(arr.reshape(3,4))

In [None]:
print(arr.reshape(2, -1))

#### 1차원 배열을 열벡터로 변경하는 방법

In [None]:
print(arr.T) # 열벡터로 바뀌지 않음
print(arr.reshape(-1,1))
print(arr.reshape(9, 1))
print(arr[:, np.newaxis ])

## 다차원을 1차원으로 변경

In [None]:
arr = np.random.randint(100, size=(4,3))
print(arr)

In [None]:
np.ravel(arr)

In [None]:
# default: row 우선 변경
np.ravel(arr, order='C')

In [None]:
# 'F': column 우선 변경
np.ravel(arr, order='F')

In [None]:
arr.ravel()

In [None]:
arr.ravel(order='F')

In [None]:
arr.flatten()

In [None]:
arr.flatten(order='F')

# numpy 통계 함수
- 평균(mean), 분산(var), 중앙(median), 최대(max), 최소(min), 표준분산(std)
- axis에 대한 이해

#### 평균

In [None]:
np.mean(x)

In [None]:
x.mean()

#### 최대값

In [None]:
np.max(x)

#### 최소값

In [None]:
np.min(x)

#### 분산

In [None]:
np.var(x)

#### 중앙값
- 원소들을 정렬했을 때, 중앙에 오는 값

In [None]:
np.median(x)

In [None]:
arr = x.flatten()
arr.sort()
print(arr)

#### 표준분산

In [None]:
np.std(x)

### ndarray 집계(aggregation) 함수
- 합(sum), 누적합(cumsum)

In [None]:
print(x)

In [None]:
np.sum(x)

In [None]:
np.cumsum(x)

### any, all 함수
- any: 특정 조건을 만족하는 값이 하나라도 있으면 True
- all: 모든 원소가 조건을 만족하면 True

In [None]:
print(x)

In [None]:
x > 5

In [None]:
np.any(x > 5)

In [None]:
np.all(x > 5)

In [None]:
np.all(x >= 0)

### where 함수
- 조건에 따라 참인 값만 선택
- 조건에 맞지 않는 경우 인자의 값을 사용

In [None]:
print(x)

In [None]:
np.where(x > 5, x, -1)

### axis(축): x축, y축
- 함수의 인자로 axis를 인자로 갖는 함수들이 존재
- 2차원 배열에서는 행, 열로 확인
- 아래의 함수들을 이용해 확인 

#### 1차원 배열의 경우

In [None]:
arr = np.random.randint(10, size=(5,))
print(arr)

In [None]:
arr.sum()

In [None]:
arr.sum(axis=0)

In [None]:
arr.sum(axis=1)

#### 2차원 배열의 경우

In [None]:
np.random.seed(1)
arr = np.random.randint(10, size=(2,3))
print(arr)
print(arr.shape)

In [None]:
arr.sum()

In [None]:
# axis = 0은 행을 뜻한다. 
# 행을 기준으로 모든 열의 값을 더한다. 
arr.sum(axis=0)

In [None]:
# axis = 1은 열을 뜻한다.
# 열을 기준으로 모든 행의 값을 더한다. 
arr.sum(axis=1)

In [None]:
arr.sum(axis=2)

In [None]:
np.random.seed(101)
arr = np.random.randint(10, size=(2,3))
print(arr)
print(arr.shape)

In [None]:
arr.mean()

In [None]:
arr.mean(axis=0)

In [None]:
arr.mean(axis=1)