# 데이터분석 특화 라이브러리 : Numpy

> - 데이터분석 패키지 중 하나로 `고차원 데이터 연산(선형대수학)`과 `컴퓨팅 연산(자료구조)`에 특화
> - 대표적으로 사용되는 `표준 수학 함수기능` 지원
> - `저차원 및 고차원 데이터` 입출력 및 산술연산
> - `Array 또는 Matrix와 같은 데이터 구조` 수치를 다루는 Python 데이터형태
> - **Array:** `numpy.array`함수로 변환된 `다차원의 데이터 형태`(모든 값은 같은 자료형)

In [5]:
import numpy as np
a = [1,2,3,4,5]
b = np.array(a)

In [7]:
print(a, b)

[1, 2, 3, 4, 5] [1 2 3 4 5]


In [8]:
print(type(a), type(b))

<class 'list'> <class 'numpy.ndarray'>


In [9]:
# List 예시 -> 값 하나 하나 연산 -> 반복문 필요 -> 시간 오래 걸림
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]*2
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [10]:
# Array 예시
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])*2
a

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [11]:
# List 예시
a = [[0, 1, 2], [3, 4, 5]]
a[0][1:]

[1, 2]

In [12]:
# Array 예시
a = np.array([[0, 1, 2], [3, 4, 5]])
a[0, 1:]

array([1, 2])

In [13]:
# List 예시
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
a[True] # == a[1]

1

In [14]:
# Array 예시
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
a[True] # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 을 하나의 index라고 본다.

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [15]:
# # List 예시
# a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
# a[True, False, True, False, True, False, True, False, True, False]

TypeError: list indices must be integers or slices, not tuple

In [16]:
# Array 예시
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
a[[True, False, True, False, True, False, True, False, True, False]]

array([0, 2, 4, 6, 8])

# 데이터 Handling


| **방법** 	| **설명** 	|
|:---:|:---|
| **`np.array(배열변환 대상 데이터)`** 	| 리스트와 같은 시퀀스 데이터를 Array로 변환 	|
| **`np.arange(start, end, step_forward)`**  	| 시작이상 끝미만 동일 간격의 Array 데이터 생성 	|
| **`np.linspace(start, end, number)`**   	| 시작부터 끝까지 일정 간격을 가진 특정 갯수의 Array 데이터 생성 	|

-> 기타
| **함수** | **내용** |
|:---:|:---|
| **np.array(데이터)** | 입력된 데이터를 ndarray로 변환. dtype을 명시하면 자료형을 설정할 수 있다 |
| **np.asarray(데이터)** | 입력 데이터를 ndarray로 변환하나 이미 ndarray일 경우에는 새로 메모리에 ndarray가 생성되지는 않는다 |
| **np.arange(데이터)** | range 함수와 유사하나 ndarray를 반환 |
| **np.ones(데이터)** | 전달인자로 전달한 dtype과 모양(행,렬)으로 배열을 생성하고 모든 내용을 1로 초기화하여 ndarray를 반환 |
| **np.zeros(데이터)** | ones와 같으나 초기값이 0이다 |
| **np.empty(데이터)** | ones와 zeros와 비슷하나 값을 초기화하지는 않는다 |

## np.array()

In [17]:
test_list = [1, 2, 3, 4]
test_array = np.array(test_list)

In [18]:
# array 생성 확인
test_array

array([1, 2, 3, 4])

In [33]:
# dtype을 명시할 수 있다.

a = np.array([1, 2, 3], dtype=np.int64)
print(a.dtype)
a = np.array([1, 2, 3], dtype='int64')
print(a.dtype)
a = np.array([1, 2, 3], dtype='i8')
print(a.dtype)
# int64

a = a.astype(np.float64)
print(a.dtype)
# float64

int64
int64
int64
float64


## np.arange()

In [25]:
np.arange(1, 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

## np.linspace()

In [26]:
np.linspace(0, 1, 10)

array([0.        , 0.11111111, 0.22222222, 0.33333333, 0.44444444,
       0.55555556, 0.66666667, 0.77777778, 0.88888889, 1.        ])

## np.asarray()

In [34]:
test = [10, 20, 30]
type(test)

list

In [35]:
test = np.asarray(test)
type(test)

numpy.ndarray

## np.zeros()

In [47]:
test = np.zeros((3, 3))
test

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

## np.ones()

In [43]:
test = np.ones((2, 3))
test

[[1. 1. 1.]
 [1. 1. 1.]]


## np.full()

In [44]:
test = np.full((3, 3), 7)
test

[[7 7 7]
 [7 7 7]
 [7 7 7]]


## np.eye()

In [46]:
test = np.eye(3)
test

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## np.random.random()

In [48]:
test = np.random.random((2, 2))
test

array([[0.98644229, 0.57181326],
       [0.47954799, 0.67657237]])

## np.empty()

In [50]:
test = np.empty((4, 5), dtype=int)
test

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

# Array 값 다루기
> - **인덱싱(Indexing):** 데이터 `값 하나하나`에 접근하는 방법으로 `인덱스는 값의 순번`
> - **슬라이싱(Slicing):** 인덱싱과 유사하며 데이터의 `여러개의 값`에 접근하는 방법
>> - `다차원 데이터`의 경우 배열의 `각 차원에 대해 슬라이싱` 사용
>> - 슬라이싱으로 값을 선택하면 `결과의 차원은 원래의 차원보다 같거나 작음`

## slicing

In [51]:
a = np.arange(10)

In [52]:
a[5]

5

In [58]:
a[0:2]

array([0, 1])

In [59]:
a[:2]

array([0, 1])

In [60]:
a[2:]

array([2, 3, 4, 5, 6, 7, 8, 9])

In [61]:
a[::1]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [62]:
a[::2]

array([0, 2, 4, 6, 8])

In [69]:
a[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [70]:
a[::-2]

array([9, 7, 5, 3, 1])

In [73]:
a[-2:]

array([8, 9])

In [75]:
a[-4::2] # 뒤에서 4번째 index부터 2간격으로

array([6, 8])

## slicing (다차원 배열)

In [76]:
a = np.array([[ 1,  2,  3,  4], [ 5,  6,  7,  8], [ 9, 10, 11, 12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [78]:
a = np.array(range(1, 13)).reshape(3, 4)
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [79]:
a = np.arange(1, 13).reshape(3, 4)
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [80]:
a[1, :]

array([5, 6, 7, 8])

In [84]:
a[1:2, :]

array([[5, 6, 7, 8]])

In [85]:
a[:, 1:3]

array([[ 2,  3],
       [ 6,  7],
       [10, 11]])

## indexing

In [86]:
a = np.array([[1,2], [3, 4], [5, 6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [88]:
np.array([a[0, 0], a[1, 1], a[2, 0]])

array([1, 4, 5])

In [89]:
a[[0, 1, 2], [0, 1, 0]]

array([1, 4, 5])

In [93]:
a = np.arange(1, 13).reshape(4, 3)
a

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [94]:
b = np.array([0, 2, 0, 1])
b

array([0, 2, 0, 1])

In [99]:
# 0~3까지의 행에서, b의 값위치 열값 추출
a[np.arange(4), b] 

array([ 1,  6,  7, 11])

In [100]:
# 0~3까지의 행에서, b의 값위치 열값에 모두 10을 더해 출력
a[np.arange(4), b] + 10

array([11, 16, 17, 21])

In [102]:
a = np.arange(1,7).reshape(3, 2)
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [103]:
a > 2

array([[False, False],
       [ True,  True],
       [ True,  True]])

In [104]:
a[a > 2] # 2보다 큰 값들 출력

array([3, 4, 5, 6])

In [107]:
a = np.arange(10)

# 5~7번째 값을 100으로 치환
a[5:8] = 100
a

array([  0,   1,   2,   3,   4, 100, 100, 100,   8,   9])

In [108]:
names = np.array(['철수', '영희', '말자', '숙자'])
names

array(['철수', '영희', '말자', '숙자'], dtype='<U2')

In [109]:
# 각 값이 철수인지 논리값 반환
names == '철수'

array([ True, False, False, False])

In [110]:
# 각 값이 철수인지 논리값 기준 True인 값 반환
names[names == '철수']

array(['철수'], dtype='<U2')

In [111]:
data = np.random.randn(4,4)
data

array([[ 1.27507574,  0.05349383, -0.63163149,  0.62317347],
       [-0.0373553 , -0.30117322, -0.53155009, -0.55186526],
       [ 0.02036994,  2.03704883,  0.46610643, -0.48097324],
       [ 1.72284282,  0.10723421, -0.10302474,  1.09410208]])

In [112]:
# 데이터가 0보다 작은지 논리값 기준 True인 값을 0으로 치환
data[data<0] = 0
data

array([[1.27507574, 0.05349383, 0.        , 0.62317347],
       [0.        , 0.        , 0.        , 0.        ],
       [0.02036994, 2.03704883, 0.46610643, 0.        ],
       [1.72284282, 0.10723421, 0.        , 1.09410208]])

In [113]:
# 테스트 array 생성
pet = np.array(['개', '고양이', '고양이', '햄스터', '개', '햄스터'])
num = np.array([1, 2, 3, 4, 5, 6])
indexing_test = np.arange(36).reshape(6, 6) # 샘플데이터
display(pet, num, indexing_test)

array(['개', '고양이', '고양이', '햄스터', '개', '햄스터'], dtype='<U3')

array([1, 2, 3, 4, 5, 6])

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

In [114]:
# num이 3보다 큰지 논리값 출력
num > 3

array([False, False, False,  True,  True,  True])

In [115]:
indexing_test[num > 3]

array([[18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

In [116]:
(pet == '개') | (pet == '햄스터')

array([ True, False, False,  True,  True,  True])

In [117]:
# pet array 기준으로 햄스터와 개 데이터를 indexing_test에서 인덱싱해보기
indexing_test[(pet == '개') | (pet == '햄스터'), 3:]

# T, F, F, T, T, T
# 0, -, -, 3, 4, 5 행의 3열 ~ 끝까지

array([[ 3,  4,  5],
       [21, 22, 23],
       [27, 28, 29],
       [33, 34, 35]])

In [121]:
# 개의 개수
(pet == '개').sum() 

2

In [127]:
pet[pet=='개'].size

2

In [128]:
# 하나라도 참이면 참
(pet == '개').any()

True

In [129]:
# 전체데이터가 참이여야 참
(pet == '개').all()

False

# Array 기본 연산

  `크기가 다른 배열간의 연산`도 `브로드캐스팅(Broadcasting) 방식으로 연산 가능`

**1) `하나의 배열`에 사용하는 함수**

| 함수 | 설명 |
|:---------|:-------------|
| abs, fabs | 각 값의 절대값을 구한다. 복소수가 아닌 경우에는 fabs로 빠르게 연산가능 |
| sqrt | 제곱근을 계산 array ** 0.5와 동일 |
| square | 제곱을 계산 array ** 2와 동일 |
| exp | 각 값에 지수 exp를 계산 |
| log, log10, log2, logp | 각각 자연로그, 로그10, 로그2, 로그(1+x) |
| sign | 각 값의 부호를 계산 |
| ceil | 각 값의 소수자리 올림 |
| floor | 각 값의 소수자리 버림 |
| rint | 각 값의 소수자리 반올림. dtype 유지 |
| modf | 값의 몫과 나머지를 각각 배열로 반환 |
| isnan | 각 값이 숫자인지 아닌지 NaN으로 나타내는 불리언 배열 |
| isfinite, isinf | 배열의 각 값이 유한한지 무한한지 나타내는 불리언 배열 |
| cos, cosh, sin, sinh, tan, tanh | 일반 삼각함수와 쌍곡삼각 함수 |
| logical_not | 각 값의 논리 부정(not) 값 계산 |

**2) `서로 다른 배열`에 사용하는 함수**

| 함수 | 설명 |
|:---------|:-------------|
| add | 두 배열에서 같은 위치의 값끼리 덧셈 |
| subtract | 첫번째 배열 값 - 두번째 배열 값 |
| multiply | 배열의 값끼리 곱셈 |
| divide | 첫번째 배열의 값에서 두번째 배열의 값를 나눗셈 |
| power | 첫번째 배열의 값에 두번째 배열의 값만큼 제곱 |
| maximum, fmax | 두 값 중 큰 값을 반환. fmax는 NaN 무시 |
| minimum, fmin | 두 값 중 작은 값 반환. fmin는 NaN 무시 |
| mod | 첫번째 배열의 값에 두번째 배열의 값를 나눈 나머지 |
| greater, greater_equal, less, less_equal, equal, not_equal | 두 값 간의 >, >=, <, <=, ==, != 비교연산 결과를 불리언 배열로 반환 |
| logical_and, logical_or, logical_xor | 각각 두 값 간의 논리연산 결과를 반환 |

## add, subtract

In [132]:
a = np.array([
    [1, 2], 
    [3, 4]
], dtype=np.float64)

b = np.array([
    [3, 4], 
    [5, 6]
], dtype=np.float64)

display(a, b)

array([[1., 2.],
       [3., 4.]])

array([[3., 4.],
       [5., 6.]])

In [133]:
a + b

array([[ 4.,  6.],
       [ 8., 10.]])

In [134]:
np.add(a, b)

array([[ 4.,  6.],
       [ 8., 10.]])

In [135]:
a - b

array([[-2., -2.],
       [-2., -2.]])

In [137]:
np.subtract(a, b)

array([[-2., -2.],
       [-2., -2.]])

## multiply, divide

In [138]:
a * b

array([[ 3.,  8.],
       [15., 24.]])

In [139]:
np.multiply(a, b)

array([[ 3.,  8.],
       [15., 24.]])

In [140]:
a / b

array([[0.33333333, 0.5       ],
       [0.6       , 0.66666667]])

In [142]:
np.divide(a, b)

array([[0.33333333, 0.5       ],
       [0.6       , 0.66666667]])

## square root, abs

In [143]:
np.sqrt(a)

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

In [147]:
a ** 0.5

array([[1.        , 1.41421356],
       [1.73205081, 2.        ]])

In [144]:
a = a * -1 
a

array([[-1., -2.],
       [-3., -4.]])

In [146]:
a = np.abs(a)
a

array([[1., 2.],
       [3., 4.]])

## exp, log

In [148]:
np.exp(a)

array([[ 2.71828183,  7.3890561 ],
       [20.08553692, 54.59815003]])

In [149]:
np.log(a)

array([[0.        , 0.69314718],
       [1.09861229, 1.38629436]])

In [150]:
np.log(np.exp(a))

array([[1., 2.],
       [3., 4.]])

## ceil, isnan, isinf, isfinite

In [154]:
a = np.random.rand(4) * 10
a

array([6.18785474, 4.14380126, 0.97377006, 9.37474227])

In [156]:
a = np.ceil(a)
a

array([ 7.,  5.,  1., 10.])

In [157]:
np.isnan(a)

array([False, False, False, False])

In [158]:
np.isinf(a)

array([False, False, False, False])

In [159]:
np.isfinite(a)

array([ True,  True,  True,  True])

## sign, cos, tan

In [160]:
np.sign(a)

array([1., 1., 1., 1.])

In [161]:
np.cos(a)

array([ 0.75390225,  0.28366219,  0.54030231, -0.83907153])

In [162]:
np.tan(a)

array([ 0.87144798, -3.38051501,  1.55740772,  0.64836083])

## power, greater

In [164]:
a = np.array([
    [1, 2], 
    [3, 4]
], dtype=np.float64)

b = np.array([
    [3, 4], 
    [5, 6]
], dtype=np.float64)

display(a, b)

array([[1., 2.],
       [3., 4.]])

array([[3., 4.],
       [5., 6.]])

In [165]:
np.power(a, b)

array([[1.000e+00, 1.600e+01],
       [2.430e+02, 4.096e+03]])

In [166]:
np.greater(a, b) # is a > b ?

array([[False, False],
       [False, False]])

# Array 통계 연산

## ndim, min, max, sum, cumsum, mean, std, ..

In [167]:
a = np.array([
    [-1, 2, 3],
    [-4, 5, 6],
    [7, 8, -9]
])
a

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9]])

In [168]:
# 요소별 더하기
a + 2

array([[ 1,  4,  5],
       [-2,  7,  8],
       [ 9, 10, -7]])

In [169]:
a * 2

array([[ -2,   4,   6],
       [ -8,  10,  12],
       [ 14,  16, -18]])

In [170]:
a.dtype

dtype('int64')

In [171]:
a.shape

(3, 3)

In [172]:
# 차원
a.ndim 

2

In [173]:
np.ndim(a)

2

In [174]:
a.T

array([[-1, -4,  7],
       [ 2,  5,  8],
       [ 3,  6, -9]])

In [175]:
np.transpose(a)

array([[-1, -4,  7],
       [ 2,  5,  8],
       [ 3,  6, -9]])

In [178]:
print(a)

np.sum(a, axis=0) 

[[-1  2  3]
 [-4  5  6]
 [ 7  8 -9]]


array([ 2, 15,  0])

In [179]:
print(a)

np.sum(a, axis=1) 

[[-1  2  3]
 [-4  5  6]
 [ 7  8 -9]]


array([4, 7, 6])

In [180]:
np.sum(a)

17

In [182]:
np.prod(a)

-362880

In [181]:
# 누적합
np.cumsum(a)

array([-1,  1,  4,  0,  5, 11, 18, 26, 17])

In [183]:
# 누적곱
np.cumprod(a)

array([     -1,      -2,      -6,      24,     120,     720,    5040,
         40320, -362880])

In [185]:
# 세로로 누적 곱하기
np.cumprod(a, axis=0)

array([[  -1,    2,    3],
       [   4,   10,   18],
       [  28,   80, -162]])

In [186]:
# 가로로 누적 곱하기
np.cumprod(a, axis=1)

array([[  -1,   -2,   -6],
       [  -4,  -20, -120],
       [   7,   56, -504]])

In [188]:
# 세로로 평균
np.mean(a, axis=0)

array([0.66666667, 5.        , 0.        ])

In [189]:
# 전체 평균
np.mean(a)

1.8888888888888888

In [190]:
# 가로로 표준편차
np.std(a, axis=1)

array([1.69967317, 4.49691252, 7.78888096])

In [192]:
# 전체 표준편차
np.std(a)

5.30082686305625

In [193]:
# 세로로 최소값
np.min(a, axis=0)

array([-4,  2, -9])

In [194]:
# 세로로 최대값
np.max(a, axis=0)

array([7, 8, 6])

In [196]:
# 전체의 최소값과 최대값
np.min(a), np.max(a)

(-9, 8)

In [197]:
# 최소값 인덱스
np.argmin(a, axis=0)

array([1, 0, 2])

In [198]:
# 최대값 인덱스
np.argmax(a, axis=0)

array([2, 2, 1])

## resizing(reshaping, concatenate, split)

In [200]:
a = np.array([[-1,2,3],[-4,5,6],[7,8,-9]])
b = np.array([[1,2,3],[4,5,6],[7,8,9]])
display(a, b)

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [201]:
c = np.concatenate((a, b), axis=0)
c

array([[-1,  2,  3],
       [-4,  5,  6],
       [ 7,  8, -9],
       [ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9]])

In [203]:
# 가로로 붙이기
c = np.concatenate((a, b), axis=1)
c

array([[-1,  2,  3,  1,  2,  3],
       [-4,  5,  6,  4,  5,  6],
       [ 7,  8, -9,  7,  8,  9]])

In [204]:
c.reshape((9,2))

array([[-1,  2],
       [ 3,  1],
       [ 2,  3],
       [-4,  5],
       [ 6,  4],
       [ 5,  6],
       [ 7,  8],
       [-9,  7],
       [ 8,  9]])

In [206]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12], [13 ,14 ,15, 16]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [210]:
# 가로로 배열 분리하기
np.split(a, 2, axis=0)

[array([[1, 2, 3, 4],
        [5, 6, 7, 8]]),
 array([[ 9, 10, 11, 12],
        [13, 14, 15, 16]])]

In [211]:
# 세로로 배열 분리하기
np.split(a, 2, axis=1)

[array([[ 1,  2],
        [ 5,  6],
        [ 9, 10],
        [13, 14]]),
 array([[ 3,  4],
        [ 7,  8],
        [11, 12],
        [15, 16]])]