# Numpy 라이브러리

*   Python의 숫자 계산 라이브러리
*   Python의 숫자 데이터와 관련된 대부분의 과학 응용 프로그램에 필요한 데이터 구조, 알고리즘 및 라이브러리 연결고리를 제공
*   빠른 배열 처리 기능
*   데이터 분석에서 주요 용도 중 하나는 알고리즘과 라이브러리 간에 데이터를 전달하는 컨테이너 역할 수행





## 1. 라이브러리 포함

In [1]:
import numpy as np

## 2. numpy array와 python list의 비교

In [3]:
# 백만 개의 동일한 원소를 array와 list를 통해 생성
my_arr = np.arange(1000000)    # numpy의 array
my_list = list(range(1000000))  # python의 list

In [4]:
# numpy의 array 실행시간 측정 (x2 연산)
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 22.6 ms, sys: 10.1 ms, total: 32.7 ms
Wall time: 40.5 ms


In [5]:
# python의 list 실행시간 측정 (x2 연산)
%time for _ in range(10): my_list2 = [x*2 for x in my_list]

CPU times: user 726 ms, sys: 263 ms, total: 989 ms
Wall time: 998 ms


### **numpy 기반 알고리즘은 일반적으로 순수한 python 알고리즘보다 10 ~ 100배 더 빠르며 메모리를 훨씬 적게 사용한다.**

## 3. Creating ndarrays

### 1차원 numpy array의 생성

In [6]:
# 리스트를 numpy array로 변환
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [8]:
seq15 = np.arange(15)
seq15

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### numpy array의 정보 확인

In [9]:
score = np.array([4.8, 3.6, 3.7, 4.2, 5.0, 2.8])
score.ndim      # arr1의 차원

1

In [10]:
score.shape     # arr1의 모양

(6,)

In [11]:
score.dtype     # arr1 원소의 자료형

dtype('float64')

### 2차원 numpy array의 생성 및 정보 확인

In [12]:
# 리스트를 numpy array로 변환
# 물리적으로는 1차원, 논리적으로는 2차원
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [13]:
seq15_2d = np.arange(15).reshape(3, 5)
seq15_2d

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [14]:
arr2.ndim

2

In [15]:
arr2.shape

(2, 4)

In [16]:
arr2.dtype

dtype('int64')

### 새로운 배열 생성

np.array 외에도 새 배열을 생성하기 위한 여러 다른 함수가 있습니다. 예를 들어, 0과 1은 각각 주어진 길이 또는 모양으로 0 또는 1의 배열을 만듭니다. empty는 값을 특정 값으로 초기화하지 않고 배열을 만듭니다. 이러한 메서드를 사용하여 더 높은 차원의 배열을 만들려면 모양에 대한 튜플을 전달합니다.

In [17]:
# 원소로 10개의 0.0을 가지고 있는 실수형의 1차원 배열 생성
a0 = np.zeros(10)
a0

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [18]:
# 원소로 10개의 1.0을 가지고 있는 실수형의 1차원 배열 생성
a0 = np.ones(10)
a0

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [19]:
# 0.0을 원소로 가지는 3행 6열의 2차원 배열 생성
a0_36 = np.zeros((3, 6))        # 괄호가 두 겹임에 주의
a0_36

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [21]:
# 3차원의 빈 배열 생성 - 실제로 비었는가?
# 3차원: ((층/채널, 행, 열))
emp = np.empty((2, 3, 2))
emp

array([[[3.98270349e-316, 2.14321575e-312],
        [2.41907520e-312, 2.46151512e-312],
        [2.46151512e-312, 8.48798317e-313]],

       [[8.91238232e-313, 2.52517499e-312],
        [2.41907520e-312, 2.44029516e-312],
        [8.70018274e-313, 1.46030983e-319]]])

메모리 내에 있는 쓰레기 값 때문에 빈 값으로 보여지지 않음

In [23]:
arrValue5_1 = np.zeros((2, 3)) + 5
arrValue5_1

array([[5., 5., 5.],
       [5., 5., 5.]])

In [22]:
arrValue5_2 = np.ones((2, 3)) * 5
arrValue5_2

array([[5., 5., 5.],
       [5., 5., 5.]])

In [24]:
arrValue5_3 = np.full((2,3), 5)
arrValue5_3
# arrValue5_3은 정수형

array([[5, 5, 5],
       [5, 5, 5]])

### 단위행렬의 생성

In [25]:
eye3 = np.eye(3)
eye3

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### 연속적인 수를 원소로 가지는 2차원 행렬의 생성

In [26]:
seq12 = np.array(range(12)).reshape(4,3)
seq12

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

## 4. ndarrays의 자료구조

*   numpy의 데이터 형태: Boolean, Integer, Unsigned Integer, Float, Complex, String
    *   Integer: int8, int16, int32, int64
    *   Unsigned Integer: uint8, uint16, uint32, uint64
    *   Float: float16, float32, float64

In [27]:
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

KeyboardInterrupt: ignored

### Numpy의 데이터 형태 지정하기




In [28]:
# arr0nes = np.ones(shape=(10,), dtype=np.int8)
arr0nes = np.ones(shape=(10,), dtype='i1')
arr0nes

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)

In [29]:
arr1 = np.array([1, 2, 3], dtype = np.int32)
arr1

array([1, 2, 3], dtype=int32)

In [32]:
arr2 = np.array([4, 5, 6], dtype = np.float64)
arr2

array([4., 5., 6.])

In [33]:
# 자료형의 변환
arr3 = arr1.astype(np.float64)
arr3

array([1., 2., 3.])

In [34]:
arr4 = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr4

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [35]:
arr5 = arr4.astype(np.int32)
arr5

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

## 5. Numpy 인덱싱(Indexing)과 슬라이싱(Slicing)

In [40]:
# 인덱싱
arr = np.arange(12).reshape(3, 4)
print('arr[1][3] =', arr[1][3])
print('arr[2, 2] =', arr[2][2])

arr[1][3] = 7
arr[2, 2] = 10


In [45]:
# 슬라이싱
arr = np.arange(16).reshape(4, 4)
sub00 = arr[:2, :2]
sub01 = arr[:2, 2:]
sub10 = arr[2:, :2]
sub11 = arr[2:, 2:]
sub11

array([[10, 11],
       [14, 15]])

## 6. Numpy 연산

사칙연산


*   연산자: +, -, *, /
*   함수: add(), subtract(), multiply(), divide()



In [49]:
a = np.array([2, 4, 6, 8, 10])
b = np.array([3, 5, 6, 2, 8])

# 배열 전체가 한 덩어리로 연산
# hap = a + b
hap = np.add(a, b)

# cha = a - b
cha = np.subtract(a, b)

# gob = a * b
gob = np.multiply(a, b)

# jae = a / b
jae = np.divide(a, b)
jae

array([0.66666667, 0.8       , 1.        , 4.        , 1.25      ])

행렬곱

In [50]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

dotP = np.dot(a, b)
dotP

array([[19, 22],
       [43, 50]])

행렬 원소의 합계와 평균 계산

In [51]:
score = np.array([[96, 90, 92],
                  [78, 60, 82],
                  [88, 90, 87],
                  [60, 65, 70],
                  [82, 88, 85]])
score

array([[96, 90, 92],
       [78, 60, 82],
       [88, 90, 87],
       [60, 65, 70],
       [82, 88, 85]])

In [52]:
# 모든 원소의 합계와 평균 계산
totalSum = np.sum(score)
totalAvg = np.mean(score)

# print('전체 합계 =', totalSum, '전체 평균 =', totalAvg)
print('전체 합계 = %d' %totalSum, '전체 평균 = %d'  %totalAvg)

전체 합계 = 1213 전체 평균 = 80


In [55]:
# 과목별 합계, 평균 계산 / 가로방향 Output: axis=0
subjSum = np.sum(score, axis=0)
subjAvg = np.mean(score, axis=0)
print('과목별 합계 =', subjSum)
print('과목별 평균 =', subjAvg)

과목별 합계 = [404 393 416]
과목별 평균 = [80.8 78.6 83.2]


In [56]:
# 개인별 합계, 평균 계산 / 세로방향 Output: axis=1
persSum = np.sum(score, axis=1)
persAvg = np.mean(score, axis=1)
print('개인별 합계 =', persSum)
print('개인별 평균 =', persAvg)

개인별 합계 = [278 220 265 195 255]
개인별 평균 = [92.66666667 73.33333333 88.33333333 65.         85.        ]


In [61]:
# Numpy float 출력 옵션 (소수 2자리까지만 출력) 방법1
np.set_printoptions(precision=2)

persSum, persAvg

(array([278, 220, 265, 195, 255]), array([92.67, 73.33, 88.33, 65.  , 85.  ]))

In [60]:
# Numpy float 출력 옵션 (소수 2자리까지만 출력) 방법2
np.set_printoptions(formatter={'float_kind': lambda x: "{0:0.2f}".format(x)})

persSum, persAvg

(array([278, 220, 265, 195, 255]), array([92.67, 73.33, 88.33, 65.00, 85.00]))