In [None]:
'''
< Numpy >
* 산술 계산을 위한 패키지
* 저수준 언어로 작성된 외부 라이브러리에 데이터를 전달하거나, 외부 라이브러리에서 NumPy 배열 형태로 파이썬에 데이터를 전달하기 용이
* 파이썬으로 레거시, C, C++, 포트란 코드를 감싸서 동적이며 쉽게 사용할 수 있는 인터페이스를 만들 수 있도록 함
* 모델링이나 과학 계산을 위한 기능 제공 X
  - 배열과 배열 기반 연산에 대한 이해 후 pandas 같은 배열 기반 도구 사용 시 훨씬 효과적

* NumPy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 오버헤드 없이 메모리 직접 조작 가능
* 대용량 데이터 배열을 효과적으로 다룰 수 있도록 설계
* 파이썬 반복문을 사용하지 않고 전체 배열에 대한 복잡한 계산 수행 가능
* 순수 파이썬으로 작성한 코드보다 열 배에서 백 배 이상 빠르고 메모리도 적게 사용
'''

In [None]:
# MARK: ndarray (N차원의 배열 객체)
# 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조
# 스칼라 원소 간의 연산에 사용하는 문법과 비슷한 방식 사용함으로써 전체 데이터 블록에 수학적인 연산 수행 가능케 함

In [1]:
import numpy as np

In [2]:
# 임의의 값 생성
# randn document: https://numpy.org/doc/stable/reference/random/generated/numpy.random.randn.html?highlight=randn#numpy.random.randn
# 인자: 입력받는 행렬의 크기, 평균 0 표준편차 1의 가우시안 표준정규분포 난수
data = np.random.randn(2, 3)

In [3]:
data

array([[-0.07690385,  1.32323245,  0.7606154 ],
       [ 1.91758947, -1.34075314,  0.30100948]])

In [None]:
# MARK: ndarray 산술 연산

In [4]:
# ndarray 산술연산1: 곱셈
data * 10

array([[ -0.76903846,  13.23232455,   7.60615403],
       [ 19.17589475, -13.40753144,   3.01009478]])

In [8]:
# ndarray 산술연산, 배열간 곱셈도 가능할까? (물론!)
data * data

array([[0.0059142 , 1.75094413, 0.57853579],
       [3.67714939, 1.79761899, 0.09060671]])

In [6]:
# ndarray 산술연산2-1: 상수 덧셈
data + 10

array([[ 9.92309615, 11.32323245, 10.7606154 ],
       [11.91758947,  8.65924686, 10.30100948]])

In [7]:
# ndarray 산술연산2-2: 배열간 덧셈
data + data

array([[-0.15380769,  2.64646491,  1.52123081],
       [ 3.83517895, -2.68150629,  0.60201896]])

In [9]:
# ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열
# -> 모든 원소는 같은 자료형이어야 함

In [10]:
# 모든 배열은 각 차원의 크기를 알려주는 "shape라는 튜플"과 배열에 저장된 자료형을 알려주는 "dtype이라는 객체"를 가지고 있음

In [11]:
data.shape

(2, 3)

In [12]:
data.dtype

dtype('float64')

In [13]:
# 데이터 분석 애플리케이션을 작성하는 데 NumPy의 깊은 이해가 필수 사항은 아님
# 단, 배열 위주의 프로그래밍과 생각하는 방법에 능숙해지는 것이 파이썬을 이용한 과학 계산의 고수가 되는 지.름.길!

In [14]:
# MARK: ndarray- array(): 배열 생성하기
# 순차적 객체를 인자로 받아 새로운 NumPy 배열 생성

In [15]:
listData = [1, 2, 3.3, 5, 7]

In [16]:
npData = np.array(listData)

In [17]:
npData

array([1. , 2. , 3.3, 5. , 7. ])

In [18]:
npData.shape

(5,)

In [19]:
npData.dtype

dtype('float64')

In [21]:
tupleData = ((1, 2, 3), (4, 5, 6))

In [22]:
npData2 = np.array(tupleData)

In [23]:
npData2

array([[1, 2, 3],
       [4, 5, 6]])

In [25]:
npData2.shape

(2, 3)

In [26]:
npData2.dtype

dtype('int64')

In [31]:
# MARK: ndim
print(npData, npData.ndim)
print(npData2, npData2.ndim)

[1.  2.  3.3 5.  7. ] 1
[[1 2 3]
 [4 5 6]] 2


In [32]:
# MARK: zeros와 ones, empty
# 다차원 배열을 생성하려면 원하는 형태의 "튜플" 값을 넘길 것
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [34]:
np.ones((10,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [35]:
# 3차원의 0으로 가득찬 배열 만든다면? (인자로 튜플을 넣는다는 것을 잊지 말기!)
np.zeros((10, 2, 4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [36]:
# empty != zeros
# empty는 쓰레기 값으로 채워진 배열 반환
np.empty((3, 2, 3, 4))

array([[[[ 3.10503618e+231, -2.00389847e+000,  2.16036503e-314,
           4.94065646e-323],
         [ 5.43472210e-323,  1.30474952e-284,              nan,
           2.48104025e-265],
         [             nan,  3.51022988e-121,  2.27575021e-314,
           2.16180648e-314]],

        [[ 1.25376871e-141,  2.18004114e-314,  2.18260885e-314,
           3.53235205e+072],
         [ 2.27575025e-314,  2.27574999e-314, -1.08463385e+048,
           2.16968689e-314],
         [ 2.16180656e-314, -1.33732508e+141,  2.16344136e-314,
           2.16160775e-314]]],


       [[[ 1.41534411e+270,  2.27575028e-314,  2.16180760e-314,
           5.02629362e+268],
         [ 2.27575031e-314,  2.16248270e-314,  1.29224335e-218,
           2.27575034e-314],
         [ 2.16248267e-314,  1.33852815e+213,  2.16536194e-314,
           2.16278050e-314]],

        [[-8.41995805e-088,  2.16445612e-314,  2.16165719e-314,
           3.16948864e-129],
         [ 2.17084716e-314,  2.16160775e-314,  0.00000000e+000

In [37]:
# MARK: arange
# arange는 파이썬 range 함수의 배열 버전
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [38]:
np.arange(0,11)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [39]:
np.arange(0, 11, 2)

array([ 0,  2,  4,  6,  8, 10])

In [42]:
np.arange(15).dtype

dtype('int64')

In [44]:
np.arange(15).ndim

1

In [45]:
np.arange(15).shape

(15,)

In [46]:
# MARK: dtype (위에서도 사용해왔던 객체)
# : 주로 사용하게 될 자료형의 일반적인 종류를 신경 쓸 것
# : 대용량 데이터가 메모리나 디스크에 저장되는 방식을 제어할 때 필요

In [47]:
# astype() 메서드를 통해 dtype 명시적 변환

In [48]:
arr = np.arange(15)

In [49]:
arr.dtype

dtype('int64')

In [50]:
float_arr = arr.astype(np.float64)

In [51]:
float_arr.dtype

dtype('float64')

In [52]:
float_arr

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14.])

In [54]:
float_arr = np.array([1.1, 2.2, 3.3, 4.4, 5.5])

In [55]:
float_arr.dtype

dtype('float64')

In [59]:
arr = float_arr.astype(np.int32)

In [60]:
arr

array([1, 2, 3, 4, 5], dtype=int32)

In [72]:
str_arr = np.array(['1.254', '3.2', '5.3'], dtype=np.string_)

In [73]:
str_arr.dtype

dtype('S5')

In [74]:
float_arr = str_arr.astype(float)

In [77]:
float_arr

array([1.254, 3.2  , 5.3  ])

In [76]:
float_arr.dtype

dtype('float64')

In [78]:
# MARK: 벡터화
# for 문을 작성하지 않고 데이터 일괄 처리
# 스칼라 인자가 포함된 산술 연산은 모든 원소에 스칼라 인자 적용
# "같은 크기"의 배열 간 산술 연산은 각 배열의 원소 단위로 적용
# 다른 크기의 배열 간 연산은 브로드캐스팅이라고 하며, 12장에서 다룸.

In [79]:
# MARK: 색인과 슬라이싱

In [93]:
arr = np.arange(10)

In [81]:
# 기존 리스트와의 중요한 차이점!!!
# 리스트를 슬라이싱 한 경우 값을 복사한 리스트 객체를 새로 생성하여 참조!
# ndarray의 경우 원본 배열의 "뷰"
arr2 = arr[5:8]

In [82]:
arr2

array([5, 6, 7])

In [94]:
arr2[1] =10

In [85]:
arr2

array([ 5, 10,  7])

In [87]:
# 슬라이싱 한 배열 arr2를 수정하였음에도 arr 배열에 그 결과가 반영된 것을 볼 수 있음 
arr

array([ 0,  1,  2,  3,  4,  5, 10,  7,  8,  9])

In [95]:
# 복사본을 얻고 싶다면 copy() 메소드 이용
arr3 = arr[1:4].copy()

In [96]:
arr3

array([1, 2, 3])

In [97]:
arr3[2] = 100

In [91]:
arr3

array([  1,   2, 100])

In [98]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])