<a href="https://colab.research.google.com/github/ssyyjj1012/data-analysis/blob/main/Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Numpy 
- Numerical Python 의 줄인말
- 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지
- Numpy 배열과 배열 기반의 컴퓨팅에 대한 이해는 pandas의 활용 능력을 향상 


### Numpy의 특징
- 빠르고 메모리를 효율적으로 사용
- 다차원 배열인 ndarray(벡터 산수연산과 브로드캐스팅 가능)
- 반복문을 작성 불필요
- 전체 데이터 배열에 대한 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰기/읽기
- 선형대수, 난수발생기, 푸리에 변환 가능
- C, C++ 포트란으로 쓰여진 코드 통합(글루 언어)

### ndarray : Numpy 배열의 특징
- 배열의 항목을 동일한 타입이어야 한다.
- 파이썬 리스트와는 달리 벡토화된 연산과 완전한 배열처리를 실행
- 배열을 특별히 빠르게 하기 위해 최적화된 C API 를 사용
- 파이썬처럼 NumPy 배열의 0으로 시작하는 인덱스가 생성
- 데이터 타입은 특별한 오브젝트로 표현

# 01 NumPy 배열 생성 - 1차 배열 만들기

In [1]:
import numpy as np
a = np.arange(5) # 자동으로 배열 생성
a

array([0, 1, 2, 3, 4])

In [2]:
a.shape

(5,)

In [3]:
b = np.array([0,1,2,3,4]) # 수동으로 배열 생성
b 

array([0, 1, 2, 3, 4])

# 01 NumPy 배열 생성 - 2차 배열 만들기



In [4]:
m = np.array([np.arange(2),np.arange(2)])
m

array([[0, 1],
       [0, 1]])

In [5]:
m.shape

(2, 2)

## **배열 인덱싱**

In [6]:
m[0,0] = 0
m[0,1] = 1
m[1,0] = 2
m[1,1] = 3
m

array([[0, 1],
       [2, 3]])

## **배열 인덱싱 2**

파이썬에서 사용하는 일반적인 자르기/인덱싱 방법으로 가능

(2차원 이상은 쉼표(,)를 기준으로 차원별로 인덱싱 적용)

In [7]:
a[1:3]

array([1, 2])

In [8]:
m[0,1:]

array([1])

## **배열 연산하기**

In [9]:
m + 2

array([[2, 3],
       [4, 5]])

In [10]:
m * 2

array([[0, 2],
       [4, 6]])

# 01 NumPy 초기화 배열 생성

numpy.zeros()

: 주어진 모양과 타입대로 0으로 채워진 새로운 배열 생성


In [11]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [12]:
np.zeros(5, dtype= np.int)

array([0, 0, 0, 0, 0])

In [13]:
np.zeros((2,1))

array([[0.],
       [0.]])

In [14]:
s = (2,2)
np.zeros(s)

array([[0., 0.],
       [0., 0.]])

In [15]:
np.zeros((2,),dtype=[('x', 'i4'),('y','i4')])

array([(0, 0), (0, 0)], dtype=[('x', '<i4'), ('y', '<i4')])

# 01 NumPy 랜덤 배열 생성

np.random.randn(d0,d1 ... dn)

: 정규화 분산 데이터로부터 랜덤한 값 리턴

In [16]:
np.random.randn()

-0.9197872501980081

In [17]:
2.5 * np.random.randn(2,4)*3

array([[-9.74634566,  9.74971088,  3.6950762 ,  2.95888435],
       [ 3.1290509 ,  9.17802977, -2.72446798, -2.5782642 ]])

### np.random.randint(n1, n2)

: n1 ~ n2 사이의 정수 생성

In [18]:
np.random.randint(2, size = 10)

array([1, 1, 1, 1, 1, 0, 0, 1, 0, 1])

In [19]:
np.random.randint(1, size = 10)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

## 연습문제

In [20]:
a = np.array([np.arange(3),np.arange(3)])
a

array([[0, 1, 2],
       [0, 1, 2]])

In [21]:
a = np.array([np.arange(3),np.arange(3)+3,np.arange(3)+6])*3
a

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

In [36]:
## 위 문제의 또 다른 풀이코드
a = (np.arange(9).reshape(3,3))*3
a

array([[ 0,  3,  6],
       [ 9, 12, 15],
       [18, 21, 24]])

# 02 NumPy 자료형

일반적인 파이썬에서 해결할 수 없는 다양한 자료형을 내포

# 02 NumPy 자료형 - 형 선언하기
 
배열을 만들 때 인자에 dtype을 사용하여 적용 가능

In [24]:
arr1 = np.array([1,2,3],dtype = np.float)
arr2 = np.array([1,2,3],dtype = np.int32)

In [25]:
arr1.dtype

dtype('float64')

In [26]:
arr2.dtype

dtype('int32')

# 02 NumPy 자료형 - 형 변환하기
 
- ndarray의 astype 함수를 사용하여 배열의 형 변환 가능
- float형을 int형으로 변환하는 경우에는 float형의 소수 부분은 버려짐



In [27]:
arr1 = np.array([1.5, 1.2, 1.4], dtype = np.float)
arr2 = arr1.astype(np.int32)

In [28]:
arr1

array([1.5, 1.2, 1.4])

In [29]:
arr2

array([1, 1, 1], dtype=int32)

In [30]:
arr2.dtype

dtype('int32')

# 03 NumPy 속성

In [44]:
import numpy as np
a = np.arange(15).reshape(3,5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [45]:
type(a)

numpy.ndarray

In [46]:
 # 차원 == > 2차원 (3x5 형태)
a.ndim

2

In [47]:
a.itemsize

8

In [48]:
a.size

15

In [49]:
a.nbytes

120

In [50]:
a.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [51]:
a.shape

(3, 5)

In [52]:
a.dtype.name

'int64'

## 연습문제 - NumPy 속성

In [53]:
b = np.array([6,7,8])
b

array([6, 7, 8])

In [54]:
type(b)

numpy.ndarray

In [55]:
b.ndim

1

In [56]:
b.itemsize

8

In [57]:
b.size

3

In [58]:
b.nbytes

24

In [59]:
b.T

array([6, 7, 8])

In [60]:
b.shape

(3,)

In [61]:
b.dtype.name

'int64'

# 04 NumPy 마스킹 - 배열 선택적으로 골라내기

- ndarray에 배열을 집어 넣거나 mask를 적용하면 컬럼 선택이 가능
- 물결 기호(~) 사용 시 선택 컬럼 반전 가능


In [66]:
mask = np.array([0,1,0,1,0,1,0], dtype=bool)
mask

array([False,  True, False,  True, False,  True, False])

In [67]:
data = np.random.randn(7,4)
data

array([[-2.92608506e-01,  1.35330329e+00,  6.99945989e-01,
         9.70481244e-02],
       [-1.33018923e-01,  1.77998093e-01, -1.52750332e+00,
        -1.06024610e+00],
       [-1.36608724e+00,  6.87400764e-02, -2.92018539e-01,
         2.00321746e-01],
       [ 7.67566041e-01, -9.53504920e-01, -1.10200278e-02,
        -1.39090926e+00],
       [ 7.59585915e-01, -7.65444563e-01,  1.25105790e-03,
         3.38967344e-01],
       [ 6.99715213e-02,  2.20923449e-01,  3.62925041e-01,
        -7.17421380e-01],
       [-3.22759468e-03, -6.00892077e-01,  1.29796387e+00,
         2.33513189e+00]])

In [68]:
data[[1,2,3,4]]

array([[-1.33018923e-01,  1.77998093e-01, -1.52750332e+00,
        -1.06024610e+00],
       [-1.36608724e+00,  6.87400764e-02, -2.92018539e-01,
         2.00321746e-01],
       [ 7.67566041e-01, -9.53504920e-01, -1.10200278e-02,
        -1.39090926e+00],
       [ 7.59585915e-01, -7.65444563e-01,  1.25105790e-03,
         3.38967344e-01]])

In [69]:
data[mask]

array([[-0.13301892,  0.17799809, -1.52750332, -1.0602461 ],
       [ 0.76756604, -0.95350492, -0.01102003, -1.39090926],
       [ 0.06997152,  0.22092345,  0.36292504, -0.71742138]])

In [70]:
data[~mask]

array([[-2.92608506e-01,  1.35330329e+00,  6.99945989e-01,
         9.70481244e-02],
       [-1.36608724e+00,  6.87400764e-02, -2.92018539e-01,
         2.00321746e-01],
       [ 7.59585915e-01, -7.65444563e-01,  1.25105790e-03,
         3.38967344e-01],
       [-3.22759468e-03, -6.00892077e-01,  1.29796387e+00,
         2.33513189e+00]])

# 04 NumPy 마스킹 - 배열 선택적으로 골라내기

-  [ ]안에 조건을 전달하여 데이터 선택

In [73]:
over0 = data[data>0]
over0

array([1.35330329e+00, 6.99945989e-01, 9.70481244e-02, 1.77998093e-01,
       6.87400764e-02, 2.00321746e-01, 7.67566041e-01, 7.59585915e-01,
       1.25105790e-03, 3.38967344e-01, 6.99715213e-02, 2.20923449e-01,
       3.62925041e-01, 1.29796387e+00, 2.33513189e+00])

In [74]:
over0.shape

(15,)

In [75]:
over1 = data[1][data[1]>0]
over1

array([0.17799809])

# 05 NumPy - 배열 모양 변경

- Ravel() : 1차원 배열로 바꿈
- Flatten() : 1차원 배열로 바꿈
  - Ravel과는 다르게 항상 새로운 메모리에 배열 생성
- shape 변수 변경 : 튜플을 수정해 모양올 바로 정의
  - 해당 변수 메모리 직접 변조
- Transpose() : 교차시킴
  - 2차행렬 테이블에서 교차는 "행을 열이 되고 열은 행이 됨"을 의미
- Resize(a,b) : 배열을 원하는 모양으로 바꿈
  - reshape는 출력을 변경하지만, resize는 배열을 직접 바꾼다
  
  

In [81]:
import numpy as np

# 테스트 할 배열 b 생성 
b = np.arange(24)
b

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [82]:
# shape(튜플)을 변경하여 모양 설정하기 : 튜플을 수정하여 모양을 바로 정의

b.shape = (6,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

## Ravel()

In [84]:
b.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

## Flatten() 

- ravel() 함수와 같은 역할
- 그러나 flatten() 함수는 항상 새로운 메모리를 할당
- ravel은 해당 배열을 직접 변조




In [85]:
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

## Transpose ( 교차시키기 )

- 선형대수학에서는 행렬을 교차시키는 경우가 많음
- 2차행렬 테이블에서 교차는 "행은 열이 되고 열은 행이 됨을 의미"



In [86]:
b.transpose()

array([[ 0,  4,  8, 12, 16, 20],
       [ 1,  5,  9, 13, 17, 21],
       [ 2,  6, 10, 14, 18, 22],
       [ 3,  7, 11, 15, 19, 23]])

## Resize

- resize() 함수는 reshape() 함수처럼 동작
- reshape는 출력을 변경하지만, resize는 배열을 직접 변경




In [87]:
b.resize((2,12))
b

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])

# 06 NumPy - 배열 쌓기
배열은 수평적으로, 깊고, 수직으로 쌓을 수 있다.


- hstack((a,b)) : 배열을 수평으로 쌓음 (horizontal)   
- vstack((a,b)) : 배열을 수직으로 쌓음 (vertical)
- dstack((a,b)) : 배열을 깊게 쌓음 (deep)
- colmn_stack((a,b)) : 각 행을 결합 (2차원에서 결합은 hstack과 같은 역할)
- row_stack((a,b)) : 왼쪽 행렬을 위에, 오른쪽 행렬을 밑으로 결합 (2차원에서 결합은 vstack과 같은 역할)
- concatenate((a,b), axis = 0) : axis에 0을 전달할 경우, vstack()와 같은 역할 / axis에 1을 전달할 경우, hstack()과 같은 역할

In [89]:
import numpy as np

a = np.arange(8)
a

array([0, 1, 2, 3, 4, 5, 6, 7])

In [91]:
np.hstack([a, a*2])

array([ 0,  1,  2,  3,  4,  5,  6,  7,  0,  2,  4,  6,  8, 10, 12, 14])

In [93]:
np.vstack([a,a*3])

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 0,  3,  6,  9, 12, 15, 18, 21]])

In [94]:
np.dstack([a,a*a])

array([[[ 0,  0],
        [ 1,  1],
        [ 2,  4],
        [ 3,  9],
        [ 4, 16],
        [ 5, 25],
        [ 6, 36],
        [ 7, 49]]])

# 07 NumPy - 배열 나누기

## 수평쪼개기 - hsplit

In [96]:
a = np.arange(9)
a.shape = (3,3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [99]:
np.hsplit(a,3)

[array([[0],
        [3],
        [6]]), array([[1],
        [4],
        [7]]), array([[2],
        [5],
        [8]])]

## 수직쪼개기 - vsplit

In [100]:
np.vsplit(a,3)

[array([[0, 1, 2]]), array([[3, 4, 5]]), array([[6, 7, 8]])]

## 깊게쪼개기 - dsplit

In [None]:
c = np.arange(27).reshape(3,3,3)
np.dsplit(c,3)

## iris 데이터셋 불러오기
sklearn에서 제공하는 iris로 실습 진행

In [104]:
from sklearn import datasets

### 데이터 로드

In [106]:
iris = datasets.load_iris()
irisdt = iris['data']

### 컬럼 이름 확인

In [107]:
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

### 데이터 확인

In [None]:
irisdt

### 문제

#### (1) sepal length(cm) 값과 petal length(cm)의 값을 추출하여 새로운 배열 생성


In [109]:
a = np.hsplit(irisdt,4)
b = np.hstack((a[0],a[2]))
b

array([[5.1, 1.4],
       [4.9, 1.4],
       [4.7, 1.3],
       [4.6, 1.5],
       [5. , 1.4],
       [5.4, 1.7],
       [4.6, 1.4],
       [5. , 1.5],
       [4.4, 1.4],
       [4.9, 1.5],
       [5.4, 1.5],
       [4.8, 1.6],
       [4.8, 1.4],
       [4.3, 1.1],
       [5.8, 1.2],
       [5.7, 1.5],
       [5.4, 1.3],
       [5.1, 1.4],
       [5.7, 1.7],
       [5.1, 1.5],
       [5.4, 1.7],
       [5.1, 1.5],
       [4.6, 1. ],
       [5.1, 1.7],
       [4.8, 1.9],
       [5. , 1.6],
       [5. , 1.6],
       [5.2, 1.5],
       [5.2, 1.4],
       [4.7, 1.6],
       [4.8, 1.6],
       [5.4, 1.5],
       [5.2, 1.5],
       [5.5, 1.4],
       [4.9, 1.5],
       [5. , 1.2],
       [5.5, 1.3],
       [4.9, 1.4],
       [4.4, 1.3],
       [5.1, 1.5],
       [5. , 1.3],
       [4.5, 1.3],
       [4.4, 1.3],
       [5. , 1.6],
       [5.1, 1.9],
       [4.8, 1.4],
       [5.1, 1.6],
       [4.6, 1.4],
       [5.3, 1.5],
       [5. , 1.4],
       [7. , 4.7],
       [6.4, 4.5],
       [6.9,

#### (2) 3번과 5번 데이터를 추출하여 새로운 배열 생성하라


In [114]:
a = np.vsplit(irisdt,len(irisdt))
b = np.vstack((a[3],a[5]))
b

array([[4.6, 3.1, 1.5, 0.2],
       [5.4, 3.9, 1.7, 0.4]])

# 08 유니버설 함수(ufunc)
- ndarray 안에 있는 데이터 원소별로 연산을 수행하는 함수
- 하나 이상의 스칼라 값을 받아서 하나 이상으로 스칼라 결과 값을 반환하는 간단한 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수

####  < 단항 유니버설 함수와 이항 유니버설 함수 >

- 단항 유니버설 함수 : 하나의 숫자로 계산하는 방식으로 절대값, 제곱, 제곱근. 지수 계산, 반올림, 나눗셈, 나머지 계산, 삼각 함수 등에 사용
- 이항 유니버설 함수 : 두 개의 숫자로 계산하는 방식으로 사칙 연산과 비교 연산 등에 사용

### 1) 단항 유니버설 함수 : 문제

#### (1) sepal width(cm)의 값의 제곱근을 구하라


In [120]:
np.sqrt(irisdt[:,0])

array([2.25831796, 2.21359436, 2.16794834, 2.14476106, 2.23606798,
       2.32379001, 2.14476106, 2.23606798, 2.0976177 , 2.21359436,
       2.32379001, 2.19089023, 2.19089023, 2.07364414, 2.40831892,
       2.38746728, 2.32379001, 2.25831796, 2.38746728, 2.25831796,
       2.32379001, 2.25831796, 2.14476106, 2.25831796, 2.19089023,
       2.23606798, 2.23606798, 2.28035085, 2.28035085, 2.16794834,
       2.19089023, 2.32379001, 2.28035085, 2.34520788, 2.21359436,
       2.23606798, 2.34520788, 2.21359436, 2.0976177 , 2.25831796,
       2.23606798, 2.12132034, 2.0976177 , 2.23606798, 2.25831796,
       2.19089023, 2.25831796, 2.14476106, 2.30217289, 2.23606798,
       2.64575131, 2.52982213, 2.62678511, 2.34520788, 2.54950976,
       2.38746728, 2.50998008, 2.21359436, 2.56904652, 2.28035085,
       2.23606798, 2.42899156, 2.44948974, 2.46981781, 2.36643191,
       2.58843582, 2.36643191, 2.40831892, 2.48997992, 2.36643191,
       2.42899156, 2.46981781, 2.50998008, 2.46981781, 2.52982

#### (2) iris 배열 전체의 값을 반올림하라

In [None]:
np.rint(irisdt)

#### (3) petal length(cm)의 값이 숫자인지 판별하라


In [None]:
np.isnan(irisdt[:,2])

### 2) 이항 유니버설 함수 : 문제

#### (1) sepal length와 sepal width 의 값의 합을 구하고, 그 값 중 가장 큰 값을 가진 인덱스를 찾아라


In [121]:
hs = np.hsplit(irisdt,4)
sumdt = np.add(hs[0],hs[1])
sumdt

array([[ 8.6],
       [ 7.9],
       [ 7.9],
       [ 7.7],
       [ 8.6],
       [ 9.3],
       [ 8. ],
       [ 8.4],
       [ 7.3],
       [ 8. ],
       [ 9.1],
       [ 8.2],
       [ 7.8],
       [ 7.3],
       [ 9.8],
       [10.1],
       [ 9.3],
       [ 8.6],
       [ 9.5],
       [ 8.9],
       [ 8.8],
       [ 8.8],
       [ 8.2],
       [ 8.4],
       [ 8.2],
       [ 8. ],
       [ 8.4],
       [ 8.7],
       [ 8.6],
       [ 7.9],
       [ 7.9],
       [ 8.8],
       [ 9.3],
       [ 9.7],
       [ 8. ],
       [ 8.2],
       [ 9. ],
       [ 8.5],
       [ 7.4],
       [ 8.5],
       [ 8.5],
       [ 6.8],
       [ 7.6],
       [ 8.5],
       [ 8.9],
       [ 7.8],
       [ 8.9],
       [ 7.8],
       [ 9. ],
       [ 8.3],
       [10.2],
       [ 9.6],
       [10. ],
       [ 7.8],
       [ 9.3],
       [ 8.5],
       [ 9.6],
       [ 7.3],
       [ 9.5],
       [ 7.9],
       [ 7. ],
       [ 8.9],
       [ 8.2],
       [ 9. ],
       [ 8.5],
       [ 9.8],
       [ 8

In [122]:
val = np.max(sumdt)
val

11.7

In [123]:
len(sumdt)

150

In [124]:
for i in range(len(sumdt)):
  if sumdt[i] == val:
    print("index : ",i)

index :  131


In [125]:
np.argmax(sumdt)

131

#### (2) petal length 가 1.4 이상인 값을 찾아라


In [126]:
mask = np.greater(irisdt[: ,2],1.4)
mask

array([False, False, False,  True, False,  True, False,  True, False,
        True,  True,  True, False, False, False,  True, False, False,
        True,  True,  True,  True, False,  True,  True,  True,  True,
        True, False,  True,  True,  True,  True, False,  True, False,
       False, False, False,  True, False, False, False,  True,  True,
       False,  True, False,  True, False,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,

In [127]:
irisdt[:,2][mask]

array([1.5, 1.7, 1.5, 1.5, 1.5, 1.6, 1.5, 1.7, 1.5, 1.7, 1.5, 1.7, 1.9,
       1.6, 1.6, 1.5, 1.6, 1.6, 1.5, 1.5, 1.5, 1.5, 1.6, 1.9, 1.6, 1.5,
       4.7, 4.5, 4.9, 4. , 4.6, 4.5, 4.7, 3.3, 4.6, 3.9, 3.5, 4.2, 4. ,
       4.7, 3.6, 4.4, 4.5, 4.1, 4.5, 3.9, 4.8, 4. , 4.9, 4.7, 4.3, 4.4,
       4.8, 5. , 4.5, 3.5, 3.8, 3.7, 3.9, 5.1, 4.5, 4.5, 4.7, 4.4, 4.1,
       4. , 4.4, 4.6, 4. , 3.3, 4.2, 4.2, 4.2, 4.3, 3. , 4.1, 6. , 5.1,
       5.9, 5.6, 5.8, 6.6, 4.5, 6.3, 5.8, 6.1, 5.1, 5.3, 5.5, 5. , 5.1,
       5.3, 5.5, 6.7, 6.9, 5. , 5.7, 4.9, 6.7, 4.9, 5.7, 6. , 4.8, 4.9,
       5.6, 5.8, 6.1, 6.4, 5.6, 5.1, 5.6, 6.1, 5.6, 5.5, 4.8, 5.4, 5.6,
       5.1, 5.1, 5.9, 5.7, 5.2, 5. , 5.2, 5.4, 5.1])

In [128]:
a = irisdt[:,2]
a[a>1.4]

array([1.5, 1.7, 1.5, 1.5, 1.5, 1.6, 1.5, 1.7, 1.5, 1.7, 1.5, 1.7, 1.9,
       1.6, 1.6, 1.5, 1.6, 1.6, 1.5, 1.5, 1.5, 1.5, 1.6, 1.9, 1.6, 1.5,
       4.7, 4.5, 4.9, 4. , 4.6, 4.5, 4.7, 3.3, 4.6, 3.9, 3.5, 4.2, 4. ,
       4.7, 3.6, 4.4, 4.5, 4.1, 4.5, 3.9, 4.8, 4. , 4.9, 4.7, 4.3, 4.4,
       4.8, 5. , 4.5, 3.5, 3.8, 3.7, 3.9, 5.1, 4.5, 4.5, 4.7, 4.4, 4.1,
       4. , 4.4, 4.6, 4. , 3.3, 4.2, 4.2, 4.2, 4.3, 3. , 4.1, 6. , 5.1,
       5.9, 5.6, 5.8, 6.6, 4.5, 6.3, 5.8, 6.1, 5.1, 5.3, 5.5, 5. , 5.1,
       5.3, 5.5, 6.7, 6.9, 5. , 5.7, 4.9, 6.7, 4.9, 5.7, 6. , 4.8, 4.9,
       5.6, 5.8, 6.1, 6.4, 5.6, 5.1, 5.6, 6.1, 5.6, 5.5, 4.8, 5.4, 5.6,
       5.1, 5.1, 5.9, 5.7, 5.2, 5. , 5.2, 5.4, 5.1])

# 09 카피와 뷰
배열을 실행하고 변조할 때, 그 데이터는 새로운 배열로 카피되거나 그렇지 않을 때도 있다.

이러한 현상은 종종 초보자에게 혼란을 줄 수 있으며, 혼란을 겪는 케이스에는 세 가지가 있다.

### 1 ) 모두를 카피하지 않는 경우

파이썬은 변경될 수 있는 객체의 참조를 전달하므로 함수 호출의 복사본을 전달하지는 않습니다.

id함수를 사용하면 각 객체의 고유 id를 확인할 수 있습니다.


In [130]:
a = np.arange(12)
b = a   ## 새로운 오브젝트를 마들지 않음
b is a  ## 둘은 같은 오브젝트

True

In [131]:
b.shape = 3,4 ## b의 모양을 바꾸면 a의 모양도 변경
a.shape

(3, 4)

### 2 ) 뷰 또는 새로운 카피
다른 배열 객체는 같은 데이터를 공유할 수도 있습니다.

View 함수는 동일한 데이터를 보는 새로운 배열 객체를 만든다.


In [132]:
c = a.view()
c is a

False

In [133]:
# c 는 a 가 소융한 데이터의 뷰
c.base is a

True

In [134]:
# 데이터의 주인을 확인
c.flags.owndata

False

In [135]:
# c의 데이터 형태를 바꿔도 a는 바뀌지 않음
c.shape = 2,6
a.shape

(3, 4)

In [137]:
# c의 데이터를 바꿔도 a의 데이터는 바뀌지 않음
c[0,4]=1234
a

array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

### 2 ) 뷰 또는 새로운 카피
배열을 자르면 뷰를 반환합니다.


In [138]:
s = a[:,1:3] # 모든 행의 1~3열
s[:] = 10
s

array([[10, 10],
       [10, 10],
       [10, 10]])

In [139]:
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

### 3 ) 딥(deep) 카피
copy 메소드는 완벽한 카피본을 만듭니다.


In [143]:
# 새로운 데이터로 새로운 배열을 만듦
d = a.copy()
d is a

False

In [144]:
# d는 a와 공유하지 않음
d.base is a

False

In [146]:
d[0,0] = 9999
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

In [147]:
d

array([[9999,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

# 10 numpy 함수와 python 함수의 연산 속도 비교

### Python

In [154]:
def pythonsum(n):
  a = list(range(n))
  b = list(range(n))
  c = []
  for i in list(range(len(a))):
    a[i] = i ** 2
    b[i] = i ** 3
    c.append(a[i] + b[i])
  return c

### NumPy

In [155]:
def numpysum(n):
  a = np.arange(n) ** 2
  b = np.arange(n) ** 3
  c = a + b
  return c

### Python과 NumPy의 연산 속도 비교

In [156]:
size = 10000

In [160]:
print("[*] Python work !")
%timeit pythonsum(size)

print()

print("[*] NumPy work !")
%timeit numpysum(size)

[*] Python work !
100 loops, best of 5: 8.25 ms per loop

[*] NumPy work !
10000 loops, best of 5: 58.8 µs per loop
