# Numpy 
: 데이터 분석에 필요한 기본 패키지  

- ndarray :  빠르고 메모리를 효율적으로 사용하여 벡터 산술 연산과 관련된 브로드캐스팅 기능을 제공하는 다차원 배열 
- 반복문 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산 제공 
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
- 선형 대수, 난수 발생기, 푸리 변환 가능

In [2]:
import numpy as np #numpy 패키지 import 

# 다차원 배열 (Arrays) 

## ndarray 
: Numpy에서 제공되는 같은 종류의 데이터를 담을 수 있는 다차원 배열, 모든 원소는 같은 자료형이어야 함.
: ndarray의 차원은 rank 라고 부름.

모든 배열은 shape 와 type 라는 객체를 가짐. 

- shape : 각 차원의 크기를 알려줌 
- type : 배열에 저장된 자료형을 알려줌 


In [3]:
#ndarray를 사용하기 전 비교를 위해 리스트를 먼저 살펴본다.
a = [1,2,3,4,5,6]
print(a)
b=[[1,2,3],[4,5,6]] #리스트로 2차원 행렬을 표현했을 때 모양 
print(b)
c=[1,'a',3.5]#리스트는 서로 다른 type 의 데이터 저장 가능 
print(c)

[1, 2, 3, 4, 5, 6]
[[1, 2, 3], [4, 5, 6]]
[1, 'a', 3.5]


ndarray는 array 함수와 중첩된 리스트를 이용하여 생성 가능, [] 를 사용하여 indexing 함

In [4]:
a = np.array([1,2,3]) #1차원 배열 생성 
print(type(a),a.shape,a[0],a[1],a[2])
a[0] = 5 #배열의 한 원소를 변경
print(a)

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [5]:
b = np.array([[1,2,3],[4,5,6]]) #2차원 배열 생성 
print(b) #2차원 배열 모양 확인 

[[1 2 3]
 [4 5 6]]


In [6]:
print(b.shape) #각 배열의 차원 크기 
print(b[0,0], b[0,1],b[1,0])  #인덱싱예제

(2, 3)
1 2 4


Numpy는 array함수 외에 배열을 생성하기 위한 다양한 방법 제공 

In [7]:
a= np.zeros((2,3)) # 값이 모두 0인 배열 생성, 매개변수는 원하는 shape
print(a)

[[0. 0. 0.]
 [0. 0. 0.]]


In [8]:
b = np.ones((3,4)) # 값이 모두 1인 배열 생성
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [9]:
c = np.full((2, 4), 7) # 모든 원소가 원하는 값으로 초기화된 배열 생성
print(c)

[[7 7 7 7]
 [7 7 7 7]]


In [10]:
e = np.random.random((2,4)) # 무작위값으로 이루어진 배열 생성
print(e)

[[0.28345859 0.00700788 0.8797161  0.70929588]
 [0.84874972 0.79074433 0.92306677 0.9844887 ]]


# 배열 인덱싱(Array indexing)

## 슬라이싱(Slicing) 
: 파이썬 리스트와 유사하게 배열도 슬라이싱이 가능하다.  
ndarray 는 다차원 배열 이므로 각 차원에 대해 슬라이싱 가능.

In [2]:
import numpy as np
# shape가 (3, 4)이고 아래와 같은 값을 갖는 2차원 배열을 생성
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# 아래와 같은 일부를 뽑아내고 싶다면?
# [[2 3]
#  [6 7]]
#        0열 1열 2열 3열
# 0행 [[ 1   2   3   4]
# 1행  [ 5   6   7   8]
# 2행  [ 9  10  11  12]]

b = a[:2,1:3] # 앞이 행, 뒤가 열 
print(b)
c = a[:3, 1:3]
print(c)

[[2 3]
 [6 7]]
[[ 2  3]
 [ 6  7]
 [10 11]]


#### 주의할 점 
수정할 경우 원래의 배열도 값이 변경된다.

In [18]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] is the same piece of data as a[0, 1]
print(b)
print(a)

2
[[77  3]
 [ 6  7]
 [10 11]]
[[ 1 77  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


만일 값을 복사해서 새로운 배열을 만들고 싶으면 copy() 함수를 사용

In [19]:
c = b.copy()
c[0, 0] = 55
print(c)
print(b)

[[55  3]
 [ 6  7]
 [10 11]]
[[77  3]
 [ 6  7]
 [10 11]]


정수 인덱싱과 슬라이스 인덱싱 섞어서 사용 가능

In [21]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, a.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] (3, 4)


정수 인덱싱과 슬라이싱을 섞어서 쓰는 경우 차원이 감소할 수 있다.  
슬라이싱만 쓰는 경우는 차원 유지.  
(차원은 shape 이므로, 차원이 감소되었는지 유지되었는지는 shape를 보면 알 수 있음)

In [6]:
# 정수 인덱싱과 슬라이싱을 섞어서 사용하는 경우 
row_r1 = a[0, :]    # 차원이 감소되는 것에 주의  
print(row_r1, row_r1.shape)

[1 2 3 4] (4,)


In [7]:
# 슬라이싱과 슬라이싱을 함께 사용하는 경우
row_r2 = a[1:2, :]  # 차원 유지됨
print(row_r2, row_r2.shape)

[[5 6 7 8]] (1, 4)


In [8]:
# 컬럼만 잘라낼 때에도 마찬가지:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


## 정수 배열을 이용한 인덱싱
: 슬라이싱을 사용하는 경우 결과는 항상 원래 배열의 서브 배열이 된다. 반면, 정수 배열을 이용하면 임의로 변경하는 것이 가능하다.

In [8]:
 a= np.array([[1,2],[3,4],[5,6]])
print(a,a.shape)
# 정수 배열 인덱싱의 예.
# 반환된 배열의 shape는 (3,)
print(a[[0 , 1, 2],[0, 1, 0]])

# 위 방식은 아래 방식과 동일한 결과를 나타냄 
print(np.array([a[0, 0],a[1, 1],a[2, 0]]))


[[1 2]
 [3 4]
 [5 6]] (3, 2)
[1 4 5]
[1 4 5]


In [12]:
# 정수 배열 인덱싱 시 같은 요소를 가져오게 할 수도 있음
print(a[[0,0],[1,1]])
# 아래 예제와 동일 
print(np.array([a[0,1],a[0,1]]))

[2 2]
[2 2]


정수 배열 인덱싱은 각각 행/열에서 원하는 요소만 가져오고 싶을 때 유용하게 사용 가능

In [13]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [16]:
#np.arange는 range와 다르게 ndarray 형태로 모든 값 생성 
print(np.arange(4))
print(range(4))

[0 1 2 3]
range(0, 4)


In [17]:
#정수 배열 선언
b =  np.array([0, 2, 0, 1])
#b의 각 행에서 위 배열에 해당하는 열의 값 가져오기
print(a[np.arange(4),b])

[ 1  6  7 11]


In [18]:
# b의 각 행에서 위 배열에 해당하는 열의 값에만 10을 더하고 싶다면?
a[np.arange(4),b]+=10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


## 불리안 배열 인덱싱 
: 배열에서 원하는 요소들만 추출 가능. 특정 조건을 만족하는 요소들만 골라내고자 하는 경우 자주 사용됨.

In [19]:
bb = np.array([1,2,3,4,5,6])

#ndarray 중 벡터에 대한 비교 연산자 적용 결과
bb>3


array([False, False, False,  True,  True,  True])

In [21]:
bb[bb>3] #bb값 중에서 3보다 큰 값만 반환

array([4, 5, 6])

In [22]:
# 행렬에 대한 불리안 인덱싱 결과 확인
a = np.array([[1,2],[3,4],[5,6]])

bool_idx=(a > 2)# 배열의 개별적인 요소에 대해서 2보다 큰지를 True/False 배열로 반환

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [23]:
# 불리안 배열의 값이 true 인 요소들만 반환
print(a[bool_idx])

#아래와 같이 줄여서 사용 가능 
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]
