학습목표

- 배열과 리스트의 차이점을 알고 배열을 사용하는 이유를 이해한다.
- 배열을 생성하고 다루는 방법을 익힌다.
- 넘파이를 사용하여 기술 통계를 낼 수 있다.
- 난수를 발생시키고 그 결과를 분석하는 방법을 공부 

# 넘파이 배열

- 많은 숫자 데이터를 하나의 변수에 넣고 관리 할 때 리스트는 속도가 느리고 메모리를 많이 차지하는 단점이 있다. 
- 배열(array)을 사용하면 적은 메모리로 많은 데이터를 빠르게 처리할 수 있다. 
- 배열은 리스트와 비슷하지만 다음과 같은 점이 다르다.
    1. 모든 원소가 같은 자료형이어야 한다.
    2. 원소의 갯수를 바꿀 수 없다.

In [1]:
# 넘파이 패키지 import 
import numpy as np

In [3]:
# 1차원 배열 만들기
# 넘파이의 array함수에 리스트를 넣으면 ndarray 클래스 객체 즉, 배열로 변환해 준다. 
ar = np.array([0,1,2,3,4,5,6,7,8,9])
print(ar)
print(type(ar))

[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>


- 만들어진 ndarray 객체의 표현식을 보면 바깥쪽에 array()란 것이 붙어 있을 뿐 리스트와 동일한 구조처럼 보인다. 
- 그러나 배열 객체와 리스트 객체는 많은 차이가 있다. 

- 우선 리스트 클래스 객체는 각각의 원소가 다른 자료형이 될 수 있다. 
- 그러나 배열 객체는 C언어의 배열처럼 연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 한다.
- 이러한 제약사항이 있는 대신 원소에 대한 접근과 반복문 실행이 빨라진다.

### 벡터화 연산

In [13]:
'''
- 배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리하는 벡터화 연산을 지원한다.
- 예를 들어 다음처럼 여러개의 데이터를 모두 2배 해야 하는 경우를 생각해보자.
'''

# List로 연산
data = [0,1,2,3,4,5,6,7,8,9]

answer = []
for di in data:
    answer.append(2*di)
print(f'list 연산 결과 : {answer}')

# 벡터화 연산 : for문 없이 한번의 연산으로 할 수 있다. 계산 속도도 반복문 사용할 때 보다 훨씬 빠르다.
x = np.array(data)
print(f'벡터화 연산 결과 : {2*x}')

# 일반적인 리스트 객체에 정수를 곱하면 객체의 크기가 정수배 만큼으로 증가한다. 
L = [0,1,2,3,4,5,6,7,8,9]
print(f'list 객체에 정수 곱한 결과 : {L*2}')

list 연산 결과 : [0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
벡터화 연산 결과 : [ 0  2  4  6  8 10 12 14 16 18]
list 객체에 정수 곱한 결과 : [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [17]:
'''
벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용된다. 
'''
a = np.array([1,2,3])
b = np.array([10,20,30])

print(2 * a + b)
print(a == 2)
print(b > 10)
print((a == 2) & (b > 10))

[12 24 36]
[False  True False]
[False  True  True]
[False  True False]


### 2차원 배열 만들기

In [21]:
'''
ndarray는 N-dimensional Array의 약자이다.
이름 그대로 1차원 배열 이외에도 2차원 배열, 3차원 배열 등 다차원 배열 구조를 지원한다. 
2차원 배열은 행렬(Metrix)이라고 하는데 행렬에서는 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 부른다.
2차원 배열 생성 , 안쪽 리스트의 길이는 행렬의 열의 수 (가로 크기), 바깥쪽 리스트의 길이는 행렬의 행의 수 (세로 크기)
'''
c = np.array([[0,1,2],[3,4,5]]) 
print(c)
print(len(c), len(c[0])) # 행의 개수와 열의 개수 구하기

[[0 1 2]
 [3 4 5]]
2 3


### 3차원 배열 만들기

In [23]:
'''
리스트의 리스트의 리스트를 이용하면 3차원 배열도 생성할 수 있다. 
크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트의 길이의 순서로 표시한다. 
예를 들어, 2*3*4 배열은 다음과 같이 만든다.
'''
d = np.array([[[1,2,3,4],
              [5,6,7,8],
              [9,10,11,12]],
             [[11,12,13,14],
             [15,16,17,18],
             [19,20,21,22]]]) # 2 x 3 x 4 array

# 3차원 배열의 깊이, 행, 열
len(d), len(d[0]), len(d[0][0])

(2, 3, 4)

### 배열의 차원과 크기 알아내기
- 배열의 차원 및 크기를 구하는 더 간단한 방법은 배열의 ndim 속성과 shape 속성을 이용하는 것이다 
- ndim 속성은 배열의 차원, shape 속성은 배열의 크기를 반환한다.

In [26]:
# c = np.array([[0,1,2],[3,4,5]]) 
print(c.ndim)
print(c.shape)

# d = np.array([[[1,2,3,4],
#               [5,6,7,8],
#               [9,10,11,12]],
#              [[11,12,13,14],
#              [15,16,17,18],
#              [19,20,21,22]]])

print(d.ndim)
print(d.shape)

2
(2, 3)
3
(2, 3, 4)


### 배열의 인덱싱
- 일차원 배열의 인덱싱은 리스트의 인덱싱과 같다.

In [27]:
a = np.array([0,1,2,3,4])
a[2]

2

In [28]:
a[-1]

4

In [29]:
'''
다차원 배열일 때는 다음과 같이 콤마(comma,)를 사용하여 접근할 수 있다. 
콤마로 구분된 차원을 축 (axis)이라고도 한다.
그래프의 x축과 y축을 떠올리면 될 듯!
'''
a = np.array([[0,1,2],[3,4,5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [30]:
print(a[0,0]) # 첫번째 행의 첫번째 열
print(a[0,1]) # 첫번쨰 행의 두번째 열
print(a[-1,-1]) # 마지막 행의 마지막 열

0
1
5


### 배열 슬라이싱
- 배열 객체로 구현한 다차원 배열의 원소 중 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용하면된다.

In [31]:
a = np.array([[0,1,2,3],[4,5,6,7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [32]:
a[0,:] # 첫번재 행 전체

array([0, 1, 2, 3])

In [33]:
a[:,1] # 두번째 열 전체

array([1, 5])

In [34]:
a[:2,:2]

array([[0, 1],
       [4, 5]])

### 연습문제 

In [35]:
# 다음 행렬과 같은 행렬이 있다. 

m = np.array([[0,1,2,3,4],
              [5,6,7,8,9],
              [10,11,12,13,14]])

In [49]:
# 1. 이 행렬에서 값 7을 인덱싱한다. 
print(m[1,2])

# 2. 이 행렬에서 값 14을 인덱싱한다.
print(m[2,4])

# 3. 이 행렬에서 배열 [6, 7] 을 슬라이싱한다.
print(m[1,1:3])

# 4. 이 행렬에서 배열 [7, 12] 을 슬라이싱한다.
print(m[1:,2])

# 5. 이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다.
print(m[0:2,3:])

7
14
[6 7]
[ 7 12]
[[3 4]
 [8 9]]


### 배열 인덱싱
- 인덱싱이라는 이름이 붙었지만 사실은 데이터 베이스의 질의(Query) 기능을 수행한다. 
- 배열 인덱싱에서는 대괄호 (Bracket,[])안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또 다른 ndarray 배열을 받을 수 있다. 
- 여기에서는 이 배열의 편의상 인덱스 배열이라고 부른다. 

- 불리안 배열 인덱싱 방식은 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray객체의 크기와 같아야 한다. 


In [50]:
# 예를 들어 다음과 같은 1차원 ndarray에서 짝수인 원소만 골라내려면 짝수인 원소에 대응하는 인덱스 값이 True이고 
# 홀수인 원소에 대응하는 인덱스 값이 False인 인덱스 배열을 넣으면된다. 

a = np.array([0,1,2,3,4,5,6,7,8,9])
idx = np.array([True,False,True,False,True,
               False,True,False,True,False])
a[idx]

array([0, 2, 4, 6, 8])

In [51]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [52]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

In [53]:
# 정수 배열 인덱싱에서는 인덱스 배열의 원소 각각이 원래 ndarray 객체 원소 하나를 가리키는 인덱스 정수이어야 한다. 
# 예를 들어서 1차원 배열에서 홀수번째 원소만 골라내는 것은 다음과 같다. 
a = np.array([11,22,33,44,55,66,77,88,99])
idx = np.array([0,2,4,6,8]) # 인덱스의 길이가 원래의 배열 길이와 달라도 상관없다.
a[idx]

array([11, 33, 55, 77, 99])

In [54]:
# 같은 원소를 반복해서 가리키는 경우에는 배열 인덱스가 원래의 배열보다 더 커지기도 한다. 
a = np.array([11,22,33,44,55,66,77,88,99])
idx = np.array([0,0,0,0,0,0,1,1,1,1,1,2,2,2,2,2])
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

In [55]:
# 배열 인덱싱은 다차원 배열의 각 차원에 대해서도 할 수 있다.
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [56]:
a[:,[True,False,False,True]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [57]:
a[[2,0,1],:]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [58]:
a[[2,0,1],:]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

### 연습문제 


In [63]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

#1. 이 배열의 3의 배수.
print(x[x % 3 == 0])

#2. 이 배열에서 4로 나누면 1이 남는 수를 찾아라.
print(x[x % 4 == 1])

#3. 이 배열에서 3으로 나누면 나누어지고 4로 나누면 1이 남는 수를 찾아라.
print(x[(x % 3 == 0)&(x % 4 == 1)])

[ 3  6  9 12 15 18]
[ 1  5  9 13 17]
[9]
