In [2]:
# 파이선이 제공하는 우용한 자료구조들 중 리스트와 딕셔너리가 여러가지 응용분야에서 많이 활용되는 핵심요소임
# 하지만, 과학기술이나 금융분야에서는 더 빠른 연산이 가능한 특별한 자료 구조 필요
# 즉, 선형대수나 벡터공간이론 등 수학이론에 사용되는 배열(행/열로 구성) 자료가 필요 
# n차원의 배열을 쉬고 효율적으로 고성능으로 다루기 위한 목적으로 만들어 짐
# 특히, 디지털 이미지는 해당 영역에 대한 픽셀 정보를 2차원 배열로 인식해서 처리할 수 있음
# 데이터가 무엇이든 상관없이 그 데이터를 분석하려면 먼저 숫자배열로 변환하는 것이 우선되어야 함
# n차원 배열
# 파이썬의 리스트와는 달리 numpy 배열은 같은 종류의 데이터만 저장 가능
import numpy as np

# 파이썬 리스트
a = list([1,2,3,4,5])   # 숫자
b = list(['a','b','c','d','e'])  # 문자
c = list([0.1,'b', 'c', 1,2])  # 문자&숫자

print(type(a), type(b), type(c))

<class 'list'> <class 'list'> <class 'list'>


In [3]:
print(type(a), type(b), type(c))
print(type(a[0]),type(b[0]),type(c[0]))

<class 'list'> <class 'list'> <class 'list'>
<class 'int'> <class 'str'> <class 'float'>


In [13]:
# numpy 배열
# np.array(배열대상값들)
d = np.array([1,2,3,4,5])
e = np.array(['a','b','c','d','e'])  # 문자
f = np.array([0.1,'b', 'c', 1,2])  # 문자&숫자

print(type(d),type(e),type(f))

<class 'numpy.ndarray'> <class 'numpy.ndarray'> <class 'numpy.ndarray'>


In [15]:
print(type(d[0]),type(e[0]),type(f[0]))

<class 'numpy.int32'> <class 'numpy.str_'> <class 'numpy.str_'>


In [18]:
print(d.shape)  # 배열의 요소 수
print(d.ndim)   # 배열의 차원수

(5,)
1


In [27]:
g = np.array([[1,2,3],[4,5,6],[7,8,9]])

print(g.shape)
print(g.ndim)

(3, 3)
2


In [30]:
h = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])

print(h.shape)
print(h.ndim)

(2, 2, 2)
3


In [32]:
# 배열 요소에 접근하기
print('배열 개별 요소:', d[0], d[2], d[4])
print('배열 부분요소1:', d[:3])   # 마지막 요소 제외
print('배열 부분요소2:', d[:3])
print('배열 전체요소:', d[:])

# 배열 세부 정보 확인
print('차원 정보', g.ndim)
print('요소 수', g.shape)
print('총 요소 수 ', g.size)
print('요소 자료형', g.dtype)
print('각 요소 자료크기', g.itemsize)
print('총 요소 자료크기', g.nbytes)

배열 개별 요소: 1 3 5
배열 부분요소1: [1 2 3]
배열 부분요소2: [1 2 3]
배열 전체요소: [1 2 3 4 5]
차원 정보 2
요소 수 (3, 3)
총 요소 수  9
요소 자료형 int32
각 요소 자료크기 4
총 요소 자료크기 36


In [42]:
# 난수를 이용한 numpy 배열 생성
# np.random.seed(181214)
print(np.random.randint(10))  # 0 ~ 4 사이 난수

3


In [45]:
x1 = np.random.randint(10, size=6)
x2 = np.random.randint(10, size=(3,4))   # 2차원
x3 = np.random.randint(10, size=(3,4,5))  # 3차원

print('x1',x1,'x2',x2,'x3',x3)

x1 [7 7 3 4 2 1] x2 [[2 3 5 9]
 [0 2 0 6]
 [4 1 4 9]] x3 [[[0 2 2 5 1]
  [9 4 5 5 9]
  [9 0 1 8 2]
  [4 6 9 0 6]]

 [[1 6 0 2 6]
  [8 0 8 2 2]
  [0 4 6 1 6]
  [5 0 0 3 3]]

 [[6 8 1 3 5]
  [8 3 3 2 9]
  [7 6 4 2 8]
  [3 1 6 0 5]]]


In [47]:
# 1-45 범위 난수 6개 생성(중복 불가)
x4 = np.random.randint(1,45,size=6)
print(x4)

[43  7 27 34 34 14]


In [91]:
# 1-45 범위 난수 6개 생성(중복 불가)
# np.unique() : 중복 제거 함수
x6 = np.random.choice(7, 6, replace=False)+1
print(x6)

[7 6 3 2 1 5]


In [50]:
# 1-45 범위 난수 6개 생성(중복 불가)
# np.unique() : 중복 제거 함수
x5 = np.unique(x4)
print(x5)

[ 7 14 27 34 43]


In [92]:
# 배열 슬라이싱 하기 : [시작: 끝: 스텝]
print('배열의 첫요소',e[0])
print('배열의 마지막요소1',e[-1])
print('배열의 마지막요소2',e[len(e)-1])

배열의 첫요소 a
배열의 마지막요소1 e
배열의 마지막요소2 e


In [95]:
i = np.arange(10)   # 0 - 9  정수 배열
print('처음부터 5번 요소까지', i[:5])
print('5번 요소부터', i[5:])
print('4번부터 8번 요소부터', i[4:9])
print('짝수 요소마다', i[:1:2])
print('2번 부터 짝수 요소 마다', i[2::2])
print('역순으로', i[::-1])
print('5번 요소부터 역순으로', i[5::-1])


처음부터 5번 요소까지 [0 1 2 3 4]
5번 요소부터 [5 6 7 8 9]
4번부터 8번 요소부터 [4 5 6 7 8]
짝수 요소마다 [0]
2번 부터 짝수 요소 마다 [2 4 6 8]
역순으로 [9 8 7 6 5 4 3 2 1 0]
5번 요소부터 역순으로 [5 4 3 2 1 0]


In [103]:
j = np.array([[12,5,2,4],[7,6,8,3],[1,6,7,9]])

print('3x4 배열', j)
print('2행 3열 배열', j[:2,:3])
print('3행 2열 배열', j[:3,:2])
print('행기준 역순 출력', j[::-1,:])
print('열기준 역순 출력', j[:,::-1])
print('역순 출력', j[::-1,::-1])
print('2열만 출력', j[:,1])
print('2행만 출력', j[1,:])

3x4 배열 [[12  5  2  4]
 [ 7  6  8  3]
 [ 1  6  7  9]]
2행 3열 배열 [[12  5  2]
 [ 7  6  8]]
3행 2열 배열 [[12  5]
 [ 7  6]
 [ 1  6]]
행기준 역순 출력 [[ 1  6  7  9]
 [ 7  6  8  3]
 [12  5  2  4]]
열기준 역순 출력 [[ 4  2  5 12]
 [ 3  8  6  7]
 [ 9  7  6  1]]
역순 출력 [[ 9  7  6  1]
 [ 3  8  6  7]
 [ 4  2  5 12]]
2열만 출력 [5 6 6]
2행만 출력 [7 6 8 3]


In [None]:
# 1차원은 벡터 vector
# 2차원은 행렬 matrix
# 3차원은 텐서 tensor
# 배열을 부분적으로 slice한 결과는 원본 배열의 복사본이 아니고 참조본임
# sql의 뷰와 유사한 개념
# 따라서, 참조본을 수정하면 원본에도 영향을 미침

In [3]:
k = np.array([1,2,3,4,5])
print('원본',k)

원본 [1 2 3 4 5]


In [4]:
k_sub = k[1:3]
print('추출한 참조본', k_sub)

추출한 참조본 [2 3]


In [6]:
k_sub[0] =100
k_sub[1] =200
print('수정된 참조본', k_sub)
print('원본',k)

수정된 참조본 [100 200]
원본 [  1 100 200   4   5]


In [12]:
# 유니버셜 함수 - numpy 제공하는 범용 함수
l = np.array(range(1,10))
print('합', np.sum(a), l.sum())
print('표준편차', np.std(l))
print('평균', np.mean(l))
print('중앙값', np.median(l))
print('분산', np.var(l))
#print('누적합',camsum(l))
print('최대값', np.max(l))
print('최소값', np.min(l))
print('곱연산', l*2)
print('제곱연산',l**2)
print('제곱근', np.sqrt(l))

m = np.array(([[1,2,3],[4,5,6],[7,8,9]]))
print('열 합계', m.sum(axis=0))
print('행 합계', m.sum(axis=1))



합 15 45
표준편차 2.581988897471611
평균 5.0
중앙값 5.0
분산 6.666666666666667
최대값 9
최소값 1
곱연산 [ 2  4  6  8 10 12 14 16 18]
제곱연산 [ 1  4  9 16 25 36 49 64 81]
제곱근 [1.         1.41421356 1.73205081 2.         2.23606798 2.44948974
 2.64575131 2.82842712 3.        ]
열 합계 [12 15 18]
행 합계 [ 6 15 24]


In [15]:
# 배열 객체 채우기
# 원소의 값이 없는 배열을 만들고 실행 중에 각 원소에 값을 하나씩 채우는 방법
o = np.zeros((3,3))
print('원소가 0인 3x3 행렬', o)
p = np.ones(5)
print('원소가 1인 1x5 백터', p)
q = np.arange(5)
print('원소가 0부터 4까지인 1x5 백터',q)

원소가 0인 3x3 행렬 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
원소가 1인 1x5 백터 [1. 1. 1. 1. 1.]
원소가 0부터 4까지인 1x5 백터 [0 1 2 3 4]


In [17]:
# boolean indexing
# 배열의 원소를 가리키기 위해 정수 인덱스를 사용했음
# 한편, bool값을  이용한 인덱싱도 가능
bool = [[True, False, True],[True, False, True],[True, False, True]]
ba = np.array(bool)
print('bool 값 인덱싱', m[ba])

bool 값 인덱싱 [1 3 4 6 7 9]


In [20]:
# 구조하 배열 - 데이터베이스 테이블 생성과 유사
# 즉, 각 열마다 다른 자료형을 사용할 수 있게 해줌
schema = np.dtype([('name','S10'),('age','i4'),('height','f')])
# S 아스키코드
data = np.array([('smith', 30, 175.1),('darwin', 10, 120)], dtype=schema)
print('스키마가 정의된 배열', data)
print('이름만 출력', data['name'])
print('darwin의 나이 출력', data[1]['age'])

스키마가 정의된 배열 [(b'smith', 30, 175.1) (b'darwin', 10, 120. )]
이름만 출력 [b'smith' b'darwin']
darwin의 나이 출력 10


In [21]:
schema = np.dtype(['name','U10'])  # 한글은 unicode로 설정
# U 유니코드
data = np.array([('혜교'),('지현'),('수지')], dtype= schema)
print(data)

TypeError: data type not understood

In [33]:
# 개인정보가 저장된 벡터를 이용해서
# 구조화 배열 생성하기
name = ['alice', 'bob', 'cathy', 'doug', 'hue']
age = [25,45,37,19,65]
weight = [55.5, 85.2, 61.3, 61.5, 110.9]
schema = {'names':('name','age', 'weight'), 'formats':('U10', 'i4','f4')}
personal = np.zeros(5, dtype=schema)
personal['name'] = name
personal['age'] = age
personal['weight'] = weight
print(personal)
print('1행만 출력', personal[0])
print('이름만 출력', personal['name'])
print('나이가 30보다 작은 사람만 출력', personal['age']< 30 )
print('나이가 30보다 작은 사람의 이름 출력', personal[personal['age']<30]['name'])

[('alice', 25,  55.5) ('bob', 45,  85.2) ('cathy', 37,  61.3)
 ('doug', 19,  61.5) ('hue', 65, 110.9)]
1행만 출력 ('alice', 25, 55.5)
이름만 출력 ['alice' 'bob' 'cathy' 'doug' 'hue']
나이가 30보다 작은 사람만 출력 [ True False False  True False]
나이가 30보다 작은 사람의 이름 출력 ['alice' 'doug']


In [None]:
# 배열의 크기/구조 변형 - reshape
# 만들어진 배열의 데이터는 유지하면서 형태를 변경




In [None]:

origin = np.array([(1,1,1,1),(2,2,2,2),(3,3,3,3)])
print('3x4 행렬', origin)

In [38]:
# 3x4 행렬을 6x2 행렬로 변환
transform = origin.reshape(6,2)
print('6x2 행렬\n',transform) 

6x2 행렬
 [[1 1]
 [1 1]
 [2 2]
 [2 2]
 [3 3]
 [3 3]]


In [39]:
# 3x4 행렬을 2x6 행렬로 변환
transform = origin.reshape(2,6)
print('2x6 행렬\n',transform) 

2x6 행렬
 [[1 1 1 1 2 2]
 [2 2 3 3 3 3]]


In [45]:
# 3x4 행렬을 4x3행렬로 변환
transform = origin.reshape(4,3)
print('4x3 행렬\n',transform) 

4x3 행렬
 [[1 1 1]
 [1 2 2]
 [2 2 3]
 [3 3 3]]


In [44]:
# 3x4 행렬을 12x1 행렬로 변환
transform = origin.reshape(12,1)
print('12x1 행렬\n',transform) 

12x1 행렬
 [[1]
 [1]
 [1]
 [1]
 [2]
 [2]
 [2]
 [2]
 [3]
 [3]
 [3]
 [3]]


In [43]:
# 3x4 행렬을 1x12 행렬로 변환
transform = origin.reshape(1,12)
print('1x12 행렬\n',transform) 

1x12 행렬
 [[1 1 1 1 2 2 2 2 3 3 3 3]]


In [51]:
origin = np.arange(12)
#1x12벡터를 3x4 행렬로 변환
transform = origin.reshape(1,12)
print('1x12 행렬\n', transform)

1x12 행렬
 [[ 0  1  2  3  4  5  6  7  8  9 10 11]]


In [52]:
# 1x12 벡터를 3x5 행렬로 변환가능?
transform = origin.reshape(3,5)
print(transform)
# 12개 요소를 가진 벡터를 15개 요소의 행렬로 변환 불가!

ValueError: cannot reshape array of size 12 into shape (3,5)

In [53]:
# 1x12 벡터를 2x5 행렬로 변환가능?
transform = origin.reshape(2,5)
print(transform)
# 12개 요소를 가진 벡터를 10개 요소의 행렬로 변환 불가!

ValueError: cannot reshape array of size 12 into shape (2,5)

In [57]:
# 전치 transpose 행렬 - 행렬의 츅을 바꿈
origin = np.arange(1,16)
transform = origin.reshape(3,5)
print('3x5행렬\n', transform)
transform = origin.reshape(3,5).T
print('전치 5x3 행렬\n', transform)
transform = np.transpose(origin.reshape(3,5))
print('전치 5x3 행렬\n', transform)

3x5행렬
 [[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]
전치 5x3 행렬
 [[ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]
 [ 5 10 15]]
전치 5x3 행렬
 [[ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]
 [ 5 10 15]]


In [63]:
# broadcasting
# 각 행렬의 크기는 서로 같아야 함
# 한편, numpy 에서는 서로 다른 크기를 가진 
# 이때, 크기가 작은 행렬을 자동으로 확장해서 행렬의 크기를 맞춰 주기 떄문에
# 파이썬의 리스트와 확연히 구분되는 기능
# 브로드캐스팅 연산 가능한 3가지 경우
# m x n 배열과 m x 1 배열
# m x n 배열과 1 x n 배열
# m X 1 배열과 1 x n 배열
a= np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])
b= np.array([[0,1,2],[0,1,2],[0,1,2],[0,1,2]])
c= np.array([0,1,2])
d= np.array([[0],[10],[20],[30]])

# print('a\n', a)
# print('b\n', b)
# print('c\n', c)
# print('d\n', d)

# (m x n ) + (m x n )
e = a + b
print('(m x n ) + (m x n )\n', e)

# (m x n ) + (1 x n )
e = a + c
print('(m x n ) + (1 x n)\n', e)

# (m x n ) + (1 x n  )
e = a + d
print('(m x n ) + (1 x n )\n', e)

# (m x 1 ) + (1 x n )
e = c + d
print('(m x 1 ) + (1 x n  )\n', e)



(m x n ) + (m x n )
 [[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]
(m x n ) + (1 x n)
 [[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]
(m x n ) + (1 x n )
 [[ 0  0  0]
 [20 20 20]
 [40 40 40]
 [60 60 60]]
(m x 1 ) + (1 x n  )
 [[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]
