# 넘파이 배열<sup>NumPy Arrays</sup>

넘파이(numpy)는 Numerical Python의 줄임말로 고성능 수치 계산을 쉽게 할 수 있도록 도와주는 라이브러리다. 자연어를 기계가 이해할 수 있는 벡터 형태로 바꾸려면 다차원 계산이 필수적이기 때문에 넘파이는 텍스트 분석에서 광범위하게 사용되고 있다.


In [None]:
#numpy 라이브러리 실행

import numpy as np

In [None]:
a = np.array([1,2,3], dtype = float)
a

In [None]:
# 차원 반환
a.ndim

In [None]:
b = np.array([[1,2,3],[4,5,6]])
print(b)

In [None]:
# 데이터 타입 반환
a.dtype

In [None]:
a.shape # 배열의 각 차원에서 요소의 개수를 나타냄

b.shape

In [None]:
print(np.sqrt(2))

# 브로드캐스팅<sup>broadcasting</sup>                
브로드캐스팅은 산술 연산에서 다른 모양의 배열을 처리하는 방법으로 배열 연산을 빠른 속도로 벡터화한다. 다음 코드는 배열과 스칼라값의 연산이다. 스칼라 값은 배열과 모양이 다르더라도 연산할 수 있다

In [None]:
data = np.array([1.0, 2.0])
data * 1.6

 배열과 스칼라값의 연산 > 참고 : https://numpy.org/doc/stable/user/absolute_beginners.html

 다음 코드의 변수 c는 (4, 3)의 배열 형태이고, d는 (3,)으로 1차원 벡터 형태이지만 연산할 수 있다. 이때 1차원 벡터의 크기는 배열의 열의 수인 3과 같아야 한다.

In [None]:
c = np.array([[ 0,  0,  0],
           [10, 10, 10],
           [20, 20, 20],
           [30, 30, 30]])
d = np.array([1, 2, 3])

print(c.shape, d.shape)
c + d

다음과 같이 (4, 3) 형태의 배열과 (4,) 형태의 1차원 벡터를 연산하면 열의 크기와 1차원 벡터의 크기가 달라 브로드캐스팅 되지 않고 오류가 발생할 수 있으므로 주의해야 한다.

In [None]:
e = np.array([1, 2, 3, 4])
print(c.shape, e.shape)
c + e

배열의 열 크기와 다른 크기의 1차원 벡터는 더할 수 없다

# 집계 함수<sup>Aggregate Functions</sup>

집계 함수를 통해 기술통계량을 계산핤 수 있다.
                 
  *	max() 또는 np.max() : 최댓값을 반환하는 함수                
  * min() 또는 np.min() : 최솟값을 반환하는 함수  

In [None]:
max(a)

In [None]:
a.max()

In [None]:
min(a)

   * sum() 또는 np.sum() : 합계를 반환하는 함수  

In [None]:
a.sum()

  *	np.mean(s, axis = 0) : 열을 따라 산술 평균을 반환하는 함수:             
  *	np.mean(s, axis = 1) : 행을 따라 산술 평균을 반환하는 함수   

In [None]:
s = [[10, 20, 30],
       [30, 40, 50],
       [50, 60, 70],
       [70, 80, 90]]

print("2차원 배열 :", s)
print("열에 따른 산술 평균 :", np.mean(s, axis=0))
print("행에 따른 산술 평균 :", np.mean(s, axis=1))

np.where() : 괄호 안의 조건에 맞는 값을 찾아서 그 원소의 인덱스를 배열로 반환하는 함수:

In [None]:
np.where(a < 3)

# 배열 생성
   
*	np.zeros((2, 3)): 원소가 모두 0으로 이루어진 2열 3행의 배열 생성         
*	np.ones((2, 3)): 원소가 모두 1로 이루어진 2열 3행의 배열 생성               
*	np.linspace(start, stop,step): 시작과 끝 사이에 균일하게  숫자를 생성           

In [None]:
# 배열생성
a = np.array([1,2,3,4])

print(a[1])
print(a[-1])
print(a[1:])

In [None]:
np.linspace(0, 2, 9) # 0에서 2까지 균일하게 9개의 숫자 생성

In [None]:
a = np.zeros(15)  #0으로 이루어진 크기가 10인 배열생성
a

In [None]:
b = np.ones(10) # 1을 가지고 10개를 만들어라
b

In [None]:
c = np.eye(4) #3행 3열의 배열 생성
c

In [None]:
# 연속된 숫자로 데이터 생성
print(np.arange(3))
print(np.arange(3, 7))
print(np.arange(3, 7, 2))

In [None]:
#1부터 2미만 구간에서 0.1간격으로 실수를 생성
a = np.arange(1, 2, 0.1)

#1부터 2까지 11개 구간으로 나눈 실수 생성
b = np.linspace(1, 2, 11)

print(a); print(b)

In [None]:
a = np.zeros(10) + 5
print(a)

In [None]:
a = np.arange(-np.pi, np.pi, np.pi/100)
plt.plot(a, np.sin(a))
plt.show()

In [None]:
a = np.arange(-5, 5)
print(a[a<0])

In [None]:
# 2차원 배열 생성
# 리스트를 생성하고 배열로 변환하기

list1 = [1, 2, 3, 4]
a = np.array(list1)

print('a.shape: ', a.shape)


In [None]:
b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b)

# 난수 생성      
* random.random()은 균등 분포로 표본을 추출     
* random.rand()는 균등 비율로 표본을 추출           
* random.randn()은 정규 분포로 표본을 추출      

In [None]:
d = np.random.random((2, 2)) # 2x2크기의 나수 배열 생성
d

# 0이상 1미만의 값에서 균등한 분포를 띄는 난수를 생성해라.

In [None]:
e = np.random.normal(0, 2, (2, 3)) # 평균 0, 표준 편차 2의 정규 분포에서 2x3 크기의 난수 배열 생성
print(e)

In [None]:
#rand는 0~1 사이에 있는 n개의 실수를 램덤하게 생성
a = np.random.rand(7)

print(a)
print(type(a))

In [None]:
print(np.random.choice(10, 6, replace = True))
# 0부터 9까지의숫자 중에서 중복없이 6개의 숫자를 무작위로 선택하는 함수

In [None]:
# 확률
print(np.random.choice(6,10, p=[0.1, 0.2, 0.3, 0.2, 0.1, 0.1]))

# 맷플롯립을 통한 넘파이 배열의 시각화

In [None]:
# numpy 라이브러리 활용해 그래프 그리기

import matplotlib.pyplot as plt
import numpy as np

dice = np.random.choice(6, 10)

plt.hist(dice, bins = 6)
plt.show()

In [None]:
# numpy 라이브러리 활용해 그래프 그리기

import matplotlib.pyplot as plt
import numpy as np

dice = np.random.choice(6, 100000, p=[0.1, 0.2, 0.3, 0.2, 0.1, 0.1])

plt.hist(dice, bins = 6)
plt.show()

In [None]:
#10부터 100까지 값을 가지고 200개의 데이터를 생성해라
x = np.random.randint(10, 100, 200)
y = np.random.randint(10, 100, 200)
size = np.random.randint(10, 100)

plt.scatter(x, y, s=size, c=x, cmap = 'jet', alpha = 0.7 )
plt.colorbar()
plt.show()