# Numpy?
 - 수학적 계산을 돕기 위해서 만들어진 라이브러리
 - 수치 해석용으로 만들어진 모듈 (머신러닝과 같은 데이터 분석을 위해 만들어진 것은 아니지만 분야를 가리지 않고 많이 사용)
  - ML/DL에서도 많이 사용
  - Pandas또한 자료의 기본 타입은 numpy를 사용한다.

In [1]:
# numpy improt  → numpy는 줄여서 np로 사용
import numpy as np 

## Numpy에서 지원하는 타입
1. array(배열)
 - 주로 통계분석이나, ML/DL에서 사용하는 타입

2. matrix
 - 수학적 걔산이 필요한 경우에 많이 사용 

## 배열의 기본 속성
- ndim : 배열의 차원
- shape 
  - 배열의 크기를 나타내고, 크기는 원소의 개수와 동일
  - 1차원 배열 → 행이 1이고 열이 n인 배열을 의미
  - 배열의 모양은 튜플로 표현됨

### 1차원 배열
 - python의 리스트와 거의 동

In [2]:
arr1 = np.array([1,2,3,4])
arr1

array([1, 2, 3, 4])

In [4]:
print(arr1.ndim)   # 배열의 차원 : 1차원
print(arr1.shape)  # 배열의 모양(크기) : 1행 4열

1
(4,)


### 2차원 배열

In [8]:
arr2 = np.array([
    [1,2,3,4],
    [5,6,7,8],
    [9,10,11,12]
])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [9]:
print(arr2.ndim)
print(arr2.shape)

2
(3, 4)


# 배열의 특징
 - 인덱싱, 슬라이싱
 - 팬시 인덱싱
 - 배열의 타입
 - numpy에서만 정의되는 특별한 타입

## 배열의 인덱싱과 슬라이싱
 - 리스트와 비슷하지만 표현이 다르다.
 - 기본적인 개념은 리스트와 동일

In [23]:
# 1차원 배열은 리스트와 거의 동일
display(arr1)       #  [1,2,3,4]
display(arr1[0])    #  1
display(arr1[1])    #  2 
display(arr1[-1])   #  4

array([1, 2, 3, 4])

1

2

4

In [24]:
# 배열도 iterable객체(반복 가능한 객체)이다.
# 리스트가 아니기 때문에 리스트에서 제공하는 메소드들은 사용할수 없다.
for i in arr1:
  print(i)

1
2
3
4


In [25]:
# 내장함수는 사용이 가능하다
display( min(arr1))   # 1
display( max(arr1))   # 4

1

4

In [26]:
# 슬라이스도 리스트처럼 동일하게 사용
display(arr1[:])      # [1,2,3,4]
display(arr1[::-1])   # [4,3,2,1]

array([1, 2, 3, 4])

array([4, 3, 2, 1])

#### 2차원 배열의 인덱싱과 슬라이싱
 - 인덱싱은 다음과 같이 표현됨
 $$
 array[ 행, 열 ] 
 $$
 - 슬라이스는 행과 열을 각각 정의할 수 있음
 $$
 array[ 행_시작 : 행_끝, 열_시작 : 열_끝 ]
 $$

In [27]:
# 2차원 배열의 인덱스
display(arr2)         # [[1,2,3,4],
                      #  [5,6,7,8],
                      #  [9,10,11,12]]
display(arr2[0,0])    # 1
display(arr2[0,1])    # 2
display(arr2[1,1])    # 6

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

1

2

6

In [28]:
# 배열은 "행 우선" 인덱스를 제공
# Pandas와 같은 경우 "열 우선" 인덱스를 제공
display(arr2[0])      # [1,2,3,4]
display(arr2[0,])     # [1,2,3,4]
display(arr2[0,:])    # [1,2,3,4]

array([1, 2, 3, 4])

array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [33]:
# 열만 인덱싱 할 수는 없다 →  " 슬라이스 활용 "
# 전체 행에 대해서 슬라이스를 한 이후에 열을 선택
display(arr2[:,1])    # [2 6 10]

[ 2  6 10]


In [37]:
# 행과 열을 동시에 슬라이스
display(arr2[1:,1:])  # [[6],[7],[8]
                      #  [10],[11],[12]]

array([[ 6,  7,  8],
       [10, 11, 12]])

연습

In [38]:
prac = np.arange(1,31).reshape(3,10)   #  1부터 31까지 30개의 숫자를 3행 10열로 배열을 만들어라
prac

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]])

In [41]:
display(prac[1,5])      # 16
display(prac[2,-2])     # 29
display(prac[1,3:6])    # 14 15 16
display(prac[1:,-3])    # 18 28
display(prac[:2,-2:])   # 9 10 19 20

16

29

array([14, 15, 16])

array([18, 28])

array([[ 9, 10],
       [19, 20]])

In [46]:
arrn = np.arange(1,51).reshape(5,10)   # 1부터 51까지 50개의 슷자를 5행 10열로 배열을 만들어라
arrn

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30],
       [31, 32, 33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48, 49, 50]])

In [47]:
# 14, 15, 16, 17, 24, 25, 26, 27, 34, 35, 36, 37
display(arrn[1:4,3:7])

# 12, 22, 32
display(arrn[1:-1,1])

array([[14, 15, 16, 17],
       [24, 25, 26, 27],
       [34, 35, 36, 37]])

array([12, 22, 32])

## 팬시 인덱싱 (배열 인덱싱)
 - 인덱스로 배열을 사용
  - boolean 배열: boolean(True, False)로 이루어진 배열
  - 정수 배열 : 정수로 이루어진 배열

In [48]:
# boolean 인덱스
# 배열에서 True에 해당하는 값만 선택
# boolean 배열을조건에 부합하는 결과만 선택할 수 있도록 생성해서 사용
display(arr1)
arr1[np.array([True,False,True,False])]

array([1, 2, 3, 4])

array([1, 3])

In [50]:
# 배열에서 조건에 맞는 값만검색
display(arr1 > 2)
display(arr1[arr1 > 2])

array([False, False,  True,  True])

array([3, 4])

In [53]:
# 정수 배열
# 배열에서 원하는 인덱스를 배열로 생성
# 중복 선택이 가능, 배열의 크기와 인덱스 배열의 크기가 달라고 상관 없음
display(arr1)
idx = np.array([1,1,3,3,2,2,0,0])   # [2,2,4,4,3,3,1,1]
arr1[idx]

array([1, 2, 3, 4])

array([2, 2, 4, 4, 3, 3, 1, 1])

## 배열의 타입
 - 하나의 타입만 원소로 가질 수 있다.
 - 배열은 배열이 생성될 때 원소들의 타입을 보고 기본적인 자료의 타입을 결정하게 된다.

In [55]:
arr1.dtype

dtype('int64')

In [56]:
# 원소의 타입이 여러개라면
# 가장 큰 타입을 기본 타입으로 결정
# 타입이 결정되면, 나머지 값들도 결정된 기본타입을 따르게 한다.
arr = np.array([1, 2, 3, 4, 5.0])
display(arr)
display(arr.dtype)

array([1., 2., 3., 4., 5.])

dtype('float64')

In [None]:
# 배열을 생성할 떄, 타입을 직접 결정
arr = np.array([1,2,3,4,5], dtype = np.float32)
display(arr)          # [1.0, 2.0, 3.0, 4.0, 5.0]
display(arr.dtype)    # float32

> 텐서플로우를 사용하는 경우에는 자료의 차원과 타입에 매우 민감하기 떄문에 중요하다

## 넘파이에서만 정의되어 있는 특별한 타입
 - inf
  - 표현할 수 없는 값
  - 함수가 수렴하지 않고, 발산하는 경우 (inf, -inf)
 - NaN(Not a Number)
  - 결측치를 표현 (비어있는 값)
  - 값을 표현할 수 없는 경우

In [59]:
  display(type(np.NaN))
  display(np.array([0]) / np.array([0]))

float

  


array([nan])

In [60]:
display(type(np.inf))
display(np.log(0))

float

  


-inf

# 배열을 생성하는 방법

## 초기화 된 배열
 - 0과 1만 특별히 취급
 - 원소가 전부 0이거나, 전부 1인 경우에는 선형대수에서는 특별하게 취급

In [65]:
# 0으로 초기화 된 배열
np.zeros(10, dtype=np.int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [68]:
# 1로 초기화 된 배열
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [69]:
# 0과 1 이 아닌 다른 값으로 초기화하고 싶은 경우
np.full(10, 5)

array([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])

## 수열을 생성하는 방법
 - range와 같은 역할
 - arrange
  - 실수(소수)에 대한 수열도 만들 수 있다.

In [71]:
np.arange(1, 10)  # 1부터 10까지의 수를 가지고 배열을 만들어라

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [72]:
np.arange(1,2,0.1)    # 1부터 2까지 0.1간격으로 배열을 만들어라

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

In [73]:
# 주어진 구간에서 개수만큼 균등한 간격으로 수열을 생성
# 마지막 원소 포함
display(np.linspace(0, 10, 11))
display(np.linspace(1, 2, 100))

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

array([1.        , 1.01010101, 1.02020202, 1.03030303, 1.04040404,
       1.05050505, 1.06060606, 1.07070707, 1.08080808, 1.09090909,
       1.1010101 , 1.11111111, 1.12121212, 1.13131313, 1.14141414,
       1.15151515, 1.16161616, 1.17171717, 1.18181818, 1.19191919,
       1.2020202 , 1.21212121, 1.22222222, 1.23232323, 1.24242424,
       1.25252525, 1.26262626, 1.27272727, 1.28282828, 1.29292929,
       1.3030303 , 1.31313131, 1.32323232, 1.33333333, 1.34343434,
       1.35353535, 1.36363636, 1.37373737, 1.38383838, 1.39393939,
       1.4040404 , 1.41414141, 1.42424242, 1.43434343, 1.44444444,
       1.45454545, 1.46464646, 1.47474747, 1.48484848, 1.49494949,
       1.50505051, 1.51515152, 1.52525253, 1.53535354, 1.54545455,
       1.55555556, 1.56565657, 1.57575758, 1.58585859, 1.5959596 ,
       1.60606061, 1.61616162, 1.62626263, 1.63636364, 1.64646465,
       1.65656566, 1.66666667, 1.67676768, 1.68686869, 1.6969697 ,
       1.70707071, 1.71717172, 1.72727273, 1.73737374, 1.74747

## 무작위 배열을 생성하는 방법
 - 랜덤
  - python에서 numpy의 random은 `균등 분포`를 의미

In [76]:
# 균등 분포를 통해서 정해진 개수만큼 수를 생성
# 랜덤하기 때문에 실행할 때마다 매번 다른 값이 생성
np.random.rand(10)

array([0.64763264, 0.54960783, 0.05883089, 0.51446117, 0.55334241,
       0.99879152, 0.57365595, 0.57891533, 0.05131227, 0.71811399])

In [100]:
# 정수 형태로 무작위 수를 생성
np.random.randint(0, 10, size=10)   # 0~ 10미만까지 수 중 10개 출력

array([0, 1, 3, 7, 6, 9, 3, 4, 0, 6])

In [108]:
# 무작위로 생성되는 수를 고정
# seed를 이용하여 고정할 수 있다.
np.random.seed(234112)
np.random.rand(5)   # 랜덤으로 5개를 출력

array([0.54706129, 0.31116316, 0.46603437, 0.49878725, 0.41383861])

In [117]:
# 중복되지 않은 무작위 수를 생성
arr = np.arange(1, 11)  # → 1부터 11미만까지 수 들로 배열 생성
display(arr)

 # replace의 값이 True면 중복 허용 , False면 중복 허용X
np.random.choice(arr, size=6, replace=False)   # → arr에서 중복 허용하지 않고 랜덤으로 6개 출력

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

array([ 9, 10,  4,  2,  5,  1])

랜덤은 표본 추출하는 경우와 샘플링하는 경우에 주로 사용

연습

 - 로또 번호 생성기
  - 로또는 1부터 45까지의 수 중에서 6자리의 수가 무작위로 선택
  - 중복은 허용하지 않음

In [119]:
lotto = np.arange(1,46)
display(lotto)

np.random.choice(lotto,size=6,replace=False)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45])

array([ 1, 42, 15, 26,  4,  7])

# 배열의 모양
 - 저차원 배열 → 고차원 배열로 변경
 - 고차원 배열 → 저차원 배열로 변경
  - 저차원은 1차원 배열로 변경 가능
 - 변경 전의 크기와 변경 후의 크기가 달라지면 안된다.
  - 자료의 개수가 반드시 일치

저차원 배열 → 고차원 배열로 변경

In [120]:
arr1 = np.random.randint(0, 10, size=4)
arr1

array([5, 3, 7, 1])

In [125]:
display(arr1.reshape(2,2))
print()
display(arr1.reshape(4,1))
print()

# 열의 크기를정해놓으면 나머지는 자동으로 계산
display(arr1.reshape(-1,2))
print()
display(arr1.reshape(-1,1))
print()

array([[5, 3],
       [7, 1]])




array([[5],
       [3],
       [7],
       [1]])




array([[5, 3],
       [7, 1]])




array([[5],
       [3],
       [7],
       [1]])




In [127]:
# 크기는 반드시 일치해야 한다.
arr1.reshape(-1,3)

ValueError: ignored

고차원 배열 → 저차원 배열로 변경

In [128]:
arr2 = np.random.randint(1,10, size=(3,3))
arr2

array([[4, 5, 1],
       [4, 7, 2],
       [6, 1, 3]])

In [132]:
# flatten()과 ravel()로   고 → 저차원 배열로 변경 가능
display( arr2.flatten() )
display( arr2.ravel() )

# 열 기준으로 변경
# order을 이용하여 행 기준으로 할지 열 기준으로 할지 결정 가능
# order의 값이 'F'면 열 기준   /   order의 값이 'C'면 행 기준  (기본값은 행 기준) 
display( arr2.flatten(order='F') )

array([4, 5, 1, 4, 7, 2, 6, 1, 3])

array([4, 5, 1, 4, 7, 2, 6, 1, 3])

array([4, 4, 6, 5, 7, 1, 1, 2, 3])

# 넘파이를 이용한 연산
 - 기본적인 연산

## 자료의 형태
 - 스칼라 (Scalar) 
 - 벡터 (Vector)
 - 행렬 (Matrix)

### 스칼라
- 물리학에서는 양(Volumn, Magnitude)을 표현
- 방향이 없고, 물리적인 `양`만을 표현
- 파이썬에서는 변하지 않는 상수(숫자) 정도로 이해할 수 있음

$$
  10, [[1]]
$$

### 벡터
- 물리학에서는 방향성을 가지고 있는 형태
- 파이썬에서는 행이 n개이고, 열이 1인 형태의 배열을 벡터라고 함
  - 행벡터와 열벡터가 있는데, 일반적으로 벡터라고 하면 열벡터를 의미

In [133]:
# numpy에서는 1차원 배열이 행벡터(1개의 행, n개의 열인 형태의 배열)가 됨
vector = np.random.randint(1,10, size=5)   # → 1부터 10미만인 수 들 중에서 랜덤으로 5개 추출
vector

array([7, 9, 6, 7, 1])

In [134]:
vector.reshape(-1,1)   # → 행은 알아서 지정, 열은 1개인 형태의 배열로 재배열 
# 이러한 형태는 열이 하나이기 때문에 열벡터

array([[7],
       [9],
       [6],
       [7],
       [1]])

In [135]:
# 특별한 벡터 → 영벡터, 일벡터
# 벡터인데 모든 원소가 0이거나, 1인 경우
np.zeros((4,1))  # 4행 1열을 모두 0으로 채운다

array([[0.],
       [0.],
       [0.],
       [0.]])

In [136]:
np.ones((4,1))   # → 4행 1열을 모두 1으로 채운다.

array([[1.],
       [1.],
       [1.],
       [1.]])

### 행렬(Matrix)
- 여러 개의 벡터가 모여서 하나의 행렬을 이루는 것

In [138]:
# Matrix  →  행이 n개이고, 열이 m개인 배열을 행렬
matrix = np.random.randint(1,16,size = (3,5))  #  → 3행 5열의 배열을 1~15까지의 수 들로 랜덤하게 채운다
matrix

array([[12,  2, 13, 14,  9],
       [14,  4, 14,  9, 13],
       [15, 14,  8,  7,  8]])

## 타입이 다른 피연산자간의 연산
- 사칙연산만 다룬다.
- 크기가 서로 다른 경우에는 문제가 됨
  - 브로드캐스팅이 되는 경우와 그렇지 않은 경우로 나눠서 보면 된다. 

+) 브로드캐스팅이 가능한 조건
 1. 차원의 크기가 1일 때 가능
    - 두 배열간 중 최소한 하나의 배열의 차원이 1차원이라면 가능하다.
 2. 차원의 짝이 맞을 때 가능
    - 차원에 대해 축의 길이가 동일하면 브로드캐스팅이 가능하다.

In [142]:
# 스칼라와 벡터의 연산
# 작은 쪽의 크기를 큰 쪽의 크기에 맞춰서 확장(브로드캐스팅)
# 같은 위치의 값 들끼리 연산
vector = np.random.randint(1,10,size=(4,1)) # 4행 1열을 1부터 9까지 랜덤으로 뽑아서 채워라
vector

array([[3],
       [9],
       [2],
       [6]])

In [143]:
# 스칼라를 연산하려는 벡터의 크기에 맞춰서 확장
2 * vector

array([[ 6],
       [18],
       [ 4],
       [12]])

In [145]:
# 스칼라와 행렬의 연산
# 브로드캐스팅 후에 같은 위치의 값 들끼리 연산
mat = np.random.randint(1,10, size=(3,4))
mat

array([[1, 6, 6, 1],
       [7, 1, 6, 1],
       [8, 5, 5, 8]])

In [147]:
2 * mat

array([[ 2, 12, 12,  2],
       [14,  2, 12,  2],
       [16, 10, 10, 16]])

In [148]:
# 벡터와 행렬의 연산
# 벡터가 행렬의 크기에 맞춰서 브로드캐스팅이 가능하면 연산이 가능
display(vector)
display(mat)

array([[3],
       [9],
       [2],
       [6]])

array([[1, 6, 6, 1],
       [7, 1, 6, 1],
       [8, 5, 5, 8]])

In [150]:
vector * mat   # 크기가 맞지 않기 때문에 불가능 

ValueError: ignored

In [151]:
vector = np.random.randint(1,10,size=(3,1))
vector

array([[2],
       [4],
       [3]])

In [152]:
vector * mat

array([[ 2, 12, 12,  2],
       [28,  4, 24,  4],
       [24, 15, 15, 24]])

In [153]:
# 벡터와 벡터의 연산은 브로드캐스팅이 되지 않기 때문에 크기가 반드시 같아야 한다.
vec1 = np.random.randint(1,10,size=(3,1))
vec2 = np.random.randint(1,10,size=(4,1))
display(vec1,vec2)

array([[2],
       [9],
       [3]])

array([[5],
       [6],
       [5],
       [4]])

In [154]:
vec1 * vec2   # 벡터는 크기가 같지 않기 때문에 불가능

ValueError: ignored

In [155]:
vec1 = np.random.randint(1,10,size=(3,1))
vec2 = np.random.randint(1,10,size=(3,1))
display(vec1,vec2)

array([[9],
       [7],
       [3]])

array([[6],
       [8],
       [2]])

In [156]:
vec1 * vec2 

array([[54],
       [56],
       [ 6]])

In [157]:
# 행렬과 행렬의 연산
# 차원이 같으면 벡터와 마찬가지로 브로드캐스팅이 되지 않는다.
#  → 하지만 차원이 같을 때 두 행렬의 크기가 같다면 가능하다.
# 차원이 다르면 저차원 행렬이 고차원 행렬로 브로드캐스팅하면 연산이 가능
mat1 = np.random.randint(1,10,size=(2,2))
mat2 = np.random.randint(1,10,size=(2,2))
display(mat1,mat2)

array([[9, 9],
       [7, 6]])

array([[5, 1],
       [3, 4]])

In [158]:
mat1 * mat2

array([[45,  9],
       [21, 24]])