# numpy
- 데이터는 행렬로 표현
- 행렬 데이터 빠르게 계산을 해야 합니다
- 행렬 데이터 생성, 수정, 계산 등을 빠르게 처리해주는 패키지
- 특징
    - C, C++, 포트란 으로 작성
    - 선형대수학을 빠르게 연산
        - 스칼라, 벡터, 매트릭스

In [1]:
import numpy as np

## 행렬 데이터 생성
ndarray : 한가지 데이터 타입만 값으로 사용 가능

In [2]:
array = np.array([1,2,3])
type(array), array

(numpy.ndarray, array([1, 2, 3]))

In [4]:
array2 = np.array(
    [[1,2,3],
    [4,5,6]]
)
type(array2), array2, array2.ndim, array2.shape

(numpy.ndarray,
 array([[1, 2, 3],
        [4, 5, 6]]),
 2,
 (2, 3))

### 행렬의 모양 변경하기

In [11]:
array2.reshape(3,2), array2

(array([[1, 2],
        [3, 4],
        [5, 6]]),
 array([[1, 2, 3],
        [4, 5, 6]]))

In [7]:
## 3차원
array2.reshape(3,2,1)

array([[[1],
        [2]],

       [[3],
        [4]],

       [[5],
        [6]]])

### 행렬 데이터의 선택
offset index, masking

In [9]:
array2[1][::-1]

array([6, 5, 4])

### 데이터 수정

In [12]:
ls = [1,2,3]
ls[1] = 5
ls

[1, 5, 3]

In [16]:
array2[1][1] = 10
array2[0] = 0   ## 브로드 캐스팅
array2

array([[ 0,  0,  0],
       [ 4, 10, 10]])

In [17]:
array2[0] = [8,7,6]
array2

array([[ 8,  7,  6],
       [ 4, 10, 10]])

#### 한 행렬엔 하나의 타입만 가능

In [18]:
array2[1] = ["hi","im","dokyum"]

ValueError: invalid literal for int() with base 10: 'hi'

### 조건으로 선택

In [19]:
array2

array([[ 8,  7,  6],
       [ 4, 10, 10]])

In [20]:
array2 > 7

array([[ True, False, False],
       [False,  True,  True]])

### 마스킹

In [21]:
idx = array2 > 7
array2[idx]

array([ 8, 10, 10])

In [22]:
array2[idx] = 100
array2

array([[100,   7,   6],
       [  4, 100, 100]])

### 행렬데이터 생성 2

In [24]:
data = np.zeros((2,3))
data

array([[0., 0., 0.],
       [0., 0., 0.]])

##### .dtype : ndarray data type checker

In [27]:
data.dtype

dtype('float64')

#### .astype : 타입 변경

In [26]:
## astype : 
data2 = data.astype("int")
data2.dtype, data2

(dtype('int64'),
 array([[0, 0, 0],
        [0, 0, 0]]))

In [29]:
data3 = np.ones((2,3,2))
data3

array([[[1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.]]])

### arrange

In [31]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [32]:
np.arange(5,10)

array([5, 6, 7, 8, 9])

### quiz
100 ~ 130 까지 랜덤한 숫자를 가지는 8 * 8 행렬을 만들고\
3의 배수는 fiz, 5의 배수는 buz, 3과 5의 배수는 fbz 문자로 변환

```
nd.array.astype()
```

In [12]:
datas = np.random.randint(100,130,size=(8,8))
datas

array([[118, 107, 100, 113, 125, 112, 105, 107],
       [103, 109, 119, 129, 109, 117, 116, 109],
       [112, 127, 100, 123, 117, 119, 111, 119],
       [113, 122, 121, 103, 103, 119, 102, 121],
       [107, 116, 114, 117, 101, 110, 117, 113],
       [114, 112, 127, 119, 100, 120, 110, 120],
       [113, 100, 104, 115, 124, 105, 102, 112],
       [117, 125, 128, 108, 113, 126, 126, 119]])

In [8]:
data1 = np.array([1,2,3])
data2 = [True, False, True]
data1[data2]

array([1, 3])

In [18]:
## 3의 배수, 5의 배수, 15의 배수 위치값에 대한 T,F matrix 생성
idx_3 = datas % 3 == 0
idx_5 = datas % 5 == 0
idx_15 = datas % 15 == 0
idx_15

array([[False, False, False, False, False, False,  True, False],
       [False, False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False, False],
       [False, False, False, False, False,  True, False,  True],
       [False, False, False, False, False,  True, False, False],
       [False, False, False, False, False, False, False, False]])

In [17]:
## 데이터의 타입을 str으로 변환
result = datas.astype("str")
result

array([['118', '107', '100', '113', '125', '112', '105', '107'],
       ['103', '109', '119', '129', '109', '117', '116', '109'],
       ['112', '127', '100', '123', '117', '119', '111', '119'],
       ['113', '122', '121', '103', '103', '119', '102', '121'],
       ['107', '116', '114', '117', '101', '110', '117', '113'],
       ['114', '112', '127', '119', '100', '120', '110', '120'],
       ['113', '100', '104', '115', '124', '105', '102', '112'],
       ['117', '125', '128', '108', '113', '126', '126', '119']],
      dtype='<U21')

In [19]:
## T, F matrix를 이용하여 특정 조건의 대이터를 선택 후 브로드캐스팅하게 값을 대입
result[idx_3] = "fiz"
result[idx_5] = "buz"
result[idx_15] = "fbz"

In [20]:
result

array([['118', '107', 'buz', '113', 'buz', '112', 'fbz', '107'],
       ['103', '109', '119', 'fiz', '109', 'fiz', '116', '109'],
       ['112', '127', 'buz', 'fiz', 'fiz', '119', 'fiz', '119'],
       ['113', '122', '121', '103', '103', '119', 'fiz', '121'],
       ['107', '116', 'fiz', 'fiz', '101', 'buz', 'fiz', '113'],
       ['fiz', '112', '127', '119', 'buz', 'fbz', 'buz', 'fbz'],
       ['113', 'buz', '104', 'buz', '124', 'fbz', 'fiz', '112'],
       ['fiz', 'buz', '128', 'fiz', '113', 'fiz', 'fiz', '119']],
      dtype='<U21')

### quiz

1 ~ 20 까지 랜덤한 숫자를 가지는 5 * 5 행렬 생성\
최대값에는 MAX, 최소값에는 MIN 문자열이 들어가도록 치환하는 코드
```python
    np.min(ndarray), np.max(ndarray)
```

In [52]:
datas = np.random.randint(1,21,size=(5*5))
datas

array([ 2, 10, 15, 17, 16, 15,  5, 18, 14,  8,  3, 17,  6,  4,  4,  6,  2,
       15, 10,  3, 11, 18,  5, 20,  1])

In [53]:
min_num, max_num = np.min(datas), np.max(datas)
min_num, max_num

(1, 20)

In [54]:
idx_min = datas == [min_num]
idx_max = datas == [max_num]

In [55]:
result = datas.astype("str")
result

array(['2', '10', '15', '17', '16', '15', '5', '18', '14', '8', '3', '17',
       '6', '4', '4', '6', '2', '15', '10', '3', '11', '18', '5', '20',
       '1'], dtype='<U21')

In [56]:
result[idx_min] = "MIN"
result[idx_max] = "MAX"

In [57]:
result

array(['2', '10', '15', '17', '16', '15', '5', '18', '14', '8', '3', '17',
       '6', '4', '4', '6', '2', '15', '10', '3', '11', '18', '5', 'MAX',
       'MIN'], dtype='<U21')

## linspace, logspace
- linspace : linear space : 설정한 범위에서 선형적으로 분할한 위치의 값을 출력
- logspace :  : 설정한 범위에서 로그로 분할한 위치의 값을 출력

#### linspace

In [59]:
np.linspace(0,100,5)

array([  0.,  25.,  50.,  75., 100.])

In [60]:
## log10(x1) = 2,log10(x3) =4
np.logspace(2,4,3)

array([  100.,  1000., 10000.])

In [61]:
## 30세에 연봉이 $100,000 이고, 60세의 연봉이 $1,000,000 일때
## 연봉이 선형으로 증가, 지수함수로 증가하는 두 경우에서의 40세, 50세 연봉을 출력

In [62]:
age_30 = 100000
age_60 = 1000000

In [63]:
np.linspace(age_30,age_60,4)

array([ 100000.,  400000.,  700000., 1000000.])

In [66]:
np.logspace(np.log10(age_30),np.log10(age_60),4),2

(array([ 100000.        ,  215443.46900319,  464158.88336128,
        1000000.        ]),
 2)

### numpy random
- seed: 랜덤값을 설정값
- rand : 균등분포로 랜덤한 값 생성
- rnadn : 정규분포(가우시안 분포)로 랜덤한 값 생성
- randint : 균등분포로 정수값 생성
- suffle : 행렬 데이터를 섞어 줌
- choice : 특정 확률로 데이터를 선택

### seed

In [68]:
np.random.seed(1)
result1 = np.random.randint(10, 101,10)

np.random.seed(1)
result2 = np.random.randint(10, 101,10)

np.random.seed(2)
result3 = np.random.randint(10, 101,10)

result1, result2, result3

(array([47, 22, 82, 19, 85, 15, 89, 74, 26, 11]),
 array([47, 22, 82, 19, 85, 15, 89, 74, 26, 11]),
 array([50, 25, 82, 32, 53, 92, 85, 17, 44, 59]))

In [69]:
np.random.rand(10)

array([0.20464863, 0.61927097, 0.29965467, 0.26682728, 0.62113383,
       0.52914209, 0.13457995, 0.51357812, 0.18443987, 0.78533515])

In [70]:
np.random.randn(10)

array([-0.0191305 ,  1.17500122, -0.74787095,  0.00902525, -0.87810789,
       -0.15643417,  0.25657045, -0.98877905, -0.33882197, -0.23618403])

#### shuffle

In [83]:
r = np.random.randint(1,11,(3,4))
r

array([[ 9,  6,  5,  3],
       [10,  8,  2, 10],
       [ 3,  2,  1,  8]])

In [84]:
np.random.shuffle(r)
r

array([[ 3,  2,  1,  8],
       [ 9,  6,  5,  3],
       [10,  8,  2, 10]])

#### choice

In [86]:
np.random.choice(5, 10, p=[0.1,0,0.4,0.2,0.3])

array([3, 2, 2, 3, 2, 2, 2, 4, 4, 3])

#### unique

In [87]:
numbers, counts = np.unique(r, return_counts=True)
print(numbers)
print(counts)

[ 1  2  3  5  6  8  9 10]
[1 2 2 1 1 2 1 2]


## 행렬 데이터의 결합

- concatenate

In [92]:
na1 = np.random.randint(10,size=(2,3))
na2 = np.random.randint(10,size=(3,2))
na3 = np.random.randint(10,size=(3,3))
print(na1)
print(na2)
print(na3)

[[4 8 6]
 [3 8 8]]
[[5 1]
 [3 3]
 [3 2]]
[[6 5 5]
 [2 5 6]
 [1 5 0]]


In [93]:
## 세로 결합
np.concatenate((na1,na3))

array([[4, 8, 6],
       [3, 8, 8],
       [6, 5, 5],
       [2, 5, 6],
       [1, 5, 0]])

In [94]:
np.concatenate((na2,na3),axis=1)

array([[5, 1, 6, 5, 5],
       [3, 3, 2, 5, 6],
       [3, 2, 1, 5, 0]])

#### c_, r_
- c_ : 컬럼 기준으로 더하기 : 컬럼의 숫자가 같아야 함 (다르면 에러)
- r_ : row 기준으로 더하기

In [97]:
np.c_[na2,na3]

array([[5, 1, 6, 5, 5],
       [3, 3, 2, 5, 6],
       [3, 2, 1, 5, 0]])

In [98]:
np.c_[np.array([1,2,3]),np.array([4,5,6])]

array([[1, 4],
       [2, 5],
       [3, 6]])

In [99]:
np.r_[na1,na3]

array([[4, 8, 6],
       [3, 8, 8],
       [6, 5, 5],
       [2, 5, 6],
       [1, 5, 0]])