### 빅데이터 분석을 위한 파이썬 라이브러리

- <b>Numpy : 과학계산 및 수학계산</b>
- <b>pandas : 데이터 처리 및 분석</b>
- <b>matplotlib, seaborn : 데이터 시각화</b>
- <b>plotly : 오픈 소스인 대화형의 고품질 도면 및 인터렉티브한 그래픽 라이브러리</b>
- SciPy : 신초 처리, 최적화, 과학 계산 및 통계 처리
- <b>BeautifulSoup : HTML과 XML 에서 정보를 수집</b>
- Scrapy : 웹 크롤링 및 데이터 수집
- TensorFlow : 머신러닝 및 딥러닝
- Keras : 신경망 라이브러리 및 딥러닝
- NLTK : 자연어 처리

---

### Numpy (Numerical Python)

- 파이썬의 수치 해석 프로그램인 Numeric 를 개선, 보완한 패키지
- 산술 계산을 위한 가장 중요한 필수 패키지
- 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로트캐스팅 기능 제공
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
- 이미지와 컴퓨터 그래픽을 빠르게 처리
- C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API 제공

###  [참고] <a href='https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf'>NumPy Cheat Sheet</a>
>> [Numpy 공식] <a href='https://numpy.org/doc/stable/user/index.html#user'>Numpy Documents</a>

### 1. 넘파이 배열
    - 벡터와 매트릭스를 배열이라고 함
    - 벡터( 1차원 ), 매트릭스( 2차원 ), 텐서 플로우( 3차원 이상 )
    - 논리적이고 통계적인 연산과 푸리에 변환 같은 연산을 매우 효율적으로 처리
    - 머신러닝에서 사용되는 주요 데이터 구조

### 2. ndarray 클래스 - 넘파이 배열 클래스 타입

- 다차원 배열을 쉽게 생성하고 다양한 연산 수행
- np.array(ndarray로 변환을 원하는 객체)
- shape - 차원과 크기를 튜플 형태로 돌려줌
- ndim - n dimesion(차원 확인)

<img src="https://velog.velcdn.com/images%2Fbotry%2Fpost%2F592b114f-145e-47dd-8d5e-bd5ddb179864%2Farray.png" width="720" height="404">

***

In [6]:
# import Module
import numpy as np # numpy 는 np 라는 별칭을 기본적으로 사용한다

#### 1 ) np.array([List]) : python의 List를 이용해 배열 생성

**>> 1차원 배열 ( 벡터 )**

In [3]:
array1 = np.array([1,2,3,4,5,6])
array1 # 셀 마지막 줄의 경우, print() 를 생략하더라도 결과가 출력 된다.

array([1, 2, 3, 4, 5, 6])

In [12]:
print(f'type : {type(array1)}')
print(f'shape : {array1.shape}')

type : <class 'numpy.ndarray'>
shape : (6,)


**>> 2차원 배열 ( 매트릭스 )**

In [9]:
array2 = np.array([[1,2,3], [4,5,6]])
array2

array([[1, 2, 3],
       [4, 5, 6]])

In [13]:
print(f'type : {type(array2)}')
print(f'shape : {array2.shape}')

type : <class 'numpy.ndarray'>
shape : (2, 3)


In [14]:
array2 = np.array([[1,2,3]])
array2

array([[1, 2, 3]])

In [15]:
print(f'type : {type(array2)}')
print(f'shape : {array2.shape}')

type : <class 'numpy.ndarray'>
shape : (1, 3)


#### 2) .ndim .shape .dtype : 배열의 정보 확인

In [24]:
array3 = np.array([1,2.0,3,'4','5',6])
array4 = np.array([1,2,3,4.0,5,6])

In [25]:
print(f'array1 : {array1.shape} / array2 : {array2.shape}') # 배열의 최대 크기
print(f'array1 : {array1.ndim} 차원 / array2 : {array2.ndim} 차원') # 배열의 차원 수
print(f'array1 : {array1.dtype} / array2 : {array2.dtype} / array3 : {array3.dtype} / array4 : {array4.dtype}') # 데이터 타입

array1 : (6,) / array2 : (1, 3)
array1 : 1 차원 / array2 : 2 차원
array1 : int32 / array2 : int32 / array3 : <U32 / array4 : float64


> Python 의 리스트와 달리 Numpy 의 배열은 자료형이 같은 타입으로만 구성되어야만 한다.

#### 3) astype(변환할 타입)

In [26]:
array1 = np.array([1,2,3])
print(array1.dtype)

int32


In [28]:
array1_float = array1.astype('float64')
print(f'array1 : {array1_float}, type : {array1_float.dtype}')

array1 : [1. 2. 3.], type : float64


In [29]:
array1_float_int = array1.astype('int32')
print(f'array1 : {array1_float_int}, type : {array1_float_int.dtype}')

array1 : [1 2 3], type : int32


In [31]:
array2 = np.array([1.2, 2.2, 3.2])
array2_int = array2.astype('int32') # 형변환 과정에서 소수점 아래 데이터 손실 발생
print(f'array2 : {array2_int}, type : {array2_int.dtype}')

array2 : [1 2 3], type : int32


## Numpy 배열 생성 함수
#### 1) arange(n) : 0 ~ n - 1 까지 값을 순차적으로 ndarray 값으로 생성 ( range 와 같은 양식 )

In [35]:
print(np.arange(10))
print(np.arange(5,10))
print(np.arange(1,11,2))

[0 1 2 3 4 5 6 7 8 9]
[5 6 7 8 9]
[1 3 5 7 9]


**[ Question ] 5의 배수 ( 1 ~ 100 )**

In [36]:
np.arange(1,101,5)

array([ 1,  6, 11, 16, 21, 26, 31, 36, 41, 46, 51, 56, 61, 66, 71, 76, 81,
       86, 91, 96])

#### 2) zeros((row, col)) : 0 으로 채워서 ndarray 반환

In [44]:
print(np.zeros(3)) # [0. 0. 0.] > float 타입으로 반환
print(np.zeros(3, dtype='int32')) # [0 0 0] int형 지정
print(np.zeros((2,1))) # 2 차원
print(np.zeros((3,2,3))) # 3 차원

[0. 0. 0.]
[0 0 0]
[[0.]
 [0.]]
[[[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]


#### 3) ones((row, col)) : 1 로 채워서 ndarray 반환 ( zeros 와 같은 구조 )

In [46]:
print(np.ones(3)) # zeros 와 마찬가지로 float 타입을 반환한다.
print(np.ones((2,3))) # 2 차원

[1. 1. 1.]
[[1. 1. 1.]
 [1. 1. 1.]]


#### 4) empty((row, col)) : 무작위 값으로 ndarray 반환

In [52]:
print(np.empty(4)) # [6.23042070e-307 4.67296746e-307 1.69121096e-306 8.01106037e-307] > 지수형태로 랜덤 값
print(np.empty((3,4)))
print(np.empty((3,4), dtype='int'))

[6.23042070e-307 4.67296746e-307 1.69121096e-306 8.01106037e-307]
[[9.18998682e-312 3.16202013e-322 0.00000000e+000 0.00000000e+000]
 [6.23054293e-307 1.02964479e-071 1.80101709e+185 9.30589212e+165]
 [6.58873642e-066 5.05690897e-038 9.95656910e-043 3.12301048e-033]]
[[         0 1072693248          0 1072693248]
 [         0 1072693248          0 1072693248]
 [         0 1072693248          0 1072693248]]


In [53]:
# 시간비교 : 512 ns ± 11 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
%timeit np.zeros(4)

512 ns ± 11 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [54]:
# 시간비교 : 2.27 µs ± 76.9 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
%timeit np.ones(4)

2.27 µs ± 76.9 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [55]:
# 시간비교 : 505 ns ± 15 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
%timeit np.empty(4)

505 ns ± 15 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


#### 5) full((row, col), value) : value 값으로 채운 후 ndarray 반환 ( dtype 은 value를 따라간다 )

In [60]:
print(np.full((3,4), 2))

[[2 2 2 2]
 [2 2 2 2]
 [2 2 2 2]]


#### 6) eye(size, k = val) : size 만큼의 정사각형 배열을 생성하여 k( 기준 ) 을 갖는 단위행렬을 생성한다. 

In [62]:
print(np.eye(5))
print(np.eye(5, k = -1))

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]
[[0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]]


#### 7) linspace(start, end, totalCnt) : 명시된 간격으로 균등하게 분할된 ndarray 생성

In [63]:
print(np.linspace(1,10,5)) # [ 1.    3.25  5.5   7.75 10.  ] 동일한 간격으로 값을 배분 (1 ~ 10 :: 2.25)

[ 1.    3.25  5.5   7.75 10.  ]


#### 8) random
###### .rand(row, col) : 0 ~ 1 사이의 숫자가 랜덤으로 생성
###### .randn(row, col) : 가우시안 표준 정규분포에 따른 random 변수 생성
###### .randint(start, end, (row, col)) : 지정한 정수로 된 랜덤 ndarray 생성
###### .seed(임의의 수) : 랜덤한 값을 동일하게 다시 생성하고자 할 때 사용

In [96]:
np.random.seed(42) # seed 번호 :: random 값에 대한 좌표와 같은 개념 >> Random 변수는 Seed 를 통해서 결정된다.
print(np.random.rand(2,3))
print(np.random.randn(3,4,2))
print(np.random.randint(1, 100, (2,3)))

[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]]
[[[ 1.57921282  0.76743473]
  [-0.46947439  0.54256004]
  [-0.46341769 -0.46572975]
  [ 0.24196227 -1.91328024]]

 [[-1.72491783 -0.56228753]
  [-1.01283112  0.31424733]
  [-0.90802408 -1.4123037 ]
  [ 1.46564877 -0.2257763 ]]

 [[ 0.0675282  -1.42474819]
  [-0.54438272  0.11092259]
  [-1.15099358  0.37569802]
  [-0.60063869 -0.29169375]]]
[[84 92 60]
 [71 44  8]]


#### 9) choice(array, size=(row, col), replace=[True|False]) : 주어진 1차원 ndarray 로부터 랜덤하게 샘플링 ( replace : 중복여부 ( Default : True ) )

In [98]:
# 정수 : np.arange(100)
# 1 차원 배열 : 배열내의 데이터를 추출하여 샘플링 반환
print(np.random.choice(100, size=(3,4)))

[[92 62 17 89]
 [43 33 73 61]
 [99 13 94 47]]


In [100]:
array1 = np.array([1,2,3,4,5,6,7,8,9])
np.random.choice(array1, size = (2, 2), replace=False)

array([[3, 1],
       [6, 4]])

## 인덱싱 (Indexing)
 * 특정한 데이터 추출 : 원하는 위치의 인덱스 값 지정
 * 슬라이싱(slicing) : 연속된 인덱싱 상의 ndarray 추출
 * 팬시 인덱싱(Fancy Indexing) : 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환
 * 불린 인덱싱(Boolean Indexing) : 특정 조건에 해당하는지 여부인 [True|False] 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray 반환

In [101]:
array1 = np.arange(1, 10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [106]:
print(f'Type : {type(array1[3])}')
print(f'인덱싱 :: array1[3] > {array1[3]}') # 인덱스 번호는 0 부터 시작
print(f'인덱싱 :: array1[-3] > {array1[-3]}') # 음수의 경우 뒤에서 인덱싱

Type : <class 'numpy.int32'>
인덱싱 :: array1[3] > 4
인덱싱 :: array1[-3] > 7


In [108]:
array_2d = array1.reshape(3,3) #  reshape : ndarray 의 차원을 변경할 때 사용
array_2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [110]:
print(f'2차원 인덱싱 : array_2d[1] : {array_2d[1]}')
print(f'2차원 인덱싱 : array_2d[1][1] : {array_2d[1][1]}')
print(f'2차원 인덱싱 : array_2d[2, -1] : {array_2d[2, -1]}')

2차원 인덱싱 : array_2d[1] : [4 5 6]
2차원 인덱싱 : array_2d[1][1] : 5
2차원 인덱싱 : array_2d[2, -1] : 9


In [4]:
array_3d = np.arange(36).reshape(4,3,3)
array_3d

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]],

       [[27, 28, 29],
        [30, 31, 32],
        [33, 34, 35]]])

In [7]:
print(f'3차원 인덱싱 : array_3d[0] \n {array_3d[0]}\n')
print(f'3차원 인덱싱 : array_3d[0, 1] \n {array_3d[0, 1]}\n')
print(f'3차원 인덱싱 : array_3d[0, 1, -1] \n {array_3d[0, 1, -1]}\n')
print(f'[Q] 16 인덱싱 : array_3d[1, 2, 1] \n {array_3d[1, 2, 1]}')

3차원 인덱싱 : array_3d[0] 
 [[0 1 2]
 [3 4 5]
 [6 7 8]]

3차원 인덱싱 : array_3d[0, 1] 
 [3 4 5]

3차원 인덱싱 : array_3d[0, 1, -1] 
 5

[Q] 16 인덱싱 : array_3d[1, 2, 1] 
 16


## 슬라이싱 (Slicing) : 연속된 인덱싱 상의 ndarray 추출

In [8]:
array1 = np.arange(1,10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
# 뒷자리 인덱스 번호는 포함하지 않는다 ( 인덱스 0 ~ 2 까지만 추출 )
# 앞자리는 시작 숫자, 포함한다
print(f'1차원 슬라이싱 : array1[:3] > {array1[:3]}') 
print(f'1차원 슬라이싱 : array1[3:] > {array1[3:]}') 
print(f'1차원 슬라이싱 : array1[1:5] > {array1[1:5]}') 
print(f'1차원 슬라이싱 : array1[:] > {array1[:]}') 

1차원 슬라이싱 : array1[:3] > [1 2 3]
1차원 슬라이싱 : array1[3:] > [4 5 6 7 8 9]
1차원 슬라이싱 : array1[1:5] > [2 3 4 5]
1차원 슬라이싱 : array1[:] > [1 2 3 4 5 6 7 8 9]


In [13]:
array2 = array1.reshape(3,3)
array2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [19]:
# array[행슬라이싱, 열슬라이싱]
print(f'2차원 슬라이싱 : array2[0:2, 0:1] \n {array2[0:2, 0:1]}')
print(f'2차원 슬라이싱 : array2[1:3, :] \n {array2[1:3, :]}')
print(f'2차원 슬라이싱 : array2[0:2, 1:3] \n {array2[0:2, 1:3]}')
print(f'2차원 슬라이싱 : array2[:2, 1:] \n {array2[:2, 1:]}')

2차원 슬라이싱 : array2[0:2, 0:1] 
 [[1]
 [4]]
2차원 슬라이싱 : array2[1:3, :] 
 [[4 5 6]
 [7 8 9]]
2차원 슬라이싱 : array2[0:2, 1:3] 
 [[2 3]
 [5 6]]
2차원 슬라이싱 : array2[:2, 1:] 
 [[2 3]
 [5 6]]


## 팬시 인덱싱 (Fancy Indexing)

In [31]:
print(f'팬시 인덱싱 : array2[[0, 1], 2] \n {array2[[0, 1], 2]}')
print(f'팬시 인덱싱 : array2[[0, 1], 0:2] \n {array2[[0, 1], 0:2]}')
print(f'팬시 인덱싱 : array2[[0, 1]] \n {array2[[0, 1]]}')

팬시 인덱싱 : array2[[0, 1], 2] 
 [3 6]
팬시 인덱싱 : array2[[0, 1], 0:2] 
 [[1 2]
 [4 5]]
팬시 인덱싱 : array2[[0, 1]] 
 [[1 2 3]
 [4 5 6]]


## 불린 인덱싱 (Boolean Indexing)

In [40]:
print(f'불린 인덱싱 : array1[array1 > 5] \n {array1[array1 > 5]}')
print(f'불린 인덱싱 : array2[array2 % 2 == 0] \n {array2[array2 % 2 == 0]}') # 2 차원 배열은 1차원 배열로 변환 반환

불린 인덱싱 : array1[array1 > 5] 
 [6 7 8 9]
불린 인덱싱 : array2[array2 % 2 == 0] 
 [2 4 6 8]


In [42]:
s = np.random.randint(1, 100, size = 10)
s

array([72, 30, 56, 25, 75, 46, 32,  9,  8, 15])

In [None]:
print(f'불린 인덱싱 : s % 2 == 0 \n {s % 2 == 0}') # 불린형태로 반환, True 인 경우만 배열에 append 하여 배열 반환
print(f'불린 인덱싱 : s[s > 40] \n {s[s > 40]}')
print(f'불린 인덱싱 : s[(s % 2 == 0) & (s > 60)] \n {s[(s % 2 == 0) & (s > 60)]}') # numpy ( and > (&) / or > (|) / not > (~) 사용 불가)
print(f'불린 인덱싱 : s[(s == 72) | (s == 9)] \n {s[(s == 72) | (s == 9)]}')
print(f'불린 인덱싱 : s[~(s == 72)] \n {s[~(s == 72)]}')
print(f'불린 인덱싱 : {s[np.logical_and(s % 2 == 0, s > 60)]}')
print(f'불린 인덱싱 : {s[np.logical_or(s == 72, s == 9)]}')
print(f'불린 인덱싱 : {s[np.logical_not(s == 72)]}')


## 배열의 형태 변환 ( 차원 변환 )
* 다차원 배열을 1차원 배열로 변경
    * ravel / flatten / reshape 등 활용
    
##### ravel / flatten / reshape 의 차이
* ravel : 원본과 연결됨 ( 연결·연동 )
    * numpy 함수
* flatten : 원본과 연결되어있지 않음 ( 복제 )
    * ndarray 함수
* reshape : reshape 한 후의 결과의 전체 원소 개수와 이전 개수가 같아야 변환이 가능하다
    * ndarray 함수

In [61]:
x = np.arange(15).reshape(3,5)
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [86]:
y = np.arange(12).reshape(3,2,2)
y

array([[[ 0,  1],
        [ 2,  3]],

       [[ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11]]])

In [87]:
print(f'x.ravel() : {x.ravel()}')
print(f'np.ravel(x) : {np.ravel(x)}')
print(f'x.flatten() : {x.flatten()}') # np.flatten(x) :: 사용 X (numpy 에 없음, ndarray 함수)

print(f'y.ravel() : {y.ravel()}')
print(f'np.ravel(y) : {np.ravel(y)}')
print(f'y.flatten() : {y.flatten()}') # np.flatten(x) :: 사용 X (numpy 에 없음, ndarray 함수)

# reshape 를 활용한 flatten
print(f'x.reshape(-1) : {x.reshape(-1)}')

x.ravel() : [100   1   2   3   4   5   6   7   8   9  10  11  12  13  14]
np.ravel(x) : [100   1   2   3   4   5   6   7   8   9  10  11  12  13  14]
x.flatten() : [100   1   2   3   4   5   6   7   8   9  10  11  12  13  14]
y.ravel() : [ 0  1  2  3  4  5  6  7  8  9 10 11]
np.ravel(y) : [ 0  1  2  3  4  5  6  7  8  9 10 11]
y.flatten() : [ 0  1  2  3  4  5  6  7  8  9 10 11]
x.reshape(-1) : [100   1   2   3   4   5   6   7   8   9  10  11  12  13  14]


In [80]:
temp_x = x.ravel() # 원본과 연결되어있는 상태
temp_x[0] = 100
print(f'x :: {x}')
print(f'temp_x :: {temp_x}')

x :: [[100   1   2   3   4]
 [  5   6   7   8   9]
 [ 10  11  12  13  14]]
temp_x :: [100   1   2   3   4   5   6   7   8   9  10  11  12  13  14]


In [83]:
temp_y = x.flatten() # 원본과 연결되어있지 않음
temp_y[0] = 0
print(f'x :: {x}')
print(f'temp_y :: {temp_y}')

x :: [[100   1   2   3   4]
 [  5   6   7   8   9]
 [ 10  11  12  13  14]]
temp_y :: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


In [85]:
x.ravel(order='F')
# [order] Type ( flatten 에도 존재한다)
# C : 열 기준으로 읽어 옴 ( Default )
# F : 행 기준으로 읽어 옴

array([100,   5,  10,   1,   6,  11,   2,   7,  12,   3,   8,  13,   4,
         9,  14])

In [89]:
print(f'y.reshape(-1) \n {y.reshape(-1)}')
print(f'y.reshape(-1, 4) \n {y.reshape(-1, 4)}')

y.reshape(-1) 
 [ 0  1  2  3  4  5  6  7  8  9 10 11]
y.reshape(-1, 4) 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


## 기본함수 - 행렬 사칙연산
1. 행렬 사칙연산 ( 연산기호 : + - * / 사용 가능 )
    * np.add(x, y)
    * np.subtract(x, y)
    * np.multiply(x, y)
    * np.divide(x, y)
      
      
2. 행렬 통계함수
    * arr.mean() : 최소 값
    * arr.max() : 최대 값
    * np.argmax(arr) : 최대 값 인덱스 번호 ( 1차원 배열로 변환한 후의 인덱스 번호 )
    * np.var(arr) : 분산
    * np.median(arr) : 중앙값
    * arr.std() : 표준편차
    
    
3. 행렬 집계함수 ( 합계, 누적합계 )
    * np.sum(arr) : 합계
    * np.cumsum(arr) : 누적 합계

In [90]:
x = np.array([[4,4,4], [8,8,8]])
y = np.array([[1,1,1], [2,2,2]])

In [93]:
print(f'np.add(x, y) \n {np.add(x, y)}')
print(f'x + y \n {x + y}')
print(f'np.subtract(x, y) \n {np.subtract(x, y)}')
print(f'x - y \n {x - y}')
print(f'np.multiply(x, y) \n {np.multiply(x, y)}')
print(f'x * y \n {x * y}')
print(f'np.divide(x, y) \n {np.divide(x, y)}')
print(f'x / y \n {x / y}')

np.add(x, y) 
 [[ 5  5  5]
 [10 10 10]]
x + y 
 [[ 5  5  5]
 [10 10 10]]
np.subtract(x, y) 
 [[3 3 3]
 [6 6 6]]
x - y 
 [[3 3 3]
 [6 6 6]]
np.multiply(x, y) 
 [[ 4  4  4]
 [16 16 16]]
x * y 
 [[ 4  4  4]
 [16 16 16]]
np.divide(x, y) 
 [[4. 4. 4.]
 [4. 4. 4.]]
x / y 
 [[4. 4. 4.]
 [4. 4. 4.]]


---

In [104]:
x = np.random.rand(15).reshape(3,5)

In [107]:
print(f'x.mean() : {x.mean()}')
print(f'x.max() : {x.max()}')
print(f'np.argmax(x) : {np.argmax(x)}') # 1차원 배열로 바꾼 후의 최값의 index 값
print(f'np.var(x) : {np.var(x)}') # 분산
print(f'np.median(x) : {np.median(x)}') # 중앙 값
print(f'x.std() : {x.std()}') # 표준편차

x.mean() : 0.37337484862813863
x.max() : 0.6261861399005684
np.argmax(x) : 1
np.var(x) : 0.034174479869946074
np.median(x) : 0.3480333523175865
x.std() : 0.18486340868313036


---

In [108]:
print(f'np.sum(x) \n {np.sum(x)}') # 총 합계 값
print(f'np.cumsum(x) \n {np.cumsum(x)}') # 누적 합계 배열

np.sum(x) 
 5.60062272942208
np.cumsum(x) 
 [0.59844616 1.2246323  1.41786219 1.6184008  1.96643415 2.20428957
 2.26120645 2.87316504 3.04486652 3.27873611 3.75529635 4.02717625
 4.54353835 5.00149391 5.60062273]


In [112]:
array1 = x.reshape(3,5)

In [113]:
print(f'array1.sum() :: {array1.sum()}')
print(f'array1.sum(axis = 0) :: {array1.sum(axis = 0)}') # axis : 0 ( 행 ), 1 ( 열 )
print(f'array1.sum(axis = 1) :: {array1.sum(axis = 1)}')

array1.sum() :: 5.60062272942208
array1.sum(axis = 0) :: [1.31286183 0.95498292 1.32155057 0.83019566 1.18103176]
array1.sum(axis = 1) :: [1.96643415 1.31230196 2.32188662]


In [118]:
array2 = np.arange(36).reshape(3,4,3)
array2

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23]],

       [[24, 25, 26],
        [27, 28, 29],
        [30, 31, 32],
        [33, 34, 35]]])

In [119]:
print(f'array2.sum() \n {array2.sum()}')
print(f'array2.sum(axis = 0) \n {array2.sum(axis = 0)}') # axis : 0 ( 행 ), 1 ( 열 ), 2 ( 면 )
print(f'array2.sum(axis = 1) \n {array2.sum(axis = 1)}')
print(f'array2.sum(axis = 2) \n {array2.sum(axis = 2)}')

array2.sum() 
 630
array2.sum(axis = 0) 
 [[36 39 42]
 [45 48 51]
 [54 57 60]
 [63 66 69]]
array2.sum(axis = 1) 
 [[ 18  22  26]
 [ 66  70  74]
 [114 118 122]]
array2.sum(axis = 2) 
 [[  3  12  21  30]
 [ 39  48  57  66]
 [ 75  84  93 102]]


***

### 브로드 캐스팅 rules
- https://numpy.org/doc/stable/user/basics.broadcasting.html
-  뒷 차원에서 부터 비교하여 Shape 이 같거나, 차원 중 값이 1인 것이 존재하면 가능
<img src='https://numpy.org/doc/stable/_images/broadcasting_2.png'>
<img src='https://numpy.org/doc/stable/_images/broadcasting_3.png'>

In [136]:
x = np.arange(20).reshape(4,5)
y = np.random.rand(20).reshape(4,5)

In [139]:
print(x + y, end="\n\n") # 배열이 일치한 행과 열을 갖고 있는경우 연산 가능
print(x + 2, end="\n\n")
print(x * 2, end="\n\n")
print(x / 2, end="\n\n")
# print(x * np.arange(12).reshape(4,3), end="\n\n") # ValueError: operands could not be broadcast together with shapes (3,5) (4,3)
print(x + np.arange(100, 105), end="\n\n") # broadcasting 성공 ( 연산할 배열의 행이 한 개이며, 열 개수가 일치할 경우 가능 )
# print(x + np.arange(100, 110).reshape(2,5), end="\n\n") # ValueError: operands could not be broadcast together with shapes (4,5) (2,5) 

[[ 0.79096178  1.85228217  2.96895725  3.39401488  4.00630242]
 [ 5.3114187   6.5122186   7.30365129  8.98476881  9.80305163]
 [10.28341361 11.07589933 12.39545648 13.71428072 14.30554274]
 [15.23676764 16.31263158 17.27465505 18.83965483 19.41263272]]

[[ 2  3  4  5  6]
 [ 7  8  9 10 11]
 [12 13 14 15 16]
 [17 18 19 20 21]]

[[ 0  2  4  6  8]
 [10 12 14 16 18]
 [20 22 24 26 28]
 [30 32 34 36 38]]

[[0.  0.5 1.  1.5 2. ]
 [2.5 3.  3.5 4.  4.5]
 [5.  5.5 6.  6.5 7. ]
 [7.5 8.  8.5 9.  9.5]]

[[100 102 104 106 108]
 [105 107 109 111 113]
 [110 112 114 116 118]
 [115 117 119 121 123]]



## [실습]

#### 1) 서울의 한달 온도에 대한 데이터 생성 ( 31개의 온도 데이터 20 ~ 32 사이 )

In [150]:
temper = np.random.rand(31)  + np.random.randint(20, 32, 31)
temper

array([28.86953284, 24.4359786 , 30.0385067 , 24.922296  , 24.77989396,
       28.82254675, 25.84930695, 26.60982763, 30.66374635, 20.84204118,
       22.69518333, 30.56824106, 26.23652   , 20.50852297, 30.44730662,
       30.47283213, 31.26768798, 25.08040704, 26.06173751, 25.92198606,
       22.55919278, 29.13293204, 23.40168651, 20.77147166, 31.74933626,
       26.0596308 , 27.4313065 , 27.08151198, 22.92061201, 21.30257766,
       23.93547594])

#### 2) 기온이 25도를 넘는 날의 수 출력

In [152]:
day_cnt = len(temper[temper > 25])

#### 3) 기온이 25도를 넘는 날의 평균 기온

In [153]:
np.sum(temper[temper > 25]) / day_cnt

28.33499490521251

#### 행렬 정렬 - sort(), argsort()
* np.sort(array) : 원본은 변경하지 않고 정렬된 배열을 반환
* ndarray.sort() : 원본을 변경하지만, 반환값이 없음

* np.argsort(array) : 정렬된 후의 인덱스 찾기

In [159]:
array1 = np.array([3,1,9,5,2])
array1_sort = np.sort(array1)
print(f'array1 : {array1}')
print(f'np.sort(array1) : {array1_sort}') # 원본 변화 X 
# print(f'array1.sort() : {array1.sort()}') # 원본에 변화를 주지만, 반환값 X
# print(f'array1 : {array1}')
sort_desc = np.sort(array1)[::-1]
print(f'np.sort(array1)[::-1] : {sort_desc}') # 내림차순 정렬

array1 : [3 1 9 5 2]
np.sort(array1) : [1 2 3 5 9]
np.sort(array1)[::-1] : [9 5 3 2 1]


In [163]:
array2 = np.array([[8,12], [7,1]])
array2_sort0 = np.sort(array2, axis=0)
array2_sort1 = np.sort(array2, axis=1)
print(f'array2 \n {array2}')
print(f'np.sort(array, axis=0) \n {array2_sort0}')
print(f'np.sort(array, axis=1) \n {array2_sort1}')

array2 
 [[ 8 12]
 [ 7  1]]
np.sort(array, axis=0) 
 [[ 7  1]
 [ 8 12]]
np.sort(array, axis=1) 
 [[ 8 12]
 [ 1  7]]


In [164]:
sort_indices = np.argsort(array1)
sort_indices

array([1, 4, 0, 3, 2], dtype=int64)

In [169]:
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

rank_array = np.argsort(score_array)[::-1]
name_array[rank_array]

array(['Kate', 'Mike', 'Samuel', 'Sarah', 'John'], dtype='<U6')

### 행렬 내적(행렬 곱)
<img src='https://miro.medium.com/max/1400/1*YGcMQSr0ge_DGn96WnEkZw.png'>

In [171]:
a = np.array([[1,2,3], [4,5,6]])
b = np.array([[10,11], [20,21], [30,31]])

In [172]:
np.dot(a,b) # 행렬 곱 함수 dot(a, b)

array([[140, 146],
       [320, 335]])

### 전치행렬 : 원 행렬에서 행과 열 위치를 교환한 원소
<img src='https://www.w3resource.com/w3r_images/numpy-manipulation-transpose-function-image-a.png'>

In [173]:
c = np.array([[0, 2, 4, 6], [1,3,5,7]])
np.transpose(c)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])