### 빅데이터 분석을 위한 파이썬 라이브러리

- <b>Numpy : 과학계산 및 수학계산</b>
- <b>pandas : 데이터 처리 및 분석</b>
- <b>matplotlib, seaborn : 데이터 시각화</b>
- <b>plotly : 오픈 소스인 대화형의 고품질 도면 및 인터렉티브한 그래픽 라이브러리</b>
- SciPy : 신초 처리, 최적화, 과학 계산 및 통계 처리
- <b>BeautifulSoup : HTML과 XML 에서 정보를 수집</b>
- Scrapy : 웹 크롤링 및 데이터 수집
- TensorFlow : 머신러닝 및 딥러닝
- Keras : 신경망 라이브러리 및 딥러닝
- NLTK : 자연어 처리

---

### Numpy (Numerical Python)

- 파이썬의 수치 해석 프로그램인 Numeric 를 개선, 보완한 패키지
- 산술 계산을 위한 가장 중요한 필수 패키지
- 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로트캐스팅 기능 제공
- 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
- 선형대수, 난수 생성기, 푸리에 변환 기능
- 이미지와 컴퓨터 그래픽을 빠르게 처리
- C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API 제공

###  [참고] <a href='https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf'>NumPy Cheat Sheet</a>
>> [Numpy 공식] <a href='https://numpy.org/doc/stable/user/index.html#user'>Numpy Documents</a>

### 1. 넘파이 배열
    - 벡터와 매트릭스를 배열이라고 함
    - 벡터( 1차원 ), 매트릭스( 2차원 ), 텐서 플로우( 3차원 이상 )
    - 논리적이고 통계적인 연산과 푸리에 변환 같은 연산을 매우 효율적으로 처리
    - 머신러닝에서 사용되는 주요 데이터 구조

### 2. ndarray 클래스 - 넘파이 배열 클래스 타입

- 다차원 배열을 쉽게 생성하고 다양한 연산 수행
- np.array(ndarray로 변환을 원하는 객체)
- shape - 차원과 크기를 튜플 형태로 돌려줌
- ndim - n dimesion(차원 확인)

<img src="https://velog.velcdn.com/images%2Fbotry%2Fpost%2F592b114f-145e-47dd-8d5e-bd5ddb179864%2Farray.png" width="720" height="404">

***

In [1]:
import numpy as np # numpy 는 np 라는 별칭을 기본적으로 사용한다

#### 1 ) np.array([List]) : python의 List를 이용해 배열 생성

**>> 1차원 배열 ( 벡터 )**

In [3]:
array1 = np.array([1,2,3,4,5,6])
array1 # 셀 마지막 줄의 경우, print() 를 생략하더라도 결과가 출력 된다.

array([1, 2, 3, 4, 5, 6])

In [12]:
print(f'type : {type(array1)}')
print(f'shape : {array1.shape}')

type : <class 'numpy.ndarray'>
shape : (6,)


**>> 2차원 배열 ( 매트릭스 )**

In [9]:
array2 = np.array([[1,2,3], [4,5,6]])
array2

array([[1, 2, 3],
       [4, 5, 6]])

In [13]:
print(f'type : {type(array2)}')
print(f'shape : {array2.shape}')

type : <class 'numpy.ndarray'>
shape : (2, 3)


In [14]:
array2 = np.array([[1,2,3]])
array2

array([[1, 2, 3]])

In [15]:
print(f'type : {type(array2)}')
print(f'shape : {array2.shape}')

type : <class 'numpy.ndarray'>
shape : (1, 3)


#### 2) .ndim .shape .dtype : 배열의 정보 확인

In [24]:
array3 = np.array([1,2.0,3,'4','5',6])
array4 = np.array([1,2,3,4.0,5,6])

In [25]:
print(f'array1 : {array1.shape} / array2 : {array2.shape}') # 배열의 최대 크기
print(f'array1 : {array1.ndim} 차원 / array2 : {array2.ndim} 차원') # 배열의 차원 수
print(f'array1 : {array1.dtype} / array2 : {array2.dtype} / array3 : {array3.dtype} / array4 : {array4.dtype}') # 데이터 타입

array1 : (6,) / array2 : (1, 3)
array1 : 1 차원 / array2 : 2 차원
array1 : int32 / array2 : int32 / array3 : <U32 / array4 : float64


> Python 의 리스트와 달리 Numpy 의 배열은 자료형이 같은 타입으로만 구성되어야만 한다.

#### 3) astype(변환할 타입)

In [26]:
array1 = np.array([1,2,3])
print(array1.dtype)

int32


In [28]:
array1_float = array1.astype('float64')
print(f'array1 : {array1_float}, type : {array1_float.dtype}')

array1 : [1. 2. 3.], type : float64


In [29]:
array1_float_int = array1.astype('int32')
print(f'array1 : {array1_float_int}, type : {array1_float_int.dtype}')

array1 : [1 2 3], type : int32


In [31]:
array2 = np.array([1.2, 2.2, 3.2])
array2_int = array2.astype('int32') # 형변환 과정에서 소수점 아래 데이터 손실 발생
print(f'array2 : {array2_int}, type : {array2_int.dtype}')

array2 : [1 2 3], type : int32


## Numpy 배열 생성 함수
#### 1) arange(n) : 0 ~ n - 1 까지 값을 순차적으로 ndarray 값으로 생성 ( range 와 같은 양식 )

In [35]:
print(np.arange(10))
print(np.arange(5,10))
print(np.arange(1,11,2))

[0 1 2 3 4 5 6 7 8 9]
[5 6 7 8 9]
[1 3 5 7 9]


**[ Question ] 5의 배수 ( 1 ~ 100 )**

In [36]:
np.arange(1,101,5)

array([ 1,  6, 11, 16, 21, 26, 31, 36, 41, 46, 51, 56, 61, 66, 71, 76, 81,
       86, 91, 96])

#### 2) zeros((row, col)) : 0 으로 채워서 ndarray 반환

In [44]:
print(np.zeros(3)) # [0. 0. 0.] > float 타입으로 반환
print(np.zeros(3, dtype='int32')) # [0 0 0] int형 지정
print(np.zeros((2,1))) # 2 차원
print(np.zeros((3,2,3))) # 3 차원

[0. 0. 0.]
[0 0 0]
[[0.]
 [0.]]
[[[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]


#### 3) ones((row, col)) : 1 로 채워서 ndarray 반환 ( zeros 와 같은 구조 )

In [46]:
print(np.ones(3)) # zeros 와 마찬가지로 float 타입을 반환한다.
print(np.ones((2,3))) # 2 차원

[1. 1. 1.]
[[1. 1. 1.]
 [1. 1. 1.]]


#### 4) empty((row, col)) : 무작위 값으로 ndarray 반환

In [52]:
print(np.empty(4)) # [6.23042070e-307 4.67296746e-307 1.69121096e-306 8.01106037e-307] > 지수형태로 랜덤 값
print(np.empty((3,4)))
print(np.empty((3,4), dtype='int'))

[6.23042070e-307 4.67296746e-307 1.69121096e-306 8.01106037e-307]
[[9.18998682e-312 3.16202013e-322 0.00000000e+000 0.00000000e+000]
 [6.23054293e-307 1.02964479e-071 1.80101709e+185 9.30589212e+165]
 [6.58873642e-066 5.05690897e-038 9.95656910e-043 3.12301048e-033]]
[[         0 1072693248          0 1072693248]
 [         0 1072693248          0 1072693248]
 [         0 1072693248          0 1072693248]]


In [53]:
# 시간비교 : 512 ns ± 11 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
%timeit np.zeros(4)

512 ns ± 11 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [54]:
# 시간비교 : 2.27 µs ± 76.9 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
%timeit np.ones(4)

2.27 µs ± 76.9 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [55]:
# 시간비교 : 505 ns ± 15 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
%timeit np.empty(4)

505 ns ± 15 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


#### 5) full((row, col), value) : value 값으로 채운 후 ndarray 반환 ( dtype 은 value를 따라간다 )

In [60]:
print(np.full((3,4), 2))

[[2 2 2 2]
 [2 2 2 2]
 [2 2 2 2]]


#### 6) eye(size, k = val) : size 만큼의 정사각형 배열을 생성하여 k( 기준 ) 을 갖는 단위행렬을 생성한다. 

In [62]:
print(np.eye(5))
print(np.eye(5, k = -1))

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]
[[0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]]


#### 7) linspace(start, end, totalCnt) : 명시된 간격으로 균등하게 분할된 ndarray 생성

In [63]:
print(np.linspace(1,10,5)) # [ 1.    3.25  5.5   7.75 10.  ] 동일한 간격으로 값을 배분 (1 ~ 10 :: 2.25)

[ 1.    3.25  5.5   7.75 10.  ]


#### 8) random
###### .rand(row, col) : 0 ~ 1 사이의 숫자가 랜덤으로 생성
###### .randn(row, col) : 가우시안 표준 정규분포에 따른 random 변수 생성
###### .randint(start, end, (row, col)) : 지정한 정수로 된 랜덤 ndarray 생성
###### .seed(임의의 수) : 랜덤한 값을 동일하게 다시 생성하고자 할 때 사용

In [96]:
np.random.seed(42) # seed 번호 :: random 값에 대한 좌표와 같은 개념 >> Random 변수는 Seed 를 통해서 결정된다.
print(np.random.rand(2,3))
print(np.random.randn(3,4,2))
print(np.random.randint(1, 100, (2,3)))

[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]]
[[[ 1.57921282  0.76743473]
  [-0.46947439  0.54256004]
  [-0.46341769 -0.46572975]
  [ 0.24196227 -1.91328024]]

 [[-1.72491783 -0.56228753]
  [-1.01283112  0.31424733]
  [-0.90802408 -1.4123037 ]
  [ 1.46564877 -0.2257763 ]]

 [[ 0.0675282  -1.42474819]
  [-0.54438272  0.11092259]
  [-1.15099358  0.37569802]
  [-0.60063869 -0.29169375]]]
[[84 92 60]
 [71 44  8]]


#### 9) choice(array, size=(row, col), replace=[True|False]) : 주어진 1차원 ndarray 로부터 랜덤하게 샘플링 ( replace : 중복여부 ( Default : True ) )

In [98]:
# 정수 : np.arange(100)
# 1 차원 배열 : 배열내의 데이터를 추출하여 샘플링 반환
print(np.random.choice(100, size=(3,4)))

[[92 62 17 89]
 [43 33 73 61]
 [99 13 94 47]]


In [100]:
array1 = np.array([1,2,3,4,5,6,7,8,9])
np.random.choice(array1, size = (2, 2), replace=False)

array([[3, 1],
       [6, 4]])

## 인덱싱
 * 특정한 데이터 추출 : 원하는 위치의 인덱스 값 지정
 * 슬라이싱(slicing) : 연속된 인덱싱 상의 ndarray 추출
 * 팬시 인덱싱(Fancy Indexing) : 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환
 * 불린 인덱싱(Boolean Indexing) : 특정 조건에 해당하는지 여부인 [True|False] 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray 반환

In [101]:
array1 = np.arange(1, 10)
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [106]:
print(f'Type : {type(array1[3])}')
print(f'인덱싱 :: array1[3] > {array1[3]}') # 인덱스 번호는 0 부터 시작
print(f'인덱싱 :: array1[-3] > {array1[-3]}') # 음수의 경우 뒤에서 인덱싱

Type : <class 'numpy.int32'>
인덱싱 :: array1[3] > 4
인덱싱 :: array1[-3] > 7


In [108]:
array_2d = array1.reshape(3,3) #  reshape : ndarray 의 차원을 변경할 때 사용
array_2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [110]:
print(f'2차원 인덱싱 : array_2d[1] : {array_2d[1]}')
print(f'2차원 인덱싱 : array_2d[1][1] : {array_2d[1][1]}')
print(f'2차원 인덱싱 : array_2d[2, -1] : {array_2d[2, -1]}')

2차원 인덱싱 : array_2d[1] : [4 5 6]
2차원 인덱싱 : array_2d[1][1] : 5
2차원 인덱싱 : array_2d[2, -1] : 9


In [111]:
array_3d = np.arange(36).reshape(4,3,3)
array_3d

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]],

       [[27, 28, 29],
        [30, 31, 32],
        [33, 34, 35]]])

In [119]:
print(f'3차원 인덱싱 : array_3d[0] \n {array_3d[0]}\n')
print(f'3차원 인덱싱 : array_3d[0, 1] \n {array_3d[0, 1]}\n')
print(f'3차원 인덱싱 : array_3d[0, 1, -1] \n {array_3d[0, 1, -1]}\n')
print(f'16 인덱싱 : array_3d[1, 2, 1] \n {array_3d[1, 2, 1]}')

3차원 인덱싱 : array_3d[0] 
 [[0 1 2]
 [3 4 5]
 [6 7 8]]

3차원 인덱싱 : array_3d[0, 1] 
 [3 4 5]

3차원 인덱싱 : array_3d[0, 1, -1] 
 5

16 인덱싱 : array_3d[1, 2, 1] 
 16


### 브로드 캐스팅 rules
- https://numpy.org/doc/stable/user/basics.broadcasting.html
-  뒷 차원에서 부터 비교하여 Shape 이 같거나, 차원 중 값이 1인 것이 존재하면 가능
<img src='https://numpy.org/doc/stable/_images/broadcasting_2.png'>
<img src='https://numpy.org/doc/stable/_images/broadcasting_3.png'>

### 행렬 내적(행렬 곱)
<img src='https://miro.medium.com/max/1400/1*YGcMQSr0ge_DGn96WnEkZw.png'>

### 전치행렬 : 원 행렬에서 행과 열 위치를 교환한 원소
<img src='https://www.w3resource.com/w3r_images/numpy-manipulation-transpose-function-image-a.png'>