<p><span style="color:green; font-size:20px; font-weight:bold;">numpy</span></p>

#### 데이터 마이닝
데이터에서 의미 있는 정보를 추출하는 기술 (고급 통계 분석 + 모델링 기법 적용)

#### 텍스트 마이닝
텍스트 문서에서 의미 있는 정보를 추출하는 기술 (비정형 텍스트 데이터를 정형화 _ 특징 추출 과정 요구)

## numpy란

다차원 배열(ndarray)을 편하게 처리하도록 지원하는 파이썬 라이브러리
(서로 다른 타입 데이터 못담음)

선형대수, 난수 발생기 있음
• 반복문을 작성할 필요 없어 전체 데이터에 대해 빠른 연산을 제공 (표준 수학 함수)


>  ndarray vs list  
• ndarray : 적은 메모리로 데이터를 빠르게 처리하고, 모든 원소는 같은 자료형을 가진다.  
• list : 속도가 매우 느리고, 원소가 각각 다른 자료형을 가질 수 있다.

## 데이터 타입 종류

### (1) int(8bit, 16bit, 32bit, 64bit) i1, i2, i4, i8  
- 부호가 있다.
- 비트수 만큼 크기를 가지는 정수형이다.
- 저장할 수 있는 값의 범위 : -2ⁿ⁻¹ ~ 2ⁿ⁻¹-1

### (2) uint(8bit, 16bit, 32bit, 64bit) u1, u2, u4, u8  
- 부호가 없다.
- 비트수 만큼 크기를 가지는 정수형이다.
- 저장할 수 있는 값의 범위 : 0 ~ 2ⁿ-1

### (3) float(16bit, 32bit, 64bit, 128bit) f2, f4, f8, f16  
- 부호가 있다.
- 비트수 만큼 크기를 가지는 실수형이다.

### (4) 복소수형  
- complex64 : 두개의 32비트 부동 소수점으로 표시되는 복소수 c8
- complex128 : 두개의 64비트 부동소수점으로 표시되는 복소수 c16

### (5) unicode  
- 고정 길이 문자열 Unicode

### (6) bool  
- True, False

### (7) 데이터 타입 확인 및 변경  
- dtype : 자료형 확인
- astype : 자료형 변경

In [6]:
import numpy as np

In [8]:
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
a = np.array(data)
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
a.dtype

dtype('int32')

In [12]:
type(a)

numpy.ndarray

In [14]:
a=a.astype(np.float32)  # a = a.astype('float32')
a

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]], dtype=float32)

In [15]:
a[0][1]

2.0

In [16]:
a[0]

array([1., 2., 3.], dtype=float32)

In [17]:
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

In [19]:
np.arange(1,10).reshape(3,3)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [22]:
np.arange(1,13).reshape(3,2,2)

array([[[ 1,  2],
        [ 3,  4]],

       [[ 5,  6],
        [ 7,  8]],

       [[ 9, 10],
        [11, 12]]])

In [24]:
np.nan * 10

nan

In [25]:
a[0][1] = np.nan
a

array([[ 1., nan,  3.],
       [ 4.,  5.,  6.],
       [ 7.,  8.,  9.]], dtype=float32)

In [26]:
a=np.arange(1,10).reshape(3,3)
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [28]:
a[0][1]=np.nan  # nan은 int에서는 사용할수 없다. float에서만 사용할수 있다

ValueError: cannot convert float NaN to integer

In [29]:
a=np.linspace(1,10,20)
a

array([ 1.        ,  1.47368421,  1.94736842,  2.42105263,  2.89473684,
        3.36842105,  3.84210526,  4.31578947,  4.78947368,  5.26315789,
        5.73684211,  6.21052632,  6.68421053,  7.15789474,  7.63157895,
        8.10526316,  8.57894737,  9.05263158,  9.52631579, 10.        ])

In [31]:
data=np.arange(1,10).reshape(3,3)
data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [33]:
data + data

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

In [34]:
[1,2,3] + [4,5,6]  # 파이썬에서는 연산이라 아니라 연결

[1, 2, 3, 4, 5, 6]

In [35]:
data - data

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [36]:
data * data

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

In [37]:
data / data

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [41]:
np.dot(data,data)    #행(가로),열(세로)의 곱
# ex> 0, 0 인덱스는 [1, 2, 3]의 왼쪽의 열과, [1, 4, 7]의 오른쪽의 행을 각각 추출
# 1*1 + 2*4 + 3*7 = 30

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

In [42]:
data @ data

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

### 차원의 종류

• 0차원 : Scalar(스칼라) (하나의 데이터 값으로만 존재하는 것)  
• 1차원 : Vector(백터) (숫자들의 배열 (1D array))  
• 2차원 : Matrix(매트릭스) (숫자들의 2D array (rows: 행, columns: 열))  
• 3차원 이상 : Tensor(텐서) (숫자들의 다차원 배열)  

In [43]:
# 0차원: 스칼라
a=np.array(1)
print(a)
print(a.shape)
print(a.ndim)

1
()
0


In [44]:
# 1차원: 벡터
a=np.array([1])
print(a)
print(a.shape)
print(a.ndim)

[1]
(1,)
1


In [45]:
# 1차원: 벡터
a=np.array([1,2,3,4,5])
print(a)
print(a.shape)  # 5개의 형태
print(a.ndim) 

[1 2 3 4 5]
(5,)
1


In [46]:
# 2차원: 메트릭스
a=np.array([[1,2,3],[4,5,6]])
print(a)
print(a.shape)   # 2행 3열
print(a.ndim) 

[[1 2 3]
 [4 5 6]]
(2, 3)
2


In [47]:
# 2차원: 메트릭스
a=np.array([[1]])
print(a)
print(a.shape)   
print(a.ndim) 

[[1]]
(1, 1)
2


In [48]:
# 3차원: 3차원 이상의 다차원의 행렬을 Tensor
# TensorFlow : 다차원 행렬을 가지고 연산을 해서 어떤 결과를 도출해 내는것
a=np.array([[[1,2],[3,4],[5,6]],[[7,8],[9,10],[11,12]]])

print(a)
print(a.shape)
print(a.ndim)

[[[ 1  2]
  [ 3  4]
  [ 5  6]]

 [[ 7  8]
  [ 9 10]
  [11 12]]]
(2, 3, 2)
3


### 배열 생성 함수

- zeros : 0으로 초기화된 배열 생성  
- ones : 1로 초기화 된 배열 생성  
- eye : 주 대각선의 원소가 모두 1이고 나머지 원소는 0인 정사각행렬 (단위행렬)  
- empty : 초기화 하지 않고 배열만 생성, 기존에 메모리에 저장되어 있는 값으로 나타남  
- full : 지정한 숫자로 초기화  
- linespace(start, end(포함), number, endpoint = ) : 선형 구간을 지정한 개수만큼 분할한다.  
- endpoint = True or False : 마지막 값을 포함시킬지 시키지 않을지 선택  

### 집계 함수

• mean : 평균을 구하는 함수  
• median : 데이터를 크기로 정렬하고 그 중 가운데 수 출력하는 함수  
※ 만약 데이터 개수가 짝수일 경우 가장 가운데의 두 수의 평균을 구한다.  
• var : 분산 구하는 함수  
• std : 표준편차 구하는 함수  
• sum : 합계 구하는 함수  
• max : 가장 큰 수를 구하는 함수  
• min : 가장 작은 수를 구하는 함수  