# **CHAPTER 1**
### **[개념정리]**



---


### **01. 머신러닝의 개념**           
- 머신러닝의 분류
 - 지도학습 ( 분류, 회귀, 추천시스템, 시각/음성 인지, 텍스트분석, NLP )
 - 비지도학습 ( 클러스터링, 차원축소, 강화학습 )
 - 강화학습
- 데이터에 매우 의존적이다. 이해를 바탕으로 효율적으로 가공,처리한 좋은 데이터를 이용해야 좋은 품질의 머신러닝 모델을 얻을 수 있다.





---


### **02. 파이썬 머신러닝 주요 패키지**
- 머신러닝 패키지: 사이킷런(Scikit-Learn)-데이터 마이닝 기반, 비정형 데이터 분야는 전문 딥러닝 라이브러리
- 행렬/선형대수/통계 패키지: 넘파이(Numpy), 사이파이(SciPy)
- 데이터 처리 패키지: 판다스(Pandas)-2차원 데이터 특화
- 시각화: 맷플롯립(Matplotlib)-세밀함, 시본(Seaborn)-함축적



---
### **03. 넘파이**
(1) 넘파이 ndarray
- 선형대수 기반으로 빠른 배열 연산이 가능하다.
- 넘파이 모듈 임포트: import numpy as np
- 데이터 타입: ndarray

- np.array(): 다양한 인자(ex.리스트) 입력-> ndarray로 변환
     
      - type(array): 타입확인
      - array.shape: 배열차원 튜플로 확인
      [1,2,3] -> (3,)
      [[1,2,3]] -> (1,3)
      [[1,2,3],[4,5,6]] -> (2,3)
      - array.ndim: 차원 수




- ndarray 내 데이터 값은 숫자, 문자열, 불 값 모두 가능. 단, 한 객체 내에는 하나의 데이터 타입만 가능(연산을 위함)(list는 한 객체 내 다른 데이터 타입 혼용 가능)
- array.dtype : 타입확인(ex. int/float, 8/16/32/64/128 bit) / type(array)와 구분
- 여러 데이터 유형 섞인 리스트를 ndarray로 변경시 데이터가 더 큰 유형으로 형 일괄변환함.
  - int형(정수) < float형(실수) < string형(문자)

         
- array.astype(): ndarray 내 데이터 값의 타입 변경, 메모리 절약 시 유용. float>int시 소수점 버림.

(2) ndarray 생성
- np.arange(10): 0~9까지의 값 순차적으로 1차원 ndarray값 변환. range()와 비슷함.
- zeros((3,2)): 해당 shape을 가진 모든 값이 0인 ndarray 반환.
- ones((3,2)) : 해당 shape가진, 모든 값이 1인 ndarray반환.        
(dtype 디폴트는 float64)

(3) reshape()
- array.reshape(2,5): ndarray의 특정 차원(ex. 1차원>2차원) 및 크기로 변환. (2row x 5column)
- 변경 불가능하면 오류
- 인자가 -1인 경우:
 - array.reshape(5,-1): 호환되도록 자동 지정
 - array.reshape(-1,1): 원본 형태 상관없이 2차원 1개 칼럼의 ndarray로 변환
- array.tolist(): 리스트 자료형으로 변환

(4) 인덱싱(Indexing)
- 특정 데이터 추출:
  - array1[2] > 3번째 인덱스 위치의 데이터값
  - type(array1[2]) > 내의 해당 값 타입
  - array[0,2] : 2차원, axis0 = 0, axis1=2
- 슬라이싱:
  - array[0:3]: 시작~종료 인덱스-1, 생략가능
  - array[:2,0] :2차원 슬라이싱
  - array2d[0]: axis0=0인 첫번째 row 반환. 즉 1차원 반환. shape:(3,3)->(3,)
- 팬시 인덱싱
  - 인덱스 집합을 지정
  - array2d[[0,1],2]: (row,col)=(0,2),(1,2)
  - array2d[[0,1],0:2]: (row,col)=((0,0),(0,1)),((1,0),(1,1))
  - array2d[[0,1]]: (row,col)=((0,:),(1,:))
- 불린 인덱싱
  - T/F로 조건 필터링. T인 값의 인덱스만 저장 후 조회.
  - array1d[array1d>5]

(5) 행렬 정렬
- np.sort(array2d, axis=0/1): 원 행렬 유지, 정렬된 행렬 반환
- ndarray.sort(): 원 행렬 자체를 정렬 변환, 반환 값은 none.
- 디폴트는 오름차순/ np.sort()[::-1] : 내림차순
- axis=0: 칼럼을 로우방향으로 정렬
- np.argsort(): 행렬 정렬 시 원본 행렬의 인덱스를 ndarray형으로 반환
- np.argsort()[::-1]

(6) 선형대수 연산 - 행렬 내적과 전치 행렬 구하기
- np.dot(A,B): 행렬 내적
- np.transpose(A): A의 전치행렬




### **[필사]**

In [1]:
import numpy as np
array1=np.array([1,2,3])
print('array1 type:',type(array1))
print('array1 array 형태:', array1.shape)

array2=np.array([[1,2,3],
                 [2,3,4]])
print('array2 type:',type(array2))
print('array2 array 형태:', array2.shape)

array3=np.array([[1,2,3]])
print('array3 type:',type(array3))
print('array3 array 형태:', array3.shape)

print('array1:{0}차원, array2:{1}차원, array3:{2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)
array1:1차원, array2:2차원, array3:2차원


In [2]:
# ndarray의 데이터 타입
list1=[1,2,3]  #list자료형
print(type(list1))
array1=np.array(list1)  #list1을 ndarray화
print(type(array1))
print(array1, array1.dtype)  #dtype

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [3]:
# int + string -> string
list2=[1,2,'test']
array2=np.array(list2)
print(array2, array2.dtype)
# int + float -> float
list3=[1,2,3.0]
array3=np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


In [5]:
# int32 -> float64
array_int=np.array([1,2,3])
array_float=array_int.astype('float64')
print(array_float, array_float.dtype)

# float64 -> int32
array_int1=array_float.astype('int32')
print(array_int1, array_int1.dtype)

# float > int 변경 시 소수점 이하는 모두 없어짐
array_float1=np.array([1.1,2.1,3.1])
array_int2=array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


In [8]:
zero_array=np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array=np.ones((3,2)) #디폴트는 float64
print(one_array)
print(one_array.dtype, noe_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


In [9]:
array1=np.arange(10)
print('array1:\n', array1)

array2=array1.reshape(2,5)
print('array2:\n', array2)

array3=array1.reshape(5,2)
print('array3:\n',array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [10]:
#오류 발생
array1.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

In [12]:
array1=np.arange(10)
print(array1)

array2=array1.reshape(-1,5)
print('array2 shape:', array2.shape)

array3=array1.reshape(5,-1)
print('array3 shape:', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


In [13]:
# 딱 떨어지지 않으므로 오류 발생
array1=np.arange(10)
array4=array1.reshape(-1,4)

ValueError: cannot reshape array of size 10 into shape (4)

In [15]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n',array3d.tolist())

# 3차원 ndarray > 2차원으로 변환
array5=array3d.reshape(-1,1)
print('array5:\n',array5.tolist())
print('array5 shape:',array5.shape)

# 1차원 > 2차원
array6=array1.reshape(-1,1)
print('array6:\n',array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


In [16]:
# 1~9의 1차원 ndarray 생성
array1=np.arange(start=1, stop=10)
print('array1:', array1)

#index는 0부터 시작
value=array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


In [17]:
print('맨 뒤의 값:', array1[-1],'맨 뒤에서 두번째 값:', array1[-2])

맨 뒤의 값: 9 맨 뒤에서 두번째 값: 8


In [18]:
array1[0]=9
array1[8]=0
print('array1:',array1)

array1: [9 2 3 4 5 6 7 8 0]


In [19]:
array1d=np.arange(start=1, stop=10)
array2d=array1d.reshape(3,3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0,0])
print('(row=0, col=1) index 가리키는 값:', array2d[0,1])
print('(row=1, col=0) index 가리키는 값:', array2d[1,0])
print('(row=2, col=2) index 가리키는 값:', array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


In [20]:
array1=np.arange(start=1, stop=10)
array3=array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [21]:
array1=np.arange(start=1, stop=10)
array4=array1[:3]
print(array4)

array5=array1[3:]
print(array5)

array6=array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [24]:
array1d=np.arange(start=1, stop=10)
array2d=array1d.reshape(3,3)
print('array2d:\n',array2d)

print('array2d[0:2, 0:2]\n',array2d[0:2,0:2])
print('array2d[1:3, 0:3]\n',array2d[1:3, 0:3])
print('array2d[1:3,:]\n', array2d[1:3,:])
print('array2d[:,:]\n', array2d[:,:])
print('array2d[:2,1:]\n', array2d[:2,1:])
print('array2d[:2,0]\n', array2d[:2,0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]
 [[1 2]
 [4 5]]
array2d[1:3, 0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3,:]
 [[4 5 6]
 [7 8 9]]
array2d[:,:]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2,1:]
 [[2 3]
 [5 6]]
array2d[:2,0]
 [1 4]


In [25]:
print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


In [26]:
array1d=np.arange(start=1, stop=10)
array2d=array1d.reshape(3,3)

array3=array2d[[0,1],2]
print('array2d[[0,1],2]=>', array3.tolist())

array4=array2d[[0,1],0:2]
print('array2d[[0,1],0:2]=>', array4.tolist())

array5=array2d[[0,1]]
print('array2d[[0,1]]=>', array5.tolist())

array2d[[0,1],2]=> [3, 6]
array2d[[0,1],0:2]=> [[1, 2], [4, 5]]
array2d[[0,1]]=> [[1, 2, 3], [4, 5, 6]]


In [27]:
array1d=np.arange(start=1, stop=10)
#[]안에 array1d>5 Boolean indexing을 적용
array3=array1d[array1d>5]
print('array1d>5 불린 인덱싱 결과 값:', array3)

array1d>5 불린 인덱싱 결과 값: [6 7 8 9]


In [28]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [29]:
boolean_indexes=np.array([False, False, False, False, False, True, True, True, True])
array3=array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과:', array3)

불린 인덱스로 필터링 결과: [6 7 8 9]


In [30]:
indexes=np.array([5,6,7,8])
array4=array1d[indexes]
print('일반 인덱스로 필터링 결과:', array4)

일반 인덱스로 필터링 결과: [6 7 8 9]


In [33]:
org_array=np.array([3,1,9,5])
print('원본 행렬:', org_array)
#np.sort()로 정렬
sort_array1=np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)
#ndarray.sort()로 정렬
sort_array2=org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


In [34]:
sort_array1_desc=np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)

내림차순으로 정렬: [9 5 3 1]


In [35]:
array2d=np.array([[8,12],
                  [7,1]])
sort_array2d_axis0=np.sort(array2d, axis=0) # 칼럼별로, 로우 방향 정렬
print('로우 방향 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1=np.sort(array2d, axis=1) # 로우별로, 칼럼 방향 정렬
print('칼럼 방향 정렬:\n', sort_array2d_axis1)

로우 방향 정렬:
 [[ 7  1]
 [ 8 12]]
칼럼 방향 정렬:
 [[ 8 12]
 [ 1  7]]


In [36]:
org_array=np.array([3,1,9,5])
sort_indices=np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [37]:
org_array=np.array([3,1,9,5])
sort_indices_desc=np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


In [38]:
import numpy as np
name_array=np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array=np.array([78, 95, 84, 98, 88])

sort_indices_asc=np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


In [39]:
A=np.array([[1,2,3],
            [4,5,6]])
B=np.array([[7,8],
            [9,10],
            [11,12]])
dot_product=np.dot(A,B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


In [40]:
A=np.array([[1,2],
            [3,4]])
transpose_mat=np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
