#**파이썬 머신러닝 완벽 가이드 🐾**

#**Ch01. 파이썬 기반의 머신러닝과 생태계 이해**


##**01. 머신러닝의 개념**
머신러닝(Machine Learning) : 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법

>**머신러닝의 분류**
- 지도학습
  - 분류
  - 회귀
  - 추천 시스템
  - 시각/음성 감지/인지
  - 텍스트 분석, NLP
- 비지도학습
  - 클러스터링
  - 차원 축소
  - 강화학습

>**데이터 전쟁**\
Garbage in, Garbage out: 좋은 품질의 데이터를 갖추지 못한다면 머신러닝의 수행 결과는 좋을 수 없음

>**파이썬과 R 기반의 머신러닝 비교**\
R은 통계 전용 프로그램 언어, 파이썬은 개발 전문 프로그램 언어\
"파이썬은 소리 없이 프로그래밍 세계를 점령하고 있는 언어" - 머신러닝에 유리
- 쉽고 뛰어난 개발 생산성
- 오픈 소스 계열의 전폭적인 지원을 받고 있음
- 인터프리터 언어 특성상 속도는 느리지만 뛰어난 확장성, 유연성, 호환성으로 서버, 네트워크, 시스템, IOT 등 다양한 영역에서 활용
- 딥러닝 프레임워크 (텐서플로, 케라스, 파이토치 등)에서 우선 정책으로 지원





##**02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지**
>* 머신러닝 패키지 : Scikit-Learn (데이터 마이닝 기반의 머신러닝)
* 행렬/선형대수/통계 패키지 : NumPy (행렬, 선형대수), SciPy (자연과학, 통계)
* 데이터 핸들링 : 판다스 (2차원 데이터 처리, Matplotlib 호출해 시각화 지원)
* 시각화 : Matplotlib, Seaborn


##**03. 넘파이**
Numpy(Numerial Python) : 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지
- 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 함 -> 빠른 배열 연산 속도
- C/C++과 같은 저수준 언어 기반의 호환 API제공
- 데이터는 2차원 형태의 행과 열로 이루어짐, 다양한 가공과 변환, 여러가지 통계용 함수의 적용 등이 필요 -> 판다스가 더 편리함

>**넘파이 ndarray 개요**
<Br/> 
```
import numpy as np
```
넘파이 기반 데이터타입= ndarray
다차원(Multi-dimension) 배열을 쉽게 생성하고 다양한 연산을 수행할 수 있음
- array() 함수: 파이썬 리스트와 같은 다양한 인자를 입력 받아서 ndarray 로 변환하는 기능을 수행
- 생성된 ndarray 배열의 shape 변수는 ndarray의 크기(행, 열의 수)를 튜플 형태로 가짐, 배열 차원 알 수 있음







In [3]:
import numpy as np

array1 = np.array([1,2,3])
print('array1 type : ', type(array1))
print('array1 array 형태 : ', array1.shape) # tuple 형태로 반환

array2 = np.array([[1,2,3],
                   2,3,4])
print('array2 type : ', type(array2))
print('array2 array 형태 : ', array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type : ', type(array3))
print('array3 array 형태 : ', array3.shape)

print('array1 : {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1 type :  <class 'numpy.ndarray'>
array1 array 형태 :  (3,)
array2 type :  <class 'numpy.ndarray'>
array2 array 형태 :  (4,)
array3 type :  <class 'numpy.ndarray'>
array3 array 형태 :  (1, 3)
array1 : 1차원, array2: 1차원, array3:  2차원


  


>**ndarray의 데이터 타입**\
ndarray 내의 데이터값은 숫자 값, 문자열 값, bool 값 모두 가능
- 숫자형 : int형(8bit,16bit,32bit),unsigned int 형(8bit,16bit,32bit),float 형(16bit,32bit,64bit,128bit), complex type
- 하나의 ndarray 객체에는 같은 데이터 타입만 있어야 함
```
array.dtype() #ndarray 데이터 타입 확인
```


In [4]:
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1)) 
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [5]:
list2 = [1, 2, 'test'] #int와 string이 섞여있는 경우
array2 = np.array(list2)
print(array2, array2.dtype) #int->유니코드 문자열

list3 = [1, 2, 3.0] #int와 float 섞여있는 경우
array3 = np.array(list3)
print(array3, array3.dtype) #int가->float64

['1' '2' 'test'] <U21
[1. 2. 3.] float64


In [6]:
#int32->float64->int32
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32') #astype() : 메모리 절약해야 할 때
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


>**ndarray를 편리하게 생성하기-arrange,zeros,ones**\
특정 크기와 차원을 가진 ndarray를 연속값이나 0 or 1로 초기화해 쉽게 생성해야 할 필요가 있는 경우\
테스트용으로 데이터를 만들거나 대규모의 데이터를 일괄적으로 초기화해야 할 경우 사용
```
arrange(),zeros(),ones()
```





In [7]:
sequence_array=np.arange(10) #range()와 유사한 기능
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape) #0부터 (인자값-1) 까지 ndarray의 데이터값으로 변환

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [8]:
zero_array=np.zeros((3,2), dtype='int32') #튜플 형태의 shape값 입력하면 모든 값을 0으로 채운 ndarray 반환
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array=np.ones((3,2)) #dtype 설정하지 않는 경우 default=float64
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


>**ndarray의 차원과 크기를 변경하는 reshape()**\
reshape() : ndarray를 특정 차원 및 크기로 변환, 변환을 원하는 크기를 함수 인자로 부여

In [9]:
array1=np.arange(10)
print('array1:\n', array1)

array2=array1.reshape(2,5)
print('array2:\n', array2)

array3=array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [10]:
#지정된 사이즈로 변경이 불가능하면 오류
#array1.reshape(4,3)

In [11]:
array1=np.arange(10)
print(array1)
array2=array1.reshape(-1,5) #-1을 인자로 사용하면 원래 ndarray와 호환되는 새로운 shape로 변환
print('array2 shape:', array2.shape)
array3=array1.reshape(5,-1)
print('array3 shape:', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


In [24]:
#사이즈 변경 불가능하면 오류
#array1=np.arange(10)
#array4=array1.reshape(-1,4)

In [13]:
array1=np.arange(8)
array3d=array1.reshape((2,2,2))
print('array3d:\n', array3d.tolist()) #tolist(): 리스트 자료형으로 변환

#3차원 ndarray를 2차원 ndarray로 변환
array5=array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

#1차원 ndarray를 2차원 ndarray로 변환
array6=array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


>**넘파이의 ndarray의 데이터 세트 선택하기- 인덱싱(Indexing)**\
인덱싱 : 넘파이에서 ndarray 내의 일부 데이터 세트나 특정 데이터만을 선택할 수 있도록 함
1.   특정한 데이터만 추출 : 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환됨
2.   슬라이싱(Slicing) : 연속된 인덱스상의 ndarray를 추출하는 방식, ':' 기호 사이에 시작 인덱스와 종료 인덱스 표시하면 시작 인덱스에서 (종료 인덱스-1) 위치에 있는 데이터의 ndarray 반환
3. 팬시 인덱싱(Fancy Indexing) :  일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환
4. 불린 인덱싱(Boolean Indexing) : 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray 반환



**단일 값 추출**\
ndarray 객체에 해당하는 위치의 인덱스 값을 [ ] 안에 입력

In [14]:
#단일 값 추출

#1부터 9까지의 1차원 ndarray 생성
array1=np.arange(start=1, stop=10)
print('array1:', array1)
#index는 0부터 시작, array1[2]는 3번째 인덱스 위치의 데이터값 의미
value=array1[2]
print('value:', value)
print(type(value))

print('맨 뒤의 값:', array1[-1], '맨 뒤에서 두번째 값:', array1[-2])

#ndarray 내 데이터 값 수정
array1[0]=9
array1[8]=0
print('array1:', array1)

#2차원 ndarray에서 추출
array1d=np.arange(start=1, stop=10)
array2d=array1d.reshape(3,3)
print(array2d)
print('(row=0, col=0) index 가리키는 값:', array2d[0,0])
print('(row=0, col=1) index 가리키는 값:', array2d[0,1])
print('(row=1, col=0) index 가리키는 값:', array2d[1,0])
print('(row=1, col=1) index 가리키는 값:', array2d[1,1])

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>
맨 뒤의 값: 9 맨 뒤에서 두번째 값: 8
array1: [9 2 3 4 5 6 7 8 0]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=1, col=1) index 가리키는 값: 5


 **슬라이싱(Slicing)**\
':' 기호를 이용해 연속한 데이터를 슬라이싱해 추출\
단일 데이터값 추출을 제외하고 슬라이싱, 팬시 인덱싱, 불린 인덱싱으로 추출된 데이터 세트는 모두 ndarray 타입


```
[시작 인덱스 : 종료 인덱스]
```


>  ":" 기호 앞에 시작 인덱스를 생략하면 자동으로 맨 처음 인덱스인 0으로 간주\
":" 기호 뒤에 종료 인덱스를 생략하면 자동으로 맨 마지막 인덱스로 간주\
":" 기호 앞/뒤에 시작/종료 인덱스를 생략하면 자동으로 맨 처음/맨 마지막 인덱스로 간주







In [15]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [16]:
array1 = np.arange(1,10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [17]:
#2차원 슬라이싱
#row, col 각각에 인덱싱 적용

array1d=np.arange(start=1, stop=10)
array2d=array1d.reshape(3,3)
print('array2d:\n', array2d)
print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

print(array2d[0])
print(array2d[1])
print('array2d[0] shape:', array2d[0].shape, 'array2d[1] shape:', array2d[1].shape)

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]
[1 2 3]
[4 5 6]
array2d[0] shape: (3,) array2d[1] shape: (3,)


**팬시 인덱싱(Fancy Indexing)** \
리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 인덱싱 방식

In [18]:
#Fancy Indexing

#2차원 ndarray에 적용
array1d=np.arange(start=1, stop=10)
array2d=array1d.reshape(3,3)
array3=array2d[[0,1],2]
print('array2d[[0,1],2]=>', array3.tolist())
array4=array2d[[0,1],0:2]
print('array2d[[0,1],0:2]=>', array4.tolist())
array5=array2d[[0,1]]
print('array2d[[0,1]]=>', array5.tolist())

array2d[[0,1],2]=> [3, 6]
array2d[[0,1],0:2]=> [[1, 2], [4, 5]]
array2d[[0,1]]=> [[1, 2, 3], [4, 5, 6]]


**불린 인덱싱(Boolean Indexing)** \
조건 필터링과 검색을 동시에 할 수 있어 자주 사용되는 인덱싱 방식\
[ ] 내에 조건문 기재

In [19]:
#Boolean Indexing
array1d=np.arange(start=1, stop=10)
#[]안에 array1d>5 Boolean indexing을 적용
array3=array1d[array1d>5]
print('array1d>5 불린 인덱싱 결과 값 : ', array3)

boolean_indexes=np.array([False, False, False, False, False,  True,  True,  True,  True])
array3=array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과:', array3)

indexes=np.array([5,6,7,8])
array4=array1d[indexes]
print('일반 인덱스로 필터링 결과:', array4)

array1d>5 불린 인덱싱 결과 값 :  [6 7 8 9]
불린 인덱스로 필터링 결과: [6 7 8 9]
일반 인덱스로 필터링 결과: [6 7 8 9]


In [20]:
array1d>5

array([False, False, False, False, False,  True,  True,  True,  True])

>**행렬의 정렬-sort()와 argsort()**

**행렬 정렬-sort()**
* np.sort() - 넘파이에서 sort를 호출하는 방식, 원 행렬 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환
* ndarray.sort() - 행렬 자체에서 sort()를 호출하는 방식, 원 행렬 자체를 정렬한 형태로 변환, 반환 값=None


In [21]:
#행렬 정렬

org_array=np.array([3,1,9,5])
print('원본 행렬:',org_array)
#np.sort()로 정렬
sort_array1=np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)
#ndarray.sort()로 정렬
sort_array2=org_array.sort()
print('org_Array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)
#내림차순 정렬
sort_array1_desc=np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)
#2차원
array2d=np.array([[8,12],
                  [7,1 ]])
sort_array2d_axis0=np.sort(array2d, axis=0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)
sort_array2d_axis1=np.sort(array2d, axis=1)
print('칼럼 방향으로 정렬:\n',sort_array2d_axis1)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_Array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]
내림차순으로 정렬: [9 5 3 1]
로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


**정렬된 행렬의 인덱스를 반환하기 - np.argsort()**
* 원본 행렬이 정렬되었을 때 기존 원본 행렬의 원소에 대한 인덱스를 필요로 할 때 이용
* 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환
* ***넘파이에서 매우 활용도가 높음***
  * ndarray는 table이나 Dataframe과 같은 메타 데이터를 가질 수 없음
  * 실제 값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 저장해야 함

In [22]:
#정렬된 행렬의 인덱스를 반환하기

org_array=np.array([3,1,9,5])
sort_indices=np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

org_array=np.array([3,1,9,5])
sort_indices_desc=np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

#학생별 시험성적을 데이터로 표현-> 시험 성적순으로 학생 이름 출력
name_array=np.array(['John','Mike', 'Sarah', 'Kate', 'Samuel'])
score_array=np.array([78,95,84,98,88])
sort_indices_asc=np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]
행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]
성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


>**선형대수 연산 - 행렬 내적과 전치 행렬 구하기**

In [23]:
#행렬 내적(행렬 곱)

A=np.array( [[1,2,3],
             [4,5,6]] )
B=np.array( [[7,8],
             [9,10],
             [11,12]])
dot_product=np.dot(A,B)
print('행렬 내적 결과:\n', dot_product)

#전치 행렬
A=np.array([[1,2],
            [3,4]])
transpose_mat=np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]
A의 전치 행렬:
 [[1 3]
 [2 4]]
