# CHAPTER 01. 파이썬 기반의 머신러닝과 생태계 이해

## 01. 머신러닝의 개념

데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법

- 머신러닝을 활용하여 해결할 수 있는 문제점
    - 변화하는 외부 조건에 맞춰서 수시로 코드를 변경해줘야 함.
    - 데이터를 관통하는 일정한 패턴, 조건을 찾기 어려움.

- 학습법
    1. 지도학습
        - 정답이 있는 데이터를 학습. (데이터 라벨링)
        - ex. 이 사진은 고양이 사진, 이 사진은 강아지 사진
        - 라벨링을 사람이 해야되서 시간과 비용이 많이 든다.
    2. 비지도학습
        - 라벨링을 하지 않은 사진들을 군집화
        - ex. 고양이 사진, 강아지 사진을, 병아리 사진을 다리의 개수를 feature 로 찾아 다리 2개, 다리 4개인 동물의 사진들로 군집화
        - 지도학습에서의 feature 를 찾기위한 전처리과정으로 사용하기도 한다.
    3. 강화학습
        - 어떤 행동을 했을 때의 reward를 지정하여 학습. reward 가 최대인 행동을 하도록 한다.
        
## 03. 넘파이

데이터 핸들링에서 판다스보다 불편하지만 많은 알고리즘이 넘파이 기반으로 작성되어 있어 다른 데이터 핸들링 패키지(ex. pandas) 를 이해하는 기반을 다지기 좋다.

### ndarray




In [7]:
import numpy as np
arr = np.array([1, 2, 3])
print(type(arr))
print(arr.shape)

arr = np.array([[1],[2]])
print(type(arr))
print(arr.shape)

arr = np.array([[[1], [2]], [[3], [4]], [[5],[6]]])
print(type(arr))
print(arr.shape)
# shape : (x, y)  --> 원소 개수 y 개인 배열이 x 개 있는 배열.

<class 'numpy.ndarray'>
(3,)
<class 'numpy.ndarray'>
(2, 1)
<class 'numpy.ndarray'>
(3, 2, 1)


ndarray 안의 데이터 타입은 한 종류이다.

다른 타입의 데이터로 ndarray 를 만들면 크기가 가장 큰 데이터 타입으로 캐스팅된다.



In [9]:
arr = np.array([1, 2, 3.2])
print(arr, arr.dtype)

arr = np.array(['1','2'])
print(arr, arr.dtype)

arr = np.array(['1', 'abdc'])
print(arr, arr.dtype)

[1.  2.  3.2] float64
['1' '2'] <U1
['1' 'abdc'] <U4


asypte() method로 ndarray 내 데이터 타입을 변환 할 수 있다.

기존 데이터 타입보다 작은 데이터 타입으로 변환할 경우 데이터 손실이 일어날 수 있다. (ex. float -> int :: 소수점 이하 사라짐)


In [12]:
arr = np.array([1.5, 2.3])
print(arr, arr.dtype)

arr = arr.astype('int32')
print(arr, arr.dtype)

arr = arr.astype('float64')
print(arr, arr.dtype)
# .5 .3 사라짐

[1.5 2.3] float64
[1 2] int32
[1. 2.] float64


method arange, zeros, ones 로 초기화 가능


In [15]:
arr = np.arange(10)
# 파라미터: 범위 start, stop 지정 가능
print(arr, arr.dtype)

arr = np.zeros((3, 2)) 
# 파라미터: 만들 ndarray 의 shape 과 dtype(default = float64)
print(arr, arr.dtype)

arr = np.ones((3,2))
# 파라미터: 만들 ndarray 의 shape, dtype (default = float64)
print(arr, arr.dtype)



[0 1 2 3 4 5 6 7 8 9] int64
[[0. 0.]
 [0. 0.]
 [0. 0.]] float64
[[1. 1.]
 [1. 1.]
 [1. 1.]] float64


reshape() method 로 ndarray shape 바꾸기 가능 (변경 불가능 하면 오류)

-1 하면 변환 가능한 모양으로 찾아서 변환해준다.

tolist() 를 사용하면 ndarray 를 list 로 변환 해주는데 

print 함수가 list 출력하는게 사람이 보기 편하다. (ndarray는 행 마다 라인피드)


In [20]:
arr = np.arange(10)
print(arr)

print(arr.reshape(2,5))
print(arr.reshape(2,5).tolist())
print(arr.reshape(-1,5).tolist())

print(arr.reshape(5,2).tolist())
print(arr.reshape(5,-1).tolist())

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]
[[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]
[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]
[[0, 1], [2, 3], [4, 5], [6, 7], [8, 9]]
