# Chapter 01. 파이썬 기반의 머신러닝과 생태계 이해

## 01. 머신러닝의 개념

머신러닝 : 일반적으로, 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭

데이터 분석 영역은 재빠르게 머신러닝 기반의 예측 분석으로 재편되고 있다. 많은 데이터 분석가와 데이터 과학자가 머신러닝 알고리즘 기반의 새로운 예측 모델을 이용하며, 데이터에 감춰진 새로운 의미와 인사이트를 발굴해 놀랄 만한 이익으로 연결시키고 있다.

#### 파이썬을 R보다 선호하는 이유

* 쉽고 뛰어난 개발 생산성
* 오픈 소스 계열의 전폭적인 지원, 많은 라이브러리
* 인터프리터 언어 특성상 확장성, 유연성, 호환성 뛰어남
* 다양한 기업 환경으로의 확산 가능

## 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

* 사이킷런 - 머신러닝 패키지
* 넘파이, 사이파이 - 행렬, 선형대수, 통계 패키지
* 판다스 - 데이터 핸들링 패키지
* 맷플롯립, 시본 - 시각화 패키지

## 03. 넘파이(NumPy, Numerical Python)

ndarray : 넘파이 기반 데이터 타입

In [1]:
import numpy as np

In [2]:
array1 = np.array([1,2,3])
print('array1 type：', type(array1))
print('array1 형태：',array1.shape)

array2 = np.array([[1,2,3],[2,3,4]])
print('array2 type：', type(array2))
print('array2 형태：',array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type：', type(array3))
print('array3 형태：',array3.shape)

array1 type： <class 'numpy.ndarray'>
array1 형태： (3,)
array2 type： <class 'numpy.ndarray'>
array2 형태： (2, 3)
array3 type： <class 'numpy.ndarray'>
array3 형태： (1, 3)


array1 shape (3,) : 1차원 array에 3개의 데이터를 가지고 있음\
array2 shape (2,3) : 2차원 array에 2개의 row와 3개의 col 가지고 있음\
array3 shape (1,3) : 2차원 array에 1개의 row와 3개의 col 가지고 있음

* 차원을 알려주는 ndarray.ndim

In [4]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3:  2차원


In [5]:
#차원을 알려주는 ndarray.ndim
array1.ndim

1

* 데이터 타입을 알려주는 함수 dtype

In [7]:
list1 = [1, 2, 3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [8]:
list2 =[1,2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

['1' '2' 'test'] <U11


ndarray는 같은 데이터 타입만 연산할 수 있음. string을 섞었더니 모두 string 형태가 됨

* 데이터 타입 변경 astype

In [9]:
array_int = np.array([1, 2, 3])
print(array_int.dtype)
array_float = array_int.astype('float64')
print(array_float.dtype)
array_int2 = array_float.astype('int32')
print(array_int2.dtype)

int32
float64
int32


* 파이썬 표준함수 range()와 유사한 arange()

In [10]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


* 0으로 초기화하는 zeros, 1로 초기화하는 ones

In [12]:
#0으로 초기화
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)


In [13]:
#1로 초기화
one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


* 특정 차원 및 크기로 변환하는 함수 reshape

In [16]:
array1 = np.arange(10)
print('array1 ：\n', array1)
array2 = array1.reshape(2, 5)
print('array2：\n', array2)
array3 = array2.reshape(5, 2)
print('array3：\n', array3)

array1 ：
 [0 1 2 3 4 5 6 7 8 9]
array2：
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3：
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [17]:
array1 = np.arange(10)
print(array1)
array2 = array2.reshape(-1, 5)
print(array2)
print('array2 shape：', array2.shape)
array3 = array1.reshape(5, -1)
print(array3)
print('array3 shape：', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
array2 shape： (2, 5)
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
array3 shape： (5, 2)


reshape에 -1을 인자로 쓰면, 해당 array와 호환될 수 있는 차원으로 알아서 변환이 됨\
e.g. 10개 = 5 * 2 이므로 (5, -1) 하면 자동으로 5 * 2 행렬

In [19]:
array1 = np.arange(8)
array3d = array1.reshape((2, 2, 2))
print('array3d：\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1, 1)
print('array5：\n', array5.tolist())
print('array5 shape：', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = arrayl.reshape(-1, 1)
print('array6：\n', array6.tolist())
print('array6 shape：', array6.shape)

array3d：
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5：
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape： (8, 1)
array6：
 [[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]]
array6 shape： (10, 1)
