## **인공지능, 머신러닝, 딥러닝**

### AI > Machine Learning > Deep Learning
![image.png](attachment:image.png)

# 1. 전통적인 방식의 프로그램(인공지능)

**인공 지능 ArtificialIntelligence**

인간의 학습 능력과 추론 능력, 지각 능력, 자연 언어의 이해 능력 등을 컴퓨터 프로그램으로 실현한 기술, 규칙 기반 전문가 시스템의 형태

- 룰 기반

In [1]:
#  일반 프로그램 (룰 기반)

def my_function(x):
  return 5 * x + 7

val = int(input('숫자를 입력하세요 : '))
ret = my_function(val)
print(ret)

147


# 2. 머신러닝

**머신 러닝 MachineLeaining:**

**컴퓨터가 데이터를 학습하는 알고리즘과 기술을 통칭, 인공지능을 구현하는 구체적 접근 방식** 

Ex)Knn, Linear모델, DecisionTree, SVM, PCA, NMF, Kmeans, DBSCAN

Representation learning(표현 학습)은 데이터로부터 유용한 특징이나 표현을 자동으로 학습하는 방법을 말합니다. 전통적인 머신러닝 방식에서는 사람이 수작업으로 특징(feature)을 추출하고 이를 모델에 입력해야 했지만, 표현 학습은 이러한 과정에서 특징을 직접 설계할 필요 없이 모델이 데이터로부터 필요한 표현을 스스로 학습합니다

- 모델을 지정해 줌
- 입력 값과 결과 값이 명확하지 않을 때 사용

In [2]:
# 머신러닝
import numpy as np
from sklearn import linear_model # 선형회귀 모델 사용

# 1. 데이터, 입력값과 결과값
# 입력값 - 2차원임임
X_train = np.array([1,2,3,4,5,6,7]).reshape(-1,1)

# 결과값 - 정답 1차원임, 입력을 넣었을 때 나올 정답답
y_train = np.array([12, 17, 22, 27, 32, 37, 42]).reshape(-1,1)

# 2. 모델 생성 - 기계학습의 가장 큰 특징 : 어떤 모델을 사용할 것인가 알려줘야 함.
# 선형회귀 모델 객체-깡통
model = linear_model.LinearRegression()

# 데이터 넣어주기 - 학습
model.fit (X_train, y_train)

# 예측
predict = model.predict([[9]])

# 예측한 결과 값
print(predict)

[[52.]]


➕ 추가 질문

1. 기계학습모델에서 2차원 배열을 사용하는 이유?
- 입력 데이터와 출력 데이터의 일관성을 유지하고, 모델이 데이터를 올바르게 처리할 수 있도록 하기 위함.

2. 결과값(모델 예측값)이 소수점으로 나오는 이유?
- 모델이 학습하는 과정에서 소수점 이하의 값을 사용하기 때문.
- 선형회귀 모델의 예측값이 부동 소수점 형식으로 반환되기 때문.

# 3. 딥러닝

인공 신경망(ArtificialNeuralNetwork)이 더 발전된 형태로, 데이터 표현을 직접 학습하여 높은 수준의 추상화를 시도하는 머신 러닝 알고리즘의 집합

EX) MLPs(다층 퍼셉트론, **Multi-Layer Perceptrons**),  CNN, RNN, GAN(Generative adversarial networks), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Unit)

- TensorFlow : 딥러닝을구현하는오픈프레임워크


- 모델을 지정하지 않고, 입력 값과 (필요하면 은닉층) 결과 값만 주고 알아서 구하도록 함
- 데이터 양이 굉장히 많을 때

In [3]:
# DL
import numpy as np
import tensorflow as tf

In [7]:
#1. 데이터 지정
X_train = np.array([1, 2, 3, 4, 5, 6, 7]).reshape(-1,1)
y_train = np.array([12, 17, 22, 27, 32, 37, 42]).reshape(-1,1)

#2. 모델 형태 지정
inputs = tf.keras.layers.Input(shape=(1,))  #입력층 입력되는 값이 한 개임(1 dimension)
outputs = tf.keras.layers.Dense(units=1)(inputs)  #출력층

#모델 객체를 생성(특정 모델이 없음)
model = tf.keras.models.Model(inputs, outputs)

#loss 손실함수 -> MeanSquaredError, 최적화 함수(성능이 좋아짐) -> SGD
model.compile(
    loss = tf.keras.losses.MeanSquaredError(),
    optimizer = tf.keras.optimizers.SGD()
)

#3. 모델 학습하기
model.fit(X_train, y_train, epochs=1000, verbose=0)

#4. 예측 epochs = 100 : '55.xx', 1000:52.xx
predict = model.predict(np.array([[9]])) #예측값을 numpy 배열 2차원으로 변환

#예측한 결과 값
predict

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 50ms/step


array([[52.094524]], dtype=float32)

### 머신러닝과 딥러닝의 비교
![image.png](attachment:image.png)

### 일반 프로그램과 딥러닝의 비교

![image.png](attachment:image.png)

## **머신 러닝, 모델 그리고 알고리즘**

Machine Learning : 컴퓨터가 데이터를 학습하는 알고리즘과 기술을 통칭

**Model : 분류 예측 추정 등의 목적에 부합하는 데이터 처리가 가능한 집합체** 

Ex) Knn, Linear 모델, Decision Tree, SVM, PCA, NMF, Kmeans, DBSCAN CNN, RNN, GAN, LSTM, GRU

**Algorithm: 모델을 최적화하기 위한 학습 방법**

Ex) Loss Function and optimization , 최소제곱법(Least Squared), 경사하강법(Gradient Descent)역전파(Backpropagation), 엔트로피 최소화(Entropy)

## **머신 러닝의 구분**

- **통계 해석**: 현상의 이해와 설명,  데이터 분포, 특성 파악
- **예측**: 수치를 예측하는 것
- **분류:** 미리 정해진 카테고리 중 어디에 속하는지 판별
- **클러스터링**: 비슷한 성격의 항목들을 그룹으로 만들기
- **연관 관계 분석**: 같이 자주 발생하는 연관성 패턴 찾기
- **추천**: 대부분 분석의 결론은 추천의 형태를 갖는다

## **머신 러닝의** 학습 방법

**지도 학습** Supervised Learning

데이터에 대한 **레이블(Label)-명시적인 정답-이 주어진 상태**에서 컴퓨터를 학습시키는 방법

 EX) 엄마가옆에서저동물이개혹은고양이인지알려줄때이루어지는 학습, 암환자 데이터, 붓꽃, 숫자, Startup-Ranking

**비지도 학습**Unsupervised Learning 

데이터에 대한 **레이블(Label)-명시적인 정답-**이 주어지지 않은 상태에서 컴퓨터를 학습시키는 방법

**데이터의 숨겨진(Hidden) 특징(Feature)이나 구조를 발견** 

EX) 그 누구도 저 동물이 개 혹은 고양이인지 알려주지 않을 때 이루어지는 학습, SNS텍스트에서 주제를 분류, 고객 분류 및 타겟 마켓팅 등

**강화 학습**Reinforcement Learning  

행동 심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, **선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택**하는 방법

EX) 아이가걷는과정에서의학습

### Supervised learning (지도학습)

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

1. **분류(Classification)**
    
    ✔타겟변수Y가 이산형(discrete)/범주형(categoria) 일 때
    
    ✔예시 - 제품의 불량/ 정상 예측,  메일의 스팸 예측,  얼굴 인식

![image.png](attachment:image.png)

1. **회귀(Regression)**
    
    ✔타겟변수 Y 가 연속형(continuous)/범주형(real number) 일 때
    
    ✔예시: 내일 KOSPI 종가 예측, 다음 달 매출액 예측
    
    ✔단순 선형 회귀

In [None]:
import numpy

#일주일 평균 공부 시간
X = numpy.array([20,12,10,25,19,5,15,42,56,30,7,35]).reshape(-1,1)

#GPA
y = numpy.array([3.5, 2.65, 2.5, 3.48, 3.15, 1.75, 3.1, 4.43, 4.19, 4.03, 2.03, 3.73])

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X,y)

#일주일 평균 21시간을 공부한다면?
ret = model.predict([[21]])
print(ret)

from matplotlib import pyplot

pyplot.grid()
pyplot.scatter(X,y);
pyplot.plot(X, model.predict(X), color='r') #모델이 예측한 결과 값

### **Unsupervised learning (비지도학습)**

1. **군집화(Clustering)**  : 유사한 포인트들끼리 모아 군집 구조를 만드는 방법
2. **연관규칙분석(Association rule mining) :** 아이템 간의 연관 규칙을 확률 기반으로 평가
3. **분포추정(Density estimation)** : 관측된 샘플의 확률 분포를 추정하는 방법
4. **잠재요인추출(Extracting latent factors) :** 데이터내 잠재되어 있는 새로운 변수/요인 추출
![image.png](attachment:image.png)

### **Reinforcement learning (강화학습)**

행동 심리학에서 영향을 받았으며, 어떤 환경안에서 정의된 에이전트가 현재의 상태를 인식하여 선택 가능한행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하게 하는 목표 지향 학습 방법

문제에 대한 직접적인 답을 주지는 않지만 경험을 통해 **기대 보상** (expected reward)이 최대가 되는 **답**을 찾는 학습으로 경험 데이터를 계속 쌓아 나아가며 보상에 따른 인과관계를 형성
![image.png](attachment:image.png)

### 강화학습 구조
![image.png](attachment:image.png)

▪**Google Deepmind’s Deep Q-learning playing Atari Breakout**

https://www.youtube.com/watch?v=V1eYniJ0Rnk

▪**데브시스터즈: 쿠키런(By Taehoon Kim)**

Source:https://www.youtube.com/watch?v=exXD6wJLJ6s&t=50s

✔**강화학습의어려움은Scoring이다.** 

**게임에서는 강 화학습이 용이하다.   모든 행위에 대한 Score 를 줄 수 있기 때문이다. 그러나 대부분의 현실은 Score가 없다.  실제 비즈니스에서는 활용이 미흡 ex) 제조업체의불량률제어**

### 머신 러닝 학습 알고리즘의 선택
![image.png](attachment:image.png)

# 교재 요약
 : 파이썬 머신러닝 완벽 가이드(2019, 한빛미디어)

## 1. 파이썬 기반의 머신러닝과 생태계 이해

### 01. 머신러닝의 개념

**머신러닝**

- 정의
   - 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법
- 특징
   - 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과 도출
- 활용
   - 예측 분석, 새로운 의미와 인사이트 발굴, 데이터마이닝, 영상 인식, 음성 인식, 자연어 처리 등 개발 복잡도가 높은 분야
- 분류
   - 지도학습 : 분류, 회귀, 추천 시스템, 시각/음성 감지/인지, 텍스트 분석, NLP
   - 비지도학습 : 클러스터링, 차원 축소, 강화학습
- 한계
   - 데이터에 매우 의존적임. (Garbage In, Garbage Out)   
       ➡️ 데이터를 이해하고 효율적으로 가공, 처리, 추출해 최적의 데이터를 기반으로 알고리즘을 구동할 수 있도록 준비하는 능력 중요    
            (+ 최적의 머신러닝 알고리즘과 모델 파라미터 구축 능력)
- 오픈 소스 프로그램 언어 비교
   - C / C++ / JAVA(컴파일러 기반 언어) : 낮은 개발 생산성 / 활발하지 않은 지원 패키지와 생태계 문제 / 즉각적 수행 시간이 중요한 경우 사용
   - R : 통계 분석 전문 언어 / 다양한 통계 패키지 보유
   - Python : 유연한 프로그램 아키텍쳐(직관적 문법, 객체지향, 함수형 프로그래밍) / 다양한 라이브러리 / 느린 속도(인터프리터 언어) / 머신러닝 결합 / 기업 환경 확산 가능 / 프레임 워크 파이썬 우선 정책 + 점유도 ↑

CF. 도서 추천 : 마스터 알고리즘(비즈니스북스 2016)

### 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지

**머신러닝 패키지**
- Scikit-learn : 데이터 마이닝 기반의 머신러닝에서 독보적인 위치를 차지지하는 라이브러리
- Tensorflow, Keras : 영상, 음성, 언어 등 비정형 데이터 분야에 적합한 전문 딥러닝 라이브러리

**행렬/선형대수/통계 패키지**
- Numpy : 행렬 연산과 선형대수를 위한 패키지
- Scipy : 자연과학과 통계 관련 함수를 제공하는 패키지
- Numpy와 Scipy는 머신러닝 패키지의 기반

**데이터 핸들링**
- Pandas : 데이터 처리를 위한 패키지 / 2차원 데이터 처리에 특화 / 넘파이보다 편리하게 데이터 처리 가능 / Matplotlib과 함께 데이터시각화에 활용

**데이터 시각화**
- Matplotlib : 데이터 시각화를 위한 패키지 / 지나치게 세분화된 API / 투박한 시각적 디자인 / 비효율적인 코드 작성
- Seaborn : 맷플롯립 기반 / 판다스와 쉬운 연동 / 함축적 API / 다양한 유형의 그래프 및 차트 제공

**IPython**
- Jupyter Notebook : 데이터 분석 및 머신러닝 프로젝트 시 코드 작성 및 실행 환경 제공

### TIP. 효율적인 공부 방법

1. 넘파이와 판다스에 대해 상세히 이해하기 ➡️ 다른 사람이 만든 소스 코드를 자기것으로 흡수하기
 - 넘파이와 판다스는 데이터 추출/가공/변형/차원 변환/알고리즘 처리 결과에 대한 다양한 가공 등 전반에 활용됨
 - 사이킷런 역시 넘파이 기반이므로 넘파이를 이해하지 못하면 사이킷런 구현 역시 어려움    
    
 - 하지만 넘파이와 판다스가 다루고 있는 선형대수나 데이터 핸들링은 생각보다 광범위함.   
   ∴ 기본 프레임워크와 중요 API만 예제를 통해 사용법을 인지하며 체득   
    → 코드와 부딪혀가며 모르는 API 찾아보고 습득   