In [1]:
# 기본
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 경고가 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나이상 설정할 경우
from sklearn.model_selection import cross_validate

from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 하이퍼 파라미터 튜닝
from sklearn.model_selection import GridSearchCV

# 평가함수 - 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 평가함수 - 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류용
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀용
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 군집 알고리즘
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift

# 시간 측정을 위한모듈
import datetime
# 저장을 위한 모듈
import pickle

### 프로젝트 과정
- 데이터 확보.
- 데이터 분석 : 사람이 데이터를 이해하는 과정. 이 과정에서 데이터에 대한 전처리도 이루어진다.
- 머신러닝 : 기계학습, 앞으로 발생되는 데이터를 컴퓨터가 모니터링 하게 할 경우..

### 학습 종류
- 지도 학습 : 입력과 결과를 주고 결과를 예측한다.
- 비 지도 학습 : 학습시 입력만 주거나 결과도 주지만 결과를 예측하지는 않다. 결과 예측이 목적이 아닌 알고리즘마다 다양한 목적을 갖고 있다.
- 강화학습 : 환경, 에이전트, 상벌, 정책 등의 개념을 정의하여 에이전트가 주어진 환경에서 상을 받기 위해 노력하는 학습 방법.

### 지도 학습
- 알고리즘 모두 값을 예측한다는 공통의 목표를 가지고 있다.
- 알고리즘에 따라 학습 방식과 예측 방식이 다르기 때문에 예측에 걸리는 시간이 다르고 성능이 다르다.
- 분류 : 결과 데이터가 카테고리 형(혈액형, 성별 등등)인 경우
- 회귀 : 결과 데이터가 계산된 수치 형태인 경우(집값 상승률, 소득 금액 등등)
- KNN : 학습시 데이터를 저장만 하고 예측시에는 발생된 데이터가 가장 가까운 데이터의 결과를 보고 최종 결과를 예측한다. 속도는 빠르지만 다른 모델에 비해 다소정확도가 떨어질 수 있다.
- 선형모델 : 분류에서는 경계선, 회귀에서는 예측선을 찾은 알고리즘. 실제 데이터와 예측된 데이터간의 오차를 최소화 시키는 선을 찾으려고 노력한다(LogisticRegression, SVM, LinearRegression, Ridge, Lasso, ElasticNet)
- 결정트리 : KNN이나 선형모델은 각 컬럼간의 범위, 상관관계 등에 영향을 받지만 각 컬럼들의 데이터를 가지고 컬럼별 질문을 생성하여 예측하는 알고리즘. 회귀에서 매우 좋지 않은 성능을 보일 가능성이 높다.
- 앙상블 : 다수의 모델을 사용하여 다수의 모델이 던지는 결과를 취합하여 최종 결과를 선정하는 알고리즘(RandomForest)
- 부스팅 : 부스팅은 앙상블 모델 중에 하나이다. RandomForest가 던지는 결과 중에 틀린답에 대해 오차를 보정하는 학습방식이다. 시간이 매우 오래 걸리긴 하지만 회귀에서 꽤 좋은 성능을 보인다(AdaBoost, GradientBoost, LGBM, XGBoost)

### 앙상블
- 다수의 모델을 사용하여 결과를 취합하는 알고리즘
- 운영방식 : Votion, Bagging
- 투표방식 : Soft Voting, Hard Voting
---
- Volting : 모두 다른 알고리즘을 사용하여 같은 데이터를 학습하고 예측하는 방식
- Bagging : 모두 같은 알고리즘을 사용하며 다른 데이터를 학습하고 예측하는 방식
- Sklearn에서 제공하는 앙상블과 부스팅은 Bagging을 사용한다.
---
- Hard Voting : 각 알고리즘이 던지는 결과를 취합하여 다수결을 통해 최종 결과를 선정한다.
- Soft Voting : 각 알고리즘이 던지는 결과를 취합하여 확률이 가장 높은 결과를 최종 선정한다.
- sklearn에서 제공하는 앙상블과 부스팅은 Soft Voting을 사용한다.

### 비지도 학습
- 주어진 데이터를 통해 다양한 목적을 이룰수 있도록 제공되는 알고리즘
- 데이터 변환 : LabelEncoder,  OntHotEncoding 등.
- 표준화 : StandardScaler, MinMaxScaler 등.
- 군집 : K-Means, Mean Shift 등.
- 차원축소 : PCA, LDA 등

### 참고 사이트
- 데이터 관련
- AI Hub : http://aihub.or.kr/
- 정부, 지자체에서 운영하는 공공 데이터 : 검색사이트에서 "지역이름 공공데이터"로 검색(공공데이터포털)
- 포털의 open api : 검색사이트에서 "사이트이름 개발자센터" 혹은 "사이트이름 open api"로 검색
- 미국 데이터 : "대학이름 dataset"(UCI, calteck)
- kaggle.com

- 공부관련
- 데이터 사이언스 스쿨 : https://datascienceschool.net/intro.html
- tutorialspoint : https://www.tutorialspoint.com/index.htm