# 현업에서 사용중인 머신러닝 알고리즘 Top10

1. 지도학습
    - 선형회귀
    - 로지스틱회귀
    - k-nn
    - 나이브베이스
    - 결정트리
    - 랜덤포레스트
    - XGBoost
    - LightGBM  
      
      

2. 비지도학습
    - k-means
    - PCA  
      
      

3. 선택이유
    - 범용성
    - 속도
    - 예측력
    - 하이퍼파라미터 튜닝
    - 시각화
    - 해석력

# 머신러닝 필수 라이브러리
1. Numpy : Nummerical Python의 줄임
    - 파이썬 산술계산의 대표적인 라이브러리
    - 자료구조, 알고리즘 산술 데이터를 다루는 대부분의 과학 계산에 필수 라이브러리
    - ndarray 객체
  
    
2. Pandas : 구조화된 데이터나 표 형식의 데이터를 빠르고 쉽게 표현적으로 다루도록 설계된 고수준 자료구조
    - 데이터 과학에서 데이터를 처리하는 대표적인 라이브러리
    - 데이터 핸들링의 표준
    - Series 객체와 DataFrame 객체가 대표적인 자료구조  
    
    
3. Matplotlib : 시각화 라이브러리
    - 그래프나 2차원 데이터를 시각화하는 파이썬 기반의 라이브러리  
    
    
4. Seaborn : 다양한 시각화 종류를 제공하는 라이브러리
    - Matplotlib에 종속된 라이브러리  
    
    
5. Scipy : 사이파이
    - 과학 계산 컴퓨팅 영역의 여러 기본 문제를 다루는 패키지 모음
    - Scipy.stats : 가장 많이 사용되는 통계도구를 가지고 있는 라이브러리  
    
    
6. scikit-learn : 머신러닝의 핵심 라이브러리
    - 분류 : SVM, 최근접 이웃, 랜덤 포레스트, 로지스틱 회귀 등
    - 회귀 : 라쏘, 릿지 회귀 등
    - 클러스터링 : k-평균 등
    - 차원축소 : PCA, 특징 선택, 행렬 인수분해 등
    - 모델 선택 : 격자 탐색, 교차검증, 행렬
    - 전처리 : 특징 추출, 정규화 등  
    
    
7. statsmodels : R 언어용 회귀분석 모델을 구현한 통계분석 패키지
    - 회귀모델 : 선형회귀
    - 분산분석(ANOVA)
    - 시계열분석 : AR, ARMA, ARIMA 등
    - 통계 모델 결과의 시각화 제공
    

# 앙상블 학습

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl

# 보팅 분류기
from sklearn.ensemble import VotingClassifier

# 보팅용 학습알고리즘
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 데이터셋
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

# 경고무시
from warnings import filterwarnings
filterwarnings('ignore')

# ggplot 스타일
mpl.style.use('ggplot')
# matplotlib 한글화
mpl.rcParams['font.family'] = 'D2coding'

In [11]:
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [13]:
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [14]:
df = pd.DataFrame(cancer.data, columns = cancer.feature_names)
df.head(3)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758


In [15]:
df.shape

(569, 30)

In [17]:
logistic_regression = LogisticRegression()
knn = KNeighborsClassifier(n_neighbors = 5)

voting_model = VotingClassifier(estimators = [('LogisticRegression', logistic_regression), ('KNN', knn)], 
                               voting = 'soft')

In [18]:
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size = 0.2, random_state = 156)

In [19]:
voting_model.fit(X_train, y_train)
pred = voting_model.predict(X_test)
pred # X_test를 예측한 데이터

array([1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1,
       0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1,
       0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1])

In [20]:
print('보팅 분류기 정확도 : {:.3f}'.format(accuracy_score(y_test, pred)))

보팅 분류기 정확도 : 0.947


In [29]:
# 개별 모델의 학습과 예측 그리고 평가
classifier = [logistic_regression, knn]

for model in classifier:
    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    model_name = model.__class__.__name__
    print('모델명 : {}'.format(model_name))
    print('정확도 : {:.3f}\n'.format(accuracy_score(y_test, pred)))

모델명 : LogisticRegression
정확도 : 0.939

모델명 : KNeighborsClassifier
정확도 : 0.904



# 랜덤포레스트(RandomForest)

In [43]:
wine = pd.read_csv('https://raw.githubusercontent.com/rickiepark/hg-mldl/master/wine.csv')

data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

In [44]:
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size = 0.2, random_state = 42)

In [45]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_jobs = -1, random_state = 42)
scores = cross_validate(rf, X_train, y_train, return_train_score = True) # return_train_score : 훈련세트와 테스트데이터 점수 둘 다 출력

print('훈련테스트 데이터 : {:.4f}, 테스트데이터 점수 : {:.4f}'.format(np.mean(scores['train_score']), np.mean(scores['test_score'])))

훈련테스트 데이터 : 0.9974, 테스트데이터 점수 : 0.8905


In [53]:
# 그리드 서치
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
rf = RandomForestClassifier(n_jobs = -1, random_state = 42)

params = {
    'max_depth':[2, 3, 4, 5, 6, 7, 8, 9, 10],    
    'min_samples_leaf':[1, 2, 3, 4, 5, 6, 7, 8, 9],
    'min_samples_split':[2, 3, 4, 5, 6, 7, 8, 9, 10]
}

gs = GridSearchCV(rf, param_grid = params, cv = 3, refit = True, n_jobs = -1) # n_jobs는 실행 코어수 조절(-1을 주면 모든 코어 사용)
gs.fit(X_train, y_train)

# 그리드 서치를 사용한 모델의 최적의 파라미터값
model = gs.best_estimator_
print('1. 그리드 서치를 이용한 최적의 매게변수 : ', gs.best_params_)
print('2. 그리드 서치를 이용한 최적의 매게변수 점수 : {:.3f}'.format(gs.best_score_))
print('3. 최적의 교차검증 점수 : {:.3f}'.format(np.max(gs.cv_results_['mean_test_score'])))
print('4. 훈련데이터 점수 : {:.3f}'.format(model.score(X_train, y_train)))
print('5. 테스트데이터 점수 : {:.3f}'.format(model.score(X_test, y_test)))


1. 그리드 서치를 이용한 최적의 매게변수 :  {'max_depth': 10, 'min_samples_leaf': 2, 'min_samples_split': 2}
2. 그리드 서치를 이용한 최적의 매게변수 점수 : 0.885
3. 최적의 교차검증 점수 : 0.885
4. 훈련데이터 점수 : 0.923
5. 테스트데이터 점수 : 0.869


In [55]:
rf.fit(X_train, y_train)

# 랜덤 포레스트를 사용했을때 특성을 더 골고루 사용한다. 
print('특성 중요도 - alcohol : {:.4f}, sugar : {:.4f}, pH : {:.4f}'.format(
    rf.feature_importances_[0], rf.feature_importances_[1], rf.feature_importances_[2]))

특성 중요도 - alcohol : 0.2317, sugar : 0.5004, pH : 0.2679


In [52]:
# OOB(Out Of Bag) 샘플 : 부트스트랩 샘플에 포함되지 않고 남는 샘플
rf = RandomForestClassifier(oob_score = True, n_jobs = -1, random_state = 42)
rf.fit(X_train, y_train)

print(rf.oob_score_)

0.8934000384837406


# 실전예제 : 중고차 가격 예측
1. 알고리즘 : 랜덤포레스트(RandomForest)  
  
  
2. 데이터 셋 : 해외 중고차 거래 데이터셋 이용  
  
  
3. 데이터 셋의 소개 : 종속변수(), 독립변수()
    - 중고차 판매 이력을 수집한 데이터 세트  
    
    
4. 문제유형 : 회귀  
  
  
5. 평가지표 : RMSE  
  
  
6. 사용할 모델 : RandomForestRegressor  
  
  
7. 사용 라이브러리 : 

In [173]:
data = pd.read_csv('https://media.githubusercontent.com/media/musthave-ML10/data_source/main/car.csv')
data

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner,mileage,engine,max_power,torque,seats
0,Maruti Swift Dzire VDI,2014,450000,145500,Diesel,Individual,Manual,First Owner,23.4 kmpl,1248 CC,74 bhp,190Nm@ 2000rpm,5.0
1,Skoda Rapid 1.5 TDI Ambition,2014,370000,120000,Diesel,Individual,Manual,Second Owner,21.14 kmpl,1498 CC,103.52 bhp,250Nm@ 1500-2500rpm,5.0
2,Honda City 2017-2020 EXi,2006,158000,140000,Petrol,Individual,Manual,Third Owner,17.7 kmpl,1497 CC,78 bhp,"12.7@ 2,700(kgm@ rpm)",5.0
3,Hyundai i20 Sportz Diesel,2010,225000,127000,Diesel,Individual,Manual,First Owner,23.0 kmpl,1396 CC,90 bhp,22.4 kgm at 1750-2750rpm,5.0
4,Maruti Swift VXI BSIII,2007,130000,120000,Petrol,Individual,Manual,First Owner,16.1 kmpl,1298 CC,88.2 bhp,"11.5@ 4,500(kgm@ rpm)",5.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
8123,Hyundai i20 Magna,2013,320000,110000,Petrol,Individual,Manual,First Owner,18.5 kmpl,1197 CC,82.85 bhp,113.7Nm@ 4000rpm,5.0
8124,Hyundai Verna CRDi SX,2007,135000,119000,Diesel,Individual,Manual,Fourth & Above Owner,16.8 kmpl,1493 CC,110 bhp,"24@ 1,900-2,750(kgm@ rpm)",5.0
8125,Maruti Swift Dzire ZDi,2009,382000,120000,Diesel,Individual,Manual,First Owner,19.3 kmpl,1248 CC,73.9 bhp,190Nm@ 2000rpm,5.0
8126,Tata Indigo CR4,2013,290000,25000,Diesel,Individual,Manual,First Owner,23.57 kmpl,1396 CC,70 bhp,140Nm@ 1800-3000rpm,5.0


In [174]:
data['max_power'].unique()

array(['74 bhp', '103.52 bhp', '78 bhp', '90 bhp', '88.2 bhp',
       '81.86 bhp', '57.5 bhp', '37 bhp', '67.1 bhp', '68.1 bhp',
       '108.45 bhp', '60 bhp', '73.9 bhp', nan, '67 bhp', '82 bhp',
       '88.5 bhp', '46.3 bhp', '88.73 bhp', '64.1 bhp', '98.6 bhp',
       '88.8 bhp', '83.81 bhp', '83.1 bhp', '47.3 bhp', '73.8 bhp',
       '34.2 bhp', '35 bhp', '81.83 bhp', '40.3 bhp', '121.3 bhp',
       '138.03 bhp', '160.77 bhp', '117.3 bhp', '116.3 bhp', '83.14 bhp',
       '67.05 bhp', '168.5 bhp', '100 bhp', '120.7 bhp', '98.63 bhp',
       '175.56 bhp', '103.25 bhp', '171.5 bhp', '100.6 bhp', '174.33 bhp',
       '187.74 bhp', '170 bhp', '78.9 bhp', '88.76 bhp', '86.8 bhp',
       '108.495 bhp', '108.62 bhp', '93.7 bhp', '103.6 bhp', '98.59 bhp',
       '189 bhp', '67.04 bhp', '68.05 bhp', '58.2 bhp', '82.85 bhp',
       '81.80 bhp', '73 bhp', '120 bhp', '94.68 bhp', '160 bhp', '65 bhp',
       '155 bhp', '69.01 bhp', '126.32 bhp', '138.1 bhp', '83.8 bhp',
       '126.2 bhp', '98.

1. feature 탐색
    - name : 차종
    - year : 년식
    - selling_price : 판매가
    - km_driven : 주행거리
    - fuel : 연료
    - seller_type : 판매자유형
    - transmission : 변속기
    - owner : 소유자 이력
    - mileage : 연비(km)
    - engine : 배기량
    - max_power : 최대출력(제동마력)
    - torque : 회전력(타이어를 회전시키는 힘)
    - seats : 좌석수(인승)

In [175]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8128 entries, 0 to 8127
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   name           8128 non-null   object 
 1   year           8128 non-null   int64  
 2   selling_price  8128 non-null   int64  
 3   km_driven      8128 non-null   int64  
 4   fuel           8128 non-null   object 
 5   seller_type    8128 non-null   object 
 6   transmission   8128 non-null   object 
 7   owner          8128 non-null   object 
 8   mileage        7907 non-null   object 
 9   engine         7907 non-null   object 
 10  max_power      7913 non-null   object 
 11  torque         7906 non-null   object 
 12  seats          7907 non-null   float64
dtypes: float64(1), int64(3), object(9)
memory usage: 825.6+ KB


In [176]:
round(data.describe(), 2)

Unnamed: 0,year,selling_price,km_driven,seats
count,8128.0,8128.0,8128.0,7907.0
mean,2013.8,638271.81,69819.51,5.42
std,4.04,806253.4,56550.55,0.96
min,1983.0,29999.0,1.0,2.0
25%,2011.0,254999.0,35000.0,5.0
50%,2015.0,450000.0,60000.0,5.0
75%,2017.0,675000.0,98000.0,5.0
max,2020.0,10000000.0,2360457.0,14.0


## 전처리 : 텍스트 데이터
- split() : 문자열 분리

### engine

In [177]:
data[['engine', 'engine_unit']] = data['engine'].str.split(expand = True)
data['engine'] = data['engine'].astype(float)

In [178]:
data['engine_unit'].unique()

array(['CC', nan], dtype=object)

In [179]:
data['engine_unit'].value_counts()

CC    7907
Name: engine_unit, dtype: int64

In [180]:
data.drop('engine_unit', axis = 1, inplace = True)

### mileage

In [181]:
data[['mileage', 'mileage_unit']] = data['mileage'].str.split(expand = True)

In [182]:
data['mileage'] = data['mileage'].astype(float)

In [183]:
data['mileage_unit'].unique()

array(['kmpl', 'km/kg', nan], dtype=object)

In [184]:
data['fuel'].unique()

array(['Diesel', 'Petrol', 'LPG', 'CNG'], dtype=object)

- 연료종류가 4종류
- 다른 종류의 연료로 주행거리를 비교하려면 같은 기준을 세워야 한다.
- 연료 가격을 활용하면 어떨까? 1달러당 몇 km를 주행할 수 있는지 알아보자.
- 연료의 단위를 liter로 바꾸면 어떨까?
    - Diesel : 
    - Petrol
    - LPG
    - CNG

In [185]:
def mile(x):
    if x['fuel'] == 'Petrol':
        return x['mileage'] / 1.048
    elif x['fuel'] == 'Diesel':
        return x['mileage'] / 1.405
    elif x['fuel'] == 'LPG':
        return x['mileage'] / 3.54
    else:
        return x['mileage'] / 2.76

In [186]:
data['mileage'] = data.apply(mile, axis = 1)

In [187]:
data.drop('mileage_unit', axis = 1, inplace = True)

### torque
   - 앞 부분의 숫자만 추출해서 숫자형
   - 단위 스케일(Nm)

In [188]:
data['torque'] = data['torque'].str.upper()

In [189]:
data['torque'].head()

0              190NM@ 2000RPM
1         250NM@ 1500-2500RPM
2       12.7@ 2,700(KGM@ RPM)
3    22.4 KGM AT 1750-2750RPM
4       11.5@ 4,500(KGM@ RPM)
Name: torque, dtype: object

### max_power

In [144]:
data['max_power'] = data['max_power'].str.split(expand = True).get(0)
data['max_power'][data['max_power'] == 'bhp'] = 0
data['max_power'] = data['max_power'].astype(float)

In [169]:
data['max_power']

0           74 bhp
1       103.52 bhp
2           78 bhp
3           90 bhp
4         88.2 bhp
           ...    
8123     82.85 bhp
8124       110 bhp
8125      73.9 bhp
8126        70 bhp
8127        70 bhp
Name: max_power, Length: 8128, dtype: object

### torque

In [191]:
data['torque'].unique()

array(['190NM@ 2000RPM', '250NM@ 1500-2500RPM', '12.7@ 2,700(KGM@ RPM)',
       '22.4 KGM AT 1750-2750RPM', '11.5@ 4,500(KGM@ RPM)',
       '113.75NM@ 4000RPM', '7.8@ 4,500(KGM@ RPM)', '59NM@ 2500RPM',
       '170NM@ 1800-2400RPM', '160NM@ 2000RPM', '248NM@ 2250RPM',
       '78NM@ 4500RPM', nan, '84NM@ 3500RPM', '115NM@ 3500-3600RPM',
       '200NM@ 1750RPM', '62NM@ 3000RPM', '219.7NM@ 1500-2750RPM',
       '114NM@ 3500RPM', '115NM@ 4000RPM', '69NM@ 3500RPM',
       '172.5NM@ 1750RPM', '6.1KGM@ 3000RPM', '114.7NM@ 4000RPM',
       '60NM@ 3500RPM', '90NM@ 3500RPM', '151NM@ 4850RPM',
       '104NM@ 4000RPM', '320NM@ 1700-2700RPM', '250NM@ 1750-2500RPM',
       '145NM@ 4600RPM', '146NM@ 4800RPM', '343NM@ 1400-3400RPM',
       '200NM@ 1400-3400RPM', '200NM@ 1250-4000RPM',
       '400NM@ 2000-2500RPM', '138NM@ 4400RPM', '360NM@ 1200-3400RPM',
       '200NM@ 1200-3600RPM', '380NM@ 1750-2500RPM', '173NM@ 4000RPM',
       '400NM@ 1750-3000RPM', '400NM@ 1400-2800RPM',
       '200NM@ 1750-3000RP

In [None]:
data[data['torque'].isna() == False & data['mileage'].isna() == False & data['engine'] & data['max_power'] == False &
    data['seats'] == False].drop(axis = 0, inplace = True)

In [192]:
def torque_unit(x):
    if 'NM' in str(x):
        return 'NM'
    elif 'KGM' in str(x):
        return 'KGM'

In [193]:
data['torque_unit'] = data['torque'].apply(torque_unit)

In [196]:
data['torque_unit'].unique()

array(['NM', 'KGM', None], dtype=object)

In [199]:
data['torque_unit'].isna().value_counts()

False    7894
True      234
Name: torque_unit, dtype: int64

In [201]:
data['torque'].isna().value_counts()

False    7906
True      222
Name: torque, dtype: int64

In [203]:
data['torque_unit'].value_counts()

NM     7390
KGM     504
Name: torque_unit, dtype: int64

In [204]:
data['torque_unit'].fillna('NM', inplace = True)

In [202]:
data[data['torque_unit'].isna()]['torque'].unique()

array([nan, '250@ 1250-5000RPM', '510@ 1600-2400', '110(11.2)@ 4800',
       '210 / 1900'], dtype=object)

In [None]:
data['torque'] = data['torque'].str.split(expand = True)