In [None]:
# KNN, 과 로지스틱 회귀로 보팅을 만들어 비교, 유방암 데이터

In [1]:
#라입러리

import pandas as pd
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# 모델생성
# 로지스틱 회귀 모델을 만들고 KNN모델을 만들고 두 모델로 보팅 모델
# estimators는 리스트 안에 꼭 튜플 형식으로 집어넣어 줘야 한다. voting 방식은 하드가 아니라 소프트로 지정해준다. 기본값은 하드
cancer = load_breast_cancer()

df = pd.DataFrame(cancer.data, columns=cancer.feature_names)

lr_clf = LogisticRegression(solver="liblinear")
knn_clf = KNeighborsClassifier(n_neighbors=8)
vo_clf = VotingClassifier(estimators=[("LR", lr_clf), ("KNN", knn_clf)], voting="soft")

In [3]:
# 반복하여 정확도를 보면 각각의 알고리즘일 때 보다 보팅 형식으로 묶어 사용했을 때 정확도 상승

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state=999)

classifiers = [vo_clf, lr_clf, knn_clf]
for classifier in classifiers:
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    name = classifier.__class__.__name__
    print(f"{name} 정확도 : {accuracy_score(y_test, pred)}")


VotingClassifier 정확도 : 0.9385964912280702
LogisticRegression 정확도 : 0.9210526315789473
KNeighborsClassifier 정확도 : 0.9122807017543859


In [None]:
##보스턴 집값 앙상블(Target : CHAS)

In [None]:
# 앙상블 배깅, 랜덤포레스트

In [4]:
# 라이브러리

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.model_selection import GridSearchCV

In [8]:
# 모델 생성

cancer = load_breast_cancer()
np.random.seed(9)
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target)

params = {'n_estimators': [1000], 'max_depth': [6, 8, 10, 12,16,20,40], 'min_samples_leaf': [6,8, 12, 18],
          'min_samples_split': [6,8, 16, 20]}

clf = RandomForestClassifier(n_estimators=100)
grid_clf = GridSearchCV(clf, param_grid=params, cv=2, n_jobs=-1)  # -1 은 cpu를 다 쓴다는 의미
grid_clf.fit(X_train, y_train)

print(f"최적의 파라미터\n{grid_clf.best_params_}")
print(f"최고 예측 정확도: {grid_clf.best_score_}")

최적의 파라미터
{'max_depth': 10, 'min_samples_leaf': 6, 'min_samples_split': 16, 'n_estimators': 1000}
최고 예측 정확도: 0.9553990610328639


In [12]:
from sklearn.tree import DecisionTreeClassifier

In [13]:
df = pd.read_csv("/content/sample_data/Boston_house.csv")

lr_clf = LogisticRegression(solver="liblinear")
knn_clf = KNeighborsClassifier(n_neighbors=8)
dc_clf = DecisionTreeClassifier()

vo_clf = VotingClassifier(estimators=[("LR", lr_clf), ("KNN", knn_clf),('DT',dc_clf)], voting="soft")

In [19]:
for column in df.columns:
    unique_values = df[column].value_counts()
    print(f"열 '{column}'의 값 종류와 빈도:")
    print(unique_values)
    print()

열 'AGE'의 값 종류와 빈도:
100.0    43
95.4      4
96.0      4
98.2      4
97.9      4
         ..
58.4      1
74.4      1
73.4      1
33.1      1
89.3      1
Name: AGE, Length: 356, dtype: int64

열 'B'의 값 종류와 빈도:
396.90    121
393.74      3
395.24      3
376.14      2
394.72      2
         ... 
240.16      1
389.61      1
374.43      1
338.92      1
391.99      1
Name: B, Length: 357, dtype: int64

열 'RM'의 값 종류와 빈도:
5.713    3
6.167    3
6.127    3
6.229    3
6.405    3
        ..
5.859    1
6.416    1
5.572    1
5.880    1
6.976    1
Name: RM, Length: 446, dtype: int64

열 'CRIM'의 값 종류와 빈도:
0.01501     2
14.33370    2
0.03466     1
0.03113     1
0.03049     1
           ..
1.51902     1
1.83377     1
1.46336     1
1.27346     1
0.04741     1
Name: CRIM, Length: 504, dtype: int64

열 'DIS'의 값 종류와 빈도:
3.4952    5
5.7209    4
5.2873    4
6.8147    4
5.4007    4
         ..
2.4220    1
2.1620    1
2.0407    1
1.9709    1
2.5050    1
Name: DIS, Length: 412, dtype: int64

열 'INDUS'의 값 종류와 빈도:
18.10

In [21]:
X = df.drop(columns=['CHAS'])
y = df[['CHAS']]

#df = df.drop(columns=['species'])


In [26]:
y = y.values

In [30]:
X_train, X_test, y_train, y_test = train_test_split(X, y.ravel(), test_size=0.2, random_state=999)

classifiers = [vo_clf, lr_clf, knn_clf,dc_clf]
for classifier in classifiers:
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    name = classifier.__class__.__name__
    print(f"{name} 정확도 : {accuracy_score(y_test, pred)}")

VotingClassifier 정확도 : 0.9313725490196079
LogisticRegression 정확도 : 0.9117647058823529
KNeighborsClassifier 정확도 : 0.9117647058823529
DecisionTreeClassifier 정확도 : 0.9019607843137255


In [33]:
#cancer = load_breast_cancer()
#np.random.seed(9)
#X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target)

params = {'n_estimators': [100], 'max_depth': [6, 8, 10, 12], 'min_samples_leaf': [6,8, 12, 18,24],
          'min_samples_split': [6,8, 16, 20]}

clf = RandomForestClassifier(n_estimators=100)
grid_clf = GridSearchCV(clf, param_grid=params, cv=2, n_jobs=-1)  # -1 은 cpu를 다 쓴다는 의미
grid_clf.fit(X_train, y_train)

print(f"최적의 파라미터\n{grid_clf.best_params_}")
print(f"최고 예측 정확도: {grid_clf.best_score_}")

최적의 파라미터
{'max_depth': 6, 'min_samples_leaf': 6, 'min_samples_split': 6, 'n_estimators': 100}
최고 예측 정확도: 0.9356435643564357
