In [21]:
import pandas as pd

# 1. 데이터 URL 및 컬럼명 정의
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data"

column_names = [
    "id_number", "clump_thickness", "uniformity_of_cell_size", "uniformity_of_cell_shape",
    "marginal_adhesion", "single_epithelial_cell_size", "bare_nuclei", "bland_chromatin",
    "normal_nucleoli", "mitoses", "target"
]

# 2. 데이터 불러오기
df = pd.read_csv(url, header=None, names=column_names)

# 3. 결측치(?)를 NaN으로 변환하고 bare_nuclei 컬럼을 숫자형으로 변환
df['bare_nuclei'].replace('?', pd.NA, inplace=True)
df['bare_nuclei'] = pd.to_numeric(df['bare_nuclei'])

# 4. 결측치가 있는 행 제거
df = df.dropna()

# 5. target 값 2(양성) → 0, 4(악성) → 1로 변환
df['target'] = df['target'].map({2: 0, 4: 1})

# 6. 결과 저장
df.to_csv("cleaned_breast_cancer_data.csv", index=False)

print("✔️ CSV 파일로 저장 완료: cleaned_breast_cancer_data.csv")

✔️ CSV 파일로 저장 완료: cleaned_breast_cancer_data.csv


In [18]:
# 데이터 확인
print(df.head())
print("\n결측치 포함 여부 확인:")
print(df.isnull().sum())


   id_number  clump_thickness  uniformity_of_cell_size  \
0    1000025                5                        1   
1    1002945                5                        4   
2    1015425                3                        1   
3    1016277                6                        8   
4    1017023                4                        1   

   uniformity_of_cell_shape  marginal_adhesion  single_epithelial_cell_size  \
0                         1                  1                            2   
1                         4                  5                            7   
2                         1                  1                            2   
3                         8                  1                            3   
4                         1                  3                            2   

  bare_nuclei  bland_chromatin  normal_nucleoli  mitoses  target  
0           1                3                1        1       2  
1          10                3            

In [19]:
df['bare_nuclei'].replace('?', pd.NA, inplace=True)
df['bare_nuclei'] = pd.to_numeric(df['bare_nuclei'])

# 결측치 처리 (예: 삭제)
df = df.dropna()

# 라벨을 0/1로 변환: 2=양성(benign), 4=악성(malignant)
df['target'] = df['target'].map({2: 0, 4: 1})

In [None]:
from sklearn.model_selection import train_test_split

# 학습/테스트 데이터 분할 (계층적 샘플링 stratify로 클래스 비율 유지)
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target,    
                                                    stratify=cancer.target, 
                                                    random_state=1)    

In [None]:

from sklearn.preprocessing import MinMaxScaler 
scaler=MinMaxScaler()     # 특성값을 [0, 1] 사이로 정규화 

In [4]:

from sklearn.svm import SVC

base_model = SVC(random_state=1) #rbf
linear_model = SVC(kernel="linear", random_state=1) 
poly_model = SVC(kernel="poly", random_state=1)
     

In [5]:

from sklearn.pipeline import Pipeline
pipe=Pipeline([('scaler',scaler), ('base_model',linear_model)])

In [6]:


from sklearn.model_selection import KFold,GridSearchCV 
kfold=KFold(n_splits=3, shuffle=True, random_state=1)

param_grid={'base_model__C':[0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000],
            'base_model__gamma':[0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000],
            'base_model__degree':[1,2,3,4,5]}

grid_model=GridSearchCV(estimator=pipe, param_grid=param_grid, cv=kfold, n_jobs=-1).fit(X_train, y_train)

In [7]:

print('교차검증 점수 : ', grid_model.best_score_) 
print('최적의 하이퍼 파라메터 조합 :', grid_model.best_params_) 

교차검증 점수 :  0.9741784037558686
최적의 하이퍼 파라메터 조합 : {'base_model__C': 10, 'base_model__degree': 1, 'base_model__gamma': 0.0001}
