단계 0: 필요한 라이브러리 임포트 및 데이터 로드
시작하기 전에 필요한 라이브러리들을 불러오고 데이터를 로드합니다.
이 부분은 한 번만 실행하면 됩니다.

In [8]:
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score # 마지막 정확도 계산을 위해 미리 임포트

# 펭귄 데이터셋 로드
df = sns.load_dataset('penguins')

print("데이터 로드 완료.")

데이터 로드 완료.


In [None]:
단계 1: 데이터 전처리 및 결측치 처리
데이터에 있는 빈 값(결측치)을 제거하고, 머신러닝 모델이 이해할 수 있도록 '글자' 형태의 데이터를 '숫자'로 바꿔주는 과정입니다.

In [9]:
# 1.1 결측치 제거
df = df.dropna()

print("결측치 제거 완료.")

# 1.2 범주형 특성(Categorical Features) 인코딩 (숫자로 변환)
# 'island', 'sex' 컬럼을 숫자로 변환합니다.
# 'species'는 타겟이므로 나중에 별도로 처리합니다.

le_island = LabelEncoder()
df['island_encoded'] = le_island.fit_transform(df['island'])

le_sex = LabelEncoder()
df['sex_encoded'] = le_sex.fit_transform(df['sex'])

print("범주형 특성 'island'와 'sex' 인코딩 완료.")
print(df[['island', 'island_encoded', 'sex', 'sex_encoded']].head())

결측치 제거 완료.
범주형 특성 'island'와 'sex' 인코딩 완료.
      island  island_encoded     sex  sex_encoded
0  Torgersen               2    Male            1
1  Torgersen               2  Female            0
2  Torgersen               2  Female            0
4  Torgersen               2  Female            0
5  Torgersen               2    Male            1


단계 2: 특성과 타겟 분리 및 데이터 분할
이제 데이터에서 예측에 사용할 입력 정보(X, Features)와 예측하려는 값(y, Target)을 나누고, 학습용과 테스트용으로 데이터를 분리합니다.

In [10]:
# 특성(X)과 타겟(y) 분리
# 예측에 사용할 컬럼들만 X에 담습니다.
X = df[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g', 'island_encoded', 'sex_encoded']]

# 타겟(y)은 'species' 컬럼입니다. 이 컬럼도 숫자로 변환합니다.
le_species = LabelEncoder()
y = le_species.fit_transform(df['species'])

print("특성(X)과 타겟(y) 분리 및 타겟 인코딩 완료.")
print("X (특성) 컬럼:", X.columns.tolist())
print("y (타겟) 클래스:", le_species.classes_)

# 훈련 세트와 테스트 세트로 데이터 분할 (80% 훈련, 20% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"\n데이터 분할 완료.")
print(f"훈련 데이터 X_train 크기: {X_train.shape}")
print(f"테스트 데이터 X_test 크기: {X_test.shape}")

특성(X)과 타겟(y) 분리 및 타겟 인코딩 완료.
X (특성) 컬럼: ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g', 'island_encoded', 'sex_encoded']
y (타겟) 클래스: ['Adelie' 'Chinstrap' 'Gentoo']

데이터 분할 완료.
훈련 데이터 X_train 크기: (266, 6)
테스트 데이터 X_test 크기: (67, 6)


단계 3: 모델 선택 및 학습
이제 분류 모델로 KNeighborsClassifier를 선택하고, 훈련 데이터를 사용해서 모델을 학습시킵니다.

In [12]:
# 모델 선택: K-최근접 이웃 분류기 (KNeighborsClassifier)
# n_neighbors=5는 가장 가까운 5개의 이웃을 고려하겠다는 의미입니다.
model = KNeighborsClassifier(n_neighbors=5)

# 훈련 데이터(X_train, y_train)로 모델 학습
model.fit(X_train, y_train)

print("모델 학습 완료 (KNeighborsClassifier).")

모델 학습 완료 (KNeighborsClassifier).


단계 4: 모델 예측
학습된 모델을 사용하여, 모델이 한 번도 보지 못한 테스트 데이터를 예측해 봅니다.

In [14]:
# 학습된 모델로 테스트 세트(X_test)의 species를 예측
y_pred = model.predict(X_test)

print("테스트 데이터 예측 완료.")
print("예측 결과 (y_pred) 첫 5개:", y_pred[:5])
print("실제 값 (y_test) 첫 5개:", y_test[:5])

테스트 데이터 예측 완료.
예측 결과 (y_pred) 첫 5개: [2 1 0 2 2]
실제 값 (y_test) 첫 5개: [2 1 0 2 2]


단계 5: 모델 평가 (정확도 계산)
모델이 얼마나 정확하게 예측했는지 '정확도(Accuracy)'를 계산하여 모델의 성능을 평가합니다.

In [15]:
# 실제 값(y_test)과 예측 값(y_pred)을 비교하여 정확도 계산
accuracy = accuracy_score(y_test, y_pred)

print(f"\n모델 평가 완료.")
print(f"정확도 (Accuracy): {accuracy:.4f}") # 소수점 넷째 자리까지 표시


모델 평가 완료.
정확도 (Accuracy): 0.7313


[ 머신러닝에서 수학공식처럼 반복으로 사용할수있는 명령어 모음 ]

1. 데이터 로드 (다른 데이터셋 불러올 때):
파일에서 CSV 데이터 로드:

# df = pd.read_csv('your_data_file.csv')

(your_data_file.csv 대신 원하는 CSV 파일 이름을 넣으세요.)

2. 결측치 처리 (빈 값 다룰 때):
결측치가 있는 행 제거 (가장 간단):

Python

# df = df.dropna()

특정 컬럼의 결측치를 평균값으로 채우기:

Python

# df['컬럼이름'].fillna(df['컬럼이름'].mean(), inplace=True)

(컬럼이름을 실제 컬럼 이름으로 바꾸세요.)

3. 범주형 데이터 숫자로 변환 (Label Encoding):
새로운 범주형 컬럼을 숫자로 바꿀 때:

Python

# from sklearn.preprocessing import LabelEncoder
# le_컬럼이름 = LabelEncoder()
# df['새로운_인코딩_컬럼이름'] = le_컬럼이름.fit_transform(df['원래_컬럼이름'])
(컬럼이름, 새로운_인코딩_컬럼이름, 원래_컬럼이름을 실제 이름으로 바꾸세요.)

4. 특성(X)과 타겟(y) 분리:
새로운 문제에서 X와 y를 나눌 때:

# X = df[['feature1', 'feature2', 'feature3']] # 예측에 사용할 컬럼들
# y = df['target_column'] # 예측하려는 컬럼

(feature1, feature2, target_column 등을 실제 컬럼 이름으로 바꾸세요.)

5. 데이터 분할 (훈련/테스트 세트):
다른 데이터셋이나 비율로 나눌 때:

Python

# from sklearn.model_selection import train_test_split
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
(test_size를 0.2(20%) 외 다른 비율로 바꾸거나, random_state를 다른 숫자로 바꿔 결과를 다르게 볼 수 있습니다.)

6. 모델 학습 및 예측:
다른 분류 모델을 시도할 때 (예: 결정 트리):

# from sklearn.tree import DecisionTreeClassifier
# model = DecisionTreeClassifier(random_state=42) # 모델 선택만 바꾸면 됨
# model.fit(X_train, y_train)
# y_pred = model.predict(X_test)

(KNeighborsClassifier 대신 다른 모델 클래스 이름만 바꾸세요. 예를 들어 LogisticRegression, SVC 등)

7. 모델 평가 (정확도):
정확도를 계산할 때:

Python

# from sklearn.metrics import accuracy_score
# accuracy = accuracy_score(y_test, y_pred)
# print(f"정확도: {accuracy:.4f}")
이 공식들을 익혀두시면 앞으로 다양한 데이터와 모델에 적용하면서 머신러닝 학습을 빠르게 진행하실 수 있을 거예요.