# 🐧 펭귄 분류 모델 비교

Palmer Penguins 데이터를 활용하여 `KNN`, `로지스틱 회귀`, `나이브 베이즈` 세 가지 모델을 적용해 분류 성능을 비교합니다.

### 📌 주요 내용
- 결측치 처리
- 범주형 데이터 제외
- 모델 학습 및 예측
- 정확도(Accuracy) 비교


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.naive_bayes import GaussianNB

## 🔍 데이터 불러오기 및 구조 확인
먼저 데이터를 로드하고 기본적인 정보를 확인합니다.


In [3]:
df = pd.read_csv('../data/penguins.csv')
df.head()
df.info()  # 'sex', 'island'는 object형이라 KNN에 사용 불가


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   rowid              344 non-null    int64  
 1   species            344 non-null    object 
 2   island             344 non-null    object 
 3   bill_length_mm     342 non-null    float64
 4   bill_depth_mm      342 non-null    float64
 5   flipper_length_mm  342 non-null    float64
 6   body_mass_g        342 non-null    float64
 7   sex                333 non-null    object 
 8   year               344 non-null    int64  
dtypes: float64(4), int64(2), object(3)
memory usage: 24.3+ KB


## 🧼 데이터 전처리

- 결측치는 0으로 대체했습니다.
- 분석에 불필요하거나 범주형인 열(`species`, `sex`, `island`, `rowid`)은 제외하고 입력 변수(X)를 구성했습니다.


In [4]:
df = df.fillna(0)
X = df.drop(["species", "sex", "island", "rowid"], axis=1)
y = df["species"]
print(X.shape, y.shape)


(344, 5) (344,)


## 📊 데이터 분할
- 학습 데이터와 테스트 데이터를 분리합니다.


In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y)


## 🧠 모델 학습

각 모델을 학습시킵니다:
- K-최근접 이웃(KNN)
- 로지스틱 회귀(Logistic Regression)
- 나이브 베이즈(Naive Bayes)


In [6]:
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

lr = LogisticRegression(max_iter=3000)
lr.fit(X_train, y_train)

gnb = GaussianNB()
gnb.fit(X_train, y_train)


## 🎯 모델 예측 및 정확도 평가

각 모델의 테스트 데이터에 대한 정확도를 출력합니다.


In [7]:
knn_y_pred = knn.predict(X_test)
lr_y_pred = lr.predict(X_test)
gnb_y_pred = gnb.predict(X_test)

print("KNN 정확도:", accuracy_score(y_test, knn_y_pred))
print("Logistic Regression 정확도:", accuracy_score(y_test, lr_y_pred))
print("Naive Bayes 정확도:", accuracy_score(y_test, gnb_y_pred))


KNN 정확도: 0.7906976744186046
Logistic Regression 정확도: 1.0
Naive Bayes 정확도: 0.9534883720930233


## ✅ 결과 요약

| 모델 | 정확도 |
|------|--------|
| KNN | 0.79 |
| Logistic Regression | 0.99 |
| Naive Bayes | 0.95 |

---
> 로지스틱 회귀가 가장 높은 정확도를 보였습니다. 다만 오분류된 사례를 추가로 분석하면 더 깊은 인사이트를 얻을 수 있습니다.
