#### 목표 : 생선 품종 분류 모델
- 데이터 : fish.csv
- 피 쳐 : Weight, Length
- 타 겟 : Species
- 기계학습 : 지도학습 + 분류( 도미, 빙어 분류는 이진분류 )

(1) 모듈 로딩 및 데이터 준비<hr>

In [25]:
import pandas as pd

In [26]:
data_file = '../data/fish.csv'

In [27]:
# DF로 데이터 준비
fishDF = pd.read_csv(data_file, header=0,usecols=[0,1,2]) # usecols = ['Species','Weight','Length']도 가능
# 기본 정보 확인
fishDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Species  159 non-null    object 
 1   Weight   159 non-null    float64
 2   Length   159 non-null    float64
dtypes: float64(2), object(1)
memory usage: 3.9+ KB


(2) 데이터 전처리 
- 결측치, 중복데이터, 이상치

In [28]:
# 컬럼별 고유값으로 이상치 체크
fishDF['Species'].unique(),fishDF['Length'].unique(), fishDF['Weight'].unique()

(array(['Bream', 'Roach', 'Whitefish', 'Parkki', 'Perch', 'Pike', 'Smelt'],
       dtype=object),
 array([25.4, 26.3, 26.5, 29. , 29.7, 30. , 30.7, 31. , 31.5, 32. , 33. ,
        33.5, 34. , 34.5, 35. , 36. , 37. , 38.5, 39.5, 41. , 14.1, 18.2,
        18.8, 19.8, 20. , 20.5, 20.8, 21. , 22. , 22.5, 24. , 23.4, 23.5,
        25.2, 26. , 27. , 31.7, 28. , 36.4, 40. , 14.7, 15.5, 17.7, 19. ,
        20.7, 21.5, 23. , 25. ,  8.4, 13.7, 15. , 16.2, 17.4, 18. , 18.7,
        19.6, 21.3, 22.7, 24.6, 25.6, 27.3, 27.5, 28.7, 32.8, 36.5, 39. ,
        42. , 43. , 43.5, 44. , 32.3, 37.3, 38. , 42.5, 45. , 46. , 48. ,
        51.7, 56. , 60. , 63.4,  9.8, 10.5, 10.6, 11. , 11.2, 11.3, 11.8,
        12. , 12.2, 12.4, 13. , 14.3]),
 array([ 242. ,  290. ,  340. ,  363. ,  430. ,  450. ,  500. ,  390. ,
         475. ,  600. ,  700. ,  610. ,  650. ,  575. ,  685. ,  620. ,
         680. ,  725. ,  720. ,  714. ,  850. , 1000. ,  920. ,  955. ,
         925. ,  975. ,  950. ,   40. ,   69. ,   78. 

In [29]:
# 결측치 체크 => isna() / isnull()
fishDF.isna().sum()

Species    0
Weight     0
Length     0
dtype: int64

In [30]:
# 중복데이터 => duplicated()
fishDF.duplicated().sum()   # 없애고 싶으면 drop_duplicated()

4

In [31]:
# Bream, Smelt 두가지 품종만 추출
twofishDF = fishDF[fishDF['Species'].isin(['Bream','Smelt'])]
twofishDF.info()

<class 'pandas.core.frame.DataFrame'>
Index: 49 entries, 0 to 158
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Species  49 non-null     object 
 1   Weight   49 non-null     float64
 2   Length   49 non-null     float64
dtypes: float64(2), object(1)
memory usage: 1.5+ KB


(3) 학습용 데이터 준비 => 피쳐 + 타겟 분리

In [32]:
# 피쳐 데이터 추출
feature = twofishDF[twofishDF.columns[1:]]
feature.head()

Unnamed: 0,Weight,Length
0,242.0,25.4
1,290.0,26.3
2,340.0,26.5
3,363.0,29.0
4,430.0,29.0


In [33]:
# 타겟 데이터 추출
target = twofishDF['Species']
target.head()

0    Bream
1    Bream
2    Bream
3    Bream
4    Bream
Name: Species, dtype: object

In [34]:
# Bream => 0, Smelt => 1로 값 변환
target = target.replace({'Bream':1,'Smelt':2}).copy()
target.head()

0    1
1    1
2    1
3    1
4    1
Name: Species, dtype: int64

(4) 학습 진행
- 알고리즘 구현 인스턴스 생성 => 지도학습 - 분류 알고리즘 중 선택 : KNN
- 학습 진행 메서드 => fit()

In [35]:
# 모듈 로딩
from sklearn.neighbors import KNeighborsClassifier

In [36]:
# (4-1) KNN 인스턴스 생성
model = KNeighborsClassifier()

model