# 목표 : 생선 품종 분류 모델
- 데이터 : fish.csv
- feature : weight, length
- target : Species
- 기계학습 : 지도학습 + 이진분류

## <hr>1. 모듈 로딩 및 데이터 준비

In [1]:
import pandas as pd # 데이터 준비에 사용

In [8]:
data_file = "../data/fish.csv"
fishDF = pd.read_csv(data_file, usecols = [0, 1, 2])
# fishDF = pd.read_csv(data_file, usecols = ["Species", "Weight", "Length"]) # 윗줄과 같은 표현
fishDF.info() # 기본 정보 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159 entries, 0 to 158
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Species  159 non-null    object 
 1   Weight   159 non-null    float64
 2   Length   159 non-null    float64
dtypes: float64(2), object(1)
memory usage: 3.9+ KB


## <hr>2. 데이터 전처리
- 결측치 isnull isnan, 중복데이터duplicated(), 이상치 unique()

In [16]:
# 이상치
print("fishDF.Species =>", fishDF.Species.unique())
print("fishDF.Weight =>", fishDF.Weight.unique())
print("fishDF.Length =>", fishDF.Length.unique())

fishDF.Species => ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']
fishDF.Weight => [ 242.   290.   340.   363.   430.   450.   500.   390.   475.   600.
  700.   610.   650.   575.   685.   620.   680.   725.   720.   714.
  850.  1000.   920.   955.   925.   975.   950.    40.    69.    78.
   87.   120.     0.   110.   150.   145.   160.   140.   169.   161.
  200.   180.   272.   270.   306.   540.   800.    55.    60.    90.
  170.   273.   300.     5.9   32.    51.5   70.   100.    80.    85.
  115.   125.   130.   135.   225.   188.   197.   218.   260.   265.
  250.   320.   514.   556.   840.   690.   900.   820.  1015.  1100.
  345.   456.   510.   567.   770.  1250.  1600.  1550.  1650.     6.7
    7.5    7.     9.7    9.8    8.7   10.     9.9   12.2   13.4   19.7
   19.9]
fishDF.Length => [25.4 26.3 26.5 29.  29.7 30.  30.7 31.  31.5 32.  33.  33.5 34.  34.5
 35.  36.  37.  38.5 39.5 41.  14.1 18.2 18.8 19.8 20.  20.5 20.8 21.
 22.  22.5 24.  23.4 23.5 25.2 26.

In [17]:
fishDF.isna().sum() # 없지라...

Species    0
Weight     0
Length     0
dtype: int64

In [18]:
# 중복 데이터 -> duplicated()
fishDF.duplicated().sum() # 삭제하고 싶으면 drop duplicated

4

## <hr>3. 학습용 데이터 준비  

### Bream, Smelt 두 품종의 row만 뽑기 

In [24]:
twoFishDF = fishDF[fishDF["Species"].isin(("Bream", "Smelt"))]
twoFishDF

Unnamed: 0,Species,Weight,Length
0,Bream,242.0,25.4
1,Bream,290.0,26.3
2,Bream,340.0,26.5
3,Bream,363.0,29.0
4,Bream,430.0,29.0
5,Bream,450.0,29.7
6,Bream,500.0,29.7
7,Bream,390.0,30.0
8,Bream,450.0,30.0
9,Bream,500.0,30.7


In [26]:
# 피쳐 데이터 추출
feature = twoFishDF[twoFishDF.columns[1:]]
feature.head()

Unnamed: 0,Weight,Length
0,242.0,25.4
1,290.0,26.3
2,340.0,26.5
3,363.0,29.0
4,430.0,29.0


In [27]:
# 타겟 데이터 추출
target = twoFishDF.Species
target.head()

0    Bream
1    Bream
2    Bream
3    Bream
4    Bream
Name: Species, dtype: object

### 데이터 이진화 Bream -> 0, Smelt -> 1

In [28]:
target = target.replace({"Bream":0, "Smelt":1}).copy() # warning 꼴보기 싫어서 넣는 거
target

0      0
1      0
2      0
3      0
4      0
5      0
6      0
7      0
8      0
9      0
10     0
11     0
12     0
13     0
14     0
15     0
16     0
17     0
18     0
19     0
20     0
21     0
22     0
23     0
24     0
25     0
26     0
27     0
28     0
29     0
30     0
31     0
32     0
33     0
34     0
145    1
146    1
147    1
148    1
149    1
150    1
151    1
152    1
153    1
154    1
155    1
156    1
157    1
158    1
Name: Species, dtype: int64

## <hr> 4. 학습 진행
> - 알고리즘 구현 인스턴스 생성 => 지도학습 -분류 알고리즘 중 선택
> - 학습 진행 메서드 => __fit()__