In [1]:
import numpy as np
import pandas as pd
import seaborn as sn
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

np.set_printoptions(precision = 2) # print 옵션 설정 소수점 아래를 고정 값을 정하여 출력 

fruits = pd.read_table('fruit_data_with_colors.txt')

feature_names = ['height', 'width', 'mass', 'color_score']
X_fruits = fruits[feature_names]
y_fruits = fruits["fruit_label"]
target_names_fruits = ['apple', 'mandarin', 'orange', 'lemon']

X_fruits_2d = fruits[['height', 'width']]
y_fruits_2d = fruits['fruit_label']

X_train, X_test, y_train, y_test = train_test_split(X_fruits, y_fruits, random_state=0) # 디폴트로 Train 75 % test 25% 


# 각 Feature마다 값의 범위가 다르다. 각 Feature의 값을 일정한 범위 또는 규칙에 따르게 하기 위해서 스케일링을 사용
# 최소값(Min)과 최대값(Max)을 사용해서 '0~1' 사이의 범위(range)로 데이터를 표준화해주는 '0~1 변환

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
# we must apply the scaling to the test set that we computed for the training set
X_test_scaled = scaler.transform(X_test)

knn = KNeighborsClassifier(n_neighbors = 5)
knn.fit(X_train_scaled, y_train) # 훈련데이와 훈련라벨에 fit 사용 , knn객체의 내부상태를 업데이트하는 훈련과정 
print('Accuracy of K-NN classifier on training set: {:.2f}'
     .format(knn.score(X_train_scaled, y_train)))
print('Accuracy of K-NN classifier on test set: {:.2f}'
     .format(knn.score(X_test_scaled, y_test)))

example_fruit = [[5.5, 2.2, 10, 0.70]]
example_fruit_scaled = scaler.transform(example_fruit)
print('Predicted fruit type for ', example_fruit, ' is ', 
          target_names_fruits[knn.predict(example_fruit_scaled)[0]-1])

Accuracy of K-NN classifier on training set: 0.95
Accuracy of K-NN classifier on test set: 1.00
Predicted fruit type for  [[5.5, 2.2, 10, 0.7]]  is  mandarin




모델은 연구되거나, 예측되는 하나 이상의 입력변수와 출벽변수 사이의 관계를 표현하는 특정 수학적 또는 계산적 설명     
통계 입력변수를 독립변수 , 출력변수를 종속변수 y= f(x)    
머신러닝에서는 입력 또는 독립변수를 지칭하기 위해 feture 용어 사용 , 출력, 종속변수는 대상 값 또는 대상레이블로 표현 

#### Overfitting and Underfitting

Generalization ability refers to an algorithm's ability to give accurate predictions for new , previously unseen data.

* Asuumtions :
 - Future unseen data(test data) will have the same properties as the current traning sets.
 - Thus, models that are accurate on the traning set are expected to be accrate on the test set.
 - But that may not happen if the trained model is tuned too specifically to the training set.
 
 
* Models that are too complex for the amount of training data available are said to **overfit** and are not likely to generalization well to new example.
* Models that are too simple. that don't even do well the training data, are said to **underfit** and also not likely to generalize well.

In [None]:
pip install sckit-datasets

In [4]:
pip install sckit-datasets

Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement sckit-datasets
ERROR: No matching distribution found for sckit-datasets


#### Datasets

In [3]:
# Scikit-Learn 패키지는 분류(classification) 모형의 테스트를 위해 여러가지 가상 데이터를 생성하는 함수를 제공
# make_blobs 함수는 등방성 가우시안 정규분포를 이용해 가상 데이터를 생성한다. 등방성이라는 말은 모든 방향으로 같은 성질을 가진다는 뜻
from sklearn import datasets
from sklearn.datasets import make_classification , make_blobs
from matplotlib.colors import ListedColormap
from sklearn.datasets import load_breast_cancer

cmap_bold =  ListedColormap(['#FFFF00', '#00FF00', '#0000FF','#000000'])

# Scikit-learn 의 datasets 서브 패키지 회귀 분석 시험용 가상 데이터를 생성하는 명령어
from sklearn.datesets import make_regression
plt.figure()
plt.title('Sample regression problem with one input variable')

# 표본의 수 , 독립변수의 수 , 독립변수중 실제로 종속변수와 상관관계가 있는 독립변수의 수, 절편, 종속변수에 더해지는 정규분포의 표준편차
X_R1 , y_R1 = make_regression(n_sample =100 , n_feature = 1 , n_informative = 1, bias = 150.0, noise = 30, random_state = 0)
plt.scatter(X_R1, y_R1, marker= 'o', s=50)
plt.show()

# synthetic dataset for more complex regression
from sklearn.datasets import make_friedman1
plt.figure()
plt.title('Complex regression problem with one input variable')
X_F1, y_F1 = make_friedman1(n_samples = 100,
                           n_features = 7, random_state=0)

plt.scatter(X_F1[:, 2], y_F1, marker= 'o', s=50)
plt.show()


#  synthetic dataset for classification (binary) 
plt.figure()
plt.title('Sample binary classification problem with two informative features')
# 표본수 , 독립변수의 수, 독립 변수 중 다른 독립 변수의 선형 조합으로 나타나는 성분의 수, 독립 변수 중 종속 변수와 상관 관계가 있는 성분의 수
# 클래스 당 클러스터의 수, 예측라벨을 임의로 바꿔서 100%의 정확도에 다다르지 못하게 방지, 클래스간 얼마나 떨어져있는가
X_C2, y_C2 = make_classification(n_samples = 100, n_features=2,
                                n_redundant=0, n_informative=2,
                                n_clusters_per_class=1, flip_y = 0.1,
                                class_sep = 0.5, random_state=0)
plt.scatter(X_C2[:, 0], X_C2[:, 1], c=y_C2,
           marker= 'o', s=50, cmap=cmap_bold)
plt.show()

ModuleNotFoundError: No module named 'sklearn.datasets.samples_generator'