In [None]:
from sklearn.datasets import load_iris

In [None]:
iris_dataset = load_iris()
print('iris_dataset: {}'.format(iris_dataset.keys()))

iris_dataset: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [None]:
print(iris_dataset['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
train_data, test_data, train_label, test_label = train_test_split(iris_dataset['data'], iris_dataset['target'], test_size = 0.25, random_state = 42)

- 150개 중에서 25%는 테스트 데이터로 이용되고 75%는 트레이닝 데이터로 이용됨
- 학습 데이터와 평가 데이터가 따로 존재하지 않는 경우 학습 데이터의 일부분을 평가 데이터로 이용 


In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 1)
knn.fit(train_data, train_label)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=1, p=2,
                     weights='uniform')

In [None]:
import numpy as np 
input_sample = np.array([[6.1, 2.8, 4.7, 1.2]])
knn.predict(input_sample)

array([1])

In [None]:
predict_label = knn.predict(test_data)
predict_label

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0])

In [None]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 1.00


- K-nearest neighbor 일 경우 k = 1 class 1이 하나가 포함 되어있으면 class 1로 예측
- k = 3일 경우, class 1 1개 class 2 2개 일 경우 class 2로 예측

In [None]:
from sklearn.cluster import KMeans
k_means = KMeans(n_clusters = 3)
k_means.fit(train_data)
k_means.labels_

array([1, 1, 0, 0, 0, 1, 1, 0, 0, 2, 0, 2, 0, 2, 0, 1, 2, 0, 1, 1, 1, 0,
       0, 1, 1, 1, 0, 1, 0, 2, 1, 0, 0, 1, 0, 0, 0, 0, 2, 0, 1, 0, 2, 1,
       1, 0, 2, 1, 0, 1, 1, 0, 0, 2, 0, 2, 2, 0, 1, 1, 0, 2, 1, 1, 1, 0,
       2, 1, 2, 2, 1, 0, 0, 0, 2, 2, 1, 2, 0, 2, 0, 0, 0, 1, 0, 0, 1, 0,
       2, 2, 1, 0, 2, 2, 1, 2, 1, 2, 2, 2, 0, 2, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 2], dtype=int32)

k means clusting : 데이터를 특성에 따라 여러 집단으로 나눔 
- Iris 데이터에서 3개의 정답이 있으면 3개의 군집으로 나눔 
- 데이터 안에서 대표하는 군집의 중심을 찾음 

In [None]:
prediction = k_means.predict(input_sample)
prediction

array([0], dtype=int32)

In [None]:
predict_cluster = k_means.predict(test_data)
predict_cluster

array([0, 1, 2, 0, 0, 1, 0, 2, 0, 0, 2, 1, 1, 1, 1, 0, 2, 0, 0, 2, 1, 0,
       1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1], dtype=int32)

In [None]:
np_arr = np.array(predict_cluster)
np_arr[np_arr == 0], np_arr[np_arr == 1], np_arr[np_arr == 2]  = 3, 4, 5
np_arr[np_arr == 3] = 1
np_arr[np_arr == 4] = 0
np_arr[np_arr == 5] = 2
predict_label = np_arr.tolist()
predict_label

[1,
 0,
 2,
 1,
 1,
 0,
 1,
 2,
 1,
 1,
 2,
 0,
 0,
 0,
 0,
 1,
 2,
 1,
 1,
 2,
 0,
 1,
 0,
 2,
 2,
 2,
 2,
 2,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 1,
 0]

In [None]:
print('test accuracy {:.2}'.format(np.mean(predict_label == test_label)))

test accuracy 0.95


사이킷런을 이용한 특징 추출 
- CounterVectorizer : 텍스트에서 횟수를 기준으로 특징 추출 
- TfidfVectorizer : TF-IDF 값을 사용해 특징 추출
- HashingVectorizer : CounterVectorizer와 비슷하지만 해시 함수를 이용해 실행 시간을 줄임


CounterVectorizer : 단어 사전에 나는 너가 매일 공부를 한다의 단어들이 존재 할 때 
- 나는 매일 공부를 한다 [1 0 1 1 1] 이라는 결과 값이 출력 
- 나는 매일 매일 공부를 한다 [1 0 2 1 1] 이라는 결과 값이 출력

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부해야지']
countvectorizer = CountVectorizer()

In [None]:
countvectorizer.fit(text_data)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [None]:
print(countvectorizer.vocabulary_)

{'나는': 3, '배가': 7, '고프다': 0, '내일': 4, '점심': 8, '뭐먹지': 6, '공부': 1, '해야겠다': 9, '먹고': 5, '공부해야지': 2}


In [None]:
sentence = ([text_data[0]])
countvectorizer.transform(sentence).toarray()

array([[1, 0, 0, 1, 0, 0, 0, 1, 0, 0]])

- 한 문장만 바꾸고 싶을 때에는 transform을 사용

In [None]:
sentence = [text_data[0]]
countvectorizer.transform(sentence).toarray()

array([[1, 0, 0, 1, 0, 0, 0, 1, 0, 0]])

TfidVectorizer 
- TF : 특정 단어 하나가 데이터 안에 등장하는 횟수 
- DF : 문서 빈도 값 특정 단어가 여러 데이터에 자주 등장하는지 보여줌 
- IDF : 특정 단어가 다른 데이터에 등장하지 않을수록 값이 커짐 
- TF-IDF : 어떤 단어가 해당 문서에 자주 등장하지만 다른 문서에는 많이 없는 단어이면 높을 값을 출력 
- 조사나 지시대명사 같이 자주 등장하는 단어는 TF 값이 커지고 IDF 값은 작아짐 

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfid_vec = TfidfVectorizer()
tfid_vec.fit(text_data)
print(tfid_vec.vocabulary_)

{'나는': 3, '배가': 7, '고프다': 0, '내일': 4, '점심': 8, '뭐먹지': 6, '공부': 1, '해야겠다': 9, '먹고': 5, '공부해야지': 2}


In [None]:
tfid_vec.transform(sentence).toarray()

array([[0.57735027, 0.        , 0.        , 0.57735027, 0.        ,
        0.        , 0.        , 0.57735027, 0.        , 0.        ]])

## **pg 59**