In [1]:
# 필요한 라이브러리 불러오기  (사이킷런에 아이리스가 기본적으로 들어있음)
from sklearn.datasets import load_iris  # 붓꽃 데이터셋 불러옴
from sklearn.tree import DecisionTreeClassifier   # 학습 알고리즘: 의사 결정 트리 분류기 생성 
                                                  #의사결정트리는 data를 특정 조건에 따라 분할하여 결정을 내리는 알고리즘 
from sklearn.model_selection import train_test_split 
# 데이터셋을 훈련 데이터(모델 학습용) 와 테스트 데이터(모델의 성능 평가용)로 나눔  
import pandas as pd  # 판다스: 데이터 분석 및 조작을 위한 강력한 도구 / 판다스 라이브러리를 불러와 pd라는 별칭으로 사용

In [2]:
iris = load_iris()

In [3]:
iris_data = iris.data
# iris_data

In [4]:
iris_label = iris.target  # iris 데이터셋에서 target 속성을 가져와 iris_label 변수에 저장
# target 속성은 각 데이터 포인트가 속한 클래스 (붓꽃 종류)를 나타내는 레이블 정보를 담고 있다.
print('iris target값:', iris_label)  # 각 샘플에 해당하는 숫자 레이블이 출력
print('iris target명:', iris.target_names) #  iris 데이터셋에서 target_names 속성을 가져와 출력
# target_names 속성은 숫자 레이블에 해당하는 클래스 이름 (예: Setosa, Versicolor, Virginica)을 담고 있는 배열

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


위의 값에서 0은 'setosa', 1은 'versicolor', 2는 'virginica'  

꽃 데이터셋의 각 샘플에 해당하는 레이블 값과 그에 해당하는 클래스 이름을 출력하여 데이터셋의 클래스 분포를 확인할 수 있게 해줍니다.

In [5]:
iris_df = pd.DataFrame(data = iris_data, columns=iris.feature_names)

# iris_data (데이터 자체)과 iris.feature_names (특징 이름)을 이용하여 판다스 DataFrame 객체를 생성
# iris_data는 각 붓꽃 샘플에 대한 측정값 (예: 꽃받침 길이, 꽃잎 길이 등)을 포함하는 2차원 배열
# iris.feature_names 속성은 이 데이터의 각 열에 해당하는 특징 이름 (예: sepal length, sepal width, petal length, petal width)을 담고 있는 배열
# 결과적으로 각 열 이름이 특징 이름이고, 각 행이 하나의 붓꽃 샘플에 대한 정보를 담는 DataFrame이 생성됨

iris_df['label'] = iris_label
# 앞서 저장한 iris_label 변수 (데이터 레이블)를 새로운 열 'label' 로 DataFrame iris_df 에 추가
# 이 열은 각 붓꽃 샘플에 해당하는 숫자 레이블을 포함

iris_df['species'] = [iris.target_names[i] for i in iris.target]
# 리스트 인덱싱을 이용하여 레이블 값에 해당하는 클래스 이름을 생성
# iris.target_names 배열을 순회하며, 각 인덱스 i 에 해당하는 클래스 이름을 새로운 열 'species' 에 추가
# 붓꽃 데이터셋을 정리된 구조의 DataFrame 형태로 변환함 (DataFrame은 데이터 분석 및 시각화에 유용한 도구)

# iris_df.head(3)
iris_df.tail(3)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label,species
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica
149,5.9,3.0,5.1,1.8,2,virginica


각 열은 특징을 나타냅니다. (예: sepal length, sepal width)
각 행은 하나의 붓꽃 샘플에 대한 정보를 담고 있다.
'label' 열은 숫자 레이블을 저장합니다.
'species' 열은 클래스 이름 (예: Setosa, Versicolor, Virginica)을 저장함

In [6]:
# train 데이터와 test 데이터 나누기 (80%는 훈련 데이터, 20%는 테스트 데이터로)

X_train, X_test, y_train, y_test = train_test_split\
    (iris_data, iris_label, test_size= 0.2, random_state= 11)  # 

**train_test_split:**
이 함수는 scikit-learn 라이브러리의 model_selection 모듈에서 제공하는 함수로, 데이터셋을 훈련 세트와 테스트 세트로 무작위로 나눔

**iris_data, iris_label:**
이 두 변수는 각각 붓꽃 데이터셋의 특징 데이터와 레이블 데이터를 나타냄

**test_size=0.2:**
이 매개변수는 전체 데이터셋 중 테스트 세트가 차지할 비율을 설정합니다. 0.2는 20%를 의미하므로, 전체 데이터의 20%가 테스트 세트로 사용됨

**random_state=11:**
이 매개변수는 난수 생성기의 시드 값을 설정/ 같은 시드 값을 사용하면 매번 데이터를 분할할 때 동일한 결과가 나오도록 함. 이는 재현성을 보장하기 위해 사용됨
- 데이터를 랜덤하게 나눌 때 사용하는 숫자
- 이 숫자를 설정하면 데이터가 나누어지는 방식이 고정되어 실험 결과를 비교하기 쉽다.

컴퓨터는 완벽하게 랜덤한 숫자를 만들 수 없다. 대신, 특정한 값을 시작점으로 하여 일정한 규칙에 따라 숫자를 생성하는데, 이 시작점을 '씨앗'이라고 함.

Q. 데이터를 나눌 때 왜 랜덤하게 나눠야 할까요? 
    편향 방지: 데이터를 랜덤하게 나누지 않으면 특정 패턴이나 특징이 한쪽으로 몰려서 모델 학습에 편향이 생길 수 있다.
    일관성 유지: 같은 데이터로 여러 번 실험을 할 때, 매번 다른 결과가 나오면 결과를 비교하기 어렵다.

X_train: 훈련 데이터의 **특징** 데이터
y_train: 훈련 데이터의 **레이블** 데이터
X_test: 테스트 데이터의 특징 데이터
y_test: 테스트 데이터의 레이블 데이터

In [7]:
X_train
y_train

array([0, 2, 2, 0, 0, 2, 2, 1, 0, 1, 1, 2, 0, 1, 2, 1, 1, 0, 2, 0, 2, 2,
       1, 2, 1, 0, 0, 1, 0, 0, 2, 2, 2, 0, 0, 0, 1, 0, 1, 2, 2, 1, 1, 2,
       2, 0, 1, 1, 2, 2, 2, 0, 2, 0, 0, 0, 0, 2, 0, 0, 0, 1, 0, 1, 1, 2,
       1, 0, 0, 0, 1, 1, 1, 2, 1, 0, 1, 2, 0, 2, 2, 1, 0, 0, 0, 2, 1, 0,
       2, 1, 2, 0, 0, 1, 1, 2, 1, 2, 2, 1, 1, 2, 2, 0, 1, 2, 0, 2, 2, 0,
       1, 2, 0, 1, 1, 1, 0, 1, 1, 1])

In [8]:
df_clf =DecisionTreeClassifier(random_state = 11)  

In [9]:
df_clf.fit(X_train, y_train)

In [10]:
pred = df_clf.predict(X_test)  # 예측한 값
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [11]:
from sklearn.metrics import accuracy_score
print('예측 정확도 {0:4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 0.933333


In [12]:
print(f'예측 정확도: {accuracy_score(y_test, pred)}') 

예측 정확도: 0.9333333333333333


1. **데이터 불러오기**: 붓꽃 데이터셋을 불러와 데이터 분석에 사용할 준비를 함
2. **모델 생성**: 의사 결정 트리 분류기를 생성하여 모델을 만든다.
3. **데이터 분할**: 불러온 데이터를 훈련 데이터와 테스트 데이터로 나눔
4. **모델 학습 및 평가**: 훈련 데이터를 사용하여 모델을 학습시키고, 테스트 데이터를 사용하여 모델의 성능을 평가함

In [13]:
# 4주차 강의 실습

import gradio as gr
import matplotlib.pyplot as plt
import seaborn as sns

  from .autonotebook import tqdm as notebook_tqdm


In [14]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label,species
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa


In [15]:
# 필요없는 label을 삭제하고 축을 1로 설정
iris_df = iris_df.drop("label", axis=1)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [16]:
def visualize_data(plot_type):
    if plot_type == "Histogram":  # 4개의 특징별로 
        _, axes = plt.subplots(2, 2, figsize = (15, 10))
        axes = axes.flatten() # 한 줄로 펼쳐서 index 1차원으로 접근
        for i, ax in enumerate(axes):
            sns.histplot(iris_df[iris.feature_names[i]], kde=True, ax = ax) 
            # kde: 데이터분포를 부드러운 곡선으로 보여줌 / 그릴 도화지 ax 
            ax.set_title(iris.feature_names[i])
    elif plot_type == "Correlation Matrix":
        corr_df = iris_df.iloc[:, :-1]    
        sns.heatmap(corr_df.corr(), annot=True, cmap='coolwarm')
    elif plot_type == "Pairplot": 
        sns.pairplot(iris_df, hue= "species") # 종별로 다른 색으로 
    plt.tight_layout()
    return plt    

In [17]:
def predict_iris(sepal_length, sepal_width, petal_length, petal_width):
    input_data = [[sepal_length, sepal_width, petal_length, petal_width]]
    pred = df_clf.predict(input_data)
    class_names = iris.target_names
    return class_names[pred[0]]

In [18]:
plot_types = ["Histogram", "Correlation Matrix", "Pairplot"]

visualization_interface = gr.Interface(
    fn = visualize_data, 
    inputs = gr.Dropdown(choices = plot_types, label = "Select Plot Type" ), # 어떤 플롯을 그릴지 선택할 수 있는 드롭다운
    outputs = "plot",
    title = "Iris Data Visualization",
    description = " Select a plot type to visualize the Iris dataset "
)

In [19]:
# iris.feature_names

In [20]:
# corr_df = iris_df.iloc[:, :-1] 
# corr_df.corr()

In [21]:
prediction_interface = gr.Interface(
    fn = predict_iris,
    inputs = [
        gr.Slider(4.0, 8.0, step = 0.1, label="Sepal Length (cm)"),
        gr.Slider(2.0, 4.5, step = 0.1, label="Sepal width (cm)"),
        gr.Slider(1.0, 7.0, step = 0.1, label="Petal Length (cm)"),
        gr.Slider(0.1, 2.5, step = 0.1, label="Petal width (cm)"),
    ],
    outputs = "text",
    title = "Iris Species Classifier",
    description = "Adjust the sliders to predict the Iris species",
    live = True   # 실시간으로 결과가 표시됨
)

In [22]:
iface = gr.TabbedInterface([visualization_interface,prediction_interface], \
                           ["Data Visualization", "Species Prediction"]) # 선택할 탭 이름 2가지

In [23]:
iface.launch()   # 로컬 URL로 보면 더 잘 보임
# iface.launch(share=True)  # 다른 사람과 공유 가능


Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.


