<a href="https://colab.research.google.com/github/Harksu71/DataScienceAnalytics/blob/main/Lecture/No01_iris_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IRIS 데이터셋 사용 예제

## 데이터 로드

![iris](https://raw.githubusercontent.com/Harksu71/DataScienceAnalytics/main/images/w1_iris.png)


SKlearn에서 데이터를 제공하는 방법은 세가지가 있다.


1.   내장 데이터셋 로드하기
  * `load_iris`와 같이 자체 가지고 있는 데이터를 로드해준다.
  * SKLearn 모듈이 데이터를 가지고 있다.

  예) Iris 데이터셋 로드

```python
from sklearn.datasets import load_iris

# Iris 데이터셋 로드
iris = load_iris()

# 데이터와 타겟을 분리
X = iris.data
y = iris.target

print("Features:", X.shape)
print("Target:", y.shape)
```

2.   샘플 데이터셋 생성하기

  * `make_` 함수를 이용하는 방법
  * SKLearn 모듈이 함수를 호출할때 파라미터에 마춰서 데이터를 만들어준다.

    예) 분류용 샘플 데이터셋 생성

```python
from sklearn.datasets import make_classification

# 2개의 클래스, 2차원 특징 공간의 샘플 데이터셋 생성
X, y = make_classification(n_samples=100, n_features=2, n_classes=2, n_clusters_per_class=1, random_state=42)

print("Features shape:", X.shape)
print("Target shape:", y.shape)
```

3. 외부 데이터셋 다운로드 하기

  *   `fetch`_로 시작하는 함수들을 사용하여 외부 데이터셋을 다운로드 할 수 있음

    예) 20 Newsgroups 텍스트 데이터셋 다운로드

```python
from sklearn.datasets import fetch_20newsgroups

# 20 Newsgroups 데이터셋 다운로드 및 로드
newsgroups = fetch_20newsgroups(subset='train', categories=['alt.atheism', 'sci.space'])

# 데이터와 타겟 확인
X = newsgroups.data
y = newsgroups.target

print("Number of samples:", len(X))
print("Categories:", newsgroups.target_names)
```



In [None]:
import pandas as pd
from sklearn.datasets import load_iris


iris = load_iris()
X = iris.data
y = iris.target
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

* 로드한 데이터셋의 정보가 필요하면 DESCR에 데이터셋에 대한 정보를 가지고 있다.

In [None]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## 데이터 저장

### iris의 dataset을 파일로 저장하자
---



In [None]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [None]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [None]:
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# 3. 라벨(종)을 숫자에서 이름으로 변환
iris_df['Label'] = iris.target
iris_df['Label'] = iris_df['Label'].map(dict(enumerate(iris.target_names)))

# 4. DataFrame을 CSV 파일로 저장
file_path = 'iris_dataset.csv'
iris_df.to_csv(file_path, index=False)

In [None]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Label
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


### 코렙 연결을 끊고 다시연결하면 데이터가 사라짐

---
1. 데이터의 저장은 데이터프레임의 to_csv(file_path, index=False) 함수를 이용하면 됨.
2. 이렇게 저장하면 colab 의 가상머신에 저장되어서 연결이 끊어지면 데이터가 사라짐
3. google drive에 데이터를 저장해야 함

In [None]:
!pwd

/content


In [None]:
!ls /content

drive  gdrive  sample_data


In [None]:
!ls /content/gdrive

MyDrive


In [None]:
!ls /content/gdrive/MyDrive

'Colab Notebooks'   충청남도


In [None]:
!ls '/content/gdrive/MyDrive/Colab Notebooks'

 DataScience   No01_iris_data.ipynb  'No01_iris_data.ipynb의 사본'


In [None]:
!ls '/content/gdrive/MyDrive/Colab Notebooks/DataScience'

iris_dataset.csv


In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

# Google Drive에 파일 저장
file_path = '/content/gdrive/MyDrive/Colab Notebooks/DataScience/iris_dataset.csv'
iris_df.to_csv(file_path, index=False)

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [None]:
myData = pd.read_csv(file_path)
myData

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Label
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
