# Data Description

데이터의 각 컬럼의 특성 및 형태를 파악합니다.

In [1]:
import sklearn

sklearn.__version__

'0.24.1'

In [2]:
from sklearn.datasets import load_iris

features, targets = load_iris(return_X_y = True, as_frame = True)

## 데이터 컬럼 정보

데이터 분석을 위한 데이터의 도메인적 특성과 코드를 통한 데이터 컬럼의 형태을 파악합니다. 풀고자 하는 문제의 정의 및 데이터 형태와 범주에 따라서 데이터 분석 방법이 달라집니다.

* 변수 형태 (Variable Type)
  * 독립변수(Independent Variable): 종속 변수에 영향을 주는 변수 (입력변수) 
  * 종속변수(Dependent Variable): 독립변수의 인과관계에따라 변하는 변수 (타겟 변수)


* 변수 범주 (Variable Category)
  * 범주형 변수
  * 이산형 변수
  * 연속형 변수


* 데이터 형태 (Data Type)
  * 문자형 변수
  * 숫자형 변수

scikit-learn 에서 제공하는 Iris Dataset 에 대한 정보 입니다.

https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset

아래는 예제 데이터인 IRIS 데이터 셋에 대한 UCI 홈페이지상의 데이터 설명입니다.

https://archive.ics.uci.edu/ml/datasets/iris

Data Set Information:

This is perhaps the best known database to be found in the pattern recognition literature. Fisher's paper is a classic in the field and is referenced frequently to this day. (See Duda & Hart, for example.) The data set contains 3 classes of 50 instances each, where each class refers to a type of iris plant. One class is linearly separable from the other 2; the latter are NOT linearly separable from each other. 

Predicted attribute: class of iris plant. 

This is an exceedingly simple domain. 

This data differs from the data presented in Fishers article (identified by Steve Chadwick, spchadwick '@' espeedaz.net ). The 35th sample should be: 4.9,3.1,1.5,0.2,"Iris-setosa" where the error is in the fourth feature. The 38th sample: 4.9,3.6,1.4,0.1,"Iris-setosa" where the errors are in the second and third features.


Attribute Information:

1. sepal length in cm 
2. sepal width in cm 
3. petal length in cm 
4. petal width in cm 
5. class: 
-- Iris Setosa 
-- Iris Versicolour 
-- Iris Virginica

데이터 컬럼의 정보를 확인해 봄으로써, 1 ~ 4 까지의 데이터 컬럼은 독립변수로써 숫자 연속형 변수이고, 5 데이터 컬럼은 종속변수로써 숫자 범주형 변수임을 알 수 있습니다. 

In [3]:
features.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


데이터의 샘플을 확인하여 실제 눈으로 데이터를 확인해봅니다.

In [4]:
features.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [5]:
features.sample(5) # 랜덤하게 데이터를 출력해봅니다.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
131,7.9,3.8,6.4,2.0
90,5.5,2.6,4.4,1.2
29,4.7,3.2,1.6,0.2
52,6.9,3.1,4.9,1.5
93,5.0,2.3,3.3,1.0


In [6]:
features.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8
