# 예제 데이터셋

## 분류 또는 회귀용 데이터셋

* datasets.load_boston() : 미국 보스턴의 집에 대한 특징과 가격 데이터 (회귀용) <br>
* datasets.load_breast_cancer() : 위스콘신 유방암 특징들과 악성/음성 레이블 데이터 (분류용)<br>
* datasets.load_diabetes() : 당뇨 데이터(회귀용)<br>
* datasets.load_digits() : 0에서 9까지 숫자 이미지 픽셀 데이터 (분류용)<br>
* datasets.load_iris() : 붓꽃에 대한 특징을 가진 데이터 (분류용)<br>

## 온라인 데이터셋
데이터 크기가 커서 온라인에서 데이터를 다운로드 한 후에 불러오는 예제 데이터셋

* fetch_california_housing() : 캘리포니아 주택 가격 데이터 <br>
* fetch_covtype() : 회귀 분석용 토지 조사 데이터 <br>
* fetch_20newsgroups() : 뉴스 그룹 텍스트 데이터 <br>
* fetch_olivetti_faces() : 얼굴 이미지 데이터 <br>
* fetch_lfw_people() : 얼굴 이미지 데이터 <br>
* fetch_lfw_paris() : 얼굴 이미지 데이터 <br>
* fetch_rcv1() : 로이터 뉴스 말뭉치 데이터 <br>
* fetch_mldata() : ML 웹사이트에서 다운로드 <br>


## 예제 데이터셋 구조

* 일반적으로 딕셔너리 형태로 구성
* data : 특징 데이터셋
* target : 분류용은 레이블 값, 회귀용은 숫자 결과값 데이터
* target_names : 개별 레이블의 이름(분류용)
* feature_names : 특징 이름
* DESCR : 데이터셋에 대한 설명과 각 특징 설명


# 예제 데이터셋 실제 사용

datasets.load_diabetes() : 당뇨 데이터 

In [1]:
from sklearn.datasets import load_diabetes

In [2]:
diabetes = load_diabetes() 

# 예제 데이터는 일반적으로 dictionary 형태로 되어있으니까 key값을 확인 가능
print(diabetes.keys())  

dict_keys(['data', 'target', 'frame', 'DESCR', 'feature_names', 'data_filename', 'target_filename', 'data_module'])


In [3]:
# 예제 데이터의 data는 feature 데이터셋이 있음
print(diabetes.data)

[[ 0.03807591  0.05068012  0.06169621 ... -0.00259226  0.01990749
  -0.01764613]
 [-0.00188202 -0.04464164 -0.05147406 ... -0.03949338 -0.06833155
  -0.09220405]
 [ 0.08529891  0.05068012  0.04445121 ... -0.00259226  0.00286131
  -0.02593034]
 ...
 [ 0.04170844  0.05068012 -0.01590626 ... -0.01107952 -0.04688253
   0.01549073]
 [-0.04547248 -0.04464164  0.03906215 ...  0.02655962  0.04452873
  -0.02593034]
 [-0.04547248 -0.04464164 -0.0730303  ... -0.03949338 -0.00422151
   0.00306441]]


In [5]:
# 예제 데이터의 target은 숫자로 되어있다 --> 회귀용 숫자 데이터
print(diabetes.target)

[151.  75. 141. 206. 135.  97. 138.  63. 110. 310. 101.  69. 179. 185.
 118. 171. 166. 144.  97. 168.  68.  49.  68. 245. 184. 202. 137.  85.
 131. 283. 129.  59. 341.  87.  65. 102. 265. 276. 252.  90. 100.  55.
  61.  92. 259.  53. 190. 142.  75. 142. 155. 225.  59. 104. 182. 128.
  52.  37. 170. 170.  61. 144.  52. 128.  71. 163. 150.  97. 160. 178.
  48. 270. 202. 111.  85.  42. 170. 200. 252. 113. 143.  51.  52. 210.
  65. 141.  55. 134.  42. 111.  98. 164.  48.  96.  90. 162. 150. 279.
  92.  83. 128. 102. 302. 198.  95.  53. 134. 144. 232.  81. 104.  59.
 246. 297. 258. 229. 275. 281. 179. 200. 200. 173. 180.  84. 121. 161.
  99. 109. 115. 268. 274. 158. 107.  83. 103. 272.  85. 280. 336. 281.
 118. 317. 235.  60. 174. 259. 178. 128.  96. 126. 288.  88. 292.  71.
 197. 186.  25.  84.  96. 195.  53. 217. 172. 131. 214.  59.  70. 220.
 268. 152.  47.  74. 295. 101. 151. 127. 237. 225.  81. 151. 107.  64.
 138. 185. 265. 101. 137. 143. 141.  79. 292. 178.  91. 116.  86. 122.
  72. 

In [6]:
# DESCR : DESCRIPTION (설명)
print(diabetes.DESCR) 

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

In [7]:
# feature의 name만 출력
print(diabetes.feature_names)

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']


In [8]:
print(diabetes.data_filename)
print(diabetes.target_filename)

diabetes_data_raw.csv.gz
diabetes_target.csv.gz
