# DSC data set

In [1]:
import pandas as pd

In [31]:
df_machine = pd.read_csv("machine.data.csv", header=None)
df_machine.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,adviser,32/60,125,256,6000,256,16,128,198,199
1,amdahl,470v/7,29,8000,32000,32,8,32,269,253
2,amdahl,470v/7a,29,8000,32000,32,8,32,220,253
3,amdahl,470v/7b,29,8000,32000,32,8,32,172,253
4,amdahl,470v/7c,29,8000,16000,32,8,16,132,132


## 1. Title: Relative CPU Performance Data(상대적 CPU 성능 데이터)

## 2. Source Information(출처 정보)
- 작성자 : Phillip Ein-Dor 및 Jacob Feldmesser - Ein-Dor : 경영 학부; 텔 아비브 대학교; Ramat-Aviv; Tel Aviv, 69978; 이스라엘
- 기증자 : David W. Aha (aha@ics.uci.edu) (714) 856-8779
- 날짜 : 1987 년 10 월

## 3. Past Usage: 과거 사례

### 1) Ein-Dor와 Feldmesser (CACM 4/87, pp 308-317)
- 결과 : 상대적인 CPU 성능의 linear regression(선형 회귀) 예측
- 실제 값과 34 % 평균 편차를 기록

### 2) Kibler,D. & Aha,D. (1988). 
Real-Valued 특성의 instance-based 예측. CSCSI의 회보 (캐나다AI) 회의.
- 결과 : 인스턴스 기반의 상대적인 CPU 성능 예측
- 유사한 결과; 변환은 필요 없다.
- 예측 된 속성 : cpu의 상대적인 성능(numeric)

## 4. Relevant Information: 관련 정보
추정된 상대적인 성능 값은 linear regression method(선형 회귀 분석법)을 사용하여 저자에 의해 추정되었다.

## 5. Data Impormation: 데이터 정보
- 인스턴스의 수: 209 
- 속성의 수: 10 (예측 속성 6, 비예측 속성 2, 목표 변수 1) - 선형 회귀 추측

In [32]:
df_machine.columns = [
    'Vendor','Model', 'MYCT', 'MMIN', 'MMAX', 'CACH', 'CHMIN', 'CHMAX', 'PRP', 'ERP'] 
# Column Header 이름 지정
df_machine.head()

Unnamed: 0,Vendor,Model,MYCT,MMIN,MMAX,CACH,CHMIN,CHMAX,PRP,ERP
0,adviser,32/60,125,256,6000,256,16,128,198,199
1,amdahl,470v/7,29,8000,32000,32,8,32,269,253
2,amdahl,470v/7a,29,8000,32000,32,8,32,220,253
3,amdahl,470v/7b,29,8000,32000,32,8,32,172,253
4,amdahl,470v/7c,29,8000,16000,32,8,16,132,132


### Attribute Information: 속성 정보

**vendor name(공급 업체 이름):** 30개 
(adviser, amdahl,apollo, basf, bti, burroughs, c.r.d, cambex, cdc, dec, dg, formation, four-phase, gould, honeywell, hp, ibm, ipl, magnuson, microdata, nas, ncr, nixdorf, perkin-elmer, prime, siemens, sperry, sratus, wang)

In [34]:
df_machine["Vendor"].unique()

array(['adviser', 'amdahl', 'apollo', 'basf', 'bti', 'burroughs', 'c.r.d',
       'cdc', 'cambex', 'dec', 'dg', 'formation', 'four-phase', 'gould',
       'hp', 'harris', 'honeywell', 'ibm', 'ipl', 'magnuson', 'microdata',
       'nas', 'ncr', 'nixdorf', 'perkin-elmer', 'prime', 'siemens',
       'sperry', 'sratus', 'wang'], dtype=object)

**Model Name(모델명):** 많은 고유의 기호

In [36]:
df_machine["Model"].unique()[:10]

array(['32/60', '470v/7', '470v/7a', '470v/7b', '470v/7c', '470v/b',
       '580-5840', '580-5850', '580-5860', '580-5880'], dtype=object)

**MYCT:** 기계주기 시간 (nanoseconds / integer)

In [37]:
df_machine["MYCT"].head()

0    125
1     29
2     29
3     29
4     29
Name: MYCT, dtype: int64

**MMIN:** 최소 메인 메모리 (kilobytes / integer)

In [38]:
df_machine["MMIN"].head()

0     256
1    8000
2    8000
3    8000
4    8000
Name: MMIN, dtype: int64

**MMAX:** 최대 메인 메모리 (kilobytes / integer)

In [39]:
df_machine["MMAX"].head()

0     6000
1    32000
2    32000
3    32000
4    16000
Name: MMAX, dtype: int64

**CACH:** 캐시 메모리 (kilobytes / integer)

In [40]:
df_machine["CACH"].head()

0    256
1     32
2     32
3     32
4     32
Name: CACH, dtype: int64

**CHMIN:** 최소 채널 수 (units / integer)

In [41]:
df_machine["CHMIN"].head()

0    16
1     8
2     8
3     8
4     8
Name: CHMIN, dtype: int64

**CHMAX:** 최대 채널 수 (units / integer)

In [42]:
df_machine["CHMAX"].head()

0    128
1     32
2     32
3     32
4     16
Name: CHMAX, dtype: int64

**PRP:** 게시된 상대적인 성능 (integer)

In [43]:
df_machine["PRP"].head()

0    198
1    269
2    220
3    172
4    132
Name: PRP, dtype: int64

**ERP:** original article로 부터 추정된 상대적인 성능 (integer)

In [44]:
df_machine["ERP"].head()

0    199
1    253
2    253
3    253
4    132
Name: ERP, dtype: int64

### 결측 속성 값은 없음.

### 계급의 분포: PRP(연속 변수)

|PRP값 범위|인스턴스의 수 범위|
|---|---|
|0-20|31|
|21-100|121|
|101-200|27 |
|201-300|13|
|301-400|7  |
|401-500| 4 |
|501-600|  2|
|above 600| 4 |



## Summary Statistics: 통계 요약
|        | Min | Max   | Mean    | SD      | PRP Correlation |
|--------|-----|-------|---------|---------|-----------------|
| MCYT:  | 17  | 1500  | 203.8   | 260.3   | -0.3071         |
| MMIN:  | 64  | 32000 | 2868.0  | 3878.7  | 0.7949          |
| MMAX:  | 64  | 64000 | 11796.1 | 11726.6 | 0.8630          |
| CACH:  | 0   | 256   | 25.2    | 40.6    | 0.6626          |
| CHMIN: | 0   | 52    | 4.7     | 6.8     | 0.6089          |
| CHMAX: | 0   | 176   | 18.2    | 26.0    | 0.6052          |
| PRP:   | 6   | 1150  | 105.6   | 160.8   | 1.0000          |
| ERP:   | 15  | 1238  | 99.3    | 154.8   | 0.9665          |