## 단답형 Q1.
#### 여러 명의 사용자들이 컴퓨터에 저장된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어는 무엇인가?

## 작업형 제 1유형 : 데이터 처리 영역
### Q1. mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오.

#### 정규화(Normalization)이란?

데이터가 가진 feature의 스케일이 심하게 차이가 나는 경우 문제 
    => 모든 데이터 포인트가 동일한 정도의 스케일(중요도)로 반영되도록 해주는 게 정규화(Normalization)의 목적
       ex) 0~1 또는 -1~1 로 변환되어 인공신경망, 딥러닝의 변수로 사용

데이터를 정규화 하는 두 가지 방법

1. Min-Max Normalization (최소-최대 정규화)
2. Z-Score Normalization (Z-점수 정규화)

#### 1. Min-Max Normalization (최소-최대 정규화)

데이터 정규화 방법 중 하나. 모든 feature에 대해 각각의 최소값 0, 최대값 1로, 그리고 다른 값들은 0과 1 사이의 값으로 변환

정규화 수식
(X - MIN) / (MAX-MIN) 

##### But!! 이상치(outlier)에 너무 많은 영향을 받는다는 거다.

#### 2. Z-Score Normalization (Z-점수 정규화)

이상치(outlier) 문제를 피하는 데이터 정규화 방법

정규화 수식
(X - 평균) / 표준편차

[참고]
- 최소 최대 정규화: 모든 feature들의 스케일이 동일하지만, 이상치(outlier)를 잘 처리하지 못한다.
- Z-점수 정규화 : 이상치(outlier)를 잘 처리하지만, 정확히 동일한 척도로 정규화 된 데이터를 생성하지는 않는다.

In [2]:
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/dataq/main/mtcars.csv',index_col=0)

In [4]:
df.head()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [5]:
col = df['qsec']
col_MinMax = (col - col.min(axis=0)) / (col.max(axis=0) - col.min(axis=0))

overNum = len(col_MinMax[col_MinMax>0.5])

In [6]:
overNum

9

### Q2. mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 표준정규분포 데이터 표준화 (standardization) 변환 후 최대, 최소값을 각각 구하시오.

In [7]:
mean = df.qsec.mean()
std = df.qsec.std()
scale = (df.qsec-mean)/std

In [8]:
col_scale = (col - col.mean()) / col.std()

In [9]:
Min = min(col_scale)
Max = max(col_scale)

In [10]:
print(Min, Max)

-1.8740102832334835 2.826754592962484


### Q3. mtcars 데이터셋(mtcars.csv)의 wt 컬럼의 이상치(IQR 1.5 외부에 존재하는)값들을 outlier 변수에 저장하라

In [11]:
import numpy as np

In [12]:
q75,q50,q25 = np.percentile(df.wt, [75 ,50,25])
iqr = q75 - q25

outlier = df.wt[(df.wt>= q75 + iqr*1.5) | (df.wt <= q25 - iqr*1.5)].values


In [13]:
outlier

array([5.25 , 5.424, 5.345])

### Q4. mtcars 데이터셋에서 mpg변수와 나머지 변수들의 상관계수를 구하여 다음과 같이 내림차순 정렬하여 표현하라

In [14]:
df.head()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [16]:
corr_mpg = df.corr()[['mpg']][1:].sort_values('mpg',ascending=False)

In [17]:
corr_mpg

Unnamed: 0,mpg
drat,0.681172
vs,0.664039
am,0.599832
gear,0.480285
qsec,0.418684
carb,-0.550925
hp,-0.776168
disp,-0.847551
cyl,-0.852162
wt,-0.867659


### Q5. mtcars 데이터셋에서 mpg변수를 제외하고 데이터 정규화 (standardscaler) 과정을 진행한 이후 PCA를 통해 변수 축소를 하려한다. 누적설명 분산량이 92%를 넘기기 위해서는 몇개의 주성분을 선택해야하는지 설명하라

In [18]:
df.head()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [19]:
stand_df = df[2:]

In [None]:
from sklearn.decomposition import PCA

### 작업형 제 2유형 : 모형 구축 및 평가 영역