# 작업형1 예시문제
### 자동차 데이터 셋에서 qsec 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는?

## 문제분석
- 문제에서 qsec 컬럼만 묻고 있음 (다른 컬럼 신경 쓸 필요 없음)
- MinMax Scale 변환
- 조건 0.5보다 큰 값

## 풀어보기

In [12]:
# 데이터를 우선 불러옴. 이후 qsec 컬럼 확인해보자.
import pandas as pd
import numpy as np
import sklearn.preprocessing as pp

def load_data():
    return pd.read_csv('mtcars.csv')

data = load_data()
data.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [13]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
print('변환하기 전 qsec 데이터 ------------------')
print(data['qsec'].head())

print('-----------------------')
print('변환 후 qsec 데이터 -------------------')
data['qsec'] = scaler.fit_transform(data[['qsec']])
# 데이터셋으로 대입하기 위해서는 대괄호를 두개 입력 필요
print(data['qsec'].head())

변환하기 전 qsec 데이터 ------------------
0    16.46
1    17.02
2    18.61
3    19.44
4    17.02
Name: qsec, dtype: float64
-----------------------
변환 후 qsec 데이터 -------------------
0    0.233333
1    0.300000
2    0.489286
3    0.588095
4    0.300000
Name: qsec, dtype: float64


In [15]:
# 다른 스케일링 방법.
from sklearn.preprocessing import minmax_scale

data['qsec'] = minmax_scale(data['qsec'])
# minmax_scale을 통해 단순 대입만을 통해 민맥스 스케일링이 가능함.
print(data['qsec'].head(5))


# min-max를 직접 함수로 만들어서도 사용 가능.
def my_minmax(data):
    data = (data - min(data) / max(data) - min(data))
    return data

print(data['qsec'].head(5))


0    0.233333
1    0.300000
2    0.489286
3    0.588095
4    0.300000
Name: qsec, dtype: float64
0    0.233333
1    0.300000
2    0.489286
3    0.588095
4    0.300000
Name: qsec, dtype: float64


## 조건 (0.5보다 큰 값)

### sum 활용

In [17]:
cond1 = data['qsec'] > 0.5
# cond의 결과는 true / false로 나뉨.
# true의 경우는 1 / false는 0이므로 sum으로 구하면 true의 수가 출력.
print(sum(cond1))

# 혹은 len을 넣어서 cond로 넣어서 가능.

print(len(data[cond1]))

9
9


In [None]:
data['qsec'] > 0.5

0     False
1     False
2     False
3      True
4     False
5      True
6     False
7      True
8      True
9     False
10     True
11    False
12    False
13    False
14    False
15    False
16    False
17     True
18    False
19     True
20     True
21    False
22    False
23    False
24    False
25     True
26    False
27    False
28    False
29    False
30    False
31    False
Name: qsec, dtype: bool

### len 활용

In [None]:
# 데이터 수를 구함
cond = data['qsec'] > 0.5
print(len(data[cond]))

9


### count 활용

In [None]:
# 데이터 수를 구함
cond = data['qsec'] > 0.5
print(data[cond]['qsec'].count())

9


## 심화학습
- 결측치 값이 처리되지 않았을 때 결과

In [18]:
# 만일 위 데이터와 달리 결측값이 존재한다면?
import numpy as np
df = pd.DataFrame(
    {
        'a':[1,2,3,4,5,6,7,8,9],
        'b':[1.3,2.2,3.3,np.nan,5.8,6.9,np.nan,8.2,9.0]
    }
)
df

Unnamed: 0,a,b
0,1,1.3
1,2,2.2
2,3,3.3
3,4,
4,5,5.8
5,6,6.9
6,7,
7,8,8.2
8,9,9.0


In [19]:
#B에 결측치가 존재함.
len(df)

9

In [None]:
# len(시리즈)
len(df['b'])

9

In [None]:
# 데이터프레임.count()
df.count()

a    9
b    7
dtype: int64

In [None]:
# 시리즈.count()
df['b'].count()
# count 사용시 결측치를 뺀 수를 표시함.

7

- len: 행의 수
- count: NaN이 아닌 (컬럼별) 행의 수
- sum: True(1)값을 더했기 때문에 조건문에 따라 달라짐

In [None]:
df['b'] > 3

0    False
1    False
2     True
3    False
4     True
5     True
6    False
7     True
8     True
Name: b, dtype: bool

In [20]:
cond = df['b'] > 3
print(sum(cond))

5
