In [None]:
import pkg_resources 
import pandas as pd
OutputDataSet = pd.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set])) 
print(OutputDataSet)

# Python Keyword

In [None]:
# sklearn package
import sklearn
print(dir(sklearn))
import sklearn.preprocessing
print(dir(sklearn.preprocessing))
from sklearn.preprocessing import StandardScaler 
print(help(StandardScaler))

In [None]:
# boston 데이터 불러오기 
boston = pd.read_csv('./bigData/boston.csv')
print(boston.head())

# 간단한 유형

In [None]:
# 1. Top 10 구하기
## MEDV 데이터 오름차순으로 정렬 후 제일 작은 값 10개 출력 
medv_asc = boston.sort_values(by = 'MEDV', ascending = True)['MEDV']
print(medv_asc.head(10))

In [None]:
# 2. 결측치 확인하기
## RM 칼럼의 결측값 개수
sum(boston['RM'].isna())
## RM 칼럼의 평균값
rm_mean = boston['RM'].mean()
## 평균값으로 대체
rm_mean = boston['RM'].fillna(rm_mean)
## 결측치 삭제
rm_drop = boston['RM'].dropna()
## 표준편차 차이 구하기
print(abs(rm_mean.std() - rm_drop.std()))

In [None]:
# 3. 이상값 확인하기
## ZN 칼럼의 평균값과 표준편차
zn_mean = boston['ZN'].mean()
zn_std = boston['ZN'].std()
## 평균보다 1.5*표준편차를 벗어나는 이상값의 합
outlier_low = boston[boston['ZN'] < zn_mean-1.5*zn_std]['ZN']
outlier_high = boston[boston['ZN'] > zn_mean+1.5*zn_std]['ZN']
print(outlier_low.sum()+outlier_high.sum())

In [None]:
# 4. 사분위수 구하기
## IQR = Q3-Q1
print(boston.describe().T['75%']-boston.describe().T['25%'])

In [None]:
# 5. 순위 구하기
## MEDV 칼럼의 30번째 큰값으로 1~29번째 큰값을 대체하고 평균, 중위수, 최솟값, 최댓값 구하기
medv_desc = boston.sort_values(by = 'MEDV', ascending = False)['MEDV']
medv_desc.iloc[0:29] = medv_desc.iloc[29]
print(medv_desc.mean(), medv_desc.median(), medv_desc.min(), medv_desc.max())

# 복잡한 유형

In [None]:
# 1. 그룹별 집계/요약
## TAX 칼럼이 중앙값보다 큰 데이터만 활용
new_boston = boston[boston['TAX'] > boston['TAX'].median()][['CHAS', 'RAD']]
## CHAS 칼럼과 RAD 칼럼 별 개수를 구하고 column이름은 'COUNT'로 하여 출력
grp_data = pd.DataFrame(new_boston.groupby(by = ['CHAS', 'RAD'])['CHAS'].count())
grp_data.columns = ['COUNT']
print(grp_data)

In [None]:
# 2. 오름차순/내림차순 정렬
# TAX 칼럼 정렬 후 차이 구하고 분산
tax_asc = pd.DataFrame(boston.sort_values(by = 'TAX', ascending = True, ignore_index = True)['TAX'])
tax_desc = pd.DataFrame(boston.sort_values(by = 'TAX', ascending = False, ignore_index = True)['TAX'])

print(abs(tax_asc - tax_desc).var())

In [None]:
# 3. 최소최대 변환
## 최소최대 변환한 후 MEDV 칼럼값이 0.5보다 큰 값의 개수
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
new_boston = pd.DataFrame(scaler.fit_transform(boston), columns = boston.columns)
print(sum(new_boston['MEDV'] > 0.5))

In [None]:
# 4. 빈도값 구하기
## AGE 칼럼의 최빈값과 최빈값 개수 구하기
age_mode = int(boston['AGE'].mode())
print(age_mode, sum(boston['AGE'] == age_mode))

In [None]:
# 5. 표준 변환
## 표준 변환한 후 DIS 칼럼이 0.4보다 크고 0.6보다 작은 값들의 평균을 2째자리까지 반올림
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
new_boston = pd.DataFrame(scaler.fit_transform(boston), columns = boston.columns)
new_boston = new_boston[new_boston['DIS'] > 0.4]['DIS']
new_boston = new_boston[new_boston < 0.6]
print(round(new_boston.mean(), 2))

In [None]:
# 6. 유니크한 값
## boston 데이터의 각 칼럼의 유니크한 값 개수들의 평균
sum = 0
for col in boston.columns:
    sum = sum + boston[col].unique().size
print(sum/boston.columns.size)