In [None]:
import pkg_resources 
import pandas as pd
OutputDataSet = pd.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set])) 
print(OutputDataSet)

# 0.데이터 불러오기

In [None]:
# csv파일 불러오기
mtcars = pd.read_csv('./bigData/mtcars.csv')
mtcars.head()

# 1.데이터 탐색

In [None]:
## 데이터 모양
mtcars.shape
## 데이터 타입
type(mtcars)
## 데이터 열
mtcars.columns
## 기초 통계량
mtcars.describe().T
## 중복 제거값
mtcars['gear'].unique()
## 데이터 요약
mtcars.info()
## 상관관계
mtcars.corr()
## 1사분위수
mtcars.quantile(0.25)
## 표준편차 구하기
mtcars_sort.std()

In [None]:
## 독립변수, 종속변수 나누기
X = mtcars.drop(columns = 'mpg')
Y = mtcars['mpg']
print(X.head())
print(Y.head())

# 2.데이터 정제

In [None]:
## 2.1.불필요한 열 삭제 }
X = X.iloc[:, 1:] # 위치값으로 데이터를 추출하는 iloc 함수 사용
X.head()

In [None]:
## 2.2.누락된 값 삭제 or 대체
X.isnull().sum()

### 평균으로 대체
cyl_mean = X['cyl'].mean()
X['cyl'] = X['cyl'].fillna(cyl_mean)
### 중앙값으로 대체
qsec_median = X['qsec'].median()
X['qsec'] = X['qsec'].fillna(qsec_median)
### na값 삭제
X = X.dropna()
### 특정 행 삭제
# X = X.drop(index=mtcars[mtcars['qsec'] > 50].index)

print(X.isnull().sum())

In [None]:
## 데이터 정렬
mtcars_sort = mtcars.sort_values('qsec', ascending = False)
min_qsec_10 = mtcars_sort[:10]['qsec'].min()
print(min_qsec_10)
mtcars_sort.iloc[:10, 6] = min_qsec_10
mtcars_sort[:10]
mtcars_sort[mtcars_sort['hp']>=80]['qsec'].mean()

In [None]:
## 2.3.잘못된 값 대체
X['gear'].unique()
X['gear'] = X['gear'].replace('*3', '3').replace('*5', '5')
print(X['gear'].unique())

In [None]:
## 2.4.이상값 조정
# IQR(사분위수범위) = Q3-Q1
# 이상값은 [Q1-1.5*IQR, Q3+1.5*IQR]를 벗어나는 값
X_describe = X.describe()
X_IQR = X_describe.loc['75%']-X_describe.loc['25%']
X_min = X_describe.loc['25%']-1.5*X_IQR
X_max = 1.5*X_IQR+X_describe.loc['75%']

# 벗어나는 값 찾아 대체
print(X[X['cyl']>X_max['cyl']])
print(X[X['hp']>X_max['hp']])
X.loc[14,'cyl'] = X_max['cyl']
X.loc[30,'hp'] = X_max['hp']

# 함수만들어서 outlier 대체하기

In [None]:
# 2.5.데이터 스케일링 (숫자형)
temp = X[['qsec']]

## 표준 크기변환(Standard Scaling)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
qsec_s_scaler = pd.DataFrame(scaler.fit_transform(temp))
print(qsec_s_scaler.describe())

## 최소-최대 크기변환(Min-Max Scaling)
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
qsec_m_scaler = pd.DataFrame(scaler.fit_transform(temp))
print(qsec_m_scaler.describe())

## 로버스트 크기변환(Robust Scaling)
from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()
qsec_r_scaler = pd.DataFrame(scaler.fit_transform(temp))
print(qsec_r_scaler.describe())

In [None]:
# 2.6.데이터 타입 변경
print(X.info())

## gear변수는 수치를 나타내는 변수이므로 수치형 변수로 변환
X['gear'] = X['gear'].astype('int64')
print(X['gear'].dtype)

# 2.7.범주형 데이터을 숫자형 데이터로 변경

In [None]:
## Encoding
### 1.One-Hot Encoding
pd.get_dummies(X, drop_first=True)

### 2.Label Encoding
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
am_new = encoder.fit_transform(X['am'])
print(X['am'], am_new)
X['am_new'] = X['am'].replace('manual', 0).replace('auto', 1)
X = X.drop(columns=['am'])
X.head()

# 2.8.파생변수 만들기

In [None]:
## 무게를 의미하는 wt변수에 따라 등급을 구분하는 wt_class를 만들어 3.3보다 작으면 0, 3.3보다 크거나 같으면 1로 구분한다.
condition = X['wt']<3.3
X.loc[condition, 'wt_class'] = 0
X.loc[-condition, 'wt_class'] = 1
X = X.drop(columns = 'wt')

## qsec변수 단위를 1/4mile에서 1mile 단위로 변환하여 qsec_4변수를 만든다.
X['qsec_4'] = X['qsec']*4
X = X.drop(columns = 'qsec')
X.head()

# 3.데이터 분리

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=10)
print(x_train.head(), x_test.head(), y_train.head(), y_test.head())

# 4.모델 학습/평가

from sklearn.모듈 import 모델함수  
model = 모델함수()  
model.fit(x_train, y_train)  
y_train_pred = model.predict(x_train)  
y_test_pred = model.predict(x_test)  

from sklearn.metrics import 평가함수  
print(평가함수(y_train, y_train_pred))  
print(평가함수(y_test, y_test_pred))  

In [None]:
## 1.선형회귀
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x_train.iloc[:,1:], y_train)

y_train_pred = model.predict(x_train.iloc[:,1:])
y_test_pred = model.predict(x_test.iloc[:,1:])

print('상수: ', model.intercept_, '회귀계수: ', model.coef_)
print('학습데이터 결정계수: ', model.score(x_train.iloc[:,1:], y_train), model.score(x_test.iloc[:,1:], y_test))

### 모델평가

In [None]:
## 2.RandomForestRegressor
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(random_state = 10)
model.fit(x_train, y_train)

y_train_pred = model.predict(x_train)
y_test_pred = model.predict(x_test)

from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
print('학습데이터의 결정계수: ', r2_score(y_train, y_train_pred))
print('테스트데이터의 결정계수: ', r2_score(y_test, y_test_pred))
print('MSE: ', mean_squared_error(y_test, y_test_pred))
print('MAE: ', mean_absolute_error(y_test, y_test_pred))

In [None]:
### hyperparameter 조정
model = RandomForestRegressor(n_estimators=1000, criterion='mae', random_state=10)
model.fit(x_train, y_train)

y_train_pred = model.predict(x_train)
y_test_pred = model.predict(x_test)

from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
print('학습데이터의 결정계수: ', r2_score(y_train, y_train_pred))
print('테스트데이터의 결정계수: ', r2_score(y_test, y_test_pred))
print('MSE: ', mean_squared_error(y_test, y_test_pred))
print('MAE: ', mean_absolute_error(y_test, y_test_pred))

# 6.결과 저장

In [None]:
output = pd.DataFrame(y_test_pred)
output = pd.concat([x_test.iloc[:,0], output], axis=1)
print(output)
output.to_csv('./output.csv', index = False) #'data/output.csv'