# 데이터 전처리 1

In [41]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
df = pd.read_csv('diamonds.csv')
#print(df.info()) # 결측치 확인 후 주석처리
#print(df.duplicated().sum()) #중복확인 후 주석처리

label_encoder = LabelEncoder() #객체선언
#데이터 레이블 인코딩 빼면 그냥 원래 데이터에 저장됨. 
for i in ['cut', 'color', 'clarity']:
    df[i] = label_encoder.fit_transform(df[i])

# 데이터셋: 특성(Features), 타켓(target))
X = df.drop(columns=['price'],axis=1) # 학습용 입력 데이터(Features)
y = df['price'] # 예측 대상인 타겟 데이터 (가격)

# 데이터를 8:2로 분할 (학습용 : 테스트용)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 랜덤포레스트 회귀 모델 생성(정확도 높지만 느림.
model = RandomForestRegressor(n_estimators=100, random_state=42) 
# 학습
model.fit(X_train, y_train) # 학습 데이터를 이용하여 모델 학습

#예측
y_pred = model.predict(X_test) # 테스트 데이터를 이용한 가격 예측

# 모델 평가
mse = mean_squared_error(y_test,y_pred) # 평균 제곱 오차 (작을수록 예측이 정확함)
r2 = r2_score(y_test,y_pred) # 결정 계수 R² (1에 가까울수록 성능 우수)

print(f'mse: {mse}')
print(f'r2: {r2}')


mse: 453.6714025769372
r2: 0.9999714615022904


# 데이터 전처리 2

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

df = pd.read_csv('winequality-red.csv')



X = df.drop(columns=['quality'],axis=1) # 학습용 입력 데이터(Features)
y = df['quality'] # 예측 대상인 타겟 데이터 

# 8:2 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 전처리 -> 데이터 표준화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 모델 생성 및 훈련 (회귀)
model = RandomForestRegressor(n_estimators=100, random_state=42) # 
model.fit(X_train_scaled, y_train)

# 예측
y_pred = model.predict(X_test_scaled)

# 모델 평가 (회귀 지표)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse}')
print(f'r2: {r2}')


MSE: 0.3006603124999999
r2: 0.5399271357910311
