### 머신러닝 연습 - 회귀

In [10]:
# 데이터 가져오기

import pandas as pd

# CSV 파일 읽기
df = pd.read_csv("../titanic.csv")

print(df.head())  # 데이터 확인

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


In [None]:
# 데이터 체크

# 1. 필요없는 특징(노이즈) 제거
df = df.drop(columns=['PassengerId', 'Name', 'Ticket'])

# 2. 레이블의 값 개수 확인
print(df['Fare'].value_counts())
    # value_counts(): 열의 각 값의 개수를 반환

# 3. 결측치 확인, 없애기
print(df.isnull().sum()) # 결측치 확인

df.drop(columns=['Cabin'], inplace=True) # Cabin 컬럼 삭제
    # inplace=True: 변경사항을 df에 덮어쓰겠다는 뜻. 기본적으로 컬럼(열) 변경 함수는 바뀐 결과를 반환해 새 변수에 할당하게 할 뿐, df 자체를 바꾸지는 않음. inplace=True를 쓰면 df 자체가 변화하게 됨.

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True) # Embarked 결측치 채우기 (최빈값(가장 많이 등장한 값)으로 채우기)
    # fillna: 데이터의 결측값을 원하는 값으로 변경하는 메서드
    # mode()[0]: 특정 데이터의 최빈값을 반환. 최빈값은 여러개일 수 있으므로 첫 번째 최빈값([0])만 가져옴.

df['Age'].fillna(df['Age'].mean(), inplace=True) # Age 결측치 채우기 (평균값으로 채우기)
    # mean(): 특정 데이터의 평균값을 반환.

print(df.isnull().sum()) # 결측치 다시 확인

# 4. One-Hot 인코딩: 각각의 값마다 열(속성)을 새로 만듦. 각 속성은 true, false값을 가짐.
df = pd.get_dummies(df, columns=["Embarked"])  # 원-핫 인코딩
df = pd.get_dummies(df, columns=["Sex"])

print(df.head())  # 데이터 확인

Fare
8.0500     43
13.0000    42
7.8958     38
7.7500     34
26.0000    31
           ..
13.8583     1
50.4958     1
5.0000      1
9.8458      1
10.5167     1
Name: count, Length: 248, dtype: int64
Survived      0
Pclass        0
Sex           0
Age         177
SibSp         0
Parch         0
Fare          0
Cabin       687
Embarked      2
dtype: int64
Survived    0
Pclass      0
Sex         0
Age         0
SibSp       0
Parch       0
Fare        0
Embarked    0
dtype: int64
   Survived  Pclass   Age  SibSp  Parch     Fare  Embarked_C  Embarked_Q  \
0         0       3  22.0      1      0   7.2500       False       False   
1         1       1  38.0      1      0  71.2833        True       False   
2         1       3  26.0      0      0   7.9250       False       False   
3         1       1  35.0      1      0  53.1000       False       False   
4         0       3  35.0      0      0   8.0500       False       False   

   Embarked_S  Sex_female  Sex_male  
0        True       False

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True) # Embarked 결측치 채우기 (최빈값(가장 많이 등장한 값)으로 채우기)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True) # Age 결측치 채우기 (평균값으로 채우기)


In [12]:
# x, y, test, train 나누기

from sklearn.preprocessing import StandardScaler  # 데이터 표준화 함수
from sklearn.model_selection import train_test_split  # 데이터 분할 함수

# [데이터 제작]
X = df.drop(columns=["Fare"])
y = df["Fare"]

scaler = StandardScaler()
X = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # test_size: 전체 데이터 중 test에 할당할 비율

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((712, 10), (179, 10), (712,), (179,))

In [None]:
# 외전. 레이블 불균형 해결하기(균형 맞추기)
# 얘는 그냥 참고용. 여기서 만든 변수는 사용하지 않았음.

# **방법 1. 언더샘플링: 데이터 양이 많은 쪽 개수를 줄임. 데이터가 많을 때만 사용.
from imblearn.under_sampling import RandomUnderSampler

X = df.drop(columns=['Survived'])  # 입력 데이터
y = df['Survived']  # 레이블

# 언더샘플링 적용
under_sampler = RandomUnderSampler(random_state=42)
X_under, y_under = under_sampler.fit_resample(X, y) # X_under, y_under가 샘플링 후 결과물

# 결과 확인
print(y_under.value_counts())
print("---------------------")


# **방법 2. 오버샘플링: 데이터 양이 적은 쪽 행을 복사해 늘림. 데이터가 적을 때 사용 but 단순 복사로 늘리기 때문에 과적합 위험 있음.
from imblearn.over_sampling import RandomOverSampler

X = df.drop(columns=['Survived'])  # 입력 데이터
y = df['Survived']  # 레이블

# 오버샘플링 적용
over_sampler = RandomOverSampler(random_state=42)
X_over, y_over = over_sampler.fit_resample(X, y) # X_over, y_over가 샘플링 후 결과물

# 결과 확인
print(y_over.value_counts())
print("---------------------")


# **방법 3. SMOTE: 일반적으로 가장 많이 사용. 기존 데이터 기반으로 새로운 데이터를 생성해 오버샘플링.
# 주의: 얘는 모든 데이터가 숫자일 때만 작동! 인코딩 먼저 해야 함.
from imblearn.over_sampling import SMOTE

X = df.drop(columns=['Survived'])  # 입력 데이터
y = df['Survived']  # 레이블

# SMOTE 적용
smote = SMOTE(random_state=42)
X_smote, y_smote = smote.fit_resample(X, y) # X_smote, y_smote가 샘플링 후 결과물

# 결과 확인
print(y_smote.value_counts())

Survived
0    342
1    342
Name: count, dtype: int64
---------------------
Survived
0    549
1    549
Name: count, dtype: int64
---------------------
Survived
0    549
1    549
Name: count, dtype: int64


In [14]:
# 만든 데이터로 4가지 모델 학습

from sklearn.metrics import mean_squared_error  # MSE 평가 함수
from sklearn.metrics import mean_absolute_error  # MAE 평가 함수



# [DTR 모델]
from sklearn.tree import DecisionTreeRegressor

dtr_model = DecisionTreeRegressor()
dtr_model.fit(X_train, y_train)

dtr_y_pred = dtr_model.predict(X_test)

mse = mean_squared_error(y_test, dtr_y_pred)
mae = mean_absolute_error(y_test, dtr_y_pred)
print(f"DTR 모델 mse: {mse:.2f}, mae: {mae:.2f}")


# [RFR 모델]
from sklearn.ensemble import RandomForestRegressor

rfr_model = RandomForestRegressor()
rfr_model.fit(X_train, y_train)

rfr_y_pred = rfr_model.predict(X_test)

mse = mean_squared_error(y_test, rfr_y_pred)
mae = mean_absolute_error(y_test, rfr_y_pred)
print(f"RFR 모델 mse: {mse:.2f}, mae: {mae:.2f}")


# [SVR 모델]
from sklearn.svm import SVR

svr_model = SVR()
svr_model.fit(X_train, y_train)

svr_y_pred = svr_model.predict(X_test)

mse = mean_squared_error(y_test, svr_y_pred)
mae = mean_absolute_error(y_test, svr_y_pred)
print(f"SVR 모델 mse: {mse:.2f}, mae: {mae:.2f}")


# [LR 모델]
from sklearn.linear_model import LinearRegression

# 모델 생성, 학습(= 훈련)
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

# 예측, 평가
lr_y_pred = lr_model.predict(X_test)

mse = mean_squared_error(y_test, lr_y_pred)
mae = mean_absolute_error(y_test, lr_y_pred)
print(f"LR 모델 mse: {mse:.2f}, mae: {mae:.2f}")

# mse: 평균제곱오차(Mean Squared Error, MSE). 낮을수록 정확도가 높은 것. 회귀에서 자주 사용. 수식: 평균(오차^2)

DTR 모델 mse: 2504.49, mae: 16.41
RFR 모델 mse: 1655.78, mae: 15.43
SVR 모델 mse: 1203.18, mae: 13.84
LR 모델 mse: 932.29, mae: 20.90
