In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

"""
# mobile 데이터 CSV 파일 읽기
file_path = "C:/Users/plo55/mobile.csv"  # 본인이 mobile.csv를 저장한 경로를 입력합니다.
df = pd.read_csv(file_path)
"""

# mobile 데이터를 웹에서 읽어오기
# Raw CSV URL
url = "https://raw.githubusercontent.com/MyungKyuYi/AI-class/main/mobile.csv"
# CSV 파일 불러오기
df = pd.read_csv(url)


# 데이터프레임 확인
print(df.head())  # 데이터의 처음 5행을 출력한다.
print(df.columns) # 데이터의 컬럼명을 출력한다.


# 데이터 준비
X = df.drop('price_range', axis=1) # 데이터 특성 (price_range 컬럼 제외)
Y = df['price_range'] # 레이블 (price_range 컬럼)

# 데이터 분할 (Training Data 70%와 Test Data 30%)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=42)

# 데이터 표준화
# SVM 모델과 LR 모델은 거리 기반 또는 경사 하강법을 사용하므로,
# 특성 값의 범위 차이가 크면 학습이 제대로 되지 않거나 성능이 저하될 수 있기 때문에 표준화된 데이터를 사용해야 한다.
# df.describe() 함수를 통해 확인해 본 결과 표준화된 데이터가 아니므로 표준화를 진행한다.
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Decision Tree (DT)
dt_model = DecisionTreeClassifier() # DT 모델 생성.
dt_model.fit(X_train, Y_train) # 모델 학습.
dt_predictions = dt_model.predict(X_test) # 예측. 즉, dt_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Decision Tree Accuracy:", accuracy_score(Y_test, dt_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Random Forest (RF)
rf_model = RandomForestClassifier() # RF 모델 생성.
rf_model.fit(X_train, Y_train) # 모델 학습.
rf_predictions = rf_model.predict(X_test) # 예측. 즉, rf_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Random Forest Accuracy:", accuracy_score(Y_test, rf_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Support Vector Machine (SVM)
svm_model = SVC() # SVM 모델 생성.
svm_model.fit(X_train, Y_train) # 모델 학습.
svm_predictions = svm_model.predict(X_test) # 예측. 즉, svm_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("SVM Accuracy:", accuracy_score(Y_test, svm_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

# Logistic Regression (LR)
lr_model = LogisticRegression() # LR 모델 생성.
lr_model.fit(X_train, Y_train) # 모델 학습.
lr_predictions = lr_model.predict(X_test) # 예측. 즉, lr_predictions에는 테스트 데이터 특성(X_test)에 따라 예측한 Y값이 들어있는 것.
print("Logistic Regression Accuracy:", accuracy_score(Y_test, lr_predictions)) # 예측한 값과 실제 Y값을 비교하여 정확도 평가.

   battery_power  blue  clock_speed  dual_sim  fc  four_g  int_memory  m_dep  \
0            842     0          2.2         0   1       0           7    0.6   
1           1021     1          0.5         1   0       1          53    0.7   
2            563     1          0.5         1   2       1          41    0.9   
3            615     1          2.5         0   0       0          10    0.8   
4           1821     1          1.2         0  13       1          44    0.6   

   mobile_wt  n_cores  ...  px_height  px_width   ram  sc_h  sc_w  talk_time  \
0        188        2  ...         20       756  2549     9     7         19   
1        136        3  ...        905      1988  2631    17     3          7   
2        145        5  ...       1263      1716  2603    11     2          9   
3        131        6  ...       1216      1786  2769    16     8         11   
4        141        2  ...       1208      1212  1411     8     2         15   

   three_g  touch_screen  wifi  price_