## 이진분류(기출3회)

In [3]:
# 1. 문제정의
# 평가: roc-auc
# target: TravelInsurance
# 최종파일: result.csv(컬럼 1개 pred, 1확률값)

# 2. 라이브러리 및 데이터 불러오기
import pandas as pd
train = pd.read_csv("3_train.csv")
test = pd.read_csv("3_test.csv")

# 3. 탐색적 데이터 분석(EDA)
print("===== 데이터 크기 =====")
print("Train Shape:", train.shape)
print("Test Shape:", test.shape)

print("===== train 데이터 샘플 =====")
print(train.head(1))

print("===== test 데이터 샘플 =====")
print(test.head(1))

print("===== 데이터 정보(자료형) =====")
print(train.info())

print("===== train 결측치 수 =====")
print(train.isnull().sum().sum())

print("===== test 결측치 수 =====")
print(test.isnull().sum().sum())

print("===== target 빈도 =====")
print(train['TravelInsurance'].value_counts())

===== 데이터 크기 =====
Train Shape: (1490, 10)
Test Shape: (497, 9)
===== train 데이터 샘플 =====
   Unnamed: 0  Age               Employment Type GraduateOrNot  AnnualIncome  \
0         888   28  Private Sector/Self Employed           Yes       1250000   

   FamilyMembers  ChronicDiseases FrequentFlyer EverTravelledAbroad  \
0              6                1            No                  No   

   TravelInsurance  
0                0  
===== test 데이터 샘플 =====
   Unnamed: 0  Age    Employment Type GraduateOrNot  AnnualIncome  \
0         920   32  Government Sector           Yes        650000   

   FamilyMembers  ChronicDiseases FrequentFlyer EverTravelledAbroad  
0              5                0            No                  No  
===== 데이터 정보(자료형) =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1490 entries, 0 to 1489
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Unnamed: 0           1490 no

In [4]:
train = pd.read_csv("3_train.csv")
test = pd.read_csv("3_test.csv")

# 4. 데이터 전처리
print(train.shape, test.shape)
train = pd.get_dummies(train)
test = pd.get_dummies(test)
print(train.shape, test.shape)

# 5. 검증 데이터 분할
from sklearn.model_selection import train_test_split
target = train.pop('TravelInsurance')
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

print("\n ===== 분할된 데이터 크기 =====")
print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_tr, y_tr)
pred = rf.predict_proba(X_val)

from sklearn.metrics import roc_auc_score
roc_auc = roc_auc_score(y_val, pred[:,1])
print('\n roc_auc:', roc_auc)

# 7. 예측 및 결과 파일 생성
pred = rf.predict_proba(test)
print(pred[:3])
submit = pd.DataFrame({'pred':pred[:,1]})
submit.to_csv("result.csv", index=False)

# 제출파일 확인
print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").head())

print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").shape)

(1490, 10) (497, 9)
(1490, 14) (497, 13)

 ===== 분할된 데이터 크기 =====
(1192, 13) (298, 13) (1192,) (298,)

 roc_auc: 0.8506578947368421
[[0.76 0.24]
 [0.92 0.08]
 [0.88 0.12]]

 ===== 제출파일 (샘플) =====
   pred
0  0.24
1  0.08
2  0.12
3  0.98
4  0.29

 ===== 제출파일 (샘플) =====
(497, 1)


### 응용

In [5]:

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)

# f1 스코어
from sklearn.metrics import f1_score
print(f1_score(y_val, pred))

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
print(pred[:3])
submit = pd.DataFrame({'pred':pred})
submit.to_csv("result.csv", index=False)

# 제출파일 확인
print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").head())

print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").shape)

0.7448979591836735
[0 0 0]

 ===== 제출파일 (샘플) =====
   pred
0     0
1     0
2     0
3     1
4     0

 ===== 제출파일 (샘플) =====
(497, 1)


## 다중분류(기출4회)


In [6]:
# 1. 문제정의
# 평가: f1 macro
# target: Segmentation
# 최종파일: result.csv(컬럼 1개 pred)

# 2. 라이브러리 및 데이터 불러오기
import pandas as pd
train = pd.read_csv("4_train.csv")
test = pd.read_csv("4_test.csv")

# 3. 탐색적 데이터 분석(EDA)
print("===== 데이터 크기 =====")
print("Train Shape:", train.shape)
print("Test Shape:", test.shape)
print("\n") # 줄 바꿈

print("===== 데이터 정보(자료형) =====")
print(train.info())
print("\n")

print("===== train 결측치 수 =====")
print(train.isnull().sum().sum())
print("\n")

print("===== test 결측치 수 =====")
print(test.isnull().sum().sum())
print("\n")

print("===== target 빈도 =====")
print(train['Segmentation'].value_counts())

===== 데이터 크기 =====
Train Shape: (6665, 11)
Test Shape: (2154, 10)


===== 데이터 정보(자료형) =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6665 entries, 0 to 6664
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID               6665 non-null   int64  
 1   Gender           6665 non-null   object 
 2   Ever_Married     6665 non-null   object 
 3   Age              6665 non-null   int64  
 4   Graduated        6665 non-null   object 
 5   Profession       6665 non-null   object 
 6   Work_Experience  6665 non-null   float64
 7   Spending_Score   6665 non-null   object 
 8   Family_Size      6665 non-null   float64
 9   Var_1            6665 non-null   object 
 10  Segmentation     6665 non-null   int64  
dtypes: float64(2), int64(3), object(6)
memory usage: 572.9+ KB
None


===== train 결측치 수 =====
0


===== test 결측치 수 =====
0


===== target 빈도 =====
Segmentation
4    1757
3    1720
1    1616
2    1572
Na

In [7]:
train = pd.read_csv("4_train.csv")
test = pd.read_csv("4_test.csv")

# 4. 데이터 전처리
# 원핫인코딩 (target컬럼이 object형이라 제외)
target = train.pop('Segmentation')

train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 5. 검증 데이터 분할
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

print("\n ===== 분할된 데이터 크기 =====")
print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)

from sklearn.metrics import f1_score
f1 = f1_score(y_val, pred, average='macro')
print('\n f1-macro:', f1)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv("result.csv", index=False)

# 제출파일 확인
print("\n ===== 제출파일 (샘플 5개) =====")
print(pd.read_csv("result.csv").head())

print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").shape)


 ===== 분할된 데이터 크기 =====
(5332, 29) (1333, 29) (5332,) (1333,)

 f1-macro: 0.5020137672414862

 ===== 제출파일 (샘플 5개) =====
   pred
0     2
1     3
2     3
3     3
4     1

 ===== 제출파일 (샘플) =====
(2154, 1)


## 회귀(기출5회)

In [8]:
# 1. 문제정의
# 평가: RMSE
# target: price
# 최종파일: result.csv(컬럼 1개 pred)

# 2. 라이브러리 및 데이터 불러오기
import pandas as pd
train = pd.read_csv("5_train.csv")
test = pd.read_csv("5_test.csv")

# 3. 탐색적 데이터 분석(EDA)
print("===== 데이터 크기 =====")
print("Train Shape:", train.shape)
print("Test Shape:", test.shape)

print("\n ===== 데이터 정보(자료형) =====")
print(train.info())

print("\n ===== train 결측치 수 =====")
print(train.isnull().sum().sum())

print("\n ===== test 결측치 수 =====")
print(test.isnull().sum().sum())

print("\n ===== 카테고리 비교 =====")
print(train.describe(include='O'))
print(test.describe(include='O'))

# 각 컬럼별 카테고리 확인 및 비교 (3개중 1개만 샘플)
print(train['fuelType'].value_counts())
print(test['fuelType'].value_counts())

print("\n ===== target 기술 통계 =====")
print(train['price'].describe())

===== 데이터 크기 =====
Train Shape: (3759, 9)
Test Shape: (1617, 8)

 ===== 데이터 정보(자료형) =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3759 entries, 0 to 3758
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   model         3759 non-null   object 
 1   year          3759 non-null   int64  
 2   price         3759 non-null   int64  
 3   transmission  3759 non-null   object 
 4   mileage       3759 non-null   int64  
 5   fuelType      3759 non-null   object 
 6   tax           3759 non-null   int64  
 7   mpg           3759 non-null   float64
 8   engineSize    3759 non-null   float64
dtypes: float64(2), int64(4), object(3)
memory usage: 264.4+ KB
None

 ===== train 결측치 수 =====
0

 ===== test 결측치 수 =====
0

 ===== 카테고리 비교 =====
          model transmission fuelType
count      3759         3759     3759
unique       19            3        3
top      Fiesta       Manual   Petrol
freq       1372         3234     

### 응용

In [9]:
print("\n ===== 카테고리 비교 =====")
cols = train.select_dtypes(include='object').columns

for col in cols:
    set_train = set(train[col])
    set_test= set(test[col])
    same = (set_train == set_test)
    if same:
        print(col, "\t카테고리 동일함")
    else:
        print(col, "\t카테고리 동일하지 않음")


 ===== 카테고리 비교 =====
model 	카테고리 동일함
transmission 	카테고리 동일함
fuelType 	카테고리 동일함


In [10]:
train = pd.read_csv("5_train.csv")
test = pd.read_csv("5_test.csv")

# 4. 데이터 전처리
target = train.pop('price')
# 원핫인코딩
train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 5. 검증 데이터 분할
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

print("\n ===== 분할된 데이터 크기 =====")
print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(random_state=0)
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)

# RMSE(Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
def rmse(y_true, y_pred):
    mse = mean_squared_error(y_true, y_pred)
    return mse ** 0.5

result = rmse(y_val, pred)
print('\n rmse:', result)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv("result.csv", index=False)

# 제출파일 확인
print("\n ===== 제출파일 (샘플 5개) =====")
print(pd.read_csv("result.csv").head())

print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").shape)


 ===== 분할된 데이터 크기 =====
(3007, 30) (752, 30) (3007,) (752,)

 rmse: 1341.943732584459

 ===== 제출파일 (샘플 5개) =====
       pred
0  15586.88
1  15407.71
2  14912.47
3  18482.73
4   6168.01

 ===== 제출파일 (샘플) =====
(1617, 1)


## 다중분류(기출6회)

In [11]:
# 1. 문제정의
# 평가: f1 macro
# target: Heat_Load
# 최종파일: result.csv(컬럼 1개 pred)

# 2. 라이브러리 및 데이터 불러오기
import pandas as pd
train = pd.read_csv("6_train.csv")
test = pd.read_csv("6_test.csv")

# 3. 탐색적 데이터 분석(EDA)
print("===== 데이터 크기 =====")
print("Train Shape:", train.shape)
print("Test Shape:", test.shape)
print("\n") # 줄 바꿈

print("===== 데이터 정보(자료형) =====")
print(train.info())
print("\n")

print("===== train 결측치 수 =====")
print(train.isnull().sum().sum())
print("\n")

print("===== test 결측치 수 =====")
print(test.isnull().sum().sum())
print("\n")

print("===== target 빈도 =====")
print(train['Heat_Load'].value_counts())

===== 데이터 크기 =====
Train Shape: (537, 10)
Test Shape: (231, 9)


===== 데이터 정보(자료형) =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537 entries, 0 to 536
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Compac       537 non-null    float64
 1   Surf_Area    537 non-null    float64
 2   Wall_Area    537 non-null    float64
 3   Roof         537 non-null    object 
 4   Height       537 non-null    object 
 5   Orient       537 non-null    object 
 6   Glaze_Area   537 non-null    float64
 7   Glaze_Distr  537 non-null    int64  
 8   Cool_Load    537 non-null    float64
 9   Heat_Load    537 non-null    object 
dtypes: float64(5), int64(1), object(4)
memory usage: 42.1+ KB
None


===== train 결측치 수 =====
0


===== test 결측치 수 =====
0


===== target 빈도 =====
Heat_Load
Very Low     142
Low          123
High         122
Very High     79
Medium        71
Name: count, dtype: int64


In [12]:
train = pd.read_csv("6_train.csv")
test = pd.read_csv("6_test.csv")

# 4. 데이터 전처리
# 원핫인코딩 (target컬럼이 object형이라 제외)
target = train.pop('Heat_Load')

train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 5. 검증 데이터 분할
from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

print("\n ===== 분할된 데이터 크기 =====")
print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)

from sklearn.metrics import f1_score
f1 = f1_score(y_val, pred, average='macro')
print('\n f1-macro:', f1)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv("result.csv", index=False)

# 제출파일 확인
print("\n ===== 제출파일 (샘플 5개) =====")
print(pd.read_csv("result.csv").head())

print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").shape)


 ===== 분할된 데이터 크기 =====
(429, 16) (108, 16) (429,) (108,)

 f1-macro: 0.9277616846430405

 ===== 제출파일 (샘플 5개) =====
   pred
0   Low
1  High
2  High
3   Low
4   Low

 ===== 제출파일 (샘플) =====
(231, 1)


## 회귀(기출7회)

In [13]:
# 1. 문제정의
# 평가: RMSE
# target: total
# 최종파일: result.csv(컬럼 1개 pred)

# 2. 라이브러리 및 데이터 불러오기
import pandas as pd
train = pd.read_csv("7_train.csv")
test = pd.read_csv("7_test.csv")

# 3. 탐색적 데이터 분석(EDA)
print("===== 데이터 크기 =====")
print("Train Shape:", train.shape)
print("Test Shape:", test.shape)

print("\n ===== 데이터 정보(자료형) =====")
print(train.info())

print("\n ===== train 결측치 수 =====")
print(train.isnull().sum().sum())

print("\n ===== test 결측치 수 =====")
print(test.isnull().sum().sum())

print("\n ===== 카테고리 비교 =====")
print(train.describe(include='O'))
print(test.describe(include='O'))

print("\n ===== target 기술 통계 =====")
print(train['total'].describe())

===== 데이터 크기 =====
Train Shape: (700, 10)
Test Shape: (300, 9)

 ===== 데이터 정보(자료형) =====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   branch          700 non-null    object 
 1   city            700 non-null    object 
 2   customer_type   700 non-null    object 
 3   gender          700 non-null    object 
 4   product_line    700 non-null    object 
 5   total           700 non-null    float64
 6   payment_method  700 non-null    object 
 7   rating          700 non-null    float64
 8   time_of_day     700 non-null    object 
 9   day_name        700 non-null    object 
dtypes: float64(2), object(8)
memory usage: 54.8+ KB
None

 ===== train 결측치 수 =====
0

 ===== test 결측치 수 =====
0

 ===== 카테고리 비교 =====
       branch    city customer_type gender       product_line payment_method  \
count     700     700           700    700         

In [14]:
pd.set_option('display.float_format', '{:.10f}'.format)
train['total'].describe()

Unnamed: 0,total
count,700.0
mean,485078.0175
std,364390.7265411937
min,19041.75
25%,200119.5
50%,381874.5
75%,706127.625
max,1563975.0000000002


In [15]:
train = pd.read_csv("7_train.csv")
test = pd.read_csv("7_test.csv")

# 4. 데이터 전처리
# 원핫인코딩
train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 5. 검증 데이터 분할
from sklearn.model_selection import train_test_split
target = train.pop('total')
X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

print("\n ===== 분할된 데이터 크기 =====")
print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(random_state=0)
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)

# RMSE(Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
def rmse(y_true, y_pred):
    mse = mean_squared_error(y_true, y_pred)
    return mse ** 0.5

result = rmse(y_val, pred)
print('\n rmse:', result)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv("result.csv", index=False)

# 제출파일 확인
print("\n ===== 제출파일 (샘플 5개) =====")
print(pd.read_csv("result.csv").head())

print("\n ===== 제출파일 (샘플) =====")
print(pd.read_csv("result.csv").shape)


 ===== 분할된 데이터 크기 =====
(560, 30) (140, 30) (560,) (140,)

 rmse: 385935.56337360526

 ===== 제출파일 (샘플 5개) =====
               pred
0 395781.4350000000
1 638762.6700000000
2 326036.8125000000
3 569221.3800000000
4 489358.8000000000

 ===== 제출파일 (샘플) =====
(300, 1)
