## SECTION01

In [1]:
# 1. 문제정의
# 평가 : f1-macro
# target : Credit_Score
# 최종 파일 : result.csv(컬럼 1개 pred)

# 라이브러리 및 데이터 불러오기
import pandas as pd

train = pd.read_csv('./data/score_train.csv')
test = pd.read_csv('./data/score_test.csv')

# 3. 탐색적 데이터 분석(EDA)
print('==== 데이터 크기 ====')
print('train shape :', train.shape)
print('test shape :', test.shape)
print('\n')     # 줄 바꿈

print('==== 데이터 정보(자료형) ====')
print(train.info())
print('\n')

print('==== train 결측치 수 ====')
print(train.isnull().sum())
print('\n')

print('==== test 결측치 수 ====')
print(test.isnull().sum())
print('\n')

print('==== target 빈도 ====')
print(train['Credit_Score'].value_counts())

==== 데이터 크기 ====
train shape : (4198, 21)
test shape : (1499, 20)


==== 데이터 정보(자료형) ====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4198 entries, 0 to 4197
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Delay_from_due_date       4198 non-null   float64
 1   Num_of_Delayed_Payment    4198 non-null   float64
 2   Num_Credit_Inquiries      4198 non-null   float64
 3   Credit_Utilization_Ratio  4198 non-null   float64
 4   Credit_History_Age        4198 non-null   float64
 5   Payment_of_Min_Amount     4198 non-null   object 
 6   Amount_invested_monthly   4198 non-null   float64
 7   Monthly_Balance           4198 non-null   float64
 8   Credit_Mix                4198 non-null   object 
 9   Payment_Behaviour         4198 non-null   object 
 10  Age                       4198 non-null   float64
 11  Annual_Income             4198 non-null   float64
 12  Num_Bank_Accounts         41

In [2]:
# 4. 데이터 전처리
# 원-핫 인코딩(target 컬럼이 object 형이라 제외)
target = train.pop('Credit_Score')

train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 5. 검증 데이터 나누기
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

print('\n==== 분할된 데이터 크기 ====')
print(X_train.shape, X_val.shape, y_train.shape, y_val.shape)

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_train, y_train)
pred = rf.predict(X_val)

from sklearn.metrics import f1_score
f1 = f1_score(y_val, pred, average='macro')
print('\nf1-macro :', f1)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv('result1.csv', index=False)

# 제출 파일 확인
print('\n==== 제출 파일 (샘플 5개) ====')
print(pd.read_csv('result1.csv').head())


==== 분할된 데이터 크기 ====
(3358, 29) (840, 29) (3358,) (840,)

f1-macro : 0.7004593488873695

==== 제출 파일 (샘플 5개) ====
       pred
0      Poor
1      Good
2  Standard
3      Good
4  Standard


In [25]:
# 2. 라이브러리 및 데이터 불러오기
import pandas as pd

train = pd.read_csv('./data/score_train.csv')
test = pd.read_csv('./data/score_test.csv')

# 4. 데이터 전처리
target = train.pop('Credit_Score')

# 스케일링
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
cols = train.select_dtypes(exclude='object').columns
train[cols] = scaler.fit_transform(train[cols])
test[cols] = scaler.transform(test[cols])

# 원-핫 인코딩
train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 레이블 인코딩 : 성능 떨어짐 주석처리
# from sklearn.preprocessing import LabelEncoder
# cols = train.select_dtypes(include='object').columns
# for col in cols:
#     le = LabelEncoder()
#     train[col] = le.fit_transform(train[col])
#     test[col] = le.transform(test[col])
    
# 5. 검증 데이터 나누기
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

# 6. 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_train, y_train)
pred = rf.predict(X_val)

from sklearn.metrics import f1_score
f1 = f1_score(y_val, pred, average='macro')
print('f1-macro :', f1)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv('result1.csv', index=False)

# 제출 파일 확인
print('\n==== 제출 파일 (샘플 5개) ====')
print(pd.read_csv('result1.csv').head())

f1-macro : 0.7020460066061172

==== 제출 파일 (샘플 5개) ====
       pred
0      Poor
1      Good
2  Standard
3      Good
4  Standard


## SECTION02

In [34]:
# 1. 문제 정의
# 평가 : f1-macro
# target : Drug
# 최종 파일 : result2.csv(컬럼 1개 pred, 1 확률값)

# 2. 라이브러리 및 데이터 불러오기
import pandas as pd

train = pd.read_csv('./data/drug_train.csv')
test = pd.read_csv('./data/drug_test.csv')

# 3. 탐색적 데이터 분석(EDA)
print('==== 데이터 크기 ====')
print('Train Shape :', train.shape)
print('Test Shape :', test.shape)

print('\n==== 데이터 정보(자료형) ====')
print(train.info())

print('\n==== train 결측치 수 ====')
print(train.isnull().sum())

print('\n==== test 결측치 수 ====')
print(test.isnull().sum())

print('\n==== train 카테고리별 수 ===')
print(train[['Sex', 'BP', 'Cholesterol']].nunique())

print('\n==== test 카테고리별 수 ====')
print(test[['Sex', 'BP', 'Cholesterol']].nunique())

print('\n==== target 빈도 ====')
print(train['Drug'].value_counts())

==== 데이터 크기 ====
Train Shape : (100, 6)
Test Shape : (100, 5)

==== 데이터 정보(자료형) ====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Age          100 non-null    int64  
 1   Sex          100 non-null    object 
 2   BP           100 non-null    object 
 3   Cholesterol  100 non-null    object 
 4   Na_to_K      100 non-null    float64
 5   Drug         100 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 4.8+ KB
None

==== train 결측치 수 ====
Age            0
Sex            0
BP             0
Cholesterol    0
Na_to_K        0
Drug           0
dtype: int64

==== test 결측치 수 ====
Age            0
Sex            0
BP             0
Cholesterol    0
Na_to_K        0
dtype: int64

==== train 카테고리별 수 ===
Sex            2
BP             3
Cholesterol    2
dtype: int64

==== test 카테고리별 수 ====
Sex            2
BP             3
Chole

In [35]:
# 4. 데이터 전처리
# 원-핫 인코딩
target = train.pop('Drug')

train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 5. 검증 데이터 나누기
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(train, target, test_size=0.2, random_state=0)

# 6 머신러닝 학습 및 평가
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(X_train, y_train)
pred = rf.predict(X_val)

from sklearn.metrics import f1_score
f1 = f1_score(y_val, pred, average='macro')
print('f1-macro :', f1)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv('result2.csv', index=False)

# 제출 파일 확인
print('\n==== 제출 파일 (샘플 5개) ====')
print(pd.read_csv('result2.csv').head())

f1-macro : 1.0

==== 제출 파일 (샘플 5개) ====
    pred
0  DrugY
1  DrugY
2  DrugY
3  DrugY
4  drugB


In [36]:
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_score

f1_scores = cross_val_score(rf, train, target, cv=3, scoring='f1_macro')
print(f1_scores)
print(f1_scores.mean())

[1.         0.93777778 0.78461538]
0.9074643874643874


In [50]:
# 2. 라이브러리 및 데이터 불러오기
import pandas as pd

train = pd.read_csv('./data/drug_train.csv')
test = pd.read_csv('./data/drug_test.csv')

# 4. 데이터 전처리
target = train.pop('Drug')

# 스케일링 (영향 X, 생략)
# from sklearn.preprocessing import RobustScaler
# scaler = RobustScaler()
# train['Age'] = scaler.fit_transform(train[['Age']])
# test['Age'] = scaler.transform(test[['Age']])

# 원-핫 인코딩(Drug 컬럼 제외)
train = pd.get_dummies(train)
test = pd.get_dummies(test)

# 레이블 인코딩(Drug 컬럼 제외)
# from sklearn.preprocessing import LabelEncoder
# cols = train.select_dtypes(include='object').columns
# for col in cols:
#     le = LabelEncoder()
#     train[col] = le.fit_transform(train[col])
#     test[col] = le.transform(test[col])

# 5. 크로스 밸리데이션(cross-validation)
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(random_state=0)
f1_scores = cross_val_score(rf, train, target, cv=3, scoring='f1_macro')
print(f1_scores.mean())

# 6. 머신러닝 학습
rf.fit(train, target)

# 7. 예측 및 결과 파일 생성
pred = rf.predict(test)
submit = pd.DataFrame({'pred':pred})
submit.to_csv('result2.csv', index=False)


0.9074643874643874
