In [1]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

ModuleNotFoundError: No module named 'sklearn'

# 1. 데이터 전처리 클래스(DataPreprocessor)

In [None]:
class DataPreprocessor:
    def __init__(self, df):
        # 데이터프레임 초기화
        self.df = df

    def fill_missing(self, column, value):
        # 특정 열의 결측치를 지정된 값으로 채움
        self.df[column].fillna(value, inplace=True)

    def drop_columns(self, columns):
        # 특정 열(들)을 삭제
        self.df.drop(columns=columns, inplace=True)

    def normalize_column(self, column):
        # 특정 열을 0~1 사이로 정규화
        min_val = self.df[column].min()
        max_val = self.df[column].max()
        self.df[column] = (self.df[column] - min_val) / (max_val - min_val)

    def get_data(self):
        # 전처리가 완료된 데이터프레임 반환
        return self.df

# 2.  샘플 데이터 생성 및 전처리

In [None]:
# 샘플 데이터 생성
data = {
    'age': [25, None, 35, 45, 55],
    'income': [4000, 5000, 6000, None, 8000],
    'gender': ['M', 'F', None, 'M', 'F']
}
df = pd.DataFrame(data)

# DataPreprocessor 클래스 사용
processor = DataPreprocessor(df)
processor.fill_missing('age', 30)       # 'age' 열의 결측치를 30으로 채움
processor.fill_missing('income', 5000) # 'income' 열의 결측치를 5000으로 채움
processor.drop_columns(['gender'])      # 'gender' 열 삭제
processor.normalize_column('income')    # 'income' 열 정규화

# 전처리된 데이터 출력
processed_df = processor.get_data()
print("전처리된 데이터:")
print(processed_df)

# 3. 머신러닝 모델 클래스(MLModel)

In [None]:
class MLModel:
    def __init__(self, model=None):
        # 모델 초기화 (기본값으로 RandomForestClassifier 사용)
        self.model = model if model else RandomForestClassifier()

    def train(self, X, y):
        # 데이터를 훈련 세트와 테스트 세트로 분할
        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(
            X, y, test_size=0.2, random_state=42
        )
        # 모델 학습
        self.model.fit(self.X_train, self.y_train)

    def evaluate(self):
        # 테스트 데이터로 예측
        predictions = self.model.predict(self.X_test)
        # 정확도 계산
        accuracy = accuracy_score(self.y_test, predictions)
        return accuracy

    def predict(self, X):
        # 새로운 데이터로 예측
        return self.model.predict(X)

# 4. 샘플 데이터로 모델 학습 및 평가

In [None]:
# 샘플 데이터 생성
data = {
    'feature1': [5, 2, 3, 6, 7, 8, 9, 10, 1, 4],
    'feature2': [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
    'target': [0, 1, 0, 1, 1, 0, 0, 1, 0, 1]
}
df = pd.DataFrame(data)

# 독립 변수와 종속 변수 분리
X = df[['feature1', 'feature2']]
y = df['target']

# MLModel 클래스 사용
ml_model = MLModel()
ml_model.train(X, y)  # 모델 학습
accuracy = ml_model.evaluate()  # 모델 평가
print(f"모델 정확도: {accuracy}")

# 새로운 데이터 예측
new_data = pd.DataFrame({'feature1': [6, 3], 'feature2': [7, 8]})
print(f"새로운 데이터 예측: {ml_model.predict(new_data)}")

# 상속 연습

In [None]:
# 1) 부모 클래스: 기본 데이터 전처리 클래스
class DataPreprocessor:
    def __init__(self, df):
        self.df = df

    def fill_missing(self, column, value):
        self.df[column].fillna(value, inplace=True)

    def drop_columns(self, columns):
        self.df.drop(columns=columns, inplace=True)

    def normalize_column(self, column):
        min_val = self.df[column].min()
        max_val = self.df[column].max()
        # 예외 처리: max_val == min_val인 경우 모든 값을 0으로 설정
        if max_val == min_val:
            self.df[column] = 0
        else:
            self.df[column] = (self.df[column] - min_val) / (max_val - min_val)

    def get_data(self):
        return self.df

# 2) 자식 클래스: 범주형 데이터 처리 기능 추가
class AdvancedPreprocessor(DataPreprocessor):
    def __init__(self, df):
        super().__init__(df)

    def encode_categorical(self, column):
        encoded_df = pd.get_dummies(self.df[column], prefix=column, drop_first=True)
        self.df.drop(columns=[column], inplace=True)
        self.df = pd.concat([self.df, encoded_df], axis=1)

# 3) 부모 클래스: 기본 머신러닝 모델 클래스
class MLModel:
    def __init__(self, model=None):
        self.model = model if model else RandomForestClassifier()

    def train(self, X, y):
        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(
            X, y, test_size=0.2, random_state=42
        )
        self.model.fit(self.X_train, self.y_train)

    def evaluate(self):
        predictions = self.model.predict(self.X_test)
        acc = accuracy_score(self.y_test, predictions)
        return acc

    def predict(self, X):
        return self.model.predict(X)

# 4) 자식 클래스: 로지스틱 회귀 모델을 기본으로 설정
class LogisticModel(MLModel):
    def __init__(self):
        super().__init__(model=LogisticRegression())

In [None]:
# -----------------------------
# (A) 데이터 생성 및 전처리
# -----------------------------
df_data = {
    'age': [25, 30, 35, None, 45],
    'income': [4000, 5000, None, 7000, 8000],
    'gender': ['M', 'F', 'F', 'M', 'F']
}
df = pd.DataFrame(df_data)

# AdvancedPreprocessor 사용
preprocessor = AdvancedPreprocessor(df)
preprocessor.fill_missing('age', 30)
preprocessor.fill_missing('income', 5000)
preprocessor.encode_categorical('gender')
preprocessor.normalize_column('income')  # income 열 정규화
processed_df = preprocessor.get_data()

print("전처리 후 데이터프레임:")
print(processed_df)

# -----------------------------
# (B) 모델 학습 및 평가
# -----------------------------
# 타깃 데이터 추가
processed_df['target'] = [0, 1, 1, 0, 1]

# 독립 변수와 종속 변수 분리
X = processed_df.drop(columns=['target'])
y = processed_df['target']

# LogisticModel로 학습 및 평가
logistic_model = LogisticModel()
logistic_model.train(X, y)
accuracy = logistic_model.evaluate()
print(f"\n[LogisticRegression 모델 평가] 정확도: {accuracy:.4f}")

# -----------------------------
# (C) 새로운 데이터 예측
# -----------------------------
new_data = pd.DataFrame({
    'age': [33],
    'income': [6000],
    'gender_F': [1]  # 범주형 인코딩된 데이터
})
prediction = logistic_model.predict(new_data)
print(f"새로운 샘플 예측 결과: {prediction}")
