<a href="https://colab.research.google.com/github/HanHoHyeong/H3/blob/main/Gender_Specific_Linear_Regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [3]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score

class DataLoader:
    """
    데이터셋을 불러오기 위한 간단한 유틸리티 클래스입니다.
    """
    @staticmethod
    def load_height_weight_gender(filepath):
        """
        지정된 CSV 파일에서 성별, 키, 몸무게 데이터를 불러옵니다.

        Args:
            filepath (str): 'weight-height.csv' 파일의 경로.

        Returns:
            tuple: 세 개의 numpy 배열 (성별, 키, 몸무게)을 포함하는 튜플.
        """
        # pandas를 사용하여 CSV 파일을 읽습니다. 헤더를 자동으로 처리하여 편리합니다.
        data = pd.read_csv(filepath)

        # 'Gender' 열을 추출합니다.
        gender = data['Gender'].values
        # 'Height' 열을 피처(X)로 추출합니다.
        height_x = data['Height'].values
        # 'Weight' 열을 타겟(y)으로 추출합니다.
        weight_y = data['Weight'].values

        return gender, height_x, weight_y


def gender_specific_regression_example():
    """
    성별에 따라 데이터를 분리하여 각각에 대해
    간단한 선형 회귀를 수행하고 결과를 함께 시각화합니다.
    """
    # DataLoader를 사용하여 성별, 키, 몸무게 데이터셋을 불러옵니다.
    gender, height, weight = DataLoader.load_height_weight_gender("weight-height.csv")

    # --- 1. 데이터 분리 (성별 기준) ---
    # 'Male'과 'Female'의 인덱스를 찾아 데이터를 분리합니다.
    male_indices = np.where(gender == 'Male')
    female_indices = np.where(gender == 'Female')

    height_male = height[male_indices].reshape(-1, 1)
    weight_male = weight[male_indices].reshape(-1, 1)

    height_female = height[female_indices].reshape(-1, 1)
    weight_female = weight[female_indices].reshape(-1, 1)


    # --- 2. 남성 데이터 모델 학습 및 평가 ---
    regr_male = linear_model.LinearRegression()
    regr_male.fit(height_male, weight_male)
    weight_pred_male = regr_male.predict(height_male)

    print('--- 남성 모델 성능 ---')
    print(f'계수 (기울기): {regr_male.coef_[0][0]:.2f}')
    print(f'평균 제곱 오차: {mean_squared_error(weight_male, weight_pred_male):.2f}')
    print(f'결정 계수 (R^2): {r2_score(weight_male, weight_pred_male):.2f}')
    print('------------------------\n')


    # --- 3. 여성 데이터 모델 학습 및 평가 ---
    regr_female = linear_model.LinearRegression()
    regr_female.fit(height_female, weight_female)
    weight_pred_female = regr_female.predict(height_female)

    print('--- 여성 모델 성능 ---')
    print(f'계수 (기울기): {regr_female.coef_[0][0]:.2f}')
    print(f'평균 제곱 오차: {mean_squared_error(weight_female, weight_pred_female):.2f}')
    print(f'결정 계수 (R^2): {r2_score(weight_female, weight_pred_female):.2f}')
    print('------------------------\n')


    # --- 4. 결과 시각화 ---
    plt.figure(figsize=(10, 7))
    # 남성 데이터 산점도 (파란색)
    plt.scatter(height_male, weight_male, color='blue', alpha=0.4, label='Male')

    # 회귀선을 깔끔하게 그리기 위해 데이터를 키 순서로 정렬합니다.
    sort_axis_male = np.argsort(height_male.flatten())
    plt.plot(height_male[sort_axis_male], weight_pred_male[sort_axis_male], color='blue', linewidth=3)

    # 여성 데이터 산점도 (빨간색)
    plt.scatter(height_female, weight_female, color='red', alpha=0.4, label='Female')

    # 여성 데이터도 키 순서로 정렬하여 회귀선을 그립니다.
    sort_axis_female = np.argsort(height_female.flatten())
    plt.plot(height_female[sort_axis_female], weight_pred_female[sort_axis_female], color='red', linewidth=3)

    plt.title('Height vs. Weight Regression by Gender', fontsize=16)
    plt.xlabel('Height (inches)', fontsize=12)
    plt.ylabel('Weight (pounds)', fontsize=12)
    plt.legend()
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.show()


if __name__ == '__main__':
    gender_specific_regression_example()

FileNotFoundError: [Errno 2] No such file or directory: 'weight-height.csv'