<a href="https://colab.research.google.com/github/zzhining/python_ml_dl2/blob/main/2_8_exercise_skeleton.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[데이터 준비]

In [1]:
from sklearn.datasets import make_classification, make_regression, make_blobs
import pandas as pd
import numpy as np

def create_classification_data():
    X, y = make_classification(n_samples=100, n_features=5, random_state=42)
    df = pd.DataFrame(X, columns=[f"feature_{i+1}" for i in range(X.shape[1])])
    df['target'] = y

    # feature_1에 결측치를 추가 (10% 비율로)
    missing_indices = np.random.choice(df.index, size=int(len(df) * 0.1), replace=False)
    df.loc[missing_indices, 'feature_1'] = np.nan
    return df

def create_regression_data():
    X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)
    df = pd.DataFrame(X, columns=[f"feature_{i+1}" for i in range(X.shape[1])])
    df['target'] = y

    for column in df.columns[:-1]:
        Q1 = df[column].quantile(0.25)
        Q3 = df[column].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        # 이상치를 추가할 인덱스를 랜덤하게 선택
        outlier_indices = np.random.choice(df.index, size=5, replace=False)
        for idx in outlier_indices:
            df.at[idx, column] = np.random.uniform(upper_bound + 1, upper_bound + 10)

    return df

def create_blobs_data():
    X, y = make_blobs(n_samples=100, centers=3, n_features=5, random_state=42)
    df = pd.DataFrame(X, columns=[f"feature_{i+1}" for i in range(X.shape[1])])
    df['target'] = y
    return df

classification_df = create_classification_data()
regression_df = create_regression_data()
blobs_df = create_blobs_data()

display(classification_df.head())
display(regression_df.head())
display(blobs_df.head())

Unnamed: 0,feature_1,feature_2,feature_3,feature_4,feature_5,target
0,-0.430668,0.672873,-0.72428,-0.53963,-0.6516,0
1,,-0.843897,0.534794,0.825848,0.681953,1
2,1.092675,0.409106,1.100096,-0.942751,-0.981509,0
3,1.519901,-0.773361,1.998053,0.155132,-0.385314,0
4,-0.453901,-2.183473,0.244724,2.591239,-0.484234,1


Unnamed: 0,feature_1,feature_2,feature_3,feature_4,feature_5,target
0,0.97512,-0.677162,-0.012247,-0.897254,0.075805,-57.19576
1,0.081874,-0.485364,0.758969,-0.772825,-0.236819,-46.546477
2,-1.412304,-0.908024,-0.562288,-1.012831,0.314247,-258.13344
3,-0.64512,0.361636,1.35624,-0.07201,1.003533,115.850751
4,-0.6227,0.280992,-1.952088,-0.151785,9.886401,-123.767712


Unnamed: 0,feature_1,feature_2,feature_3,feature_4,feature_5,target
0,-3.00263,9.937449,6.346484,2.846759,-6.870483,0
1,-5.970371,-9.040785,7.38442,2.669463,4.287546,1
2,-2.290559,9.896047,3.630793,0.389875,-6.105927,0
3,-3.463695,8.263107,3.509451,2.743147,-5.611238,0
4,-1.888649,8.853349,4.251614,1.087657,-7.236372,0


# 문제1
주어진 `classification_df` 데이터셋에서 `feature_1` 열에 일부 결측치가 포함되어 있다. 결측치를 평균값으로 대체하시오.

In [2]:
# 코드 작성



# 문제 2
주어진 `regression_df` 데이터셋에서 `feature_3`의 값에 대해 IQR 기반 이상치를 삭제하시오.
- Q1: 낮은 순에서 높은 순으로 정렬한 후 4등분했을 때 25%에 해당하는 값(1사분위수)
- Q3: 낮은 순에서 높은 순으로 정렬한 후 4등분했을 때 75%에 해당하는 값(3사분위수)
- IQR: 25%의 Q1과 75%의 Q3의 각 값과 거리(IQR= Q3 – Q1)
- Q1과 Q3의 각 값과 거리(Q3-Q1)를 구하여 1.5배 거리(내부 울타리 내의 값)이 아닌 데이터라면 이상치



In [3]:
# 코드 작성



# 문제 3
두 개의 데이터프레임 `classification_df`와 `regression_df`를 수평으로 결합하여 하나의 데이터프레임(`concat_df`)을 생성하시오.


In [4]:
# 코드 작성



# 문제 4

`classification_df`와 `blobs_df`를 `target` 열을 기준으로 내부 조인(inner join) 하여 하나의 데이터프레임(`merged_df`)을 생성하시오.

In [5]:
# 코드 작성



# 문제 5
주어진 `classification_df` 데이터셋에서 `target` 변수를 기준으로 각 그룹의 feature_1, feature_2, feature_3의 평균값을 구하시오.


In [6]:
# 코드 작성



# 문제 6
주어진 `blobs_df` 데이터셋에서 `target` 변수를 기준으로 One-Hot Encoding을 적용하여 새로운 컬럼을 생성하시오.

In [7]:
# 코드 작성




# 문제 7

주어진 `blobs_df` 데이터셋에서 신규 feature(`feature_6`, `feature_7`)를 생성하시오.
- `feature_6` = `feature_1`과 `feature_2`의 합
- `feature_7` = `feature_3` ~ `feature_5`의 평균값

In [8]:
# 코드 작성




# 문제 8
주어진 `regression_df` 데이터셋에서 모든 `feature`들을 0과 1 사이로 스케일링 하시오.

In [9]:
# 코드 작성



# 문제 9
주어진 `classification_df` 데이터셋에서 모든 `feature`들을 평균 0, 표준편차 1로 스케일링 하시오.


In [10]:
# 코드 작성




# 문제 10
주어진 `regression_df` 데이터셋에서 주성분 분석(PCA)을 사용하여 데이터를 3차원으로 축소하시오.

In [11]:
# 코드 작성



# 문제 11
주어진 `classification_df` 데이터셋을 학습 데이터 80%, 테스트 데이터 20%로 분할하시오.

In [12]:
# 코드 작성

