### 문제 1: 결측치 처리

In [61]:
import pandas as pd

In [62]:
# 데이터 로드
train_df = pd.read_csv('train.csv')
print(train_df.shape)

(891, 12)


In [63]:
# Age 열의 결측치를 평균값으로 대체
age_mean = train_df['Age'].mean()
train_df['Age'].fillna(age_mean, inplace=True)
print("평균:", age_mean)

평균: 29.69911764705882


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train_df['Age'].fillna(age_mean, inplace=True)


In [64]:
# Embarked 열의 결측치를 최빈값으로 대체
mode_embarked = train_df['Embarked'].mode()[0]
train_df['Embarked'].fillna(mode_embarked, inplace=True)
print("최빈값:", mode_embarked)

최빈값: S


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train_df['Embarked'].fillna(mode_embarked, inplace=True)


In [65]:
# Cabin 열 제거
train_df.drop(columns=['Cabin'], inplace=True)

In [66]:
# 결측치가 모두 제거되었는지 확인
print("결측치 개수:\n", train_df.isnull().sum())

결측치 개수:
 PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64


### 문제 2: 중복 데이터 제거

In [67]:
import pandas as pd

# 1. 가짜 데이터 생성
data = {
    'ProductID': [101, 102, 103, 104, 101, 102, 103, 105, 106, 101],
    'ProductName': ['A', 'B', 'C', 'D', 'A', 'B', 'C', 'E', 'F', 'A'],
    'Price': [100, 200, 300, 400, 100, 200, 300, 500, 600, 100],
    'Quantity': [1, 2, 3, 4, 1, 2, 3, 5, 6, 1]
}

# 2. DataFrame 생성
df = pd.DataFrame(data)

# 3. 중복된 데이터를 일부 추가 (중복된 행 4개 추가)
df.loc[len(df.index)] = [101, 'A', 100, 1]  # 중복 행 추가
df.loc[len(df.index)] = [102, 'B', 200, 2]  # 중복 행 추가
df.loc[len(df.index)] = [103, 'C', 300, 3]  # 중복 행 추가
df.loc[len(df.index)] = [104, 'D', 400, 4]  # 중복 행 추가

# 4. CSV 파일로 내보내기
df.to_csv('sales.csv', index=False)

print("sales.csv 파일이 생성되었습니다.")

sales.csv 파일이 생성되었습니다.


In [68]:
# sales.csv 파일 로드
sales_df = pd.read_csv('sales.csv')
print("원본 데이터 크기:", sales_df.shape)

원본 데이터 크기: (14, 4)


In [69]:
# 중복 데이터 개수 확인
duplicates = sales_df.duplicated().sum()
print(f"중복된 데이터 개수: {duplicates}개")

중복된 데이터 개수: 8개


In [70]:
# 중복 데이터 제거
sales_df = sales_df.drop_duplicates()

In [71]:
# 제거 후 데이터 개수 확인
print(f"중복 제거 후 데이터 개수: {len(sales_df)}개")

중복 제거 후 데이터 개수: 6개


### 문제 3: 이상치 제거 (IQR 이용)

In [72]:
# 데이터 로드
diamonds_df = pd.read_csv('diamonds.csv')
print("전체 데이터 수:", len(diamonds_df))

전체 데이터 수: 53940


In [73]:
# IQR 계산
Q1 = diamonds_df['carat'].quantile(0.25)
Q3 = diamonds_df['carat'].quantile(0.75)

IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

In [74]:
print(f"Q1: {Q1}, Q3: {Q3}, IQR: {IQR}")
print(f"하한: {lower_bound}, 상한: {upper_bound}")

Q1: 0.4, Q3: 1.04, IQR: 0.64
하한: -0.5599999999999999, 상한: 2.0


In [75]:
# 이상치 제거
diamonds_df_cleaned = diamonds_df[(diamonds_df['carat'] >= lower_bound) & (diamonds_df['carat'] <= upper_bound)]

In [76]:
print(f"이상치를 제거한 데이터의 개수: {len(diamonds_df_cleaned)}")

이상치를 제거한 데이터의 개수: 52051


### 문제 4: 범주형 데이터 인코딩

In [77]:
from sklearn.preprocessing import LabelEncoder

In [78]:
# 데이터 로드
adult_df = pd.read_csv('adult.csv')
print(adult_df.shape)

(48842, 15)


In [79]:
# 인코딩할 열 목록
cols_to_encode = ['workclass',
                  'education',
                  'marital-status',
                  'occupation',
                  'relationship',
                  'race',
                  'gender',
                  'native-country']

In [80]:
# Label Encoding 수행
le = LabelEncoder()
for col in cols_to_encode:
    adult_df[col] = le.fit_transform(adult_df[col])

In [81]:
print(adult_df[cols_to_encode].head())

   workclass  education  marital-status  occupation  relationship  race  \
0          4          1               4           7             3     2   
1          4         11               2           5             0     4   
2          2          7               2          11             0     4   
3          4         15               2           7             0     2   
4          0         15               4           0             3     4   

   gender  native-country  
0       1              39  
1       1              39  
2       1              39  
3       1              39  
4       0              39  


### 문제 5: 데이터 스케일링

In [82]:
from sklearn.preprocessing import StandardScaler

In [83]:
# 데이터 로드
wine_df = pd.read_csv('winequality-red.csv')
print(wine_df.shape)

(1599, 12)


In [84]:
# 스케일링 대상 열
cols_to_scale = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides']

In [85]:
# StandardScaler 적용
scaler = StandardScaler()
wine_scaled = scaler.fit_transform(wine_df[cols_to_scale])

In [86]:
# 결과 출력
scaled_df = pd.DataFrame(wine_scaled, columns=cols_to_scale)
print(scaled_df.head())

   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides
0      -0.528360          0.961877    -1.391472       -0.453218  -0.243707
1      -0.298547          1.967442    -1.391472        0.043416   0.223875
2      -0.298547          1.297065    -1.186070       -0.169427   0.096353
3       1.654856         -1.384443     1.484154       -0.453218  -0.264960
4      -0.528360          0.961877    -1.391472       -0.453218  -0.243707
