# 데이터 전처리 EX-1
###   문제 1: 결측치 처리

In [None]:
import pandas as pd

# 1. 데이터 불러오기
data = pd.read_csv('train.csv')

# 2. Age 열의 결측치를 평균값으로 대체
data['Age'].fillna(data['Age'].mean(), inplace=True)

# 3. Embarked 열의 결측치를 최빈값으로 대체
mode_embarked = data['Embarked'].mode()[0]
data['Embarked'].fillna(mode_embarked, inplace=True)

# 4. Cabin 열 삭제
data.drop(columns=['Cabin'], inplace=True)

# 5. 결측치가 모두 제거되었는지 확인
print("각 열별 결측치 개수:")
print(data.isnull().sum())


각 열별 결측치 개수:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Age'].fillna(data['Age'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Embarked'].fillna(mode_embarked, inplace=True)


# 데이터 전처리 EX-2
### 문제 2: 중복 데이터 제거

#### 샘플 데이터 만들기

In [3]:
import pandas as pd

# 1. 가짜 데이터 생성
data = {
    'ProductID': [101, 102, 103, 104, 101, 102, 103, 105, 106, 101],
    'ProductName': ['A', 'B', 'C', 'D', 'A', 'B', 'C', 'E', 'F', 'A'],
    'Price': [100, 200, 300, 400, 100, 200, 300, 500, 600, 100],
    'Quantity': [1, 2, 3, 4, 1, 2, 3, 5, 6, 1]
}

# 2. DataFrame 생성
df = pd.DataFrame(data)

# 3. 중복된 데이터를 일부 추가 (중복된 행 4개 추가)
df.loc[len(df.index)] = [101, 'A', 100, 1]  # 중복 행 추가
df.loc[len(df.index)] = [102, 'B', 200, 2]  # 중복 행 추가
df.loc[len(df.index)] = [103, 'C', 300, 3]  # 중복 행 추가
df.loc[len(df.index)] = [104, 'D', 400, 4]  # 중복 행 추가

# 4. CSV 파일로 내보내기
df.to_csv('sales.csv', index=False)

print("sales.csv 파일이 생성되었습니다.")


sales.csv 파일이 생성되었습니다.


In [4]:
# 1. 데이터 불러오기
df = pd.read_csv('sales.csv')

# 2. 중복된 행 개수 확인
duplicate_count = df.duplicated().sum()
print(f"중복된 행의 개수: {duplicate_count}개")

# 3. 중복 행 제거
df_no_duplicates = df.drop_duplicates()

# 중복 제거 후 남은 데이터 개수 확인
print(f"중복 제거 후 데이터 행 수: {len(df_no_duplicates)}개")


중복된 행의 개수: 8개
중복 제거 후 데이터 행 수: 6개


# 데이터 전처리 EX-3
### 문제 3: 이상치 제거 (IQR 이용)

In [8]:
import pandas as pd

# 1. 데이터 불러오기
df = pd.read_csv('diamonds.csv')

# 2. carat열의 IQR 계산
Q1 = df['carat'].quantile(0.25)
Q3 = df['carat'].quantile(0.75)
IQR = Q3 - Q1

# 3. 이상치 경계 계산 후 하한과 상한 값 출력
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR: {IQR}")
print(f"하한 (lower bound): {lower_bound}")
print(f"상한 (upper bound): {upper_bound}")

# 4. carat 열에서 IQR 방식을 사용하여 이상치 제거
df_no_outliers = df[(df['carat'] >= lower_bound) & (df['carat'] <= upper_bound)]

# 5. 이상치 제거 후 데이터의 개수를 출력
print(f"원래 데이터의 개수: {len(df)}")
print(f"이상치 제거 후 데이터의 개수: {len(df_no_outliers)}")


IQR: 0.64
하한 (lower bound): -0.5599999999999999
상한 (upper bound): 2.0
원래 데이터의 개수: 53940
이상치 제거 후 데이터의 개수: 52051


# 데이터 전처리 EX-4
### 문제 4: 범주형 데이터 인코딩

In [11]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 1. 데이터 불러오기
df = pd.read_csv('adult.csv')

# 2. 인코딩할 열 목록
encoding_columns = [
    'workclass', 'education', 'marital-status', 'occupation',
    'relationship', 'race', 'gender', 'native-country'
]

# 3. 각 열을 Label Encoding으로 변환
for col in encoding_columns:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col].astype(str))

# 4. 결과 출력
print(df[encoding_columns])


       workclass  education  marital-status  occupation  relationship  race  \
0              4          1               4           7             3     2   
1              4         11               2           5             0     4   
2              2          7               2          11             0     4   
3              4         15               2           7             0     2   
4              0         15               4           0             3     4   
...          ...        ...             ...         ...           ...   ...   
48837          4          7               2          13             5     4   
48838          4         11               2           7             0     4   
48839          4         11               6           1             4     4   
48840          4         11               4           1             3     4   
48841          5         11               2           4             5     4   

       gender  native-country  
0           1      

# 데이터 전처리 EX-5
### 문제 5: 데이터 스케일링

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# 1. 데이터 불러오기
df = pd.read_csv('winequality-red.csv')

# 2. 표준화할 열 목록
scaling_columns = ['fixed acidity', 'volatile acidity',
    'citric acid', 'residual sugar', 'chlorides']

# 3. StandardScaler를 사용
scaler = StandardScaler()

# 4. 각 열을 StandardScaler로 표준화
scaled_data = scaler.fit_transform(df[scaling_columns])

# 5. 표준화한 결과를 DataFrame으로 변환
scaled_df = pd.DataFrame(scaled_data, columns=scaling_columns)

# 6. 표준화된 결과 출력
print("표준화된 데이터\n",scaled_df)


표준화된 데이터
       fixed acidity  volatile acidity  citric acid  residual sugar  chlorides
0         -0.528360          0.961877    -1.391472       -0.453218  -0.243707
1         -0.298547          1.967442    -1.391472        0.043416   0.223875
2         -0.298547          1.297065    -1.186070       -0.169427   0.096353
3          1.654856         -1.384443     1.484154       -0.453218  -0.264960
4         -0.528360          0.961877    -1.391472       -0.453218  -0.243707
...             ...               ...          ...             ...        ...
1594      -1.217796          0.403229    -0.980669       -0.382271   0.053845
1595      -1.390155          0.123905    -0.877968       -0.240375  -0.541259
1596      -1.160343         -0.099554    -0.723916       -0.169427  -0.243707
1597      -1.390155          0.654620    -0.775267       -0.382271  -0.264960
1598      -1.332702         -1.216849     1.021999        0.752894  -0.434990

[1599 rows x 5 columns]
