## 데이터 전처리 EX-1: 결측치 처리

In [19]:
import pandas as pd

In [20]:
# 데이터 파일 불러오기
data1 = pd.read_csv('data/train.csv', encoding='cp949', low_memory=False)

print('\n결측값 확인: \n', data1.isnull().sum()) 


결측값 확인: 
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [22]:
data1_fixed = data1.copy()    # 원본 보존

# Age의 결측치 평균값으로 대체
Age_mean = data1_fixed['Age'].mean()   # Age 평균값
data1_fixed['Age'] = data1_fixed['Age'].fillna(Age_mean)

# Age 결측값 확인
print('\n결측값 확인: \n', data1_fixed.isnull().sum()) 


# Embarked의 결측치 최빈값으로 대체
Embarked_mode = data1_fixed['Embarked'].mode()[0] # 최빈값이 다수일 경우 첫번째 최빈값 반환
data1_fixed['Embarked'] = data1_fixed['Embarked'].fillna(Embarked_mode)

# Age와 Embarked 결측값 확인
print('\n결측값 확인: \n', data1_fixed.isnull().sum()) 


# Cabin의 결측치 제거
data1_fixed = data1_fixed.dropna(subset=['Cabin'])    # 결측값이 있는 행 전체 삭제

# Age와 Embarked와 Cabin 결측값 확인
print('\n결측값 확인: \n', data1_fixed.isnull().sum()) 


결측값 확인: 
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

결측값 확인: 
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64

결측값 확인: 
 PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


## 데이터 전처리 EX-2: 중복 데이터 제거

In [18]:
import pandas as pd

In [25]:
data2 = pd.read_csv('data/sales.csv', encoding='cp949', low_memory=False)

print('\n중복값 확인:', data2.duplicated().sum()) # 중복값 확인


중복값 확인: 8


In [27]:
data2_fixed = data2.copy()    # 원본 보존

# 고유한 값이어야 하는 ProductID를 기준으로 중복 행 삭제
data2_fixed = data2.drop_duplicates(subset=['ProductID'], keep='first')

print(data2_fixed)


# 4. CSV 파일로 내보내기
# data2_fixed.to_csv('sales.csv', index=False)

   ProductID ProductName  Price  Quantity
0        101           A    100         1
1        102           B    200         2
2        103           C    300         3
3        104           D    400         4
7        105           E    500         5
8        106           F    600         6


## 데이터 전처리 EX-3: 이상치 제거 (IQR 이용)

In [28]:
import pandas as pd

In [44]:
data3 = pd.read_csv('data/diamonds.csv', encoding='cp949', low_memory=False)

print(f'원본 데이터 수: {len(data3)}')
print(data3.describe())

원본 데이터 수: 53940
         Unnamed: 0         carat         depth         table         price  \
count  53940.000000  53940.000000  53940.000000  53940.000000  53940.000000   
mean   26970.500000      0.797940     61.749405     57.457184   3932.799722   
std    15571.281097      0.474011      1.432621      2.234491   3989.439738   
min        1.000000      0.200000     43.000000     43.000000    326.000000   
25%    13485.750000      0.400000     61.000000     56.000000    950.000000   
50%    26970.500000      0.700000     61.800000     57.000000   2401.000000   
75%    40455.250000      1.040000     62.500000     59.000000   5324.250000   
max    53940.000000      5.010000     79.000000     95.000000  18823.000000   

                  x             y             z  
count  53940.000000  53940.000000  53940.000000  
mean       5.731157      5.734526      3.538734  
std        1.121761      1.142135      0.705699  
min        0.000000      0.000000      0.000000  
25%        4.710000   

In [None]:
data3_fixed = data3.copy()    # 원본 보존

# IQR로 이상치 제거
Q1 = data3['carat'].quantile(0.25)  # 1 사분위수
Q3 = data3['carat'].quantile(0.75)  # 3 사분위수
IQR = Q3-Q1

# 이상치 경계
lower_bound = Q1-1.5*IQR    # 하한
upper_bound = Q3+1.5*IQR    # 상한

# 이상치 제거
data3_fixed = data3_fixed[(data3_fixed['carat'] >= lower_bound) & (data3_fixed['carat'] <= upper_bound)]

# 출력
print(f'하한값: {lower_bound:.2f} / 상한값: {upper_bound:.2f}')
print(f'이상치 제거 후 데이터 수: {len(data3_fixed)}')
print(data3_fixed.describe())

하한값: -0.56 / 상한값: 2.00
이상치 제거 후 데이터 수: 52051
         Unnamed: 0         carat         depth         table         price  \
count  52051.000000  52051.000000  52051.000000  52051.000000  52051.000000   
mean   27020.741830      0.748738     61.748679     57.426274   3532.925496   
std    15843.897556      0.402096      1.418252      2.223445   3414.985354   
min        1.000000      0.200000     43.000000     43.000000    326.000000   
25%    13015.500000      0.390000     61.100000     56.000000    928.000000   
50%    27915.000000      0.700000     61.800000     57.000000   2289.000000   
75%    40927.500000      1.020000     62.500000     59.000000   4958.000000   
max    53940.000000      2.000000     79.000000     79.000000  18818.000000   

                  x             y             z  
count  52051.000000  52051.000000  52051.000000  
mean       5.639300      5.643634      3.482717  
std        1.028895      1.054333      0.649709  
min        0.000000      0.000000      0.00

## 데이터 전처리 EX-4: 범주형 데이터 인코딩

In [65]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [66]:
data4 = pd.read_csv('data/adult.csv', encoding='cp949', low_memory=False)

print(f'원본 데이터 수: {len(data4)}')
print(data4.describe())

원본 데이터 수: 48842
                age        fnlwgt  educational-num  capital-gain  \
count  48842.000000  4.884200e+04     48842.000000  48842.000000   
mean      38.643585  1.896641e+05        10.078089   1079.067626   
std       13.710510  1.056040e+05         2.570973   7452.019058   
min       17.000000  1.228500e+04         1.000000      0.000000   
25%       28.000000  1.175505e+05         9.000000      0.000000   
50%       37.000000  1.781445e+05        10.000000      0.000000   
75%       48.000000  2.376420e+05        12.000000      0.000000   
max       90.000000  1.490400e+06        16.000000  99999.000000   

       capital-loss  hours-per-week  
count  48842.000000    48842.000000  
mean      87.502314       40.422382  
std      403.004552       12.391444  
min        0.000000        1.000000  
25%        0.000000       40.000000  
50%        0.000000       40.000000  
75%        0.000000       45.000000  
max     4356.000000       99.000000  


In [67]:
data4_fixed = data4.copy()    # 원본 보존

print('\n결측값 확인: \n', data4_fixed.isnull().sum())


결측값 확인: 
 age                0
workclass          0
fnlwgt             0
education          0
educational-num    0
marital-status     0
occupation         0
relationship       0
race               0
gender             0
capital-gain       0
capital-loss       0
hours-per-week     0
native-country     0
income             0
dtype: int64


In [None]:
# 인코딩 할 콜럼 지정
ctgry_cols_encode = [
    'workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'gender', 'native-country'
]

# 각 열의 LabelEncoder 객체를 저장할 딕셔너리
# 나중에 인코딩된 데이터를 원래 상태로 되돌리거나 인코딩 매핑을 확인할 때 필요
label_encoders = {}




# 인코딩
# EX-5의 StandardScaler는 한 번에 여러 열을 처리할 수 있지만, LabelEncoder는 일반적으로 한 번에 한 열만 처리하여 루프 필요
for col in ctgry_cols_encode:
    if col in data4_fixed.columns: # 데이터프레임에 해당 콜럼이 있는지 확인
        le = LabelEncoder()
        # fit_transform()으로 변환하고 결과를 원래 열에 할당
        data4_fixed[col] = le.fit_transform(data4_fixed[col])
        # 인코더 객체 저장
        label_encoders[col] = le
    else:
        print(f"경고: 열 '{col}'이 데이터 프레임에 없습니다.")


print(data4_fixed.head())


   age  workclass  fnlwgt  education  educational-num  marital-status  \
0   25          4  226802          1                7               4   
1   38          4   89814         11                9               2   
2   28          2  336951          7               12               2   
3   44          4  160323         15               10               2   
4   18          0  103497         15               10               4   

   occupation  relationship  race  gender  capital-gain  capital-loss  \
0           7             3     2       1             0             0   
1           5             0     4       1             0             0   
2          11             0     4       1             0             0   
3           7             0     2       1          7688             0   
4           0             3     4       0             0             0   

   hours-per-week  native-country income  
0              40              39  <=50K  
1              50              39  <

## 데이터 전처리 EX-5: 데이터 스케일링

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

In [71]:
data5 = pd.read_csv('data/wineQuality-red.csv', encoding='cp949', low_memory=False)

print(f'원본 데이터 수: {len(data5)}')
print(data5.describe())

원본 데이터 수: 1599
       fixed acidity  volatile acidity  citric acid  residual sugar  \
count    1599.000000       1599.000000  1599.000000     1599.000000   
mean        8.319637          0.527821     0.270976        2.538806   
std         1.741096          0.179060     0.194801        1.409928   
min         4.600000          0.120000     0.000000        0.900000   
25%         7.100000          0.390000     0.090000        1.900000   
50%         7.900000          0.520000     0.260000        2.200000   
75%         9.200000          0.640000     0.420000        2.600000   
max        15.900000          1.580000     1.000000       15.500000   

         chlorides  free sulfur dioxide  total sulfur dioxide      density  \
count  1599.000000          1599.000000           1599.000000  1599.000000   
mean      0.087467            15.874922             46.467792     0.996747   
std       0.047065            10.460157             32.895324     0.001887   
min       0.012000             1.

In [72]:
data5_fixed = data5.copy()    # 원본 보존

print('\n결측값 확인: \n', data5_fixed.isnull().sum())


결측값 확인: 
 fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64


In [None]:
# 스케일 대상 정의
columns_to_scale = [
    'fixed acidity',
    'volatile acidity',
    'citric acid',
    'residual sugar',
    'chlorides'
]


# 스케일러 정의
# StandardScaler는 평균을 0, 표준편차를 1로 만들어 데이터 표준화
s = StandardScaler()
data5_fixed[columns_to_scale] = s.fit_transform(data5_fixed[columns_to_scale])

print(data5_fixed.head())

   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0      -0.528360          0.961877    -1.391472       -0.453218  -0.243707   
1      -0.298547          1.967442    -1.391472        0.043416   0.223875   
2      -0.298547          1.297065    -1.186070       -0.169427   0.096353   
3       1.654856         -1.384443     1.484154       -0.453218  -0.264960   
4      -0.528360          0.961877    -1.391472       -0.453218  -0.243707   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1      9.8        5  
2      9.8        5 

In [74]:
print(data5_fixed[columns_to_scale].describe())

       fixed acidity  volatile acidity   citric acid  residual sugar  \
count   1.599000e+03      1.599000e+03  1.599000e+03    1.599000e+03   
mean    3.554936e-16      1.733031e-16 -8.887339e-17   -1.244227e-16   
std     1.000313e+00      1.000313e+00  1.000313e+00    1.000313e+00   
min    -2.137045e+00     -2.278280e+00 -1.391472e+00   -1.162696e+00   
25%    -7.007187e-01     -7.699311e-01 -9.293181e-01   -4.532184e-01   
50%    -2.410944e-01     -4.368911e-02 -5.636026e-02   -2.403750e-01   
75%     5.057952e-01      6.266881e-01  7.652471e-01    4.341614e-02   
max     4.355149e+00      5.877976e+00  3.743574e+00    9.195681e+00   

          chlorides  
count  1.599000e+03  
mean   2.132961e-16  
std    1.000313e+00  
min   -1.603945e+00  
25%   -3.712290e-01  
50%   -1.799455e-01  
75%    5.384542e-02  
max    1.112703e+01  
