# 데이터 전처리

In [1]:
import numpy as np
from matplotlib import pyplot as plt

In [2]:
# 중복
import pandas as pd

# 예시 데이터프레임
df = pd.read_csv('winequality-red.csv')


# 모든 변수가 중복된 행 찾기
all_variables_duplicate_rows = df[df.duplicated(subset=df.columns, keep=False)]

# 중복된 행 출력
print("모든 변수가 중복된 행:")
print(all_variables_duplicate_rows)

# 중복된 행 확인
duplicates = df[df.duplicated()]

# 중복된 행의 인덱스 출력
duplicate_indices = duplicates.index
print("중복된 행의 인덱스:", duplicate_indices)

모든 변수가 중복된 행:
      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
4               7.4             0.700         0.00             1.9      0.076   
9               7.5             0.500         0.36             6.1      0.071   
11              7.5             0.500         0.36             6.1      0.071   
22              7.9             0.430         0.21             1.6      0.106   
...             ...               ...          ...             ...        ...   
1567            7.2             0.695         0.13             2.0      0.076   
1579            6.2             0.560         0.09             1.7      0.053   
1581            6.2             0.560         0.09             1.7      0.053   
1592            6.3             0.510         0.13             2.3      0.076   
1596            6.3             0.510         0.13             2.3      0.076   

      free su

In [3]:
import pandas as pd

# 중복된 데이터 제거
df = df.drop_duplicates()

# 중복 제거된 데이터프레임 출력
print("중복 제거된 데이터프레임:")
print(df)

중복 제거된 데이터프레임:
      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
5               7.4             0.660         0.00             1.8      0.075   
...             ...               ...          ...             ...        ...   
1593            6.8             0.620         0.08             1.9      0.068   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             3.6      0.067   

      free s

In [4]:
# 이상치
import pandas as pd

# 예시 데이터프레임 (11개의 수치형 독립변수)
# df = ...

# 이상치를 판단하는 함수
def count_outliers_iqr(data, threshold=1.5):
    q1 = data.quantile(0.25)
    q3 = data.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - threshold * iqr
    upper_bound = q3 + threshold * iqr
    outliers = (data < lower_bound) | (data > upper_bound)
    return outliers.sum()

# 각 변수에 대해 이상치 개수 계산
outliers_count_per_variable = df.apply(count_outliers_iqr)

# 이상치 개수 출력
print("각 독립변수 별 이상치 개수:")
print(outliers_count_per_variable)


각 독립변수 별 이상치 개수:
fixed acidity            41
volatile acidity         19
citric acid               1
residual sugar          126
chlorides                87
free sulfur dioxide      26
total sulfur dioxide     45
density                  35
pH                       28
sulphates                55
alcohol                  12
quality                  27
dtype: int64


In [7]:
import pandas as pd

# 예시 데이터프레임 (11개의 수치형 독립변수)
# df = ...

# 이상치를 나타내는 함수
def detect_outliers_iqr(data, threshold=1.5):
    q1 = data.quantile(0.25)
    q3 = data.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - threshold * iqr
    upper_bound = q3 + threshold * iqr
    outliers = (data < lower_bound) | (data > upper_bound)
    return outliers

# 각 변수에 대해 이상치를 나타내는 불리언 시리즈 생성
outliers_per_variable = df.apply(detect_outliers_iqr)

# 각 행에 대해 어떤 변수에서 이상치가 있는지를 나타내는 불리언 시리즈 생성
outliers_per_row = outliers_per_variable.any(axis=1)

# 이상치가 있는 행 출력
outlier_rows = df[outliers_per_row]
print("이상치가 있는 행:")
print(outlier_rows)


이상치가 있는 행:
      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
53              8.6             0.380         0.36             3.0      0.081   
69              8.0             0.705         0.05             1.9      0.074   
79              8.3             0.625         0.20             1.5      0.080   
109             8.1             0.785         0.52             2.0      0.122   
118             8.8             0.550         0.04             2.2      0.119   
...             ...               ...          ...             ...        ...   
1184            6.7             0.640         0.23             2.1      0.080   
1490            7.1             0.220         0.49             1.8      0.039   
1516            6.1             0.320         0.25             2.3      0.071   
1578            6.8             0.670         0.15             1.8      0.118   
1598            6.0             0.310         0.47             3.6      0.067   

      free sulfu

In [8]:
import pandas as pd

# 이상치를 제거하는 함수
def remove_outliers_iqr(data, threshold=1.5):
    q1 = data.quantile(0.25)
    q3 = data.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - threshold * iqr
    upper_bound = q3 + threshold * iqr
    outliers = (data < lower_bound) | (data > upper_bound)
    return data[~outliers]

# 11개의 독립변수에 대해 이상치 제거 적용
for column in df.columns:
    df[column] = remove_outliers_iqr(df[column])

# 이상치 제거된 데이터프레임 출력
print("이상치 제거된 데이터프레임:")
print(df)


이상치 제거된 데이터프레임:
      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
5               7.4             0.660         0.00             1.8      0.075   
...             ...               ...          ...             ...        ...   
1593            6.8             0.620         0.08             1.9      0.068   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             NaN      0.067   

      free 

In [10]:
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5.0
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5.0
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5.0
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6.0
5,7.4,0.66,0.0,1.8,0.075,13.0,40.0,0.9978,3.51,0.56,9.4,5.0
