In [34]:
import pandas as pd

# 1. 불필요한 열 제거
data = pd.read_csv('insurance.csv')
# insurance.csv 파일에 Number 열 없음
# data = data.drop(columns=['Number'])

# 2. 중복 데이터 제거
data = data.drop_duplicates()

# 3. Null 값 제거
data = data.dropna()

# 4. 열 이름 변경
data = data.rename(columns={'Sex': 'sex', 'Insurance Fee': 'charges'})

# 5. 행 값 바꾸기
data['sex'] = data['sex'].replace({'female': 1, 'male': 0})

# 6. 이상 값 처리
def handle_outliers(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    data = data[(data[column] >= lower_bound) & (data[column] <= upper_bound)]
    return data

# "age," "bmi," "children,", charges"에 대한 이상 값 처리
columns_to_handle = ["age", "bmi", "children", "charges"]
for column in columns_to_handle:
    data = handle_outliers(data, column)

# 7. Min-max 정규화
def min_max_scaling(data, columns):
    for column in columns:
        data[column] = (data[column] - data[column].min()) / (data[column].max() - data[column].min())
    return data

data = min_max_scaling(data, ['age', 'bmi', 'charges'])

# 8. 'charges' 컬럼과 상관 관계가 없는 컬럼 삭제
# 상관 관계 임계값 설정
correlation_threshold = 0.1

# 'charges' 컬럼과의 상관 관계 계산
correlation_with_charges = data.corr()['charges']

# 상관 관계가 임계값 이하인 컬럼 선택
columns_to_keep = correlation_with_charges[abs(correlation_with_charges) > correlation_threshold].index

# 필요한 열만 남기고 나머지 열 삭제
data = data[columns_to_keep]

# 결과 데이터프레임 저장
data.to_csv('processed_insurance.csv', index=False)

In [35]:
print(data)

           age   charges
0     0.021739  0.475058
1     0.000000  0.018193
2     0.217391  0.100285
3     0.326087  0.628746
4     0.304348  0.082727
...        ...       ...
1333  0.695652  0.285663
1334  0.000000  0.032672
1335  0.000000  0.015309
1336  0.065217  0.026704
1337  0.934783  0.844436

[1190 rows x 2 columns]
