- 병합한 파일을 통해 분석에 쓰일 데이터의 전처리를 진행합니다.

In [None]:
# 1. 먼저 전처리할 파일의 정보를 확인합니다.

import csv
import chardet

def get_csv_info(file_path):
    # CSV 파일 여부 확인 (확장자 확인)
    if not file_path.lower().endswith('.csv'):
        print("This file is not a CSV file.")
        return

    # 파일을 바이너리 모드로 읽어서 인코딩을 확인
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read())
        encoding = result['encoding']

    # CSV 파일을 텍스트 모드로 다시 열어서 헤더 및 데이터 확인
    with open(file_path, 'r', encoding=encoding) as f:
        reader = csv.reader(f)

        # 첫 줄을 헤더로 가정하고 읽기
        try:
            header = next(reader)
        except StopIteration:
            print("Empty CSV file.")
            return

        # 헤더와 첫 번째 데이터 행 출력
        print("CSV 파일 헤더:", header)
        print("첫 번째 데이터 행:", next(reader))

        # 인코딩 및 행, 열 수 출력
        print("인코딩:", encoding)
        print("행 수:", sum(1 for row in reader) + 1)  # 헤더를 포함하여 행 수 계산
        print("열 수:", len(header))

# CSV 파일 경로
file_path = 'step3.csv'

# CSV 파일 정보 출력
get_csv_info(file_path)




# 2. 각 컬럼들의 데이터타입을 확인합니다.

import pandas as pd

df = pd.read_csv('step3.csv')

# 데이터프레임의 각 열의 데이터 타입을 확인합니다.
print(df.dtypes)




# 3. 컬럼의 데이터타입을 변경합니다.
df = pd.read_csv('step3.csv')
df['item_id'] = df['item_id'].astype(str)




# 4. 쉼표, 단위 등을 제거합니다.

df = pd.read_csv('step3.csv')

# 'price' 열의 값에서 쉼표와 '원'을 제거합니다.
df['sale_price'] = df['sale_price'].str.replace(',', '').str.replace('원', '')

# 변경된 데이터프레임을 원본 CSV 파일로 저장합니다.
df.to_csv('step3.csv', index=False)

print("쉼표와 '원'을 제거한 값이 저장된 원본 파일이 업데이트되었습니다.")




# 컬럼들의 순서를 변경합니다.

import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv('step4.csv')

# 컬럼 순서 변경
desired_order = ['item_id', 'isbn', 'a_isbn','title', 'author', 'division', 'main_category', 'page', 'sale_price',  'total_rating', 'review_count', 'introduction']
                 # 원하는 순서대로 컬럼 이름을 리스트에 나열
df = df[desired_order]

# 변경된 DataFrame을 새로운 CSV 파일로 저장
df.to_csv('step4_reordered.csv', index=False, encoding='utf-8-sig')