### Raw 데이터 Concat

In [1]:
import pandas as pd
import os

# 브랜드 및 카테고리 리스트 정의
brands = ['82', 'musinsa', 'spao', 'topten']
categories = ['topwear', 'bottoms', 'outer']

# 빈 데이터 프레임 생성
combined_df = pd.DataFrame()

# 각 브랜드와 카테고리의 파일을 읽어서 데이터 프레임 추가
for brand in brands:
    for category in categories:
        file_path_pattern = f'musinsa_crawling_dataset_before/REVIEW/{brand}/{brand}_{category}_review_{{}}.csv'
        for i in range(1, 11):
            file_path = file_path_pattern.format(i)
            try:
                temp_df = pd.read_csv(file_path)
                combined_df = pd.concat([combined_df, temp_df], ignore_index=True)
            except FileNotFoundError:
                print(f"{i}번째 파일이 없습니다: {file_path}")
                if i == 10:
                    print("10번째 파일이 없습니다.")

# 합쳐진 데이터 프레임 확인
print(combined_df.head())

# Index를 1부터 시작하도록 조정
combined_df.index = combined_df.index + 1

# CSV 파일 저장
output_dir = 'musinsa_crawling_dataset'
os.makedirs(output_dir, exist_ok=True)
combined_df.to_csv(f'{output_dir}/musinsa_crawling_concat_dataset.csv', index=True)

                         카테고리                                상품명 상품좋아요수  \
0  상의\n > \n반소매 티셔츠\n (에잇세컨즈)  베이직 라운드넥 반소매 티셔츠 화이트 (324242LY11)  1,845   
1  상의\n > \n반소매 티셔츠\n (에잇세컨즈)  베이직 라운드넥 반소매 티셔츠 화이트 (324242LY11)  1,845   
2  상의\n > \n반소매 티셔츠\n (에잇세컨즈)  베이직 라운드넥 반소매 티셔츠 화이트 (324242LY11)  1,845   
3  상의\n > \n반소매 티셔츠\n (에잇세컨즈)  베이직 라운드넥 반소매 티셔츠 화이트 (324242LY11)  1,845   
4  상의\n > \n반소매 티셔츠\n (에잇세컨즈)  베이직 라운드넥 반소매 티셔츠 화이트 (324242LY11)  1,845   

               상품가격           배송 상품태그  \
0  13,693 ~ 14,900원  결제 3일 이내 출고  NaN   
1  13,693 ~ 14,900원  결제 3일 이내 출고  NaN   
2  13,693 ~ 14,900원  결제 3일 이내 출고  NaN   
3  13,693 ~ 14,900원  결제 3일 이내 출고  NaN   
4  13,693 ~ 14,900원  결제 3일 이내 출고  NaN   

                                                구매현황  \
0  총 구매 550개 이상\n연령\n0%\n20%\n40%\n60%\n80%\n100%...   
1  총 구매 550개 이상\n연령\n0%\n20%\n40%\n60%\n80%\n100%...   
2  총 구매 550개 이상\n연령\n0%\n20%\n40%\n60%\n80%\n100%...   
3  총 구매 550개 이상\n연령\n0%\n20%\n40%\n60%\n80%\n100%...   
4  총 구매 550개 이상\n연령\n0

In [3]:
# ### DATA INFO
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 55935 entries, 0 to 55934
# Data columns (total 20 columns):
#  #   Column      Non-Null Count  Dtype  
# ---  ------      --------------  -----  
#  0   Unnamed: 0  55935 non-null  int64  
#  1   카테고리        55935 non-null  object **-> 카테고리는 브랜드 > 상위 카테고리 > 하위카테고리로 나눠야 함**
#  2   상품명         55935 non-null  object 
#      상품 ID 추가 -> Dtype은 object
#  3   상품좋아요수      55935 non-null  object -> Dtype을 int로 변경
#  4   상품가격        55935 non-null  object -> '원' 빼고 Dtype으로 변경
#  5   배송          55935 non-null  object -> drop
#  6   상품태그        54943 non-null  object 
#  7   구매현황        55925 non-null  object -> 구매수, 연령대&성별로 변경
#  8   조회현황        55925 non-null  object  -> 조회수, 연령대&성별로 변경
#  9   리뷰          55935 non-null  object 
#  10  작성일         55935 non-null  object -> 20240101형태의 int로 변경
#  11  평점          55935 non-null  int64  
#  12  사이즈         55935 non-null  object 
#  13  성별          55928 non-null  object -> 0, 1 로 변경
#  14  키           55928 non-null  float64 
#  15  몸무게         55928 non-null  float64
#  16  누적판매량       55935 non-null  object 
#  17  도움돼요        55935 non-null  int64  
#  18  스타일 좋아요     55935 non-null  int64  
#  19  리뷰태그        55935 non-null  object 
# dtypes: float64(2), int64(4), object(14)
# memory usage: 8.5+ MB