# CSV ##합치기
## csv utf-8 형태로 변경 후 작업

### 여러 파일 동시에 작업

In [1]:
import pandas as pd
import numpy as np
import os
from glob import glob

# CSV 파일들이 있는 폴더 경로
input_folder = r"\Users\kyn03\Downloads\11_12\분석"
output_folder = r"\Users\kyn03\Downloads\11_12\합치기"
os.makedirs(output_folder, exist_ok=True)

# 폴더의 모든 CSV 파일을 처리
for file_path in glob(os.path.join(input_folder, "*.csv")):
    original_file_name = os.path.splitext(os.path.basename(file_path))[0]
    
    # CSV 파일 읽기
    df = pd.read_csv(file_path, header=None)
    
    # 첫 번째 열 저장
    original_first_column = df.iloc[:, 0]

    # 최종 결과 DataFrame 초기화
    final_result = pd.DataFrame()

    # 7줄씩 처리
    for start in range(0, df.shape[0], 5):
        chunk1 = df.iloc[start:start+5, 1:]
        if start % 100 == 0:
            print(f"Processing row: {start} in file {original_file_name}")

        # 7번째 row(인덱스 6)를 sequence로 설정
        if len(chunk1) < 5:
            print(f"Skipping incomplete chunk starting at row {start}")
            continue

        seq_row = chunk1.iloc[4]

        # 새로운 DataFrame 생성
        result_df = pd.DataFrame()

        # 6개의 row에서 데이터 결합
        for i in range(4):
            result_df = pd.concat([result_df, chunk1.iloc[[i]]], ignore_index=True)

        # 빈 row 추가
        result_df.loc[6] = [''] * result_df.shape[1]

        col = 0
        sharp_list = []
        check = True

        # 열 반복 처리
        while col < seq_row.shape[0]:
            token = str(seq_row.iloc[col])
            now_col = col

            # ##이 포함된 다음 열 병합
            while col + 1 < seq_row.shape[0] and '##' in str(seq_row.iloc[col + 1]):
                token += str(seq_row.iloc[col + 1][2:])
                col += 1
                sharp_list.append(col)
                check = False

            if check:
                result_df.iloc[4, now_col] = token
                col += 1
            else:
                result_df.iloc[4, now_col] = token
                check = True

        # sharp_list에 있는 column 삭제
        result_df = result_df.drop(result_df.columns[sharp_list], axis=1)
        current_columns = result_df.shape[1]

        # 509개로 패딩
        if current_columns < 509:
            padding_df = pd.DataFrame(np.nan, index=result_df.index, columns=range(current_columns, 509))
            result_df = pd.concat([result_df, padding_df], axis=1, ignore_index=True)

        # 최종 결과에 추가
        final_result = pd.concat([final_result, result_df], ignore_index=True)
    
    # 첫 번째 행 삭제 후 인덱스 재설정
    final_result = final_result.drop(0).reset_index(drop=True)

    # 원래 CSV 파일의 첫 번째 열을 최종 결과에 'Original First Column'이라는 이름으로 추가
    final_result.insert(0, 'Original First Column', original_first_column.iloc[1:].values)

    # 최종 결과 DataFrame 저장
    output_file_excel = os.path.join(output_folder, f"{original_file_name}.xlsx")
    final_result.to_excel(output_file_excel, index=False)

    output_file_csv = os.path.join(output_folder, f"{original_file_name}.csv")
    final_result.to_csv(output_file_csv, index=False, encoding="utf-8-sig")

    print(f"[INFO] 엑셀 파일 '{output_file_excel}'로 저장 완료.")
    print(f"[INFO] CSV 파일 '{output_file_csv}'로 저장 완료.")


  df = pd.read_csv(file_path, header=None)


Processing row: 0 in file 다시
Processing row: 100 in file 다시
Processing row: 200 in file 다시
Processing row: 300 in file 다시
Processing row: 400 in file 다시
Processing row: 500 in file 다시
Processing row: 600 in file 다시
Processing row: 700 in file 다시
Processing row: 800 in file 다시
Processing row: 900 in file 다시
Processing row: 1000 in file 다시
Processing row: 1100 in file 다시
Processing row: 1200 in file 다시
Processing row: 1300 in file 다시
Processing row: 1400 in file 다시
Processing row: 1500 in file 다시
Processing row: 1600 in file 다시
Processing row: 1700 in file 다시
Processing row: 1800 in file 다시
Processing row: 1900 in file 다시
Processing row: 2000 in file 다시
Processing row: 2100 in file 다시
Processing row: 2200 in file 다시
Processing row: 2300 in file 다시
Processing row: 2400 in file 다시
Processing row: 2500 in file 다시
Processing row: 2600 in file 다시
Processing row: 2700 in file 다시
Processing row: 2800 in file 다시
Processing row: 2900 in file 다시
Processing row: 3000 in file 다시
Processing row: 3100

## 달바

In [1]:
import pandas as pd
import numpy as np
import os

# CSV 파일 불러오기
file_path = r"\Users\kyn03\OneDrive\바탕 화면\project_file\output\분석\리뷰어_3회이상.csv"  # 경로 확인
original_file_name = os.path.splitext(os.path.basename(file_path))[0]

# CSV 파일 읽기
df = pd.read_csv(file_path, header=None)

# 원래 CSV 파일의 첫 번째 열을 저장
original_first_column = df.iloc[:, 0]  # 첫 번째 열 저장

# 최종 결과 DataFrame 초기화
final_result = pd.DataFrame()

# 7줄씩 처리
for start in range(0, df.shape[0], 7):
    chunk1 = df.iloc[start:start+7, 1:]  # 첫 번째 열을 제외하고 나머지 열 선택
    if start % 100 == 0:
        print(f"Processing row: {start}")

    # 7번째 row(인덱스 6)를 sequence로 설정
    if len(chunk1) < 7:
        print(f"Skipping incomplete chunk starting at row {start}")
        continue

    seq_row = chunk1.iloc[6]

    # 새로운 DataFrame 생성
    result_df = pd.DataFrame()

    # 6개의 row에서 데이터 결합
    for i in range(6):
        result_df = pd.concat([result_df, chunk1.iloc[[i]]], ignore_index=True)

    # 빈 row 추가
    result_df.loc[6] = [''] * result_df.shape[1]

    col = 0
    sharp_list = []
    check = True

    # 열 반복 처리
    while col < seq_row.shape[0]:
        token = str(seq_row.iloc[col])
        now_col = col

        # ##이 포함된 다음 열 병합
        while col + 1 < seq_row.shape[0] and '##' in str(seq_row.iloc[col + 1]):
            token += str(seq_row.iloc[col + 1][2:])
            col += 1
            sharp_list.append(col)
            check = False

        if check:
            result_df.iloc[6, now_col] = token
            col += 1
        else:
            result_df.iloc[6, now_col] = token
            check = True

    # sharp_list에 있는 column 삭제
    result_df = result_df.drop(result_df.columns[sharp_list], axis=1)
    current_columns = result_df.shape[1]

    # 509개로 패딩
    if current_columns < 509:
        padding_df = pd.DataFrame(np.nan, index=result_df.index, columns=range(current_columns, 509))
        result_df = pd.concat([result_df, padding_df], axis=1, ignore_index=True)

    # 최종 결과에 추가
    final_result = pd.concat([final_result, result_df], ignore_index=True)

# 첫 번째 행 삭제 후 인덱스 재설정
final_result = final_result.drop(0).reset_index(drop=True)

# 원래 CSV 파일의 첫 번째 열을 최종 결과에 'Original First Column'이라는 이름으로 추가
final_result.insert(0, 'Original First Column', original_first_column.iloc[1:].values)

# 최종 결과 DataFrame 저장
output_file_excel = rf"\Users\kyn03\Downloads\합치기\{original_file_name}.xlsx"
final_result.to_excel(output_file_excel, index=False)

output_file_csv = rf"\Users\kyn03\Downloads\합치기\{original_file_name}.csv"
final_result.to_csv(output_file_csv, index=False, encoding="utf-8-sig")

print(f"[INFO] 엑셀 파일 '{output_file_excel}'로 저장 완료.")
print(f"[INFO] CSV 파일 '{output_file_csv}'로 저장 완료.")


  df = pd.read_csv(file_path, header=None)


Processing row: 0
Processing row: 700
Processing row: 1400
Processing row: 2100
Processing row: 2800
Processing row: 3500
Processing row: 4200
Processing row: 4900
Processing row: 5600
Processing row: 6300
Processing row: 7000
Processing row: 7700
Processing row: 8400
Processing row: 9100
Processing row: 9800
[INFO] 엑셀 파일 '\Users\kyn03\Downloads\합치기\리뷰어_3회이상.xlsx'로 저장 완료.
[INFO] CSV 파일 '\Users\kyn03\Downloads\합치기\리뷰어_3회이상.csv'로 저장 완료.


## 바이오힐보

In [3]:
import pandas as pd
import numpy as np

# Excel 파일 불러오기
file_path = r"\Users\kyn03\OneDrive\바탕 화면\project_file\sorted_boh.csv"  # 경로 확인

# Excel 파일 읽기
df = pd.read_csv(file_path, header=None)

# 최종 결과 DataFrame 초기화
final_result = pd.DataFrame()

# 7줄씩 처리
for start in range(0, df.shape[0], 7):
    chunk1 = df.iloc[start:start+7, 1:]  # 1번째 column부터 선택
    if start % 100 == 0:
        print(f"Processing row: {start}")

    # 7번째 row(인덱스 6)를 sequence로 설정
    if len(chunk1) < 7:
        print(f"Skipping incomplete chunk starting at row {start}")
        continue

    seq_row = chunk1.iloc[6]

    # 새로운 DataFrame 생성
    result_df = pd.DataFrame()

    # 6개의 row에서 데이터 결합
    for i in range(6):
        result_df = pd.concat([result_df, chunk1.iloc[[i]]], ignore_index=True)

    # 빈 row 추가
    result_df.loc[6] = [''] * result_df.shape[1]

    col = 0
    sharp_list = []
    check = True

    # 열 반복 처리
    while col < seq_row.shape[0]:
        token = str(seq_row.iloc[col])
        now_col = col

        # ##이 포함된 다음 열 병합
        while col + 1 < seq_row.shape[0] and '##' in str(seq_row.iloc[col + 1]):
            token += str(seq_row.iloc[col + 1][2:])
            col += 1
            sharp_list.append(col)
            check = False

        if check:
            result_df.iloc[6, now_col] = token
            col += 1
        else:
            result_df.iloc[6, now_col] = token
            check = True

    # sharp_list에 있는 column 삭제
    result_df = result_df.drop(result_df.columns[sharp_list], axis=1)
    current_columns = result_df.shape[1]

    # 509개로 패딩
    if current_columns < 509:
        padding_df = pd.DataFrame(np.nan, index=result_df.index, columns=range(current_columns, 509))
        result_df = pd.concat([result_df, padding_df], axis=1, ignore_index=True)

    # 최종 결과에 추가
    final_result = pd.concat([final_result, result_df], ignore_index=True)

# 최종 결과 DataFrame 저장
final_result.to_excel(r"\Users\kyn03\OneDrive\바탕 화면\project_file\sorted_merged_boh.xlsx", index=False)
final_result.to_csv(r"\Users\kyn03\OneDrive\바탕 화면\project_file\sorted_merged_boh.csv", index=False)

  df = pd.read_csv(file_path, header=None)


Processing row: 0
Processing row: 700
Processing row: 1400
Processing row: 2100
Processing row: 2800
Processing row: 3500
Processing row: 4200
Processing row: 4900
Processing row: 5600
Processing row: 6300
Processing row: 7000
Processing row: 7700
Processing row: 8400
Processing row: 9100
Processing row: 9800
Processing row: 10500
Processing row: 11200
Processing row: 11900
Processing row: 12600
Processing row: 13300
Processing row: 14000
Processing row: 14700
Processing row: 15400
Processing row: 16100
Processing row: 16800


## 아벤느

In [4]:
import pandas as pd
import numpy as np

# Excel 파일 불러오기
file_path = r"\Users\kyn03\OneDrive\바탕 화면\project_file\sorted_avene.csv"  # 경로 확인

# Excel 파일 읽기
df = pd.read_csv(file_path, header=None)

# 최종 결과 DataFrame 초기화
final_result = pd.DataFrame()

# 7줄씩 처리
for start in range(0, df.shape[0], 7):
    chunk1 = df.iloc[start:start+7, 1:]  # 1번째 column부터 선택
    if start % 100 == 0:
        print(f"Processing row: {start}")

    # 7번째 row(인덱스 6)를 sequence로 설정
    if len(chunk1) < 7:
        print(f"Skipping incomplete chunk starting at row {start}")
        continue

    seq_row = chunk1.iloc[6]

    # 새로운 DataFrame 생성
    result_df = pd.DataFrame()

    # 6개의 row에서 데이터 결합
    for i in range(6):
        result_df = pd.concat([result_df, chunk1.iloc[[i]]], ignore_index=True)

    # 빈 row 추가
    result_df.loc[6] = [''] * result_df.shape[1]

    col = 0
    sharp_list = []
    check = True

    # 열 반복 처리
    while col < seq_row.shape[0]:
        token = str(seq_row.iloc[col])
        now_col = col

        # ##이 포함된 다음 열 병합
        while col + 1 < seq_row.shape[0] and '##' in str(seq_row.iloc[col + 1]):
            token += str(seq_row.iloc[col + 1][2:])
            col += 1
            sharp_list.append(col)
            check = False

        if check:
            result_df.iloc[6, now_col] = token
            col += 1
        else:
            result_df.iloc[6, now_col] = token
            check = True

    # sharp_list에 있는 column 삭제
    result_df = result_df.drop(result_df.columns[sharp_list], axis=1)
    current_columns = result_df.shape[1]

    # 509개로 패딩
    if current_columns < 509:
        padding_df = pd.DataFrame(np.nan, index=result_df.index, columns=range(current_columns, 509))
        result_df = pd.concat([result_df, padding_df], axis=1, ignore_index=True)

    # 최종 결과에 추가
    final_result = pd.concat([final_result, result_df], ignore_index=True)

# 최종 결과 DataFrame 저장
final_result.to_excel(r"\Users\kyn03\OneDrive\바탕 화면\project_file\sorted_merged_avene.xlsx", index=False)
final_result.to_csv(r"\Users\kyn03\OneDrive\바탕 화면\project_file\sorted_merged_avene.csv", index=False)

  df = pd.read_csv(file_path, header=None)


Processing row: 0
Processing row: 700
Processing row: 1400
Processing row: 2100
Processing row: 2800
Processing row: 3500
Processing row: 4200
Processing row: 4900
Processing row: 5600
Processing row: 6300
Processing row: 7000
Processing row: 7700
Processing row: 8400
Processing row: 9100
Processing row: 9800
Processing row: 10500
Processing row: 11200
Processing row: 11900
Processing row: 12600
Processing row: 13300
Processing row: 14000
Processing row: 14700
Processing row: 15400
Processing row: 16100
Processing row: 16800
Processing row: 17500
Processing row: 18200
Processing row: 18900
Processing row: 19600
Processing row: 20300
Processing row: 21000
Processing row: 21700
Processing row: 22400
Processing row: 23100
Processing row: 23800
Processing row: 24500
Processing row: 25200
Processing row: 25900
Processing row: 26600
Processing row: 27300
Processing row: 28000
Processing row: 28700
Processing row: 29400
Processing row: 30100
Processing row: 30800
Processing row: 31500
Process