In [None]:
import torch

# GPU 사용 가능 여부 확인
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

device(type='cuda')

In [None]:
import os
import json
import pandas as pd
import time

# 함수 정의
def extract_final_keys_and_values(obj, prefix=''):
    if isinstance(obj, dict):
        for key, value in obj.items():
            yield from extract_final_keys_and_values(value, f"{prefix}{key}.")
    else:
        yield prefix[:-1], obj

# 작업 디렉토리 경로 설정
work_dir = "/content/drive/MyDrive/project/data/dog/json/유루증"

# 작업 디렉토리 변경
os.chdir(work_dir)

# 현재 작업 디렉토리의 모든 JSON 파일 목록 가져오기
json_files = [os.path.join(root, f) for root, dirs, files in os.walk('.') for f in files if f.endswith('.json')]
total_files = len(json_files)

# 빈 DataFrame 생성
df = pd.DataFrame()

# 시작 시간 기록
start_time = time.time()

# 진행 상황 출력
print(f"총 {total_files}개의 JSON 파일 처리 중...")

# 각 JSON 파일 열기 및 데이터프레임에 추가
for i, json_file in enumerate(json_files):
    try:
        with open(json_file, 'r') as f:
            data = json.load(f)

            # 가장 깊은 뎁스의 키-값 쌍 추출
            final_keys_and_values = list(extract_final_keys_and_values(data))

            # 데이터프레임에 추가
            for key, value in final_keys_and_values:
                if key not in df.columns:
                    df[key] = [None] * len(df)
                df.at[json_file, key] = value

    except Exception as e:
        print(f"오류 발생: {e}. 파일 '{json_file}' 처리를 건너뜁니다.")
        continue

    # 진행 상황 출력 (100개당)
    if (i + 1) % 100 == 0 or (i + 1) == total_files:
        elapsed_time = time.time() - start_time
        remaining_time = (elapsed_time / (i+1)) * (total_files - (i+1))
        print(f"[{i+1}/{total_files}] 파일 처리 중... 총 경과 시간: {elapsed_time:.2f}초, 남은 예상 시간: {remaining_time:.2f}초")

# CSV 파일로 저장
output_file = '/content/drive/MyDrive/output_dog10.csv'
df.to_csv(output_file, index=True)

print('CSV 파일이 Google Drive에 생성되었습니다.')


총 21601개의 JSON 파일 처리 중...
[100/21601] 파일 처리 중... 총 경과 시간: 66.28초, 남은 예상 시간: 14250.77초
[200/21601] 파일 처리 중... 총 경과 시간: 393.96초, 남은 예상 시간: 42156.18초
[300/21601] 파일 처리 중... 총 경과 시간: 394.35초, 남은 예상 시간: 27999.98초
[400/21601] 파일 처리 중... 총 경과 시간: 394.76초, 남은 예상 시간: 20923.35초
[500/21601] 파일 처리 중... 총 경과 시간: 395.21초, 남은 예상 시간: 16678.45초
[600/21601] 파일 처리 중... 총 경과 시간: 395.65초, 남은 예상 시간: 13848.29초
[700/21601] 파일 처리 중... 총 경과 시간: 396.19초, 남은 예상 시간: 11829.76초
[800/21601] 파일 처리 중... 총 경과 시간: 396.65초, 남은 예상 시간: 10313.35초
[900/21601] 파일 처리 중... 총 경과 시간: 397.13초, 남은 예상 시간: 9134.32초
[1000/21601] 파일 처리 중... 총 경과 시간: 397.65초, 남은 예상 시간: 8191.98초
[1100/21601] 파일 처리 중... 총 경과 시간: 398.16초, 남은 예상 시간: 7420.57초
[1200/21601] 파일 처리 중... 총 경과 시간: 398.76초, 남은 예상 시간: 6779.20초
[1300/21601] 파일 처리 중... 총 경과 시간: 399.37초, 남은 예상 시간: 6236.57초
[1400/21601] 파일 처리 중... 총 경과 시간: 399.89초, 남은 예상 시간: 5770.07초
[1500/21601] 파일 처리 중... 총 경과 시간: 400.61초, 남은 예상 시간: 5368.40초
[1600/21601] 파일 처리 중... 총 경과 시간: 401.05초, 남은 예상 시간: 5013.39초


In [None]:
import pandas as pd

# 파일 경로 설정
file_paths = ['/content/drive/MyDrive/project/cat.csv',
              '/content/drive/MyDrive/project/concatenated_data.csv',
              '/content/drive/MyDrive/project/output_dog10.csv']

# 각 파일의 형태를 저장할 리스트 생성
shapes = []

# 모든 파일 경로를 순회하면서 각 파일의 형태를 확인하고 리스트에 추가합니다.
for file_path in file_paths:
    df = pd.read_csv(file_path)  # CSV 파일 불러오기
    shapes.append(df.shape)  # 데이터프레임의 형태를 저장

# 이어붙일 데이터프레임을 생성하기 전에 각 파일의 형태를 출력합니다.
for i, shape in enumerate(shapes):
    print(f"File {i+1}: Shape {shape}")

# 빈 리스트를 생성하여 CSV 파일에서 불러온 데이터프레임을 담을 준비를 합니다.
dfs = []

# 모든 파일 경로를 순회하면서 데이터프레임을 불러와 리스트에 추가합니다.
for file_path in file_paths:
    df = pd.read_csv(file_path)  # CSV 파일 불러오기
    dfs.append(df)  # 리스트에 데이터프레임 추가

# 모든 데이터프레임을 이어붙입니다.
result = pd.concat(dfs, ignore_index=True)

# 이어붙인 후의 데이터프레임의 형태를 확인합니다.
print("Concatenated DataFrame Shape:", result.shape)

# 결과 데이터프레임을 CSV 파일로 저장합니다. 경로는 자유롭게 지정하세요.
result.to_csv('/content/drive/MyDrive/output.csv', index=False)

# 저장이 완료되면 메시지를 출력합니다.
print("DataFrame saved as CSV file.")

File 1: Shape (25658, 20)
File 2: Shape (166476, 20)
File 3: Shape (21601, 20)
Concatenated DataFrame Shape: (213735, 20)
DataFrame saved as CSV file.


In [None]:
df = pd.read_csv('/content/drive/MyDrive/output.csv')
df.shape

(213735, 20)

In [None]:
df.tail()

Unnamed: 0.1,Unnamed: 0,images.meta.file_name,images.meta.date_time,images.meta.device,images.meta.gender,images.meta.age,images.meta.breed,images.meta.medical_type,images.meta.width_height,images.meta.eye_position,images.meta.image_resolution,label.label_filename,label.label_category_id,label.label_path,label.label_deleted,label.label_bbox,label.label_disease_nm,label.label_disease_lv_1,label.label_disease_lv_2,label.label_disease_lv_3
213730,./유/crop_D10_03668f96-60a5-11ec-8402-0a740497...,D10_03668f96-60a5-11ec-8402-0a7404972c70.jpg,2021-08-19 00:00:00,일반카메라,1.0,5.0,포메라니안,1,"[4896, 3672]",왼쪽눈,"[350, 350]",crop_D10_03668f96-60a5-11ec-8402-0a7404972c70.jpg,1,라벨링데이터/안구/개/안구/일반/유루증/유/crop_D10_03668f96-60a5...,0,"[1560.65, 2076.54, 2909.41, 2201.87]",유루증,유,유,유
213731,./유/crop_D11_03669ddb-60a5-11ec-8402-0a740497...,D11_03669ddb-60a5-11ec-8402-0a7404972c70.jpg,2021-08-19 00:00:00,일반카메라,1.0,5.0,포메라니안,1,"[4896, 3672]",왼쪽눈,"[350, 350]",crop_D11_03669ddb-60a5-11ec-8402-0a7404972c70.jpg,1,라벨링데이터/안구/개/안구/일반/유루증/유/crop_D11_03669ddb-60a5...,0,"[1712.4, 1888.67, 3061.02, 2585.75]",유루증,유,유,유
213732,./유/crop_D14_0366c5f7-60a5-11ec-8402-0a740497...,D14_0366c5f7-60a5-11ec-8402-0a7404972c70.jpg,2021-08-19 00:00:00,일반카메라,1.0,5.0,포메라니안,1,"[4896, 3672]",왼쪽눈,"[350, 350]",crop_D14_0366c5f7-60a5-11ec-8402-0a7404972c70.jpg,1,라벨링데이터/안구/개/안구/일반/유루증/유/crop_D14_0366c5f7-60a5...,0,"[1504.83, 2085.62, 2772.27, 2067.61]",유루증,유,유,유
213733,./유/crop_D17_0366b7f3-60a5-11ec-8402-0a740497...,D17_0366b7f3-60a5-11ec-8402-0a7404972c70.jpg,2021-08-19 00:00:00,일반카메라,1.0,5.0,포메라니안,1,"[4896, 3672]",왼쪽눈,"[350, 350]",crop_D17_0366b7f3-60a5-11ec-8402-0a7404972c70.jpg,1,라벨링데이터/안구/개/안구/일반/유루증/유/crop_D17_0366b7f3-60a5...,0,"[1685.1, 2109.66, 3248.39, 2524.3]",유루증,유,유,유
213734,./유/crop_D18_0366d37e-60a5-11ec-8402-0a740497...,D18_0366d37e-60a5-11ec-8402-0a7404972c70.jpg,2021-08-19 00:00:00,일반카메라,1.0,5.0,포메라니안,1,"[4896, 3672]",왼쪽눈,"[350, 350]",crop_D18_0366d37e-60a5-11ec-8402-0a7404972c70.jpg,1,라벨링데이터/안구/개/안구/일반/유루증/유/crop_D18_0366d37e-60a5...,0,"[1635.88, 2184.61, 2877.41, 2165.08]",유루증,유,유,유
