In [65]:
import os
import shutil
import zipfile
import pandas as pd

### 압축 파일 해제 및 파일 경로 변경

In [41]:
def unzip_and_move(target):
    data_path = os.path.join(os.getcwd(), 'data')
    
    csv_file_path = os.path.join(data_path, target)
    zip_path = os.path.join(data_path, 'zip_files')
    zip_file_path = os.path.join(zip_path, target)
    
    zip_files = os.listdir(zip_file_path)
    
    try:
        zip_files.remove('.DS_Store')
    except:
        pass
    
    for zip_filename in zip_files:
        zip_file = os.path.join(zip_file_path, zip_filename)
    
        extract_folder = os.path.join(csv_file_path, zip_filename.split('.')[1])  # 압축 해제 폴더명 (ZIP 파일 이름을 폴더 이름으로 사용)
    
        # 압축 해제
        with zipfile.ZipFile(zip_file, 'r') as zip_ref:
            zip_ref.extractall(extract_folder)
        
        # 압축 해제된 파일을 타겟 폴더로 이동
        for filename in os.listdir(extract_folder):
            shutil.move(os.path.join(extract_folder, filename), csv_file_path)
        
        os.rmdir(extract_folder)  # 빈 폴더 삭제

In [None]:
unzip_and_move('travel_spending')

In [42]:
unzip_and_move('stay_duration')

### 올바르게 압축해제 되었는지 확인

In [80]:
def is_ok(target):
    cities = 17
    periods = 9
    num_files = cities * periods
    
    data_path = os.path.join(os.getcwd(), 'data')
    target_path = os.path.join(data_path, target)
    files = os.listdir(target_path)
    
    if '.DS_Store' in files:
        files.remove('.DS_Store')

    print('-'*10, target, '-'*10)
        
    print(f'파일 수: {len(files)}')
    print(f'중복 파일 수: {len(files) - len(set(files))}')
    print('-'*30)
    
    file_ids = list(map(lambda x: x.split('_')[0][8:], files))
    file_cats = list(map(lambda x: '_'.join(x.split('_')[1:])[:-4], files))
    
    print(f'파일 다운로드 횟수: {len(set(file_ids))} \n파일 종류: {len(set(file_cats))}')
    print('-'*30)
    
    file_df = pd.DataFrame({'파일명': files,
                            '파일id': file_ids,
                            '파일종류': file_cats})
    
    x = set(file_df.groupby('파일id')['파일명'].nunique())
    y = set(file_df.groupby('파일종류')['파일id'].nunique())
    
    print(f'파일 ID별 파일의 수: {x}')
    print(f'파일 종류별 파일 ID 수: {y}')
    print('-'*30)
    print('\n')

In [81]:
is_ok('travel_spending')
is_ok('stay_duration')

---------- travel_spending ----------
파일 수: 1224
중복 파일 수: 0
------------------------------
파일 다운로드 횟수: 153 
파일 종류: 8
------------------------------
파일 ID별 파일의 수: {8}
파일 종류별 파일 ID 수: {153}
------------------------------


---------- stay_duration ----------
파일 수: 1224
중복 파일 수: 0
------------------------------
파일 다운로드 횟수: 153 
파일 종류: 8
------------------------------
파일 ID별 파일의 수: {8}
파일 종류별 파일 ID 수: {153}
------------------------------


