In [None]:
! explorer .

# ファイルの整理

## 課題  
たまった写真をGOOGLE DRIVEに入れたい  
しかし、写真を貯めているフォルダの構造は、めちゃくちゃで、重複しているファイルもある。フォルダのサイズは80GB！  
とても手作業でやる気が起こらないので、スクリプトを組んだ

## 方針
* フォルダ内に同一ファイル名が存在しないように、一括でリネームする。
* フォルダ内のファイルを全てpandas dataframeに格納
* ハッシュなるものを使って、同一ファイルを抽出、pandas dataframeで重複ファイルの無いリストを作る
* 上記のリストのファイルを新しいフォルダに移動
* 最後に人が見ながら、不要なファイルを削除

# スクリプト

In [93]:
# -*- coding: utf-8; py-indent-offset:4 -*-
###############################################################################
#
# Copyright (C) Mineo Sudo
# 
###############################################################################
import os,hashlib

class env_copy_right():
    '''
    working_dirにあるファイルのパスとハッシュを取得する
    '''
    def __init__(self):
        self.file_list = []

    def get_list(self,working_dir):
        for root, dirs, files in os.walk(working_dir):
            for filename in files:
                fname=os.path.join(root, filename)
                with open(fname, 'rb') as f:
                    checksum = hashlib.md5(f.read()).hexdigest()
                self.file_list.append([fname,checksum])     
                
if __name__ == '__main__':
    working_dir = "D:\\新しいフォルダー"
    obj=env_copy_right()
    obj.get_list(working_dir)

## 取得したファイルを片っ端からリネーム

In [92]:
import os
x=0

for i in obj.file_list:
    root, ext = os.path.splitext(i[0])
    pa=root+"kiroku_"+str(x)+ext
    print(pa)
    os.rename(i[0], pa)
    x=x+1

D:\新しいフォルダー\100APPLE\IMG_0001kiroku_0.JPG
D:\新しいフォルダー\100APPLE\IMG_0005kiroku_1.JPG
D:\新しいフォルダー\100APPLE\IMG_0008kiroku_2.JPG
D:\新しいフォルダー\100APPLE\IMG_0009kiroku_3.MOV
D:\新しいフォルダー\100APPLE\IMG_0010kiroku_4.JPG
D:\新しいフォルダー\100APPLE\IMG_0011kiroku_5.JPG
D:\新しいフォルダー\100APPLE\IMG_0012kiroku_6.JPG
D:\新しいフォルダー\100APPLE\IMG_0013kiroku_7.JPG
D:\新しいフォルダー\100APPLE\IMG_0014kiroku_8.JPG
D:\新しいフォルダー\100APPLE\IMG_0015kiroku_9.MOV
D:\新しいフォルダー\100APPLE\IMG_0016kiroku_10.JPG
D:\新しいフォルダー\100APPLE\IMG_0017kiroku_11.JPG
D:\新しいフォルダー\100APPLE\IMG_0018kiroku_12.JPG
D:\新しいフォルダー\100APPLE\IMG_0019kiroku_13.JPG
D:\新しいフォルダー\100APPLE\IMG_0020kiroku_14.JPG
D:\新しいフォルダー\100APPLE\IMG_0022kiroku_15.JPG
D:\新しいフォルダー\100APPLE\IMG_0023kiroku_16.JPG
D:\新しいフォルダー\100APPLE\IMG_0024kiroku_17.MOV
D:\新しいフォルダー\100APPLE\IMG_0025kiroku_18.JPG
D:\新しいフォルダー\100APPLE\IMG_0028kiroku_19.JPG
D:\新しいフォルダー\100APPLE\IMG_0030kiroku_20.JPG
D:\新しいフォルダー\100APPLE\IMG_0031kiroku_21.JPG
D:\新しいフォルダー\100APPLE\IMG_0041kiroku_22.JPG
D:\新しいフォルダー\100APPLE\

## データフレームを作成

In [94]:
import pandas as pd
df=pd.DataFrame(obj.file_list)
df.columns = ["path","checksum"]  #カラム名を付ける

## 重複を削除してdf1として再定義

In [95]:
df1=df.drop_duplicates(['checksum'])

In [96]:
df1=df1.reset_index( drop = True )
df1

Unnamed: 0,path,checksum
0,D:\新しいフォルダー\100APPLE\IMG_0001kiroku_0.JPG,81e7944f99e76edd6a53aca8059fee20
1,D:\新しいフォルダー\100APPLE\IMG_0005kiroku_1.JPG,72a00f6e666ed1d8b47549943ff42c8b
2,D:\新しいフォルダー\100APPLE\IMG_0008kiroku_2.JPG,5d50d3c32e1deb7d6d1cf28f50dbf800
3,D:\新しいフォルダー\100APPLE\IMG_0009kiroku_3.MOV,f7e87a3f81b7a87b648a5dacf9ced5ea
4,D:\新しいフォルダー\100APPLE\IMG_0010kiroku_4.JPG,b5be73e634922d731070a8e4351b3ce1
5,D:\新しいフォルダー\100APPLE\IMG_0011kiroku_5.JPG,7cebe61bc559ac70b7b8c14d64a85d30
6,D:\新しいフォルダー\100APPLE\IMG_0012kiroku_6.JPG,b535c9bb082d85a16b5427e23db4d7d8
7,D:\新しいフォルダー\100APPLE\IMG_0013kiroku_7.JPG,1c338bec5ea03e15d4e18841a4d25aba
8,D:\新しいフォルダー\100APPLE\IMG_0014kiroku_8.JPG,d778832cd375b8c5bd03eb7fd8943a44
9,D:\新しいフォルダー\100APPLE\IMG_0015kiroku_9.MOV,b495dd3cf34a03b58fa17fb294472219


## df1のファイル名を取得

In [97]:
import os, shutil
file_name_list=[]
for i, v in df1.iterrows():
    print(v['path'])
    p=os.path.basename(v['path'])
    file_name_list.append(p)

D:\新しいフォルダー\100APPLE\IMG_0001kiroku_0.JPG
D:\新しいフォルダー\100APPLE\IMG_0005kiroku_1.JPG
D:\新しいフォルダー\100APPLE\IMG_0008kiroku_2.JPG
D:\新しいフォルダー\100APPLE\IMG_0009kiroku_3.MOV
D:\新しいフォルダー\100APPLE\IMG_0010kiroku_4.JPG
D:\新しいフォルダー\100APPLE\IMG_0011kiroku_5.JPG
D:\新しいフォルダー\100APPLE\IMG_0012kiroku_6.JPG
D:\新しいフォルダー\100APPLE\IMG_0013kiroku_7.JPG
D:\新しいフォルダー\100APPLE\IMG_0014kiroku_8.JPG
D:\新しいフォルダー\100APPLE\IMG_0015kiroku_9.MOV
D:\新しいフォルダー\100APPLE\IMG_0016kiroku_10.JPG
D:\新しいフォルダー\100APPLE\IMG_0017kiroku_11.JPG
D:\新しいフォルダー\100APPLE\IMG_0018kiroku_12.JPG
D:\新しいフォルダー\100APPLE\IMG_0019kiroku_13.JPG
D:\新しいフォルダー\100APPLE\IMG_0020kiroku_14.JPG
D:\新しいフォルダー\100APPLE\IMG_0022kiroku_15.JPG
D:\新しいフォルダー\100APPLE\IMG_0023kiroku_16.JPG
D:\新しいフォルダー\100APPLE\IMG_0024kiroku_17.MOV
D:\新しいフォルダー\100APPLE\IMG_0025kiroku_18.JPG
D:\新しいフォルダー\100APPLE\IMG_0028kiroku_19.JPG
D:\新しいフォルダー\100APPLE\IMG_0030kiroku_20.JPG
D:\新しいフォルダー\100APPLE\IMG_0031kiroku_21.JPG
D:\新しいフォルダー\100APPLE\IMG_0041kiroku_22.JPG
D:\新しいフォルダー\100APPLE\

In [98]:
file_name_list

['IMG_0001kiroku_0.JPG',
 'IMG_0005kiroku_1.JPG',
 'IMG_0008kiroku_2.JPG',
 'IMG_0009kiroku_3.MOV',
 'IMG_0010kiroku_4.JPG',
 'IMG_0011kiroku_5.JPG',
 'IMG_0012kiroku_6.JPG',
 'IMG_0013kiroku_7.JPG',
 'IMG_0014kiroku_8.JPG',
 'IMG_0015kiroku_9.MOV',
 'IMG_0016kiroku_10.JPG',
 'IMG_0017kiroku_11.JPG',
 'IMG_0018kiroku_12.JPG',
 'IMG_0019kiroku_13.JPG',
 'IMG_0020kiroku_14.JPG',
 'IMG_0022kiroku_15.JPG',
 'IMG_0023kiroku_16.JPG',
 'IMG_0024kiroku_17.MOV',
 'IMG_0025kiroku_18.JPG',
 'IMG_0028kiroku_19.JPG',
 'IMG_0030kiroku_20.JPG',
 'IMG_0031kiroku_21.JPG',
 'IMG_0041kiroku_22.JPG',
 'IMG_0043kiroku_23.JPG',
 'IMG_0046kiroku_24.JPG',
 'IMG_0047kiroku_25.JPG',
 'IMG_0049kiroku_26.JPG',
 'IMG_0062kiroku_27.JPG',
 'IMG_0071kiroku_28.MOV',
 'IMG_0072kiroku_29.MOV',
 'IMG_0074kiroku_30.MOV',
 'IMG_0076kiroku_31.MOV',
 'IMG_0077kiroku_32.MOV',
 'IMG_0078kiroku_33.MOV',
 'IMG_0079kiroku_34.MOV',
 'IMG_0080kiroku_35.MOV',
 'IMG_0081kiroku_36.MOV',
 'IMG_0082kiroku_37.MOV',
 'IMG_0083kiroku_38.JP

## データフレームに追加

In [99]:
df2=pd.DataFrame(file_name_list)
df2.columns = ["file_name"]
df2

Unnamed: 0,file_name
0,IMG_0001kiroku_0.JPG
1,IMG_0005kiroku_1.JPG
2,IMG_0008kiroku_2.JPG
3,IMG_0009kiroku_3.MOV
4,IMG_0010kiroku_4.JPG
5,IMG_0011kiroku_5.JPG
6,IMG_0012kiroku_6.JPG
7,IMG_0013kiroku_7.JPG
8,IMG_0014kiroku_8.JPG
9,IMG_0015kiroku_9.MOV


## 同一ファイル名が無い事を確認（今回、階層をなくしたいため）

### ファイル名の重複を確認

In [100]:
df2.duplicated(['file_name']).any()

False

### 重複している場合は、ファイル名を出力する

In [101]:
df3=df2.apply(pd.value_counts)
df3.loc[(df3["file_name"] > 1)]

Unnamed: 0,file_name


## ファイル名をデータフレームに追加する

In [102]:
df1=df1.join(df2)

In [106]:
df1

Unnamed: 0,path,checksum,file_name
0,D:\新しいフォルダー\100APPLE\IMG_0001kiroku_0.JPG,81e7944f99e76edd6a53aca8059fee20,IMG_0001kiroku_0.JPG
1,D:\新しいフォルダー\100APPLE\IMG_0005kiroku_1.JPG,72a00f6e666ed1d8b47549943ff42c8b,IMG_0005kiroku_1.JPG
2,D:\新しいフォルダー\100APPLE\IMG_0008kiroku_2.JPG,5d50d3c32e1deb7d6d1cf28f50dbf800,IMG_0008kiroku_2.JPG
3,D:\新しいフォルダー\100APPLE\IMG_0009kiroku_3.MOV,f7e87a3f81b7a87b648a5dacf9ced5ea,IMG_0009kiroku_3.MOV
4,D:\新しいフォルダー\100APPLE\IMG_0010kiroku_4.JPG,b5be73e634922d731070a8e4351b3ce1,IMG_0010kiroku_4.JPG
5,D:\新しいフォルダー\100APPLE\IMG_0011kiroku_5.JPG,7cebe61bc559ac70b7b8c14d64a85d30,IMG_0011kiroku_5.JPG
6,D:\新しいフォルダー\100APPLE\IMG_0012kiroku_6.JPG,b535c9bb082d85a16b5427e23db4d7d8,IMG_0012kiroku_6.JPG
7,D:\新しいフォルダー\100APPLE\IMG_0013kiroku_7.JPG,1c338bec5ea03e15d4e18841a4d25aba,IMG_0013kiroku_7.JPG
8,D:\新しいフォルダー\100APPLE\IMG_0014kiroku_8.JPG,d778832cd375b8c5bd03eb7fd8943a44,IMG_0014kiroku_8.JPG
9,D:\新しいフォルダー\100APPLE\IMG_0015kiroku_9.MOV,b495dd3cf34a03b58fa17fb294472219,IMG_0015kiroku_9.MOV


## ファイルをコピー

In [108]:
ls=list(df1["path"])

In [109]:
ls

['D:\\新しいフォルダー\\100APPLE\\IMG_0001kiroku_0.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0005kiroku_1.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0008kiroku_2.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0009kiroku_3.MOV',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0010kiroku_4.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0011kiroku_5.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0012kiroku_6.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0013kiroku_7.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0014kiroku_8.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0015kiroku_9.MOV',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0016kiroku_10.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0017kiroku_11.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0018kiroku_12.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0019kiroku_13.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0020kiroku_14.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0022kiroku_15.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0023kiroku_16.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0024kiroku_17.MOV',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0025kiroku_18.JPG',
 'D:\\新しいフォルダー\\100APPLE\\IMG_0028kiroku_19.JPG',
 'D:\\新しいフ

In [110]:
import shutil
for i in ls:
    shutil.copy(i, "D:\\pic")

# 構成部品

## ハッシュとは

ハッシュ値、大きくアバウトに言ってしまうと、データを特定するするために、あるアルゴリズム（関数）から算出される値。
簡単な例では、データの同一性をチェックするための「チェックサム」もその１つ。コンパイラの高速テーブル検索でもハッシュが使われる。
「チェックサム」では、データを一定のビット数で区切ってその総和を、送り側で計算してデータに付加しておく。これが「チェックサム」といわれるの由来。
受け側でこの「チェックサム」を除く、純データの「チェックサム」を計算し直し、付き合わせることでデータの同一性をかなりの高確率で保証できる。

In [None]:
import hashlib
# fname="test_file - コピー"
fname="test_file"
# fname="haikei_2.ipynb"
with open(fname, 'rb') as f:
    checksum = hashlib.md5(f.read()).hexdigest()
checksum

## ファイルパス

In [None]:
import os

working_dir = 'C:\\Users\\mineo\\Anaconda3\\envs\\mine01'
file_list = []
for root, dirs, files in os.walk(working_dir):
    for filename in files:
        file_list.append(os.path.join(root, filename)) 
#     print(file_list)
#     df_list = [pd.read_table(file) for file in file_list]
#     if df_list:
#         final_df = pd.concat(df_list) 
#         final_df.to_csv(os.path.join(root, "Final.csv"))
file_list

In [None]:
len(file_list)

## 合成

In [None]:
hikaku_1=set()
for i in file_list:
    hikaku_1.add(i[0]+"_____hash_____"+i[1])

In [None]:
hikaku_1

In [None]:
len(hikaku_1)

## 重複ファイルの確認
ハッシュでソートして、同じハッシュのファイルを表示する

In [88]:
df.sort_values(by=["checksum"], inplace=True, ascending=False)
df=df.reset_index( drop = True )

In [89]:
df1=df.apply(pd.value_counts)

In [90]:
df2=df1.loc[(df1["checksum"] > 1)]

In [93]:
pd.set_option("display.max_colwidth", 80)
df3=df.loc[(df["checksum"] == df2.index[10])]
df3["path"]


7272    D:\新しいフォルダー\DCIM\101APPLE\IMG_4907.JPG
7273        D:\新しいフォルダー\Downloads\IMG_4907.JPG
Name: path, dtype: object