# Arquivos duplicados

In [42]:
# Essa versão é mais fidedigna pois concatena o nome do arquivo + tamanho + data de modificação

import os
import datetime
import pandas as pd

# Define a função para obter a data de modificação do arquivo
def get_modification_date(file_path):
    modification_time = os.path.getmtime(file_path)
    return datetime.datetime.fromtimestamp(modification_time).strftime('%Y-%m-%d')  # Formata a data como 'ano-mes-dia'

# Define a função para listar os arquivos e obter seus atributos
def list_files(directory):
    file_list = []
    for root, _, files in os.walk(directory):
        for file in files:
            file_path = os.path.join(root, file)
            file_name, file_extension = os.path.splitext(file)
            file_size = os.path.getsize(file_path)
            file_modification_date = get_modification_date(file_path)
            file_list.append((file_name, file_extension, file_size, file_modification_date, file_path))
    return file_list

# Define a função para encontrar arquivos duplicados
def duplicados(directory):
    files = list_files(directory)
    df = pd.DataFrame(files, columns=['Nome do Arquivo', 'Extensão', 'Tamanho (KB)', 'Data de Modificação', 'Caminho Completo'])
    df['Concatenado'] = df['Nome do Arquivo'] + '_' + df['Tamanho (KB)'].astype(str) + '_' + df['Data de Modificação']
    duplicate_files = df[df.duplicated(subset=['Concatenado'], keep=False)]
    return duplicate_files

# Diretório que deseja analisar
directory = r'C:\Users\fallg\Documents'

# Encontra arquivos duplicados e exibe o DataFrame
df_duplicados = duplicados(directory)

In [43]:
df_duplicados.head(3)

Unnamed: 0,Nome do Arquivo,Extensão,Tamanho (KB),Data de Modificação,Caminho Completo,Concatenado
133,desktop,.ini,116,2023-10-08,C:\Users\fallg\Documents\Computação e Robótica...,desktop_116_2023-10-08
251,VIDEO_TS,.BUP,12288,2009-05-07,C:\Users\fallg\Documents\dica matematica\Conju...,VIDEO_TS_12288_2009-05-07
252,VIDEO_TS,.IFO,12288,2009-05-07,C:\Users\fallg\Documents\dica matematica\Conju...,VIDEO_TS_12288_2009-05-07


In [44]:
# Exemplo de arquivo que vieram várias vezes
df_duplicados[df_duplicados['Nome do Arquivo']=='desktop']

Unnamed: 0,Nome do Arquivo,Extensão,Tamanho (KB),Data de Modificação,Caminho Completo,Concatenado
133,desktop,.ini,116,2023-10-08,C:\Users\fallg\Documents\Computação e Robótica...,desktop_116_2023-10-08
315,desktop,.ini,116,2023-10-08,C:\Users\fallg\Documents\Documentos\desktop.ini,desktop_116_2023-10-08
341,desktop,.ini,81,2023-12-12,C:\Users\fallg\Documents\Fax\Drafts\desktop.ini,desktop_81_2023-12-12
342,desktop,.ini,81,2023-12-12,C:\Users\fallg\Documents\Fax\Inbox\desktop.ini,desktop_81_2023-12-12
475,desktop,.ini,81,2023-12-12,C:\Users\fallg\Documents\Scanned Documents\des...,desktop_81_2023-12-12


In [45]:
# Quantificar quais arquivos tem quantas vezes
df_duplicados['Nome do Arquivo'].value_counts()

Nome do Arquivo
VIDEO_TS                                              12
VTS_01_0                                              12
desktop                                                5
VTS_01_1                                               2
VTS_01_2                                               2
VTS_01_3                                               2
CEEE 202312DEZ                                         2
CNH KAREN                                              2
Fabiano Allgayer CNH                                   2
76774635091-IRPF-2023-2022-origi-imagem-declaracao     2
Name: count, dtype: int64

In [46]:
# conferir o que indicou ter só uma duplicidade
df_duplicados[df_duplicados['Nome do Arquivo']=='Fabiano Allgayer CNH']

Unnamed: 0,Nome do Arquivo,Extensão,Tamanho (KB),Data de Modificação,Caminho Completo,Concatenado
316,Fabiano Allgayer CNH,.pdf,109530,2024-01-10,C:\Users\fallg\Documents\Documentos\Fabiano Al...,Fabiano Allgayer CNH_109530_2024-01-10
398,Fabiano Allgayer CNH,.pdf,109530,2024-01-10,C:\Users\fallg\Documents\Karen\Estética\Enviar...,Fabiano Allgayer CNH_109530_2024-01-10


In [47]:
# Lista sem duplicidade
df_duplicados['Nome do Arquivo'].unique()

array(['desktop', 'VIDEO_TS', 'VTS_01_0', 'VTS_01_1', 'VTS_01_2',
       'VTS_01_3', 'CEEE 202312DEZ', 'CNH KAREN', 'Fabiano Allgayer CNH',
       '76774635091-IRPF-2023-2022-origi-imagem-declaracao'], dtype=object)

In [48]:
df_duplicados.head(3)

Unnamed: 0,Nome do Arquivo,Extensão,Tamanho (KB),Data de Modificação,Caminho Completo,Concatenado
133,desktop,.ini,116,2023-10-08,C:\Users\fallg\Documents\Computação e Robótica...,desktop_116_2023-10-08
251,VIDEO_TS,.BUP,12288,2009-05-07,C:\Users\fallg\Documents\dica matematica\Conju...,VIDEO_TS_12288_2009-05-07
252,VIDEO_TS,.IFO,12288,2009-05-07,C:\Users\fallg\Documents\dica matematica\Conju...,VIDEO_TS_12288_2009-05-07


In [None]:
# Define a função para listar os arquivos e obter seus atributos
def list_files(directory):
    file_list = []
    for root, _, files in os.walk(directory):
        for file in files:
            file_path = os.path.join(root, file)
            file_name, file_extension = os.path.splitext(file)
            file_size = os.path.getsize(file_path)
            file_modification_date = get_modification_date(file_path)
            file_list.append((file_name, file_extension, file_size, file_modification_date, file_path))
    return file_list

In [49]:
# Diretório que deseja analisar
directory = r'C:\TESTE'

# Encontra arquivos duplicados e exibe o DataFrame
confere = list_files(directory)

In [None]:
# O array está com 5 colunas para cada arquivo, deste é preciso montar um df indicando o nome das colunas

In [52]:
confere

[('Arquivo para correlacao',
  '.csv',
  30690,
  '2024-02-04',
  'C:\\TESTE\\Arquivo para correlacao.csv'),
 ('Arquivo para correlacao',
  '.xlsx',
  63741,
  '2024-02-04',
  'C:\\TESTE\\Arquivo para correlacao.xlsx'),
 ('teste vscode', '.py', 23, '2024-03-17', 'C:\\TESTE\\teste vscode.py'),
 ('x (1)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (1).csv'),
 ('x (10)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (10).csv'),
 ('x (11)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (11).csv'),
 ('x (12)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (12).csv'),
 ('x (13)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (13).csv'),
 ('x (14)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (14).csv'),
 ('x (15)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (15).csv'),
 ('x (16)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (16).csv'),
 ('x (17)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (17).csv'),
 ('x (18)', '.csv', 19028, '2023-08-14', 'C:\\TESTE\\x (18).csv'),
 ('x (19)', '.csv', 19028, '2023-08-14

In [53]:
    files = list_files(directory)
    df = pd.DataFrame(files, columns=['Nome do Arquivo', 'Extensão', 'Tamanho (KB)', 'Data de Modificação', 'Caminho Completo'])

In [54]:
df

Unnamed: 0,Nome do Arquivo,Extensão,Tamanho (KB),Data de Modificação,Caminho Completo
0,Arquivo para correlacao,.csv,30690,2024-02-04,C:\TESTE\Arquivo para correlacao.csv
1,Arquivo para correlacao,.xlsx,63741,2024-02-04,C:\TESTE\Arquivo para correlacao.xlsx
2,teste vscode,.py,23,2024-03-17,C:\TESTE\teste vscode.py
3,x (1),.csv,19028,2023-08-14,C:\TESTE\x (1).csv
4,x (10),.csv,19028,2023-08-14,C:\TESTE\x (10).csv
5,x (11),.csv,19028,2023-08-14,C:\TESTE\x (11).csv
6,x (12),.csv,19028,2023-08-14,C:\TESTE\x (12).csv
7,x (13),.csv,19028,2023-08-14,C:\TESTE\x (13).csv
8,x (14),.csv,19028,2023-08-14,C:\TESTE\x (14).csv
9,x (15),.csv,19028,2023-08-14,C:\TESTE\x (15).csv


In [58]:
# Listar em df para ser deletado
deletar = df[df['Nome do Arquivo'].str.contains(pat = 'arquivo_saida')]

In [59]:
deletar

Unnamed: 0,Nome do Arquivo,Extensão,Tamanho (KB),Data de Modificação,Caminho Completo
35,arquivo_saida_1,.csv,3003,2023-09-07,C:\TESTE\pasta_saida\arquivo_saida_1.csv
36,arquivo_saida_2,.csv,3187,2023-09-07,C:\TESTE\pasta_saida\arquivo_saida_2.csv
37,arquivo_saida_3,.csv,3222,2023-09-07,C:\TESTE\pasta_saida\arquivo_saida_3.csv
38,arquivo_saida_4,.csv,3235,2023-09-07,C:\TESTE\pasta_saida\arquivo_saida_4.csv
39,arquivo_saida_5,.csv,3189,2023-09-07,C:\TESTE\pasta_saida\arquivo_saida_5.csv
40,arquivo_saida_6,.csv,3223,2023-09-07,C:\TESTE\pasta_saida\arquivo_saida_6.csv


In [60]:
# Para deletar arquivos com o caminho completo
import os
import pandas as pd

def delete_files_from_dataframe(df):
    for index, row in df.iterrows():
        try:
            file_path = row['Caminho Completo']
            os.remove(file_path)
            print(f"Arquivo {file_path} deletado com sucesso!")
        except OSError as e:
            print(f"Erro ao deletar o arquivo {file_path}: {e}")


# Chama a função para deletar os arquivos
delete_files_from_dataframe(deletar)


Arquivo C:\TESTE\pasta_saida\arquivo_saida_1.csv deletado com sucesso!
Arquivo C:\TESTE\pasta_saida\arquivo_saida_2.csv deletado com sucesso!
Arquivo C:\TESTE\pasta_saida\arquivo_saida_3.csv deletado com sucesso!
Arquivo C:\TESTE\pasta_saida\arquivo_saida_4.csv deletado com sucesso!
Arquivo C:\TESTE\pasta_saida\arquivo_saida_5.csv deletado com sucesso!
Arquivo C:\TESTE\pasta_saida\arquivo_saida_6.csv deletado com sucesso!
