<a href="https://colab.research.google.com/github/dautonbh/3-Mini-Python-Projects/blob/main/Duplicados_android.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [7]:

import os
import mimetypes
import pandas as pd
import hashlib
import fitz  # PyMuPDF para manipular PDFs
import matplotlib.pyplot as plt

# Função para listar arquivos e pastas por tipo
def listar_arquivos_e_pastas(caminho_base):
     '/Cartão SD/Docs/Pasta 1.2'
     arquivos_por_tipo = {}

    for root, dirs, files in os.walk(caminho_base):
        for nome_arquivo in files:
            caminho_completo = os.path.join(root, nome_arquivo)
            tipo_arquivo, _ = mimetypes.guess_type(caminho_completo)

            if tipo_arquivo not in arquivos_por_tipo:
                arquivos_por_tipo[tipo_arquivo] = []

            arquivos_por_tipo[tipo_arquivo].append(caminho_completo)

    return arquivos_por_tipo

# Função para calcular hash de um arquivo (MD5 por exemplo)
def calcular_hash_arquivo(caminho_arquivo, algoritmo='md5'):
    hash_algoritmo = hashlib.new(algoritmo)
    with open(caminho_arquivo, 'rb') as f:
        while chunk := f.read(8192):
            hash_algoritmo.update(chunk)
    return hash_algoritmo.hexdigest()

# Função para identificar duplicados em uma pasta
def identificar_arquivos_duplicados(caminho_base):
    arquivos_info = []

    for root, dirs, files in os.walk(caminho_base):
        for nome_arquivo in files:
            caminho_completo = os.path.join(root, nome_arquivo)
            tamanho_arquivo = os.path.getsize(caminho_completo)
            hash_arquivo = calcular_hash_arquivo(caminho_completo)

            arquivos_info.append((nome_arquivo, tamanho_arquivo, hash_arquivo, caminho_completo))

    arquivos_df = pd.DataFrame(arquivos_info, columns=['Nome', 'Tamanho', 'Hash', 'Caminho'])

    # Identificar duplicados com base no Hash
    duplicados = arquivos_df[arquivos_df.duplicated(subset='Hash', keep=False)]

    return duplicados

# Função para contar arquivos de um tipo específico (ex: PDF)
def contar_arquivos_por_tipo(caminho_base, tipo_alvo='.pdf'):
    arquivos_pdf = []

    for root, dirs, files in os.walk(caminho_base):
        for nome_arquivo in files:
            if nome_arquivo.lower().endswith(tipo_alvo):
                caminho_completo = os.path.join(root, nome_arquivo)
                arquivos_pdf.append(caminho_completo)

    return arquivos_pdf

# Função para salvar lista de arquivos em CSV
def salvar_arquivos_csv(arquivos, caminho_csv):
    df = pd.DataFrame(arquivos, columns=['Caminho'])
    df['Número'] = range(1, len(arquivos) + 1)
    df.to_csv(caminho_csv, index=False)
    return df

# Função para visualizar prévia da primeira página de arquivos PDF duplicados
def visualizar_arquivos_duplicados(arquivos):
    for arquivo in arquivos:
        try:
            # Abre o PDF e extrai a primeira página
            doc = fitz.open(arquivo)
            pagina = doc.load_page(0)
            imagem = pagina.get_pixmap()
            plt.imshow(imagem.get_pil_image())
            plt.title(f"Prévia do arquivo: {os.path.basename(arquivo)}")
            plt.show()
            doc.close()
        except Exception as e:
            print(f"Erro ao processar {arquivo}: {e}")

# Exemplo de execução
# Aqui você insere o caminho da pasta no Android
caminho_base = '/storage/emulated/0/Download'  # Insira o caminho da pasta aqui

# Exemplo de listar arquivos
arquivos_enumerados = listar_arquivos_e_pastas(caminho_base)
print("Arquivos por tipo:")
for tipo, arquivos in arquivos_enumerados.items():
    print(f"Tipo: {tipo}, Total: {len(arquivos)}")
    for arquivo in arquivos:
        print(f"  - {arquivo}")

# Exemplo de identificar arquivos import osimport mimetypesimport pandas as pdimport hashlibimport fitz  # PyMuPDF para manipular PDFsimport matplotlib.pyplot as plt
# Função para listar arquivos e pastas por tipodef listar_arquivos_e_pastas(caminho_base): '/Cartão SD/Docs/Pasta 1.2'    arquivos_por_tipo = {}
    for root, dirs, files in os.walk(caminho_base):        for nome_arquivo in files:            caminho_completo = os.path.join(root, nome_arquivo)            tipo_arquivo, _ = mimetypes.guess_type(caminho_completo)                        if tipo_arquivo not in arquivos_por_tipo:                arquivos_por_tipo[tipo_arquivo] = []                        arquivos_por_tipo[tipo_arquivo].append(caminho_completo)
    return arquivos_por_tipo
# Função para calcular hash de um arquivo (MD5 por exemplo)def calcular_hash_arquivo(caminho_arquivo, algoritmo='md5'):    hash_algoritmo = hashlib.new(algoritmo)    with open(caminho_arquivo, 'rb') as f:        while chunk := f.read(8192):            hash_algoritmo.update(chunk)    return hash_algoritmo.hexdigest()
# Função para identificar duplicados em uma pastadef identificar_arquivos_duplicados(caminho_base):    arquivos_info = []        for root, dirs, files in os.walk(caminho_base):        for nome_arquivo in files:            caminho_completo = os.path.join(root, nome_arquivo)            tamanho_arquivo = os.path.getsize(caminho_completo)            hash_arquivo = calcular_hash_arquivo(caminho_completo)                        arquivos_info.append((nome_arquivo, tamanho_arquivo, hash_arquivo, caminho_completo))        arquivos_df = pd.DataFrame(arquivos_info, columns=['Nome', 'Tamanho', 'Hash', 'Caminho'])        # Identificar duplicados com base no Hash    duplicados = arquivos_df[arquivos_df.duplicated(subset='Hash', keep=False)]        return duplicados
# Função para contar arquivos de um tipo específico (ex: PDF)def contar_arquivos_por_tipo(caminho_base, tipo_alvo='.pdf'):    arquivos_pdf = []        for root, dirs, files in os.walk(caminho_base):        for nome_arquivo in files:            if nome_arquivo.lower().endswith(tipo_alvo):                caminho_completo = os.path.join(root, nome_arquivo)                arquivos_pdf.append(caminho_completo)        return arquivos_pdf
# Função para salvar lista de arquivos em CSVdef salvar_arquivos_csv(arquivos, caminho_csv):    df = pd.DataFrame(arquivos, columns=['Caminho'])    df['Número'] = range(1, len(arquivos) + 1)    df.to_csv(caminho_csv, index=False)    return df
# Função para visualizar prévia da primeira página de arquivos PDF duplicadosdef visualizar_arquivos_duplicados(arquivos):    for arquivo in arquivos:        try:            # Abre o PDF e extrai a primeira página            doc = fitz.open(arquivo)            pagina = doc.load_page(0)            imagem = pagina.get_pixmap()            plt.imshow(imagem.get_pil_image())            plt.title(f"Prévia do arquivo: {os.path.basename(arquivo)}")            plt.show()            doc.close()        except Exception as e:            print(f"Erro ao processar {arquivo}: {e}")
# Exemplo de execução# Aqui você insere o caminho da pasta no Androidcaminho_base = '/storage/emulated/0/Download'  # Insira o caminho da pasta aqui
# Exemplo de listar arquivosarquivos_enumerados = listar_arquivos_e_pastas(caminho_base)print("Arquivos por tipo:")for tipo, arquivos in arquivos_enumerados.items():    print(f"Tipo: {tipo}, Total: {len(arquivos)}")    for arquivo in arquivos:        print(f"  - {arquivo}")
# Exemplo de identificar arquivos duplicadosarquivos_duplicados = identificar_arquivos_duplicados(caminho_base)print("Arquivos duplicados encontrados:")print(arquivos_duplicados)
# Exemplo de contar e salvar PDFsarquivos_pdf = contar_arquivos_por_tipo(caminho_base, '.pdf')caminho_csv = 'arquivos_pdf.csv'df_arquivos_pdf = salvar_arquivos_csv(arquivos_pdf, caminho_csv)
import osimport mimetypesimport pandas as pdimport hashlibimport fitz  # PyMuPDF para manipular PDFsimport matplotlib.pyplot as plt
# Função para listar arquivos e pastas por tipodef listar_arquivos_e_pastas(caminho_base): '/Cartão SD/Docs/Pasta 1.2'    arquivos_por_tipo = {}
    for root, dirs, files in os.walk(caminho_base):        for nome_arquivo in files:            caminho_completo = os.path.join(root, nome_arquivo)            tipo_arquivo, _ = mimetypes.guess_type(caminho_completo)                        if tipo_arquivo not in arquivos_por_tipo:                arquivos_por_tipo[tipo_arquivo] = []                        arquivos_por_tipo[tipo_arquivo].append(caminho_completo)
    return arquivos_por_tipo
# Função para calcular hash de um arquivo (MD5 por exemplo)def calcular_hash_arquivo(caminho_arquivo, algoritmo='md5'):    hash_algoritmo = hashlib.new(algoritmo)    with open(caminho_arquivo, 'rb') as f:        while chunk := f.read(8192):            hash_algoritmo.update(chunk)    return hash_algoritmo.hexdigest()
# Função para identificar duplicados em uma pastadef identificar_arquivos_duplicados(caminho_base):    arquivos_info = []        for root, dirs, files in os.walk(caminho_base):        for nome_arquivo in files:            caminho_completo = os.path.join(root, nome_arquivo)            tamanho_arquivo = os.path.getsize(caminho_completo)            hash_arquivo = calcular_hash_arquivo(caminho_completo)                        arquivos_info.append((nome_arquivo, tamanho_arquivo, hash_arquivo, caminho_completo))        arquivos_df = pd.DataFrame(arquivos_info, columns=['Nome', 'Tamanho', 'Hash', 'Caminho'])        # Identificar duplicados com base no Hash    duplicados = arquivos_df[arquivos_df.duplicated(subset='Hash', keep=False)]        return duplicados
# Função para contar arquivos de um tipo específico (ex: PDF)def contar_arquivos_por_tipo(caminho_base, tipo_alvo='.pdf'):    arquivos_pdf = []        for root, dirs, files in os.walk(caminho_base):        for nome_arquivo in files:            if nome_arquivo.lower().endswith(tipo_alvo):                caminho_completo = os.path.join(root, nome_arquivo)                arquivos_pdf.append(caminho_completo)        return arquivos_pdf
# Função para salvar lista de arquivos em CSVdef salvar_arquivos_csv(arquivos, caminho_csv):    df = pd.DataFrame(arquivos, columns=['Caminho'])    df['Número'] = range(1, len(arquivos) + 1)    df.to_csv(caminho_csv, index=False)    return df
# Função para visualizar prévia da primeira página de arquivos PDF duplicadosdef visualizar_arquivos_duplicados(arquivos):    for arquivo in arquivos:        try:            # Abre o PDF e extrai a primeira página            doc = fitz.open(arquivo)            pagina = doc.load_page(0)            imagem = pagina.get_pixmap()            plt.imshow(imagem.get_pil_image())            plt.title(f"Prévia do arquivo: {os.path.basename(arquivo)}")            plt.show()            doc.close()        except Exception as e:            print(f"Erro ao processar {arquivo}: {e}")
# Exemplo de execução# Aqui você insere o caminho da pasta no Androidcaminho_base = '/storage/emulated/0/Download'  # Insira o caminho da pasta aqui
# Exemplo de listar arquivosarquivos_enumerados = listar_arquivos_e_pastas(caminho_base)print("Arquivos por tipo:")for tipo, arquivos in arquivos_enumerados.items():    print(f"Tipo: {tipo}, Total: {len(arquivos)}")    for arquivo in arquivos:        print(f"  - {arquivo}")
# Exemplo de identificar arquivos duplicadosarquivos_duplicados = identificar_arquivos_duplicados(caminho_base)print("Arquivos duplicados encontrados:")print(arquivos_duplicados)
# Exemplo de contar e salvar PDFsarquivos_pdf = contar_arquivos_por_tipo(caminho_base, '.pdf')caminho_csv = 'arquivos_pdf.csv'df_arquivos_pdf = salvar_arquivos_csv(arquivos_pdf, caminho_csv)print(f"Lista de PDFs salva em: {caminho_csv}")
# Visualizar prévias de PDFsvisualizar_arquivos_duplicados(arquivos_pdf[:5])  # Exibe prévias de 5 arquivos PDF(f"Lista de PDFs salva em: {caminho_csv}")
# Visualizar prévias de PDFsvisualizar_arquivos_duplicados(arquivos_pdf[:5])  # Exibe prévias de 5 arquivos PDF
arquivos_duplicados = identificar_arquivos_duplicados(caminho_base)
print("Arquivos duplicados encontrados:")
print(arquivos_duplicados)

# Exemplo de contar e salvar PDFs
arquivos_pdf = contar_arquivos_por_tipo(caminho_base, '.pdf')
caminho_csv = 'arquivos_pdf.csv'
df_arquivos_pdf = salvar_arquivos_csv(arquivos_pdf, caminho_csv)
print(f"Lista de PDFs salva em: {caminho_csv}")

# Visualizar prévias de PDFs
visualizar_arquivos_duplicados(arquivos_pdf[:5])  # Exibe prévias de 5 arquivos PDF

IndentationError: unindent does not match any outer indentation level (<tokenize>, line 13)