In [5]:
import os
import shutil
import torch
import torchvision.transforms as transforms
from torchvision.datasets import ImageFolder
from torchvision import models
from sklearn.cluster import KMeans
from torch.utils.data import DataLoader
import numpy as np
from tqdm import tqdm
from PIL import ImageFile


ImageFile.LOAD_TRUNCATED_IMAGES = True

# 设置图片预处理步骤
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

def jpg_mean(path, n_clusters=10):
    # 加载图片
    dataset = ImageFolder(path, transform=transform)
    dataloader = DataLoader(dataset, batch_size=64, shuffle=False)

    # 使用预训练的 ResNet50 模型
    model = models.resnet50(pretrained=True)
    # model = model.to('cuda')
    model.eval()

    # 提取图片特征
    features = []
    for inputs, _ in tqdm(dataloader):
        # inputs = inputs.to('cuda')
        with torch.no_grad():
            outputs = model(inputs)
        features.append(outputs.cpu().numpy())

    features = np.concatenate(features)

    # 使用 K-means 进行聚类
    kmeans = KMeans(n_clusters=n_clusters, random_state=0).fit(features)

    # 打印聚类结果
    # print(kmeans.labels_)

    # 提取图片路径
    image_paths = [item[0] for item in dataset.samples]

    # 创建新的文件夹
    for label in set(kmeans.labels_):
        os.makedirs(f'{path}\\cluster_{label}', exist_ok=True)
    #     print(f'{path}\\cluster_{label}')

    # 将图片移到新的文件夹
    for image_path, label in zip(image_paths, kmeans.labels_):
        shutil.move(image_path,f'{path}\\cluster_{label}/{os.path.basename(image_path)}')


jpg_mean(r'Y:\Photo\iphone_photo(1-14)_re', 20)
# path_list = [r'Z:\Photo\Saved Pictures_re\长图', ]
# for path in path_list:
#     jpg_mean(path)

100%|██████████| 79/79 [04:14<00:00,  3.22s/it]


In [1]:
import sys
import os

# 确定项目根目录（假设当前工作目录是项目的根目录）
project_root = os.path.abspath("..")
sys.path.insert(0, project_root)

from tools.FileOperations import compress_folder

compress_folder(r'Q:\Project\Celestial-Chess\ai\train_data')

100%|██████████| 4/4 [00:00<00:00,  8.44it/s]


[]

In [3]:

import sys
import os

# 确定项目根目录（假设当前工作目录是项目的根目录）
project_root = os.path.abspath("..")
sys.path.insert(0, project_root)

from tools.FileOperations import detect_identical_files, duplicate_files_report, move_identical_files, print_directory_structure
# Example usage:
directory_path = r'Q:\Project\CelestialVault'
# identical_files = detect_identical_files(directory_path)
# print(duplicate_files_report(identical_files))
print_directory_structure(directory_path, exclude_dirs=['.git', '__pycache__', '.pytest_cache'])


📄 .gitignore       	(188 bytes)
📁 constants/
    🐍 constant.py       	(39636 bytes)
    🐍 regex_patterns.py 	(2207 bytes)
    🐍 suffers.py        	(1166 bytes)
    🐍 __init__.py       	(131 bytes)
📁 docs/
    📝 usage.md 	(0 bytes)
📁 instances/
    🐍 inst_fetch.py      	(3094 bytes)
    🐍 inst_findiff.py    	(6068 bytes)
    🐍 inst_imgEncoder.py 	(7834 bytes)
    🐍 inst_network.py    	(9307 bytes)
    🐍 inst_queue.py      	(2911 bytes)
    🐍 inst_save.py       	(4352 bytes)
    🐍 inst_sub.py        	(3232 bytes)
    🐍 my_thread.py       	(16262 bytes)
    🐍 __init__.py        	(425 bytes)
📁 logs/
    📄 thread_manager(2024-05-16).log 	(26165 bytes)
    📄 thread_manager(2024-06-07).log 	(0 bytes)
    📄 thread_manager(2024-06-13).log 	(63 bytes)
    📄 thread_manager(2024-06-14).log 	(3001 bytes)
📄 pytest.ini       	(209 bytes)
📝 README.md        	(3456 bytes)
🗒️ requirements.txt 	(222 bytes)
🐍 setup.py         	(333 bytes)
📁 tests/
    🐍 conftest.py            	(768 bytes)
    🐍 test_FileO

In [4]:
move_identical_files(identical_files, directory_path + '\\duplicate')

Moved: Q:\Project\test\0.jpg -> Q:\Project\test\duplicate\cde27280cedbe9c35933844f68a175f1713404397b0d3b170445eaeca60eb037\0.jpg
Error moving Q:\Project\test\test_jpg\0.jpg to Q:\Project\test\duplicate\cde27280cedbe9c35933844f68a175f1713404397b0d3b170445eaeca60eb037\0.jpg: [WinError 183] Cannot create a file when that file already exists: 'Q:\\Project\\test\\test_jpg\\0.jpg' -> 'Q:\\Project\\test\\duplicate\\cde27280cedbe9c35933844f68a175f1713404397b0d3b170445eaeca60eb037\\0.jpg'
Moved: Q:\Project\test\text_img(rgba) - Copy.png -> Q:\Project\test\duplicate\547420e15b18362bf10ad95922351bf9e23ceb00da9818edc8466f6d040782e9\text_img(rgba) - Copy.png
Moved: Q:\Project\test\text_img(rgba).png -> Q:\Project\test\duplicate\547420e15b18362bf10ad95922351bf9e23ceb00da9818edc8466f6d040782e9\text_img(rgba).png
Moved: Q:\Project\test\text_img(rgba).txt -> Q:\Project\test\duplicate\7f83b1657ff1fc53b92dc18148a1d65dfc2d4b1fa3d677284addd200126d9069\text_img(rgba).txt
Moved: Q:\Project\test\text_img.txt 

[(WindowsPath('Q:/Project/test/0.jpg'),
  WindowsPath('Q:/Project/test/duplicate/cde27280cedbe9c35933844f68a175f1713404397b0d3b170445eaeca60eb037/0.jpg')),
 (WindowsPath('Q:/Project/test/text_img(rgba) - Copy.png'),
  WindowsPath('Q:/Project/test/duplicate/547420e15b18362bf10ad95922351bf9e23ceb00da9818edc8466f6d040782e9/text_img(rgba) - Copy.png')),
 (WindowsPath('Q:/Project/test/text_img(rgba).png'),
  WindowsPath('Q:/Project/test/duplicate/547420e15b18362bf10ad95922351bf9e23ceb00da9818edc8466f6d040782e9/text_img(rgba).png')),
 (WindowsPath('Q:/Project/test/text_img(rgba).txt'),
  WindowsPath('Q:/Project/test/duplicate/7f83b1657ff1fc53b92dc18148a1d65dfc2d4b1fa3d677284addd200126d9069/text_img(rgba).txt')),
 (WindowsPath('Q:/Project/test/text_img.txt'),
  WindowsPath('Q:/Project/test/duplicate/7f83b1657ff1fc53b92dc18148a1d65dfc2d4b1fa3d677284addd200126d9069/text_img.txt'))]

In [5]:
keys_to_select = [("735c2257fa1cfef50f3840fa91fd9602237a1a147fb70848587e68f849f4ad39", 16681 )]

new_dict = {key: identical_files[key] for key in keys_to_select if key in identical_files}
new_dict

{('735c2257fa1cfef50f3840fa91fd9602237a1a147fb70848587e68f849f4ad39',
  16681): [WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.001/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.002/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.003/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.004/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.005/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.006/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.007/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.008/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.009/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.010/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.011/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.012/网盘资源分享页.html'), WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/VOL/轻兰映画 VOL.001/网盘资源分享页.html'), WindowsPa

In [6]:
from tools.FileOperations import delete_identical_files

delete_list = delete_identical_files(new_dict)

Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.001\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.002\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.003\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.004\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.005\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.006\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.007\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.008\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.009\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.010\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.011\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\SPL\轻兰映画 SPL.012\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\VOL\轻兰映画 VOL.001\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\VOL\轻兰映画 VOL.002\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\VOL\轻兰映画 VOL.003\网盘资源分享页.html
Deleted: Y:\Photo\文件夹\人物_re\轻兰映画\VOL\轻兰映画 VOL.004\网盘资源分

[WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.001/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.002/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.003/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.004/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.005/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.006/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.007/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.008/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.009/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.010/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.011/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/SPL/轻兰映画 SPL.012/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/VOL/轻兰映画 VOL.001/网盘资源分享页.html'),
 WindowsPath('Y:/Photo/文件夹/人物_re/轻兰映画/VOL/轻兰映画 VOL.002/网盘资源分享页.html'),
 Windo

In [2]:
import timeit
from tools.FileOperations import detect_identical_files_v1, detect_identical_files_v2


directory_path = r'Q:\Project\test'

# Measure time for the first method
time_v1 = timeit.timeit(lambda: detect_identical_files_v1(directory_path), number=10)
print(f"Time for method v1: {time_v1:.4f} seconds")

# Measure time for the second method
time_v2 = timeit.timeit(lambda: detect_identical_files_v2(directory_path), number=10)
print(f"Time for method v2: {time_v2:.4f} seconds")

Time for method v1: 0.1008 seconds
Time for method v2: 0.0472 seconds


In [3]:
import sys
import os

# 确定项目根目录（假设当前工作目录是项目的根目录）
project_root = os.path.abspath("..")
sys.path.insert(0, project_root)

from instances.inst_sub import Suber

s = Suber()
s.clear_books(r'Y:\Book\小说\H小说\网络搜集\新建文件夹')

100%|██████████| 2/2 [00:02<00:00,  1.07s/it]


[]

In [1]:
import string

string.printable

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [2]:
len(string.printable)

100

In [4]:
import sys
import os

# 确定项目根目录（假设当前工作目录是项目的根目录）
project_root = os.path.abspath("..")
sys.path.insert(0, project_root)

from tools.TextTools import is_valid_chinese_text, is_valid_text

text = """
关于Edge浏览器强制将http协议转化为https协议导致http网站无法打开的问题

杨天yangtian

于 2023-11-03 20:43:57 发布

阅读量5k
 收藏 3

点赞数 2
文章标签： edge 前端
版权

GitCode 开源社区
文章已被社区收录
加入社区
解决方法如下：

1.在Edge地址栏中输入

edge://net-internals/#hsts
在最下面那一栏输入你要登陆的网站的源地址



这样子edge就不会强制转化http协议了

文章知识点与官方知识档案匹配，可进一步学习相关知识
网络技能树支撑应用程序的协议HTTP协议46440 人正在系统学习中

杨天yangtian
关注

2


3
觉得还不错?
一键收藏


1

IE已经合并进Edge浏览器的解决办法，打开IE自动跳转到Edge浏览器的解决办法
01-30
5. **关闭IE网站在Edge中打开的选项**：在默认浏览器设置中，找到有关“让Internet Explorer在Microsoft Edge中打开网站”的选项，将这个设置改为“从不”。这样，当你尝试打开IE时，就不会再被自动重定向到Edge。 ...
解决win7系统无法安装edge浏览器问题
04-19
正常win7系统是无法安装edge浏览器的，缺东西。 解决办法就是安装NETFramework4.8后才可以安装edge浏览器 但是NETFramework4.8正常是无法安装，解决办法是安装证书 安装net-framework4.8弹出“已处理证书链,但是在不...
Edge浏览器http自动跳转https
lsfff666的博客
 1741
解决“Edge浏览器http自动跳转https”问题
Edge浏览器http自动变https
最新发布
zhy_123456_qaq的博客
 440
刚遇到个问题，edge浏览器清完缓存后，会将http自动转成https，手动更改也会自动跳成https。解决：1、打开浏览器输入edge://settings/searchFilters。2、进入后手动关闭下图这里。
Edge、Chrome 强制跳转 https 网页解决办法
追殇 | Blog
 5624
本文源码：https://github.com/chen2438/chenhaotian.top/tree/main/source/_posts/windows/edge-force-https.md在我的博客上查看：https://chenhaotian.top/2023/04/11/windows/edge-force-https/
https网站无法正常访问，显示hsts相关协议
Nathan's Blog
 3063
前言 今天更新博客文章，一如往常的更新好推送部署访问https://www.little-demon.cn 的时候出现了相关hsts错误导致了无法正常网站，而且清理浏览器缓存后也无法正常访问。经过百度的搜索查找后，找到了解决方案，这里感谢大佬们的教程以及帮助支持，本文引用csdn-二黒黑黑技术文章。 步骤 1、这里我用的Micsoft Edge浏览器，在地址栏输入：edge://net-internals/#hsts 百度上的教程都是针对Chrome浏览器，同样也是在地址栏输入：chrome://ne
Edge/Chrome浏览器强制将http转https的解决方案
qq_30427333的博客
 1万+
Edge版本：120.0.2210.133 (正式版本) (64 位)（此时会自动转成https，这一步不能跳过，接下来继续）（不带http://前缀）（不带http://前缀）该版本下成功，仅供参考。（带http://前缀）
edge浏览器输入http自动跳转https，完美解决
weixin_57490191的博客
 6936
选择图中框起来的选择项，然后点击右下角的重启完美解决！
解决浏览器自动将http跳转至https导致无法访问的问题
Gopher
 1万+
最近在宝塔面板申请免费的SSL证书后，部署证书的80端口下的网站可以通过https正常访问，但其他未部署证书的端口也被强制跳转至https请求，导致浏览器提示不安全从而无法访问。宝塔的8888端口也不能访问，当时那是一个慌。在安装配置SSL证书时，可以使用一种能使数据传输更加安全的Web安全协议，即在服务器端上开启HSTS ，它会告诉浏览器只能通过HTTPS访问，而绝对禁止HTTP方式。因此，只要关闭浏览器的HSTS功能就可以解决这个问题，但是只能通过特定的方式，而不是清除浏览器缓存那么简单。
Chrome,Edge浏览器关闭http跳转https
Champagne_7的博客
 1万+
Chrome浏览器关闭HTTP跳转HTTPS 打开Chrome浏览器并输入 chrome://net-internals/#hsts 在浏览器地址栏中打开“网络内部”。 点击“删除域”按钮并在弹出窗口中输入需要删除的域名，然后点击“删除”。 刷新页面，浏览器将不再使用HSTS策略来重定向该域名到HTTPS协议。 Edge浏览器关闭HTTP跳转HTTPS 打开Edge浏览器并输入 edge://net-internals/#hsts 在浏览器地址栏中打开“网络内部”。 点击“删除域”按钮并在弹出窗口中
【日常总结】如何禁止浏览器 http自动跳转成https
ladymorgana的博客
 1万+
公司网站http://谷歌浏览器中自动转换成https://导致无法访问。 一、场景 二、问题 三、解决方案 3.1 chrome 浏览器 3.2 edge 浏览器： 3.3 Safari 浏览器 3.4 Firefox 浏览器
Edge浏览器驱动程序 python程序使用使用selenium打开浏览器访问网页
04-11
Edge浏览器驱动程序是微软开发的一款用于自动化测试和网页交互的工具，它允许程序员，特别是Python开发者，通过Selenium库来控制Microsoft Edge浏览器。Selenium是一个强大的Web自动化框架，广泛应用于功能测试、...
Remove Edge下载 v1.0 微软Edge浏览器一键强制卸载工具
03-12
它支持一键强制卸载Edge浏览器，同时还会自动扫描清理所有残留。双击启动工具，它默认勾选一起卸载WebView，建议用户取消勾选。 因为如今有部分软件，仍依赖WebView2，比如小组件、自带天气等。如果你平时不用小...
Microsoft Edge（微软edge浏览器）官方中文稳定版32位V91.0.864.70 | edge浏览器下载
07-17
Microsoft Edge浏览器是微软公司发布的一款不同于传统IE的新型网页浏览器，曾经叫Spartan浏览器，现在更名为Microsoft Edge Chrome，基于Chromium内核的全新Edge浏览器已经正式发布，交互界面更加简洁，还将兼容现有...
Edge或谷歌浏览器输入http的网址被强制转化为https，手工修改为http都无效
热门推荐
数字化转型高老师的专栏
 2万+
最近在阿里云上的负载均衡上配置SSL证书，由于ajax的跨域访问导致https无法正常访问，就取消了SSL证书的配置，但是发现浏览器里输入http的网址还是被强制转为为https. 手工试了很多遍也不行，就算删除浏览器的cookie数据还是把http的网址强制转化为https. 经过查阅资料终于找到解决方案。整个过程如下： 1. 浏览器地址栏里输入：chrome://net-internals/#hsts 然后回车，出现如下界面： 2.找到最下面的 Delete domain secur...
解决宝塔面板开启HTTS后，Edge不能访问的问题
pyddot的博客
 3178
宝塔开启HTTPS后，使用Edge访问，出现：“您目前无法访问xxxxx.com，因为此网站使用了HSTS”。 原因是宝塔使用了自签名的证书，Edge无法验证，按如下步骤即可解决。 打开一个新的Edge标签页，并在地址栏输入： edge://net-internals/#hsts 进入如下所示页面： 在最下面的“Delete domain security policies”一栏中，输入域名，然后点击“Delete”即可： 再次访问宝塔面板，Edge仍然会提示访问不安全，但是在“高级”
解决浏览器自动将http网址转https
hema12138的博客
 7855
一些域名无法连接的问题
如何在命令行中 使用msedge打开指定http
weixin_35755823的博客
 593
可以使用如下命令打开 Microsoft Edge 浏览器并加载指定的 URL： msedge http://example.com
edge浏览器ssl协议
05-17
Microsoft Edge浏览器支持以下SSL/TLS协议版本： 1. SSL 3.0 2. TLS 1.0 3. TLS 1.1 4. TLS 1.2 5. TLS 1.3 默认情况下，Edge浏览器会启用TLS 1.2和TLS 1.3协议版本，并且会禁用不安全的SSLv3和TLSv1.0协议版本。可以通过浏览器设置更改这些默认设置，但为了安全起见，建议使用最新的TLS协议版本。
关于我们
招贤纳士
商务合作
寻求报道

400-660-0108

kefu@csdn.net

在线客服
工作时间 8:30-22:00
公安备案号11010502030143
京ICP备19004658号
京网文〔2020〕1039-165号
经营性网站备案信息
北京互联网违法和不良信息举报中心
家长监护
网络110报警服务
中国互联网举报中心
Chrome商店下载
账号管理规范
版权与免责声明
版权申诉
出版物许可证
营业执照

————————————————

                            版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
                        
原文链接：https://blog.csdn.net/qq_60929881/article/details/134210525"""

is_valid_chinese_text(text)
is_valid_text(text)

0.8718951241950322
0.0


False