# labTOPFilesInDir
Создать выборки.
- По заданной папке:
  - показать ТОП самых больших файлов (по размеру)
  - показать ТОП самых маленьких файлов (по размеру)
  - показать ТОП самых длинных имён файлов
  - показать ТОП самых коротких имён файлов
  - показать ТОП самых часто используемых имён файлов и процентов (т.е. название, кол-во, процент)
  - показать ТОП самых длинных расширений файлов
  - показать ТОП самых коротких расширений файлов
  - показать ТОП самых часто используемых расширений файлов и процентов (т.е. расширение, кол-во, процент)
  - показать ТОП самых длинных полных путей к файлам
  - придумать и реализовать свои выборки
  - показать ТОП самых длинных путей к каталогам (например, с:\windows\help\fgf\...\...)
  - показать ТОП каталогов, где больше всего файлов (т.е. полный путь, кол-во файлов)
  - показать ТОП каталогов, где больше всего подкаталогов (т.е. полный путь, кол-во подкаталогов)
  - придумать и реализовать свои выборки


In [3]:
import os
from collections import Counter

directory = "C:/Users/артем/Downloads/Telegram Desktop"

# ТОП каталогов, где больше всего подкаталогов
directories_with_most_subdirectories = {}
for root, dirs, _ in os.walk(directory):
    directories_with_most_subdirectories[root] = len(dirs)
top_directories_with_most_subdirectories = sorted(directories_with_most_subdirectories.items(), key=lambda x: x[1], reverse=True)[:5]
print(top_directories_with_most_subdirectories)

[('C:/Users/артем/Downloads/Telegram Desktop', 0)]


In [4]:
# ТОП самых больших файлов
top_largest_files = [(f, os.path.getsize(os.path.join(directory, f))) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
top_largest_files = sorted(top_largest_files, key=lambda x: x[1], reverse=True)[:5]
print(top_largest_files)

[('Burp_Suite_Professional_2023.6.1_2023june15_repack-pwn3rzs.7z', 576929543), ('CiscoPacketTracer_821_Windows_32bit.exe', 226424488), ('Pr.5.5_Gusev_Artem_Olegovich.zip', 86810897), ('Top_game.zip', 38021970), ('IMG_20240327_123552.jpg', 7758523)]


In [5]:
# ТОП самых маленьких файлов
top_smallest_files = [(f, os.path.getsize(os.path.join(directory, f))) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
top_smallest_files = sorted(top_smallest_files, key=lambda x: x[1])[:5]
print(top_smallest_files)

[('link.json', 69), ('майнкрафт.rar', 94), ('BitString.h', 168), ('main (2).cpp', 181), ('main (3).cpp', 181)]


In [6]:
# ТОП самых длинных имён файлов
top_longest_file_names = [(f, len(f)) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
top_longest_file_names = sorted(top_longest_file_names, key=lambda x: x[1], reverse=True)[:5]
print(top_longest_file_names)

[('ОПИС_Лекция_8_Анализ_и_моделирование_бизнес_процессов_при_проектировании.pptx', 77), ('Тема_6_Принципы_построения_системы_ввода_вывода_информации_Лекция (2).docx', 74), ('Письмо_исходящее_№_83_20_1367_от_12_03_2024_Приглашение_на_Карьерный.pdf', 72), ('Тема_6_Принципы_построения_системы_ввода_вывода_информации_Лекция.docx', 70), ('Приказ_по_основной_деятельности_№_0150_ОД_от_14_02_2024_О_режиме.pdf', 69)]


In [7]:
# ТОП самых коротких имён файлов
top_shortest_file_names = [(f, len(f)) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
top_shortest_file_names = sorted(top_shortest_file_names, key=lambda x: x[1])[:5]
print(top_shortest_file_names)


[('ТЗ.odt', 6), ('ЭП.odt', 6), ('2048.fig', 8), ('logo2.ai', 8), ('main.cpp', 8)]


In [8]:
# ТОП самых часто используемых имён файлов и процентов
files = [f for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
file_names = [os.path.splitext(f)[0] for f in files]
counter = Counter(file_names)
total_files = len(file_names)
top_most_common_file_names = counter.most_common(5)
top_most_common_file_names_percent = [(name, count, count / total_files * 100) for name, count in top_most_common_file_names]
print(top_most_common_file_names_percent)


[('authorization', 3, 1.3761467889908259), ('BitString', 2, 0.9174311926605505), ('mytcpserver (2)', 2, 0.9174311926605505), ('mytcpserver', 2, 0.9174311926605505), ('Pr.5.5_Gusev_Artem_Olegovich', 2, 0.9174311926605505)]


In [9]:
# ТОП самых длинных расширений файлов
top_longest_extensions = [(f, len(os.path.splitext(f)[1])) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
top_longest_extensions = sorted(top_longest_extensions, key=lambda x: x[1], reverse=True)[:5]
print(top_longest_extensions)

[('diagramma_klassov.drawio', 7), ('use case.drawio', 7), ('гениальная диаграмма для ПД.drawio', 7), ('Диаграмма классов 27_02_2024.drawio', 7), ('Схема разделов.drawio', 7)]


In [10]:
# ТОП самых коротких расширений файлов
top_shortest_extensions = [(f, len(os.path.splitext(f)[1])) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
top_shortest_extensions = sorted(top_shortest_extensions, key=lambda x: x[1])[:5]
print(top_shortest_extensions)

[('authorization.h', 2), ('BitString.h', 2), ('mytcpserver (2).h', 2), ('mytcpserver.h', 2), ('Singleton (2).h', 2)]


In [11]:
# ТОП самых часто используемых расширений файлов и процентов
files = [(os.path.splitext(f)[1], 1) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
counter = Counter(ext for ext, _ in files)
total_files = sum(count for _, count in files)
top_most_common_extensions = counter.most_common(5)
top_most_common_extensions_percent = [(ext, count, count / total_files * 100) for ext, count in top_most_common_extensions]
print(top_most_common_extensions_percent)

[('.pdf', 45, 20.642201834862387), ('.docx', 37, 16.972477064220186), ('.PNG', 20, 9.174311926605505), ('.cpp', 16, 7.339449541284404), ('.zip', 10, 4.587155963302752)]


In [12]:
# ТОП самых длинных полных путей к файлам
top_longest_paths = [(os.path.join(directory, f), len(os.path.join(directory, f))) for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
top_longest_paths = sorted(top_longest_paths, key=lambda x: x[1], reverse=True)[:5]
print(top_longest_paths)

[('C:/Users/артем/Downloads/Telegram Desktop\\ОПИС_Лекция_8_Анализ_и_моделирование_бизнес_процессов_при_проектировании.pptx', 119), ('C:/Users/артем/Downloads/Telegram Desktop\\Тема_6_Принципы_построения_системы_ввода_вывода_информации_Лекция (2).docx', 116), ('C:/Users/артем/Downloads/Telegram Desktop\\Письмо_исходящее_№_83_20_1367_от_12_03_2024_Приглашение_на_Карьерный.pdf', 114), ('C:/Users/артем/Downloads/Telegram Desktop\\Тема_6_Принципы_построения_системы_ввода_вывода_информации_Лекция.docx', 112), ('C:/Users/артем/Downloads/Telegram Desktop\\Приказ_по_основной_деятельности_№_0150_ОД_от_14_02_2024_О_режиме.pdf', 111)]


In [13]:
# ТОП каталогов, где больше всего файлов
directories_with_most_files = {}
for root, _, files in os.walk(directory):
    directories_with_most_files[root] = len(files)
top_directories_with_most_files = sorted(directories_with_most_files.items(), key=lambda x: x[1], reverse=True)[:5]
print(top_directories_with_most_files)

[('C:/Users/артем/Downloads/Telegram Desktop', 218)]
