## Генераторные выражения и работа с ними в Python

Генераторные выражения — это мощные инструменты в `Python`, позволяющие эффективно обрабатывать большие объемы данных, экономя память за счет ленивого вычисления. Давайте рассмотрим примеры использования генераторных выражений для фильтрации `URL`-адресов и работы с файловой системой.

### Фильтрация URL-адресов

Начнем с примера фильтрации URL-адресов, оставляя только те, которые заканчиваются на .com и содержат символ / в конце.

In [4]:
urls = [
    "https://www.сайт.com/",
    "https://www.какойтосайт.net/",
    "https://www.левыйсайт.com/",
    "https://www.другойсайт.com/",
    "https://www.сайтишка.net/",
    "https://www.сайтец.com/",
]

# Создаем генераторное выражение для получения доменных имен с расширением .com
domains = (
    url.rstrip("/").split("/")[-1]
    for url in urls
    if ".com" in url and url.endswith("/")
)

# Извлекаем все элементы из генератора
for domain in domains:
    print(domain)

www.сайт.com
www.левыйсайт.com
www.другойсайт.com
www.сайтец.com


### Преобразование генератора в список

Мы можем преобразовать генераторное выражение в список, если хотим работать со всеми элементами сразу.

In [7]:
# Преобразуем генераторное выражение в список
domain_list = list(domains)
print(domain_list)
print(type(domain_list))  # Проверяем тип данных

# Доступ к элементам списка
if domain_list:  # Проверка, не пуст ли список
    print(domain_list[0])  # Вывод первого элемента списка

[]
<class 'list'>


### Использование `os.walk` с генераторными выражениями

Теперь посмотрим, как можно использовать генераторные выражения вместе с `os.walk` для обхода файловой системы.

In [11]:
import os

# Получение информации о всех файлах и каталогах в корневой директории C:\
file_info = next(os.walk("C:\\"), None)
if file_info:
    print(file_info)

# Создание списка с помощью генераторного выражения и os.walk
file_tree = [x for x in os.walk("C:\\")]

print("Список содержит информацию о:")
print(len(file_tree), "каталогах/файлах")

('C:\\', ['$Recycle.Bin', '$WinREAgent', 'Documents and Settings', 'Encryption', 'Intel', 'OneDriveTemp', 'PerfLogs', 'Program Files', 'Program Files (x86)', 'ProgramData', 'Python 3.10.10', 'Python Progects', 'QUIK_VTB', 'Recovery', 'System Volume Information', 'Users', 'Windows'], ['DumpStack.log', 'DumpStack.log.tmp', 'hiberfil.sys', 'pagefile.sys', 'swapfile.sys'])
Список содержит информацию о:
234043 каталогах/файлах


### Оценка использования памяти с помощью `sys.getsizeof()`

Для оценки объема памяти, занимаемого объектом, можно воспользоваться функцией `sys.getsizeof()`.

In [14]:
import sys

empty_list = []
print("Размер пустого списка в байтах:", sys.getsizeof(empty_list))

filled_list = [1, 2, 3, 4, 5]
print("Размер заполненного списка в байтах:", sys.getsizeof(filled_list))

Размер пустого списка в байтах: 56
Размер заполненного списка в байтах: 104


### Заключение

Генераторные выражения — это эффективный способ работы с большими объемами данных, позволяя экономить память и ресурсы. Они идеально подходят для ситуаций, когда требуется обработать множество элементов, извлекая их по мере необходимости.