### Задача:

В ваше распоряжение предоставлена директория users ('./Root/users'). В данной директории содержатся csv-файлы, в каждом из которых хранится информация об идентификаторах пользователей (user_id) и ссылках на их фотографии (image_url). Количество файлов в директории может быть любым.

Вам необходимо написать функцию concat_user_files(path), параметром которой является path — путь до директории.

Функция должна:

Объединить информацию из всех csv-файлов в единый DataFrame.
Удалить дубликаты.
Обновить индексы результирующей таблицы.
Отсортировать пользователей по числовой части user_id (игнорируя буквенную часть).

Следующее решение верное


In [None]:
import os                 # Модуль для работы с файловой системой (директории, пути)
import pandas as pd       # Основная библиотека для работы с таблицами
import re                 # Библиотека для работы с регулярными выражениями (поиск чисел в строке)

def concat_user_files(path):
    dfs = []  # Пустой список — сюда будем складывать все считанные DataFrame

    # 1. Перебираем все файлы в указанной директории
    for file in os.listdir(path):

        # Берём только файлы, которые заканчиваются на .csv
        if file.endswith('.csv'):

            # Формируем полный путь: директория + имя файла
            full_path = os.path.join(path, file)

            # 2. Читаем CSV-файл в DataFrame
            df = pd.read_csv(full_path)

            # Добавляем DataFrame в список
            dfs.append(df)

    # 3. Объединяем все DataFrame в один общий
    # ignore_index=True — чтобы переписать индексы от 0 до N
    result = pd.concat(dfs, ignore_index=True)

    # 4. Удаляем дубликаты строк (полные совпадения всех значений)
    result = result.drop_duplicates()

    # 5. Создаем временный столбец "numeric_id"
    # Выделяем числовую часть из user_id
    # re.findall(r'\d+', x) — находит все числа в строке
    # [0] — берём первое найденное число
    # int() — переводим в целое число
    result['numeric_id'] = result['user_id'].apply(
        lambda x: int(re.findall(r'\d+', x)[0])
    )

    # 6. Сортируем таблицу по числовой части user_id
    result = result.sort_values('numeric_id')

    # 7. Удаляем временный столбец и обновляем индекс
    # drop=True — старый индекс не сохраняем
    result = result.drop(columns=['numeric_id']).reset_index(drop=True)

    return result  # Возвращаем итоговый DataFrame
