Этот скрипт на Python обрабатывает табличные данные, создавая новый бинарный признак на основе выбранного числового столбца. Пользователь может загрузить свою таблицу из CSV-файла или использовать встроенный датасет diabetes из библиотеки scikit-learn. Скрипт проверяет, является ли выбранный столбец числовым, и создаёт новый столбец <column_name>_above_mean, где:
1 - если значение в выбранном столбце больше среднего по этому столбцу.
0 - в ином случае.
-
Клонируйте репозиторий (Если применимо):
git clone <repository-url> cd p1_feature_based_on_conditions/creating-a-feature-based-on-conditions
-
Создайте и активируйте виртуальную среду (venv):
python -m venv venv source venv/Scripts/activate # На Windows используйте Git Bash или Powershell
-
Установите зависимости:
pip install -r requirements.txt
-
Запуск скрипта:
python creating_a_feature_based_on_conditions.py
-
Следуйте инструкциям, которые будут выведены:
- Введите путь к файлу CSV или нажмите Enter, чтобы использовать датасет
diabetes
. - Введите имя столбца для создания признака (например, bmi для датасета diabetes).
- Введите путь к файлу CSV или нажмите Enter, чтобы использовать датасет
$ python creating_a_feature_based_on_conditions.py
Введите путь к файлу CSV (или нажмите Enter для датасета diabetes):
Датасет diabetes загружен
Доступные столбцы: ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']
Выберите столбец: bmi
Новый признак 'bmi_above_mean' создан