# Titanic Survival Prediction using FEDOT and LLM

This notebook demonstrates the process of analyzing the Titanic dataset and predicting passenger survival using the FEDOT framework enhanced with Large Language Models (LLM).

https://www.kaggle.com/competitions/titanic

In [1]:
import sys, os

module_path = os.path.abspath(os.path.join(os.getcwd(), '..', '..'))

if module_path not in sys.path:
    sys.path.insert(0, module_path)

from fedotllm.main import FedotAI
from fedotllm.output import JupyterOutput
from fedotllm.llm import AIInference
from examples.kaggle import download_from_kaggle, submit_to_kaggle

competition_name = "titanic"
dataset_path = os.path.join(os.getcwd(), "competition")
download_from_kaggle(competition_name=competition_name, save_path=dataset_path)

  import pkg_resources


Downloading dataset to: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition
Dataset downloaded and extracted to /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition


In [2]:
description = """
Построй модель AutoML. Задача «Титаник - машинное обучение на основе катастрофы» на Kaggle заключается в предсказании того, выжил ли пассажир после затопления «Титаника», используя предоставленные наборы данных. Набор данных train.csv включает 891 пассажира с их статусом выживания (ground truth), а test.csv содержит аналогичную информацию, но без статуса выживания. Участники строят модель машинного обучения, используя закономерности в обучающих данных, чтобы предсказать результаты выживания в тестовых данных. Материалы должны быть представлены в формате CSV, содержащем ровно 418 строк и два столбца: PassengerId и Survived (бинарные прогнозы: 1 - выжил, 0 - умер). Метрикой оценки является точность, которая рассчитывается как процент правильных предсказаний.
"""

In [3]:
import shutil
output_path = os.path.join(os.getcwd(), 'output')
if os.path.exists(output_path):
    shutil.rmtree(output_path)
os.makedirs(output_path, exist_ok=True)

inference = AIInference()
    
fedot_ai = FedotAI(
        task_path=dataset_path,
        inference=inference,
        workspace=output_path,
        handlers=JupyterOutput().subscribe
    )
response = await fedot_ai.ainvoke(message=description)
response

2025-06-11 16:33:40,682 - FEDOTLLM - INFO - FedotAI ainvoke called. Input message (first 100 chars): '
Построй модель AutoML. Задача «Титаник - машинное обучение на основе катастрофы» на Kaggle заключае...'


2025-06-11 16:33:40,682 - FedotAI ainvoke called. Input message (first 100 chars): '
Построй модель AutoML. Задача «Титаник - машинное обучение на основе катастрофы» на Kaggle заключае...'


2025-06-11 16:33:40,688 - FEDOTLLM - INFO - TranslatorAgent initialized with provided AIInference instance.


2025-06-11 16:33:40,688 - TranslatorAgent initialized with provided AIInference instance.


2025-06-11 16:33:40,689 - FEDOTLLM - INFO - FedotAI ainvoke: Translating input message to English.


2025-06-11 16:33:40,689 - FedotAI ainvoke: Translating input message to English.


2025-06-11 16:33:40,689 - FEDOTLLM - INFO - TranslatorAgent: Received input message for translation to English (first 200 chars): '
Построй модель AutoML. Задача «Титаник - машинное обучение на основе катастрофы» на Kaggle заключается в предсказании того, выжил ли пассажир после затопления «Титаника», используя предоставленные на...'


2025-06-11 16:33:40,689 - TranslatorAgent: Received input message for translation to English (first 200 chars): '
Построй модель AutoML. Задача «Титаник - машинное обучение на основе катастрофы» на Kaggle заключается в предсказании того, выжил ли пассажир после затопления «Титаника», используя предоставленные на...'


2025-06-11 16:33:40,824 - FEDOTLLM - INFO - TranslatorAgent: Source language for input set to: ru


2025-06-11 16:33:40,824 - TranslatorAgent: Source language for input set to: ru


2025-06-11 16:33:40,825 - FEDOTLLM - INFO - Translating input from ru to English using self.inference.query.


2025-06-11 16:33:40,825 - Translating input from ru to English using self.inference.query.


2025-06-11 16:33:40,826 - FEDOTLLM - INFO - TranslatorAgent._translate_text: Attempting translation from 'ru' to 'en' using self.inference.query.


2025-06-11 16:33:40,826 - TranslatorAgent._translate_text: Attempting translation from 'ru' to 'en' using self.inference.query.


2025-06-11 16:33:51,755 - FEDOTLLM - INFO - Successfully translated text from ru to en using self.inference.query.


2025-06-11 16:33:51,755 - Successfully translated text from ru to en using self.inference.query.


2025-06-11 16:33:51,759 - FEDOTLLM - INFO - FedotAI ainvoke: Input message translated to (first 100 chars): 'Build an AutoML model. The 'Titanic - Machine Learning from Disaster' challenge on Kaggle involves p...'


2025-06-11 16:33:51,759 - FedotAI ainvoke: Input message translated to (first 100 chars): 'Build an AutoML model. The 'Titanic - Machine Learning from Disaster' challenge on Kaggle involves p...'


2025-06-11 16:33:52,904 - FEDOTLLM - INFO - Running problem reflection


2025-06-11 16:33:52,904 - Running problem reflection


2025-06-11 16:34:11,764 - FEDOTLLM - INFO - Running generate automl config


2025-06-11 16:34:11,764 - Running generate automl config


2025-06-11 16:34:17,993 - FEDOTLLM - INFO - Running select skeleton


2025-06-11 16:34:17,993 - Running select skeleton


2025-06-11 16:34:17,998 - FEDOTLLM - INFO - Generating code


2025-06-11 16:34:17,998 - Generating code


2025-06-11 16:35:16,712 - FEDOTLLM - INFO - Running insert templates


2025-06-11 16:35:16,712 - Running insert templates


2025-06-11 16:35:16,743 - FEDOTLLM - INFO - Running evaluate


2025-06-11 16:35:16,743 - Running evaluate


2025-06-11 16:35:19,754 - FEDOTLLM - ERROR - Traceback (most recent call last):
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 211, in <module>
    main()
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 207, in main
    model_performance = create_model()
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 145, in create_model
    train_features, train_target = transform_data(train_data)
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 117, in transform_data
    features[col] = categorical_imputer.fit_transform(features[[col]])
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/.venv/lib/python3.10/site-packages/pandas/core/frame.py", line 4311, in __setitem__
    self._set_item(key, value)
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/.venv/lib/python3.10/site-packages/pandas/core/frame.py", line 4524, in _set_item


2025-06-11 16:35:19,754 - Traceback (most recent call last):
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 211, in <module>
    main()
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 207, in main
    model_performance = create_model()
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 145, in create_model
    train_features, train_target = transform_data(train_data)
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/solution.py", line 117, in transform_data
    features[col] = categorical_imputer.fit_transform(features[[col]])
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/.venv/lib/python3.10/site-packages/pandas/core/frame.py", line 4311, in __setitem__
    self._set_item(key, value)
  File "/Users/aleksejlapin/Work/STABLE-FedotLLM/.venv/lib/python3.10/site-packages/pandas/core/frame.py", line 4524, in _set_item
    value, refs = s

2025-06-11 16:35:19,758 - FEDOTLLM - INFO - Running fix solution


2025-06-11 16:35:19,758 - Running fix solution


2025-06-11 16:35:50,584 - FEDOTLLM - INFO - Running insert templates


2025-06-11 16:35:50,584 - Running insert templates


2025-06-11 16:35:50,609 - FEDOTLLM - INFO - Running evaluate


2025-06-11 16:35:50,609 - Running evaluate


2025-06-11 16:36:54,512 - FEDOTLLM - INFO - Running tests


2025-06-11 16:36:54,512 - Running tests


2025-06-11 16:36:54,513 - FEDOTLLM - INFO - Test passed: {'accuracy': 0.788}


2025-06-11 16:36:54,513 - Test passed: {'accuracy': 0.788}


2025-06-11 16:36:55,123 - FEDOTLLM - INFO - Test passed: {'depth': 3, 'length': 5, 'nodes': [logit, catboost, scaling, xgboost, lgbm]}
logit - {}
catboost - {'n_jobs': 1, 'num_trees': 3000, 'learning_rate': 0.03, 'l2_leaf_reg': 0.01, 'bootstrap_type': 'Bernoulli', 'grow_policy': 'SymmetricTree', 'max_depth': 5, 'min_data_in_leaf': 1, 'one_hot_max_size': 10, 'fold_permutation_block': 1, 'boosting_type': 'Plain', 'od_type': 'Iter', 'od_wait': 100, 'max_bin': 32, 'feature_border_type': 'GreedyLogSum', 'nan_mode': 'Min', 'verbose': False, 'allow_writing_files': False, 'use_eval_set': True, 'use_best_model': True, 'enable_categorical': True}
scaling - {}
xgboost - {'n_jobs': 1, 'verbosity': 0, 'booster': 'gbtree', 'tree_method': 'auto', 'enable_categorical': True, 'use_eval_set': True, 'early_stopping_rounds': 30}
lgbm - {'boosting_type': 'gbdt', 'max_depth': -1, 'bagging_fraction': 0.85, 'extra_trees': False, 'enable_categorical': True, 'use_eval_set': True, 'early_stopping_rounds': 30, 'n

DEBUG: RAW OUTPUT
 Files and directories:
Dataset Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition
Workspace Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output
Pipeline Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/pipeline
Submission Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/submission.csv
Train File: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition/train.csv
Test File: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition/test.csv
Sample Submission File: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition/sample_submission.csv
2025-06-11 16:35:54,108 - ApiComposer - Initial pipeline was fitted in 0.7 sec.
2025-06-11 16:35:54,108 - ApiComposer - Taking into account n_folds=5, estimated fit time for initial assumption is 3.5 sec.
2025-06-11 16:35:54,111 - ApiComposer - AutoML configured. Parameters tuning: True. Time limit: 1.0 min.

2025-06-11 16:36:55,128 - FEDOTLLM - INFO - Running fix solution
2025-06-11 16:37:10,925 - FEDOTLLM - INFO - Running insert templates
2025-06-11 16:37:10,953 - FEDOTLLM - INFO - Running evaluate
2025-06-11 16:38:14,539 - FEDOTLLM - ERROR - Too many fix tries


2025-06-11 16:38:14,539 - Too many fix tries


2025-06-11 16:38:14,542 - FEDOTLLM - INFO - Running tests
2025-06-11 16:38:14,543 - FEDOTLLM - INFO - Test passed: {'accuracy': 0.788}
2025-06-11 16:38:14,556 - FEDOTLLM - INFO - Test passed: {'depth': 3, 'length': 5, 'nodes': [logit, catboost, scaling, xgboost, lgbm]}
logit - {}
catboost - {'n_jobs': 1, 'num_trees': 3000, 'learning_rate': 0.03, 'l2_leaf_reg': 0.01, 'bootstrap_type': 'Bernoulli', 'grow_policy': 'SymmetricTree', 'max_depth': 5, 'min_data_in_leaf': 1, 'one_hot_max_size': 10, 'fold_permutation_block': 1, 'boosting_type': 'Plain', 'od_type': 'Iter', 'od_wait': 100, 'max_bin': 32, 'feature_border_type': 'GreedyLogSum', 'nan_mode': 'Min', 'verbose': False, 'allow_writing_files': False, 'use_eval_set': True, 'use_best_model': True, 'enable_categorical': True}
scaling - {}
xgboost - {'n_jobs': 1, 'verbosity': 0, 'booster': 'gbtree', 'tree_method': 'auto', 'enable_categorical': True, 'use_eval_set': True, 'early_stopping_rounds': 30}
lgbm - {'boosting_type': 'gbdt', 'max_depth'

DEBUG: RAW OUTPUT
 Files and directories:
Dataset Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition
Workspace Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output
Pipeline Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/pipeline
Submission Path: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/output/submission.csv
Train File: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition/train.csv
Test File: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition/test.csv
Sample Submission File: /Users/aleksejlapin/Work/STABLE-FedotLLM/examples/titanic/competition/gender_submission.csv
2025-06-11 16:37:14,368 - ApiComposer - Initial pipeline was fitted in 0.6 sec.
2025-06-11 16:37:14,368 - ApiComposer - Taking into account n_folds=5, estimated fit time for initial assumption is 3.0 sec.
2025-06-11 16:37:14,371 - ApiComposer - AutoML configured. Parameters tuning: True. Time limit: 1.0 min.

2025-06-11 16:38:18,028 - FEDOTLLM - INFO - Test passed: Submission file format is correct.
2025-06-11 16:38:18,034 - FEDOTLLM - ERROR - Too many fix tries


2025-06-11 16:38:18,034 - Too many fix tries


2025-06-11 16:38:18,038 - FEDOTLLM - INFO - Running extract_metrics
2025-06-11 16:38:18,038 - FEDOTLLM - INFO - Metrics: {'accuracy': 0.788}
2025-06-11 16:38:18,052 - FEDOTLLM - INFO - Pipeline: {'depth': 3, 'length': 5, 'nodes': [logit, catboost, scaling, xgboost, lgbm]}
logit - {}
catboost - {'n_jobs': 1, 'num_trees': 3000, 'learning_rate': 0.03, 'l2_leaf_reg': 0.01, 'bootstrap_type': 'Bernoulli', 'grow_policy': 'SymmetricTree', 'max_depth': 5, 'min_data_in_leaf': 1, 'one_hot_max_size': 10, 'fold_permutation_block': 1, 'boosting_type': 'Plain', 'od_type': 'Iter', 'od_wait': 100, 'max_bin': 32, 'feature_border_type': 'GreedyLogSum', 'nan_mode': 'Min', 'verbose': False, 'allow_writing_files': False, 'use_eval_set': True, 'use_best_model': True, 'enable_categorical': True}
scaling - {}
xgboost - {'n_jobs': 1, 'verbosity': 0, 'booster': 'gbtree', 'tree_method': 'auto', 'enable_categorical': True, 'use_eval_set': True, 'early_stopping_rounds': 30}
lgbm - {'boosting_type': 'gbdt', 'max_dep

{'messages': [HumanMessage(content="Build an AutoML model. The 'Titanic - Machine Learning from Disaster' challenge on Kaggle involves predicting whether a passenger survived the sinking of the Titanic using the provided datasets. The train.csv dataset includes 891 passengers with their survival status (ground truth), while test.csv contains similar information but without the survival status. Participants build a machine learning model using patterns in the training data to predict survival outcomes in the test data. Submissions must be in CSV format, containing exactly 418 rows and two columns: PassengerId and Survived (binary predictions: 1 - survived, 0 - deceased). The evaluation metric is accuracy, calculated as the percentage of correct predictions.", additional_kwargs={}, response_metadata={}, id='270d464e-8166-4d8b-82d2-089b0510ef75'),
  HumanMessage(content='## **Путешествие по морям: Расшифровка модели выживания на "Титанике"**\n\n### **Обзор**\n\n*   **Проблема:** Мы отправ

In [4]:
from IPython.display import Markdown
Markdown(response['messages'][-1].content)

## **Путешествие по морям: Расшифровка модели выживания на "Титанике"**

### **Обзор**

*   **Проблема:** Мы отправляемся в плавание по данным "Титаника", стремясь предсказать, кто выжил в трагическом крушении, а кто нет, основываясь на доступной информации о пассажирах. Задача Kaggle "Titanic - Машинное обучение после катастрофы" предоставляет данные о пассажирах и их статус выживания (или его отсутствие), чтобы помочь модели ИИ выявить характерные признаки. Цель состоит в том, чтобы заполнить отсутствующие статусы выживания для отдельной группы пассажиров, предоставив точный список `PassengerId` и их прогнозируемый результат `Survived` (1 для выживших, 0 для погибших).
*   **Цель:** Нашей миссией было разработать **модель AutoML** — по сути, эксперта по ИИ, строящего другой ИИ, — которая могла бы просматривать предоставленные данные, изучать закономерности и точно предсказывать, выжил ли пассажир в крушении "Титаника". Успех нашей модели измеряется её **точностью**: как часто её прогнозы совпадают с фактическими результатами.

### **Предварительная обработка данных**

Прежде чем наша интеллектуальная модель смогла начать обучение, необработанные, часто беспорядочные данные о пассажирах нуждались в тщательной очистке и стандартизации. Представьте себе, что это похоже на организацию хаотичной библиотеки, прежде чем вы сможете найти какие-либо книги.

*   **Удаление несущественного:** Мы начали с удаления информации, которая была либо нерелевантной, либо потенциально запутывающей для модели. Это включало уникальные идентификаторы, такие как `PassengerId`, личные данные, такие как `Name`, сложные номера `Ticket` и фрагментарные данные `Cabin`. Сосредоточившись на релевантных признаках, модель может обучаться более эффективно.
*   **Заполнение пропусков (импутация):** Наборы данных часто содержат пробелы, где информация отсутствует. Вместо того чтобы отбрасывать эти записи, мы стратегически заполняли их.
    *   Для числовых значений, таких как `Age` или `Fare`, отсутствующие записи были заменены с использованием **средней импутации** для обеспечения единообразия. Например, в столбце `Age`, если возраст пассажира был неизвестен, мы заменяли его средним возрастом, рассчитанным по всем остальным пассажирам.
    *   Для категориальной информации, такой как порт `Embarked` (где пассажир сел на борт), отсутствующие записи были заменены **наиболее часто встречающимся** портом, гарантируя, что у каждого пассажира было место посадки.
*   **Преобразование категорий в понятный вид (One-Hot Encoding):** Модели машинного обучения, как правило, предпочитают числовые данные. Признаки, такие как `Sex` (мужчина/женщина) или `Embarked` (Саутгемптон/Шербур/Квинстаун), являются категориями. Мы преобразовали их в числовой формат с использованием "однократного кодирования" (one-hot encoding). Этот процесс создает новые столбцы для каждой категории (например, `Sex_male`, `Sex_female`), где '1' означает, что пассажир принадлежит к этой категории, а '0' — что нет. Это позволяет модели численно интерпретировать категориальные различия.

### **Обзор конвейера**

Наша модель была создана с использованием **Fedot**, фреймворка **AutoML (Automated Machine Learning)**. Представьте себе эксперта-архитектора ИИ, который автоматически проектирует, строит и тонко настраивает наилучший возможный конвейер машинного обучения для данной задачи. Вместо ручного тестирования бесчисленных моделей и настроек, Fedot интеллектуально исследует обширное пространство решений, чтобы найти оптимальное.

Архитектор ИИ рассмотрел и интегрировал несколько мощных "строительных блоков" в свою окончательную прогностическую систему:

*   **`scaling` (масштабирование)**: Это важный шаг подготовки данных, часто применяемый к числовым данным.
    *   **Объяснение:** Нормализация гарантирует, что все признаки находятся в одном масштабе, улучшая производительность модели. Например, процесс масштабирования преобразует значения, такие как "возраст" (5-90), в 0-1. Это предотвращает несправедливое доминирование признаков с более крупными числовыми диапазонами (например, `Fare`) в процессе обучения по сравнению с признаками с меньшими диапазонами (например, `Age`).
*   **`logit` (Логистическая регрессия):** Фундаментальная статистическая модель, которая вычисляет вероятность определенного исхода (например, выживания), находя наилучшую линейную зависимость между признаками пассажира и его статусом выживания. Это похоже на проведение наиболее эффективной прямой линии для разделения "выживших" от "не выживших".
*   **`catboost`, `xgboost`, `lgbm` (Градиентные бустинговые машины):** Это современные ансамблевые модели обучения. Представьте их как высокоэффективные команды из множества небольших, "слабых" лиц, принимающих решения (вроде мини-блок-схем), работающих вместе. Каждый новый принимающий решения в команде учится на ошибках предыдущих, коллективно строя гораздо более сильную и точную систему прогнозирования.
    *   **Ключевые параметры:**

        | Модель | Параметры | Объяснение |
        |---|---|---|
        | CatBoost | `num_trees: 3000, learning_rate: 0.03, max_depth: 5, l2_leaf_reg: 0.01` | CatBoost был выбран системой AutoML за его надёжную производительность. Эти параметры управляют его обучением: `num_trees` указывает, сколько мини-моделей объединяется, `learning_rate` определяет размер шага для улучшения, `max_depth` ограничивает сложность отдельных мини-моделей, а `l2_leaf_reg` помогает предотвратить слишком сильное запоминание моделью обучающих данных (переобучение). |
        | XGBoost | `early_stopping_rounds: 30` | Для XGBoost этот параметр указывает модели остановить обучение досрочно, если её производительность на валидационном наборе не улучшается в течение 30 последовательных раундов, экономя время и предотвращая переобучение. |
        | LightGBM | `early_stopping_rounds: 30`, `enable_categorical: True` | LightGBM, подобно XGBoost, использует `early_stopping_rounds: 30` для эффективной остановки обучения при стабилизации производительности, предотвращая излишние вычисления и переобучение. `enable_categorical: True` позволяет ему нативно обрабатывать категориальные признаки, оптимизируя процесс подготовки данных. |

### **Основные фрагменты кода**

Давайте заглянем под капот, чтобы увидеть некоторые основные операции в коде.

1.  **Предварительная обработка данных (Ключевые фрагменты):**
    Эта часть кода определяет, как сырые данные очищаются и подготавливаются. Мы удаляем столбцы, не требующиеся для прогнозирования, заполняем любую отсутствующую информацию и преобразуем категориальные (текстовые) данные в числовые форматы, которые может понять наша модель ИИ.

    ```python
    def transform_data(dataset: pd.DataFrame) -> Tuple[np.ndarray, np.ndarray]:
        # ... (code for dropping columns) ...
        cols_to_drop = ['PassengerId', 'Name', 'Ticket', 'Cabin']
        for col in cols_to_drop:
            if col in features.columns:
                features = features.drop(columns=[col])

        # Imputing missing values - 'mean' strategy for numeric columns
        numeric_cols = features.select_dtypes(include=[np.number]).columns
        if len(numeric_cols) > 0:
            numeric_imputer = SimpleImputer(strategy='mean')
            features[numeric_cols] = numeric_imputer.fit_transform(features[numeric_cols])

        # Impute categorical columns (Sex, Embarked) before one-hot encoding
        object_cols_for_encoding = []
        if 'Sex' in features.columns and features['Sex'].dtype == 'object':
            object_cols_for_encoding.append('Sex')
        if 'Embarked' in features.columns and features['Embarked'].dtype == 'object':
            object_cols_for_encoding.append('Embarked')
        if len(object_cols_for_encoding) > 0:
            categorical_imputer = SimpleImputer(strategy='most_frequent')
            for col in object_cols_for_encoding:
                if col in features.columns:
                    features[col] = categorical_imputer.fit_transform(features[[col]]).flatten()

        # One-hot encode the specified categorical features
        if len(object_cols_for_encoding) > 0:
            features = pd.get_dummies(features, columns=object_cols_for_encoding, drop_first=False)

        return features.values, target
    ```
    *Интерпретация:* Эта функция `transform_data` систематически подготавливает набор данных. Сначала она удаляет столбцы, определенные как бесполезные для прогнозирования. Затем она использует `SimpleImputer` для заполнения числовых пропусков (например, в `Age`) средним значением и категориальных пропусков (например, в `Embarked`) наиболее часто встречающимся значением. Наконец, `pd.get_dummies` преобразует текстовые категории, такие как `Sex` и `Embarked`, в числовые столбцы "переключателей" (0 или 1), делая их удобоваримыми для алгоритмов машинного обучения.

2.  **Обучение, оценка и прогнозирование модели:**
    Этот раздел организует основной рабочий процесс машинного обучения: обучение модели AutoML, оценку её производительности на части обучающих данных, которые она ещё не видела, а затем использование полностью обученной модели для окончательных прогнозов на невидимых тестовых данных.

    ```python
    def train_model(train_features: np.ndarray, train_target: np.ndarray):
        input_data = InputData.from_numpy(train_features, train_target, task=Task(TaskTypesEnum.classification))
        model = Fedot(problem=TaskTypesEnum.classification.value,
                timeout=1.0, # AutoML search will run for 1 second
                seed=42,
                cv_folds=5,
                preset='best_quality', # Aim for the best possible model quality
                metric='accuracy',
                n_jobs=1,
                with_tuning=True, # Allow AutoML to fine-tune model parameters
                show_progress=True)

        model.fit(features=input_data) # This is where the AutoML magic happens: training the model
        return model

    def evaluate_model(model, test_features: np.ndarray, test_target: np.ndarray):
        input_data = InputData.from_numpy(test_features, test_target, task=Task(TaskTypesEnum.classification))
        y_pred = model.predict(features=input_data)
        print("Model metrics: ", model.get_metrics())
        return model.get_metrics()

    def automl_predict(model, features: np.ndarray) -> np.ndarray:
        input_data = InputData.from_numpy(features, None, task=Task(TaskTypesEnum.classification))
        predictions = model.predict(features=input_data)
        return predictions
    ```
    *Интерпретация:* `train_model` инициализирует `Fedot`, настраивая его для решения задачи `классификации` (выжил/не выжил). Он стремится получить модель `best_quality` (наилучшего качества) в течение 1 секунды автоматического поиска, измеряя успех по `accuracy` (точности). Вызов `model.fit()` — это место, где Fedot автоматически находит наилучшую комбинацию обработки данных и алгоритмов машинного обучения. Затем `evaluate_model` проверяет, насколько хорошо обученная модель работает на отдельном наборе данных, а `automl_predict` генерирует окончательные прогнозы выживания для невидимого тестового набора Kaggle.

3.  **Создание файла для отправки:**
    После генерации прогнозов этот сегмент кода форматирует их в точности так, как требуется для соревнования Kaggle: две колонки, `PassengerId` и `Survived`, сохраняемые в CSV-файл.

    ```python
    def create_model():
        # ... (data loading and splitting) ...
        test_passenger_ids = X_test_df['PassengerId'] # Store IDs before dropping

        # ... (model training, evaluation, and prediction calls) ...
        predictions:np.ndarray = automl_predict(model, test_features)

        # Flatten predictions if they are in (N, 1) format, which is common for binary classification
        if predictions.ndim > 1 and predictions.shape[1] == 1:
            predictions = predictions.flatten()
        # Convert predictions (likely probabilities or raw scores) to binary class labels (0 or 1)
        predictions = (predictions >= 0.5).astype(int) # Convert probabilities to 0s or 1s

        # Create the submission DataFrame
        output = pd.DataFrame({
            'PassengerId': test_passenger_ids,
            'Survived': predictions
        })
        output['Survived'] = output['Survived'].astype(int) # Ensure integer type
        output.to_csv(SUBMISSION_PATH, index=False) # Save to CSV
        return model_performance
    ```
    *Интерпретация:* Эта важная часть принимает необработанные числовые прогнозы (которые могут быть вероятностями) и преобразует их в бинарные (0 или 1) результаты выживания, устанавливая порог (например, вероятности 0.5 или выше становятся 'survived' (выжившие)). Затем она объединяет эти бинарные прогнозы с исходным `PassengerId` в аккуратную таблицу. Наконец, `output.to_csv()` экспортирует эту таблицу в файл `.csv`, идеально отформатированный для отправки на соревнование Kaggle.

### **Метрики**

После всей обработки данных и построения модели, как показал себя наш ИИ?

*   **Точность (Accuracy): `0.788`**
    *   **Объяснение:** Точность (Accuracy) показывает, как часто модель даёт правильные ответы. Точность в `0.788` означает, что наша модель правильно предсказала статус выживания примерно для **78.8%** пассажиров в оценочном наборе данных. Это надёжная производительность, указывающая на то, что модель уловила значимые закономерности в данных.

### **Выводы**

Эта модель AutoML, работающая на фреймворке **Fedot**, продемонстрировала высокую способность решать классическую задачу прогнозирования выживаемости на "Титанике". С **точностью приблизительно 78.8%**, модель эффективно использовала различные атрибуты пассажиров, чтобы различить тех, кто выжил, и тех, кто погиб. Этот проект подчеркивает мощь автоматизированного машинного обучения в быстром и эффективном построении надёжных прогностических моделей для сложных реальных задач классификации, превращая необработанные данные в значимые выводы с высокой степенью корректности.