# TranslatorAgent Interactive Example

This notebook demonstrates how to use the `TranslatorAgent` class for AI-powered text translation with automatic language detection and formatting preservation.

## Setup

First, let's import the necessary modules and set up the translator.

In [7]:
import sys, os

module_path = os.path.abspath(os.path.join(os.getcwd(), '..'))

if module_path not in sys.path:
    sys.path.insert(0, module_path)
    
from fedotllm.agents.translator import TranslatorAgent
from fedotllm.llm import AIInference

# Initialize AI inference
# Make sure to set FEDOTLLM_LLM_API_KEY environment variable
inference = AIInference()

# Create translator instance
translator = TranslatorAgent(inference)

print("TranslatorAgent initialized successfully!")

TranslatorAgent initialized successfully!


In [None]:
report = """
# 📝 Multi-Class Prediction of Obesity Risk: Tackling Health Through Machine Learning  

## 🚀 Overview  
This competition, **Playground Series - Season 4, Episode 2**, challenges participants to predict obesity risk in individuals using machine learning. The dataset includes factors like age, physical activity, and dietary habits. The aim is multi-class classification of the target variable `NObeyesdad`, which represents five distinct weight categories ranging from underweight to obesity. With cardiovascular disease being a major global concern, this task holds practical significance in public health.  

## 🔧 Data Preprocessing  
Preparing the dataset is a critical step before feeding it to the model. Here's what we did:  
- **Imputation of Missing Values:** Addressed any gaps in the data by:  
  - For numerical features, replacing missing values with the column mean. Example: A missing age value is substituted with the average age of the dataset.  
  - For categorical features, filling missing entries with the most frequent category.  
- **One-Hot Encoding:** Converted categorical variables (e.g., gender) into numerical representations for compatibility with machine learning algorithms. Example: Female → [1, 0], Male → [0, 1].  
- **Normalization (Scaling):** Ensured all numerical features were on a similar scale (e.g., 0 to 1). This prevents variables with large ranges (e.g., income) from dominating the model training.  

Here’s what the preprocessing looked like in code:  
```python
# Impute numerical features
numeric_imputer = SimpleImputer(strategy='mean')
features[numeric_cols] = numeric_imputer.fit_transform(features[numeric_cols])

# Impute categorical features
categorical_imputer = SimpleImputer(strategy='most_frequent')
features[categorical_cols] = categorical_imputer.fit_transform(features[categorical_cols])

# One-hot encoding
features = pd.get_dummies(features, columns=categorical_cols, drop_first=True)

# Normalize features (0-1 range)
scaler = MinMaxScaler()
features = scaler.fit_transform(features)
```  

## 🔄 Pipeline Summary  
The model pipeline included pre-tuned AutoML algorithms to enhance prediction without manually optimizing hyperparameters. Here's the pipeline overview:  
1. **Data Preprocessing:** Handled missing data, scaling, and one-hot encoding.  
2. **Model Aggregation:** Leveraged a stack of leading machine learning models:  
   - `CatBoost` for handling categorical data effectively.  
   - `XGBoost` and `LightGBM` for fast, scalable gradient boosting.  
   - A logistic regression model for baseline linear performance.  
3. **Model Selection:** AutoML dynamically selected the best model configuration during cross-validation.  

### Key Pipeline Parameters  
| Model        | Key Parameters                                       | Explanation                                                          |  
|--------------|------------------------------------------------------|----------------------------------------------------------------------|  
| **CatBoost** | num_trees=3000, learning_rate=0.03, max_depth=5      | Efficient with categorical and tabular datasets.                     |  
| **XGBoost**  | booster='gbtree', early_stopping_rounds=30           | Popular for its robustness and high predictive power.                |  
| **LightGBM** | bagging_fraction=0.85, max_depth=-1                  | Designed for speed and scalability with large datasets.              |  
| **Scaling**  | MinMaxScaler for normalization                       | Helps gradient-based models converge faster and prevent dominance.   |  

## 🖥️ Code Highlights  
Here’s a breakdown of the most critical sections of the code:

1. **Data Preprocessing**  
   Converts the raw dataset to a clean format usable by the models.  
```python
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler

# Impute missing values and scale features
def transform_data(dataset: pd.DataFrame):
    features = dataset.drop(columns=['NObeyesdad', 'id'])
    target = dataset['NObeyesdad'].values if 'NObeyesdad' in dataset.columns else None

    numeric_imputer = SimpleImputer(strategy='mean')
    features = numeric_imputer.fit_transform(features)

    scaler = MinMaxScaler()
    features = scaler.fit_transform(features)

    return features, target
```  

2. **Model Training and AutoML**  
   Automated the model training process using the **FEDOT AutoML framework** to efficiently explore high-quality predictive models.  
```python
from fedot.api.main import Fedot
from fedot.core.repository.tasks import Task, TaskTypesEnum

def train_model(features, target):
    # Configure and train the model
    pipeline = Fedot(problem='classification', preset='best_quality', timeout=1.0, metric='accuracy')
    pipeline.fit(features, target)
    return pipeline
```  

3. **Evaluation and Predictions**  
   Evaluated model performance and prepared submission files.  
```python
def create_submission():
    predictions = model.predict(test_features)
    submission_df = pd.DataFrame({'id': test_data['id'], 'NObeyesdad': predictions})
    submission_df.to_csv("submission.csv", index=False)
```  

## 📊 Metrics  

The model's performance is evaluated using **accuracy**, which measures the proportion of correct predictions among the total predictions:  
- Accuracy: 90.7%  
This means the model correctly identifies the obesity risk category for 9 out of every 10 individuals in the evaluation set.  

### Interpretation:  
- **Strengths:** High accuracy demonstrates strong predictive capability across multiple classes.  
- **Potential Challenges:** Class imbalance (some obesity categories may have fewer instances) could affect predictions for minority classes.  

## 💡 Takeaways  

This model effectively predicts obesity risk with **90.7% accuracy**, a promising result for public health applications. By leveraging advanced AutoML techniques and robust preprocessing, it demonstrates a scalable, efficient approach to tackle similar classification problems. While this is a synthetic competition dataset, the pipeline could easily be adapted for real-world use cases like predicting cardiovascular risk or targeting dietary interventions.  

Modeling obesity risk is not just about prediction—it's about enabling preventive healthcare measures that could save lives. This competition shows how machine learning can make serious strides in addressing global health challenges.
"""

# 📝 Многоклассовое Прогнозирование Риска Ожирения
## 🚀 Обзор  
Этот конкурс, **Playground Series - Season 4, Episode 2**, ставит перед участниками задачу...
## 🔧 Предварительная Обработка Данных  
 Вот что мы сделали:  
- **Заполнение пропущенных значений:** Устранили любые пробелы в данных путем: ...
Вот как выглядела предварительная обработка в коде:...
## 🔄 Обзор Конвейера  
Вот обзор конвейера:  
1. **Агрегация моделей:** Использован стек ведущих моделей машинного обучения:  
   - `CatBoost` для эффективной работы с категориальными данными.
...
### Ключевые Параметры Конвейера  
| Модель        | Ключевые Параметры                                   | Объяснение                                                                      |  
|--------------|------------------------------------------------------|----------------------------------------------------------------------------------|  
| **CatBoost** | num_trees=3000, learning_rate=0.03, max_depth=5      | Эффективен для категориальных и табличных наборов данных.                      |  
...
## 🖥️ Основные Моменты Кода  
## 📊 Метрики  
Производительность... использованием **точности (accuracy)**...Точность: 90.7% ...Это означает, что...
### Интерпретация:  
## 💡 Выводы
Эта модель эффективно прогнозирует риск ожирения с **точностью 90.7%**, что...

In [10]:
from IPython.display import Markdown
result = translator._translate_text(report, target_language="ru")
Markdown(result)

# 📝 Многоклассовое Прогнозирование Риска Ожирения: Решение Задач Здравоохранения с Помощью Машинного Обучения  

## 🚀 Обзор  
Этот конкурс, **Playground Series - Season 4, Episode 2**, ставит перед участниками задачу прогнозирования риска ожирения у людей с использованием машинного обучения. Набор данных включает такие факторы, как возраст, физическая активность и пищевые привычки. Цель — многоклассовая классификация целевой переменной `NObeyesdad`, которая представляет пять различных категорий веса, от недостаточного до ожирения. Поскольку сердечно-сосудистые заболевания являются серьезной глобальной проблемой, эта задача имеет практическое значение для общественного здравоохранения.  

## 🔧 Предварительная Обработка Данных  
Подготовка набора данных — критически важный шаг перед передачей его модели. Вот что мы сделали:  
- **Заполнение пропущенных значений:** Устранили любые пробелы в данных путем:  
  - Для числовых признаков — замена пропущенных значений средним по столбцу. Пример: Отсутствующее значение возраста заменяется средним возрастом по набору данных.  
  - Для категориальных признаков — заполнение пропущенных записей наиболее частой категорией.  
- **One-Hot кодирование (Горячее кодирование):** Преобразовали категориальные переменные (например, пол) в числовые представления для совместимости с алгоритмами машинного обучения. Пример: Женский → [1, 0], Мужской → [0, 1].  
- **Нормализация (Масштабирование):** Убедились, что все числовые признаки находятся в аналогичном масштабе (например, от 0 до 1). Это предотвращает доминирование переменных с большими диапазонами (например, доход) при обучении модели.  

Вот как выглядела предварительная обработка в коде:  
```python
# Impute numerical features
numeric_imputer = SimpleImputer(strategy='mean')
features[numeric_cols] = numeric_imputer.fit_transform(features[numeric_cols])

# Impute categorical features
categorical_imputer = SimpleImputer(strategy='most_frequent')
features[categorical_cols] = categorical_imputer.fit_transform(features[categorical_cols])

# One-hot encoding
features = pd.get_dummies(features, columns=categorical_cols, drop_first=True)

# Normalize features (0-1 range)
scaler = MinMaxScaler()
features = scaler.fit_transform(features)
```  

## 🔄 Обзор Конвейера  
Конвейер модели включал предварительно настроенные алгоритмы AutoML для улучшения прогнозирования без ручной оптимизации гиперпараметров. Вот обзор конвейера:  
1. **Предварительная обработка данных:** Обработаны пропущенные данные, масштабирование и one-hot кодирование.  
2. **Агрегация моделей:** Использован стек ведущих моделей машинного обучения:  
   - `CatBoost` для эффективной работы с категориальными данными.  
   - `XGBoost` и `LightGBM` для быстрого, масштабируемого градиентного бустинга.  
   - Модель логистической регрессии для базовой линейной производительности.  
3. **Выбор модели:** AutoML динамически выбирал лучшую конфигурацию модели во время кросс-валидации.  

### Ключевые Параметры Конвейера  
| Модель        | Ключевые Параметры                                   | Объяснение                                                                      |  
|--------------|------------------------------------------------------|----------------------------------------------------------------------------------|  
| **CatBoost** | num_trees=3000, learning_rate=0.03, max_depth=5      | Эффективен для категориальных и табличных наборов данных.                      |  
| **XGBoost**  | booster='gbtree', early_stopping_rounds=30           | Популярен благодаря своей надежности и высокой предсказательной способности.    |  
| **LightGBM** | bagging_fraction=0.85, max_depth=-1                  | Разработан для скорости и масштабируемости с большими наборами данных.          |  
| **Масштабирование**  | MinMaxScaler для нормализации                       | Помогает градиентным моделям быстрее сходиться и предотвращает доминирование.   |  

## 🖥️ Основные Моменты Кода  
Вот разбивка наиболее важных разделов кода:

1. **Предварительная обработка данных**  
   Преобразует исходный набор данных в чистый формат, пригодный для использования моделями.  
```python
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler

# Impute missing values and scale features
def transform_data(dataset: pd.DataFrame):
    features = dataset.drop(columns=['NObeyesdad', 'id'])
    target = dataset['NObeyesdad'].values if 'NObeyesdad' in dataset.columns else None

    numeric_imputer = SimpleImputer(strategy='mean')
    features = numeric_imputer.fit_transform(features)

    scaler = MinMaxScaler()
    features = scaler.fit_transform(features)

    return features, target
```  

2. **Обучение модели и AutoML**  
   Автоматизировали процесс обучения модели с использованием фреймворка **FEDOT AutoML** для эффективного исследования высококачественных предсказательных моделей.  
```python
from fedot.api.main import Fedot
from fedot.core.repository.tasks import Task, TaskTypesEnum

def train_model(features, target):
    # Configure and train the model
    pipeline = Fedot(problem='classification', preset='best_quality', timeout=1.0, metric='accuracy')
    pipeline.fit(features, target)
    return pipeline
```  

3. **Оценка и Прогнозы**  
   Оценили производительность модели и подготовили файлы для отправки.  
```python
def create_submission():
    predictions = model.predict(test_features)
    submission_df = pd.DataFrame({'id': test_data['id'], 'NObeyesdad': predictions})
    submission_df.to_csv("submission.csv", index=False)
```  

## 📊 Метрики  

Производительность модели оценивается с использованием **точности (accuracy)**, которая измеряет долю правильных предсказаний среди общего числа предсказаний:  
- Точность: 90.7%  
Это означает, что модель правильно определяет категорию риска ожирения для 9 из каждых 10 человек в оценочном наборе.  

### Интерпретация:  
- **Сильные стороны:** Высокая точность демонстрирует сильную предсказательную способность по нескольким классам.  
- **Потенциальные проблемы:** Дисбаланс классов (некоторые категории ожирения могут иметь меньше экземпляров) может повлиять на предсказания для миноритарных классов.  

## 💡 Выводы  

Эта модель эффективно прогнозирует риск ожирения с **точностью 90.7%**, что является многообещающим результатом для применений в области общественного здравоохранения. Используя передовые методы AutoML и надежную предварительную обработку, она демонстрирует масштабируемый и эффективный подход к решению аналогичных задач классификации. Хотя это синтетический набор данных для конкурса, конвейер может быть легко адаптирован для реальных случаев использования, таких как прогнозирование сердечно-сосудистого риска или целенаправленное диетическое вмешательство.  

Моделирование риска ожирения — это не только прогнозирование, это обеспечение превентивных мер в здравоохранении, которые могут спасти жизни. Этот конкурс показывает, как машинное обучение может значительно продвинуться в решении глобальных проблем здравоохранения.

## Example 1: Simple Text Translation

Let's start with a basic translation from Spanish to English.

In [2]:
# Spanish text
spanish_text = "Hola, ¿cómo estás? Me llamo Ana y soy ingeniera de software."

print(f"Original (Spanish): {spanish_text}")

# Translate to English
english_translation = translator.translate_input_to_english(spanish_text)
print(f"\nTranslated to English: {english_translation}")

# Translate back to original language
back_translation = translator.translate_output_to_source_language(english_translation)
print(f"\nBack to Spanish: {back_translation}")

Original (Spanish): Hola, ¿cómo estás? Me llamo Ana y soy ingeniera de software.
Detected language: es. Translating to English using AIInference with improved formatting preservation.

Translated to English: Hello, how are you? My name is Ana and I am a software engineer.
Translating back to es using AIInference with improved formatting preservation.

Translated to English: Hello, how are you? My name is Ana and I am a software engineer.
Translating back to es using AIInference with improved formatting preservation.

Back to Spanish: ¿Hola, cómo estás? Me llamo Ana y soy ingeniera de software.

Back to Spanish: ¿Hola, cómo estás? Me llamo Ana y soy ingeniera de software.


## Example 2: Markdown Text with Code Blocks

Now let's test with formatted text that includes markdown and code blocks.

In [3]:
# Reset translator for new language detection
translator = TranslatorAgent(inference)

# French text with markdown and code
french_markdown = """# Guide de Programmation

## Introduction

Voici un exemple de **fonction Python** simple:

```python
def saluer(nom):
    return f"Bonjour {nom}!"

# Utilisation
message = saluer("Marie")
print(message)
```

Cette fonction:
- Prend un *paramètre* nom
- Retourne un message de salutation
- Utilise les f-strings pour le formatage

> **Note**: Les f-strings sont disponibles depuis Python 3.6
"""

print("Original (French with markdown):")
print(french_markdown)
print("\n" + "="*50)

# Translate to English
english_markdown = translator.translate_input_to_english(french_markdown)
print("\nTranslated to English:")
print(english_markdown)

Original (French with markdown):
# Guide de Programmation

## Introduction

Voici un exemple de **fonction Python** simple:

```python
def saluer(nom):
    return f"Bonjour {nom}!"

# Utilisation
message = saluer("Marie")
print(message)
```

Cette fonction:
- Prend un *paramètre* nom
- Retourne un message de salutation
- Utilise les f-strings pour le formatage

> **Note**: Les f-strings sont disponibles depuis Python 3.6


Detected language: fr. Translating to English using AIInference with improved formatting preservation.

Translated to English:
# Programming Guide

## Introduction

Here is an example of a **simple Python function**:

```python
def saluer(nom):
    return f"Bonjour {nom}!"

# Utilisation
message = saluer("Marie")
print(message)
```

This function:
- Takes a *name* parameter
- Returns a greeting message
- Uses f-strings for formatting

> **Note**: F-strings are available since Python 3.6

Translated to English:
# Programming Guide

## Introduction

Here is an example 

## Example 3: Interactive Translation

Try your own text! Modify the cell below with any text you want to translate.

In [4]:
# Reset translator for new session
translator = TranslatorAgent(inference)

# Enter your text here
your_text = "Guten Tag! Wie geht es Ihnen heute? Ich hoffe, Sie haben einen schönen Tag."

print(f"Your text: {your_text}")
print("\nDetecting language and translating...")

# Translate to English
result = translator.translate_input_to_english(your_text)
print(f"\nEnglish translation: {result}")

# Translate back
back_result = translator.translate_output_to_source_language(result)
print(f"\nBack to original language: {back_result}")

Your text: Guten Tag! Wie geht es Ihnen heute? Ich hoffe, Sie haben einen schönen Tag.

Detecting language and translating...
Detected language: de. Translating to English using AIInference with improved formatting preservation.

English translation: Good day! How are you today? I hope you have a nice day.
Translating back to de using AIInference with improved formatting preservation.

English translation: Good day! How are you today? I hope you have a nice day.
Translating back to de using AIInference with improved formatting preservation.

Back to original language: Guten Tag! Wie geht es Ihnen heute? Ich hoffe, Sie haben einen schönen Tag.

Back to original language: Guten Tag! Wie geht es Ihnen heute? Ich hoffe, Sie haben einen schönen Tag.


## Example 4: Testing Different Languages

Let's test with multiple languages to see how the automatic detection works.

In [6]:
# Test texts in different languages
test_texts = {
    "Italian": "Ciao! Come va? Spero che tu stia bene oggi.",
    "Portuguese": "Olá! Como você está? Espero que tenha um ótimo dia.",
    "Russian": "Привет! Как дела? Надеюсь, у тебя все хорошо.",
    "Japanese": "こんにちは！元気ですか？良い一日をお過ごしください。",
    "English": "Hello! How are you? I hope you have a great day."
}

for language, text in test_texts.items():
    print(f"\n{'='*50}")
    print(f"Testing {language}:")
    print(f"Original: {text}")
    
    # Reset translator for each language
    translator = TranslatorAgent(inference)
    
    # Translate to English
    english_result = translator.translate_input_to_english(text)
    print(f"English: {english_result}")
    
    if translator.source_language != "en":
        print(f"Detected language: {translator.source_language}")


Testing Italian:
Original: Ciao! Come va? Spero che tu stia bene oggi.
Detected language: it. Translating to English using AIInference with improved formatting preservation.
English: Hi! How are you? I hope you're doing well today.
Detected language: it

Testing Portuguese:
Original: Olá! Como você está? Espero que tenha um ótimo dia.
Detected language: pt. Translating to English using AIInference with improved formatting preservation.
English: Hello! How are you? I hope you have a great day.
Detected language: pt

Testing Russian:
Original: Привет! Как дела? Надеюсь, у тебя все хорошо.
Detected language: ru. Translating to English using AIInference with improved formatting preservation.
English: Hi! How are you? I hope you're doing well.
Detected language: ru

Testing Japanese:
Original: こんにちは！元気ですか？良い一日をお過ごしください。
Detected language: ja. Translating to English using AIInference with improved formatting preservation.
English: Hello! How are you? Have a good day.
Detected language: ja



## Key Features Demonstrated

This notebook shows the following features of TranslatorAgent:

1. **Automatic Language Detection**: Automatically detects the source language
2. **Bidirectional Translation**: Translate to English and back to original language
3. **Markdown Preservation**: Maintains all markdown formatting
4. **Code Block Protection**: Code blocks remain unchanged during translation
5. **Multiple Language Support**: Works with many different languages
6. **Robust Error Handling**: Gracefully handles translation failures

## Notes

- Make sure to set the `FEDOTLLM_LLM_API_KEY` environment variable
- You can use different AI models by changing the `model` parameter
- The translator preserves the source language for consistent back-translation
- Code blocks and technical content remain unchanged during translation