# Задача. Базовый синтаксис
Открыть JSON-файл, проанализировать данные, изменить их и сохранить


```
Файл data.json:
{
  "company": "TechCorp",
  "departments": {
    "dev": ["Alice", "Bob"],
    "hr": ["Charlie"]
  },
  "budget": 100000
}
```
1. Прочитать JSON-файл в словарь data
2. Итерировать по всем ключам верхнего уровня и вывести их
3. Итерировать по всем значениям словаря departments
4. Итерировать по парам ключ-значение в departments
5. Добавить нового сотрудника "David" в отдел "dev"
6. Увеличить бюджет на 10%
7. Записать изменённый словарь обратно в файл



In [4]:
import json

# 1. Прочитать JSON-файл в словарь data
with open('data.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

# 2. Итерировать по всем ключам верхнего уровня и вывести их
print("\nКлючи верхнего уровня:")
for key in data.keys():
    print(f"- {key}")

# 3. Итерировать по всем значениям словаря departments
print("\nЗначения словаря departments:")
for value in data['departments'].values():
    print(f"- {value}")

# 4. Итерировать по парам ключ-значение в departments
print("\nПары ключ-значение в departments:")
for key, value in data['departments'].items():
    print(f"- {key}: {value}")

# 5. Добавить нового сотрудника "David" в отдел "dev"
if 'dev' in data['departments']:
    data['departments']['dev'].append('David')
    print(f"\ndev после добавления сотрудника 'David': {data['departments']['dev']}")

# 6. Увеличить бюджет на 10%
if 'budget' in data:
    data['budget'] = data['budget'] * 1.1
    print(f"\nБюджет увеличен на 10%. Новый бюджет: {data['budget']}")

# 7. Записать изменённый словарь обратно в файл
with open('data.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, indent=2, ensure_ascii=False)

# Выводим итоговые данные для наглядности
print("\nИтоговые данные:")
print(json.dumps(data, indent=2, ensure_ascii=False))


Ключи верхнего уровня:
- company
- departments
- budget

Значения словаря departments:
- ['Alice', 'Bob', 'David', 'David']
- ['Charlie']

Пары ключ-значение в departments:
- dev: ['Alice', 'Bob', 'David', 'David']
- hr: ['Charlie']

dev после добавления сотрудника 'David': ['Alice', 'Bob', 'David', 'David', 'David']

Бюджет увеличен на 10%. Новый бюджет: 133100.00000000003

Итоговые данные:
{
  "company": "TechCorp",
  "departments": {
    "dev": [
      "Alice",
      "Bob",
      "David",
      "David",
      "David"
    ],
    "hr": [
      "Charlie"
    ]
  },
  "budget": 133100.00000000003
}


# Задача 1: Анализ конфигурации модели NLP

У вас есть конфигурационный файл для NLP-модели в виде словаря


```
config = {
    "model_name": "bert-base-uncased",
    "batch_size": 32,
    "max_length": 128,
    "learning_rate": 2e-5,
    "epochs": 3,
    "labels": ["positive", "negative", "neutral"]
}
```
1. Получите значение learning_rate двумя способами: через скобки и через get()
2. Добавьте новый параметр "early_stopping": True
3. Измените batch_size на 64
4. Пройдитесь по всем параметрам конфигурации и выведите только те, значения которых - числа
5. Создайте копию конфигурации для тестирования с batch_size=8 и epochs=1


In [9]:
config = {
    "model_name": "bert-base-uncased",
    "batch_size": 32,
    "max_length": 128,
    "learning_rate": 2e-5,
    "epochs": 3,
    "labels": ["positive", "negative", "neutral"]
}

# 1. Получите значение learning_rate двумя способами: через скобки и через get()
print("\n1. Получение learning_rate:")
lr1 = config["learning_rate"]
print(f"Через скобки: {lr1}")

lr2 = config.get("learning_rate")
print(f"Через get(): {lr2}")

# 2. Добавьте новый параметр "early_stopping": True
config["early_stopping"] = True
print(f"\n2. early_stopping: {config['early_stopping']}")

# 3. Измените batch_size на 64
config["batch_size"] = 64
print(f"\n3. batch_size: {config['batch_size']}")

# 4. Пройдитесь по всем параметрам конфигурации и выведите только те, значения которых - числа
print("\n4. Числовые параметры:")
for key, value in config.items():
    if isinstance(value, (int, float)) and not isinstance(value, bool):
        print(f"{key}: {value}")

# 5. Создайте копию конфигурации для тестирования с batch_size=8 и epochs=1

test_config = dict(config)

test_config["batch_size"] = 8
test_config["epochs"] = 1

print("\n5. Тестовая конфигурация:")
for key, value in sorted(test_config.items()):
    print(f"{key}: {value}")


1. Получение learning_rate:
Через скобки: 2e-05
Через get(): 2e-05

2. early_stopping: True

3. batch_size: 64

4. Числовые параметры:
batch_size: 64
max_length: 128
learning_rate: 2e-05
epochs: 3

5. Тестовая конфигурация:
batch_size: 8
early_stopping: True
epochs: 1
labels: ['positive', 'negative', 'neutral']
learning_rate: 2e-05
max_length: 128
model_name: bert-base-uncased


# Задача 2: Обработка ответа от NLP-сервиса



```
api_response = {
    "text": "I really enjoyed the movie, the acting was amazing!",
    "sentiment": {
        "label": "positive",
        "score": 0.95,
        "confidence": "high"
    },
    "entities": [
        {"entity": "movie", "type": "ENTERTAINMENT", "confidence": 0.89},
        {"entity": "acting", "type": "SKILL", "confidence": 0.92}
    ],
    "language": "en",
    "processed_in": 0.45
}
```


1. Получите оценку тональности (score)
2. Пройдитесь по всем сущностям (entities) и выведите только названия сущностей
3. Найдите сущность с максимальной уверенностью (confidence)
4. Добавьте в поле ответа "model_version": "2.1.0"
5. Отфильтруйте все поля, значения которых являются строками

In [1]:
api_response = {
    "text": "I really enjoyed the movie, the acting was amazing!",
    "sentiment": {
        "label": "positive",
        "score": 0.95,
        "confidence": "high"
    },
    "entities": [
        {"entity": "movie", "type": "ENTERTAINMENT", "confidence": 0.89},
        {"entity": "acting", "type": "SKILL", "confidence": 0.92}
    ],
    "language": "en",
    "processed_in": 0.45
}
# 1. Получите оценку тональности (score)
sentiment_score = api_response["sentiment"]["score"]
print(f"Оценка тональности: {sentiment_score}")

# 2. Пройдитесь по всем сущностям (entities) и выведите только названия сущностей
entities = api_response["entities"]
entity_names = [entity["entity"] for entity in entities]
print(f"Названия сущностей: {entity_names}")

# 3. Найдите сущность с максимальной уверенностью (confidence)
max_confidence_entity = max(entities, key=lambda x: x["confidence"])
print(f"Сущность с максимальной уверенностью: {max_confidence_entity}")

# 4. Создание нового объекта с добавленным полем "model_version"
updated_response = api_response.copy()
updated_response["model_version"] = "2.1.0"

# 5. Отфильтруйте все поля, значения которых являются строками
filtered_response = {
    key: value for key, value in updated_response.items()
    if not isinstance(value, str)
}

# Итоговый результат
print(f"Исходный ответ с добавленным model_version:")
print(updated_response)
print(f"\nОтфильтрованный ответ (без строковых значений):")
print(filtered_response)

Оценка тональности: 0.95
Названия сущностей: ['movie', 'acting']
Сущность с максимальной уверенностью: {'entity': 'acting', 'type': 'SKILL', 'confidence': 0.92}
Исходный ответ с добавленным model_version:
{'text': 'I really enjoyed the movie, the acting was amazing!', 'sentiment': {'label': 'positive', 'score': 0.95, 'confidence': 'high'}, 'entities': [{'entity': 'movie', 'type': 'ENTERTAINMENT', 'confidence': 0.89}, {'entity': 'acting', 'type': 'SKILL', 'confidence': 0.92}], 'language': 'en', 'processed_in': 0.45, 'model_version': '2.1.0'}

Отфильтрованный ответ (без строковых значений):
{'sentiment': {'label': 'positive', 'score': 0.95, 'confidence': 'high'}, 'entities': [{'entity': 'movie', 'type': 'ENTERTAINMENT', 'confidence': 0.89}, {'entity': 'acting', 'type': 'SKILL', 'confidence': 0.92}], 'processed_in': 0.45}


# Задача 3: Конфигурация пайплайна обработки текста


```
pipeline_config = {
    "steps": {
        "tokenization": {"enabled": True, "method": "word"},
        "stopwords": {"enabled": True, "language": "english", "custom_words": []},
        "stemming": {"enabled": False, "algorithm": "porter"},
        "normalization": {"enabled": True, "lowercase": True, "remove_punct": True}
    },
    "input_encoding": "utf-8",
    "output_format": "tokens"
}
```


1. Включите stemming, установив "enabled": True
2. Добавьте "numbers" в custom_words для стоп-слов
3. Получите список всех включенных шагов пайплайна
4. Измените output_format на "vectors"
5. Создайте упрощенную конфигурацию только с включенными шагами


In [2]:
pipeline_config = {
    "steps": {
        "tokenization": {"enabled": True, "method": "word"},
        "stopwords": {"enabled": True, "language": "english", "custom_words": []},
        "stemming": {"enabled": False, "algorithm": "porter"},
        "normalization": {"enabled": True, "lowercase": True, "remove_punct": True}
    },
    "input_encoding": "utf-8",
    "output_format": "tokens"
}

# 1. Включите stemming, установив "enabled": True
pipeline_config["steps"]["stemming"]["enabled"] = True

# 2. Добавьте "numbers" в custom_words для стоп-слов
pipeline_config["steps"]["stopwords"]["custom_words"].append("numbers")

# 3. Получите список всех включенных шагов пайплайна
enabled_steps = []
for step_name, step_config in pipeline_config["steps"].items():
    if step_config.get("enabled", False):
        enabled_steps.append(step_name)

# 4. Измените output_format на "vectors"
pipeline_config["output_format"] = "vectors"

# 5. Создание упрощенной конфигурации только с включенными шагами
simplified_config = {
    "input_encoding": pipeline_config["input_encoding"],
    "output_format": pipeline_config["output_format"],
    "steps": {}
}

# Создайте упрощенную конфигурацию только с включенными шагами
for step_name, step_config in pipeline_config["steps"].items():
    if step_config.get("enabled", False):
        simplified_config["steps"][step_name] = step_config.copy()

print("\nОбновленная конфигурация:")
print(pipeline_config)
print("\nУпрощенная конфигурация (только включенные шаги):")
print(simplified_config)


Обновленная конфигурация:
{'steps': {'tokenization': {'enabled': True, 'method': 'word'}, 'stopwords': {'enabled': True, 'language': 'english', 'custom_words': ['numbers']}, 'stemming': {'enabled': True, 'algorithm': 'porter'}, 'normalization': {'enabled': True, 'lowercase': True, 'remove_punct': True}}, 'input_encoding': 'utf-8', 'output_format': 'vectors'}

Упрощенная конфигурация (только включенные шаги):
{'input_encoding': 'utf-8', 'output_format': 'vectors', 'steps': {'tokenization': {'enabled': True, 'method': 'word'}, 'stopwords': {'enabled': True, 'language': 'english', 'custom_words': ['numbers']}, 'stemming': {'enabled': True, 'algorithm': 'porter'}, 'normalization': {'enabled': True, 'lowercase': True, 'remove_punct': True}}}


# Задача 4: Агрегация статистики NLP-моделей


```
models_stats = {
    "bert-base": {
        "accuracy": 0.92,
        "f1_score": 0.91,
        "inference_time": 120,
        "size_mb": 440
    },
    "distilbert": {
        "accuracy": 0.89,
        "f1_score": 0.88,
        "inference_time": 65,
        "size_mb": 250
    },
    "roberta-large": {
        "accuracy": 0.94,
        "f1_score": 0.93,
        "inference_time": 210,
        "size_mb": 1600
    }
}
```


1. Найдите модель с максимальной точностью (accuracy)
2. Рассчитайте среднее время инференса по всем моделям
3. Создайте новый словарь только с метриками accuracy и f1_score для каждой модели
4. Добавьте новую модель "albert-base" с данными: accuracy=0.87, f1_score=0.86, inference_time=55, size_mb=180
5. Отфильтруйте модели, размер которых меньше 500 МБ


In [3]:
models_stats = {
    "bert-base": {
        "accuracy": 0.92,
        "f1_score": 0.91,
        "inference_time": 120,
        "size_mb": 440
    },
    "distilbert": {
        "accuracy": 0.89,
        "f1_score": 0.88,
        "inference_time": 65,
        "size_mb": 250
    },
    "roberta-large": {
        "accuracy": 0.94,
        "f1_score": 0.93,
        "inference_time": 210,
        "size_mb": 1600
    }
}

# 1. Найдите модель с максимальной точностью (accuracy)
max_accuracy_model = max(
    models_stats.items(),
    key=lambda item: item[1]["accuracy"]
)
print(f"Модель с максимальной точностью: {max_accuracy_model[0]} (accuracy={max_accuracy_model[1]['accuracy']})")

# 2. Рассчитайте среднее время инференса по всем моделям
inference_times = [stats["inference_time"] for stats in models_stats.values()]
average_inference_time = sum(inference_times) / len(inference_times)
print(f"Среднее время инференса: {average_inference_time:.2f} мс")

# 3. Создайте новый словарь только с метриками accuracy и f1_score для каждой модели
metrics_only = {
    model_name: {
        "accuracy": stats["accuracy"],
        "f1_score": stats["f1_score"]
    }
    for model_name, stats in models_stats.items()
}
print(f"\nСловарь только с accuracy и f1_score:")
print(metrics_only)

# 4. Добавьте новую модель "albert-base" с данными: accuracy=0.87, f1_score=0.86, inference_time=55, size_mb=180
models_stats["albert-base"] = {
    "accuracy": 0.87,
    "f1_score": 0.86,
    "inference_time": 55,
    "size_mb": 180
}
print(f"\nПосле добавления albert-base:")
print(models_stats)

# 5. Отфильтруйте модели, размер которых меньше 500 МБ
filtered_models = {
    model_name: stats
    for model_name, stats in models_stats.items()
    if stats["size_mb"] < 500
}
print(f"\nМодели размером меньше 500 МБ:")
print(filtered_models)

Модель с максимальной точностью: roberta-large (accuracy=0.94)
Среднее время инференса: 131.67 мс

Словарь только с accuracy и f1_score:
{'bert-base': {'accuracy': 0.92, 'f1_score': 0.91}, 'distilbert': {'accuracy': 0.89, 'f1_score': 0.88}, 'roberta-large': {'accuracy': 0.94, 'f1_score': 0.93}}

После добавления albert-base:
{'bert-base': {'accuracy': 0.92, 'f1_score': 0.91, 'inference_time': 120, 'size_mb': 440}, 'distilbert': {'accuracy': 0.89, 'f1_score': 0.88, 'inference_time': 65, 'size_mb': 250}, 'roberta-large': {'accuracy': 0.94, 'f1_score': 0.93, 'inference_time': 210, 'size_mb': 1600}, 'albert-base': {'accuracy': 0.87, 'f1_score': 0.86, 'inference_time': 55, 'size_mb': 180}}

Модели размером меньше 500 МБ:
{'bert-base': {'accuracy': 0.92, 'f1_score': 0.91, 'inference_time': 120, 'size_mb': 440}, 'distilbert': {'accuracy': 0.89, 'f1_score': 0.88, 'inference_time': 65, 'size_mb': 250}, 'albert-base': {'accuracy': 0.87, 'f1_score': 0.86, 'inference_time': 55, 'size_mb': 180}}


# Задача 5: Работа с JSON-конфигом NLP-сервиса


```
{
  "service_name": "sentiment-analysis-api",
  "version": "1.2.0",
  "models": {
    "sentiment": {
      "path": "/models/bert-sentiment",
      "max_input_length": 512,
      "supported_languages": ["en", "es", "fr"]
    },
    "ner": {
      "path": "/models/spacy-ner",
      "max_input_length": 1024,
      "supported_languages": ["en"]
    }
  },
  "server": {
    "host": "0.0.0.0",
    "port": 8080,
    "workers": 4
  },
  "rate_limit": 100
}
```


1. Загрузите конфигурацию из JSON-файла
2. Добавьте новую модель для "summarization" с соответствующими параметрами
3. Увеличьте rate_limit на 50%
4. Добавьте русский язык ("ru") в поддерживаемые языки для модели sentiment
5. Создайте отдельный словарь только с настройками сервера
6. Сохраните обновленную конфигурацию в новый файл nlp_service_config_updated.json


In [6]:
import json

# 1. Загрузите конфигурацию из JSON-файла
with open('nlp_service_config.json', 'r', encoding='utf-8') as f:
    config = json.load(f)

# 2. Добавьте новую модель для "summarization" с соответствующими параметрами
config["models"]["summarization"] = {
    "path": "/models/bart-summarizer",
    "max_input_length": 1024,
    "supported_languages": ["en", "zh", "de"]
}

# 3. Увеличьте rate_limit на 50%
config["rate_limit"] = int(config["rate_limit"] * 1.5)

# 4. Добавьте русский язык ("ru") в поддерживаемые языки для модели sentiment
config["models"]["sentiment"]["supported_languages"].append("ru")

# 5. Создайте отдельный словарь только с настройками сервера
server_config = config["server"].copy()

# 6. Сохраните обновленную конфигурацию в новый файл nlp_service_config_updated.json
with open('nlp_service_config_updated.json', 'w', encoding='utf-8') as f:
    json.dump(config, f, indent=2, ensure_ascii=False)

print(f"1. Добавлена модель 'summarization': {'summarization' in config['models']}")
print(f"2. Новый rate_limit: {config['rate_limit']}")
print(f"3. Русский язык добавлен в sentiment: {'ru' in config['models']['sentiment']['supported_languages']}")

1. Добавлена модель 'summarization': True
2. Новый rate_limit: 150
3. Русский язык добавлен в sentiment: True
