# Глава 1. Основы Python для работы с данными

## Переменные и типы данных в контексте AI

**Числа (числовые типы данных)** являются основой любых вычислений в машинном обучении. Целые числа (int) мы используем для подсчета правильных и неправильных предсказаний модели, а числа с плавающей точкой (float) — для вычисления метрик качества. Деление целых чисел в Python автоматически дает нам число с плавающей точкой, что удобно для вычисления долей и процентов.

In [None]:
# Подсчет правильных предсказаний классификатора
correct_predictions = 85  # int - целое число
total_predictions = 100   # int - целое число

# Вычисление точности модели
accuracy = correct_predictions / total_predictions  # float - число с плавающей точкой
print(f"Точность модели: {accuracy}")  # Результат: 0.85

**Строки (str)** критически важны при работе с текстовыми данными и оценкой языковых моделей. В задачах обработки естественного языка мы постоянно работаем с текстом: сравниваем ответы модели с эталонными, подсчитываем длину генерируемого текста, ищем определенные фразы.

Здесь мы используем метод **.lower()** для приведения строк к нижнему регистру, что делает сравнение нечувствительным к регистру. Оператор in проверяет, содержится ли одна строка в другой. Функция **len()** возвращает длину строки — полезная метрика при оценке многословности ответов модели.

In [None]:
# Оценка ответа языковой модели
model_answer = "Столица России - Москва"
correct_answer = "Москва"

# Проверяем, содержит ли ответ модели правильную информацию
is_correct = correct_answer.lower() in model_answer.lower()
print(f"Ответ содержит правильную информацию: {is_correct}")

# Измеряем длину ответа модели
answer_length = len(model_answer)
print(f"Длина ответа: {answer_length} символов")

**Соединение строк и форматирование**

In [None]:
print('Hello ' + 'Alex') # First option

hello = 'Hello'
name = 'Alex'

print(hello + ' ' + name)  # Second option

hello = 'Hello'
name = 'Alex'

text = f"{hello} {name}" # Third option

print(text)

In [None]:
city = 'Moscow'
name = 'Alex'
age = 35

text = f"My name is {name}. I'm {age} years old and from {city}"

print(text)  # My name is Alex. I'm 35 years old and from Budva

**Логический тип (bool)** представляет истинность или ложность утверждения. В контексте оценки AI это фундаментальный тип для определения правильности предсказаний. Логические операторы and, or, not позволяют создавать сложные условия для анализа работы модели. Это особенно важно при вычислении метрик точности (precision) и полноты (recall), где нужно различать разные типы ошибок.

In [None]:
# Классификация изображений: кот или не кот
predicted_class = "кот"
actual_class = "кот"

# Проверяем правильность предсказания
prediction_is_correct = predicted_class == actual_class
print(f"Предсказание правильное: {prediction_is_correct}")  # True

# Подсчет ошибок первого рода (false positive)
model_says_cat = True
actually_is_cat = False
false_positive = model_says_cat and not actually_is_cat
print(f"Ложноположительное срабатывание: {false_positive}")  # False

## Базовые классы

**Списки (list)** — это упорядоченные коллекции элементов, которые играют центральную роль в обработке данных для AI. В задачах оценки мы постоянно работаем с наборами предсказаний, правильных ответов, оценок экспертов. Индексация в Python начинается с нуля, что может поначалу сбивать с толку, но быстро становится привычным. Отрицательные индексы позволяют обращаться к элементам с конца списка: -1 — это последний элемент, -2 — предпоследний.

In [None]:
# Предсказания модели классификации для 10 изображений
predictions = [1, 0, 1, 1, 0, 1, 0, 0, 1, 1]
# Правильные метки (ground truth)
true_labels = [1, 0, 1, 0, 0, 1, 0, 1, 1, 1]

print(f"Количество предсказаний: {len(predictions)}")
print(f"Первое предсказание: {predictions[0]}")
print(f"Последнее предсказание: {predictions[-1]}")

In [None]:
predictions.append(0)  # Добавляем новое предсказание в конец списка
true_labels.append(0)  # Добавляем соответствующую правильную метку в конец списка

print(predictions)
print(true_labels)

# Объединение результатов из разных экспериментов
experiment_1_predictions = [1, 0, 1]
experiment_2_predictions = [0, 1, 0]
all_predictions = experiment_1_predictions + experiment_2_predictions
print(f"Все предсказания: {all_predictions}")

# Извлечение части данных (slicing)
first_half = predictions[:5]  # Первые 5 элементов
second_half = predictions[5:]  # С 6-го элемента до конца
print(f"Первая половина: {first_half}")
print(f"Вторая половина: {second_half}")

**Словари (dict)** представляют собой коллекции пар "ключ-значение" и незаменимы для хранения структурированной информации о результатах оценки. Словари позволяют хранить разнородную информацию под понятными именами. Это особенно полезно при сохранении результатов экспериментов, когда нужно связать различные метрики с их названиями.

In [None]:
# Результаты оценки модели
evaluation_results = {
    "accuracy": 0.85,
    "precision": 0.82,
    "recall": 0.88,
    "f1_score": 0.85,
    "total_samples": 1000
}

print(f"Точность модели: {evaluation_results['accuracy']}")
print(f"F1-мера: {evaluation_results['f1_score']}")

# Добавление новых метрик
evaluation_results["auc_roc"] = 0.91
evaluation_results["confusion_matrix"] = [[450, 50], [100, 400]]

# Проверка наличия метрики
if "accuracy" in evaluation_results:
    print(f"Модель показала точность {evaluation_results['accuracy']*100:.2f}%")

Перебор элементов словаря часто необходим для вывода отчетов. Метод **.items()** возвращает пары ключ-значение, которые можно перебрать в цикле. Функция **isinstance()** проверяет тип данных, что позволяет по-разному форматировать вывод для чисел и других типов данных.

In [None]:
# Вывод всех метрик
print("Результаты оценки модели:")
for metric_name, metric_value in evaluation_results.items():
    if isinstance(metric_value, float):
        print(f"{metric_name}: {metric_value:.3f}")
    else:
        print(f"{metric_name}: {metric_value}")

In [None]:
print(evaluation_results.get('accuracy'))

In [None]:
print(evaluation_results.values())

In [None]:
print(evaluation_results.keys())

**Множества (set)** представляют собой коллекции уникальных элементов без определенного порядка. В задачах оценки AI они особенно полезны для работы с уникальными значениями, удаления дубликатов и выполнения операций над наборами данных. Множества автоматически исключают повторяющиеся элементы, что делает их идеальными для анализа уникальных категорий, классов или идентификаторов в данных.

In [None]:
# Создание множеств разными способами
predicted_classes = {1, 0, 1, 1, 0, 1}  # Дубликаты автоматически удаляются
print(f"Уникальные предсказанные классы: {predicted_classes}")  # {0, 1}

# Создание множества из списка (удаление дубликатов)
model_predictions = [1, 1, 0, 1, 0, 0, 1, 1, 0]
unique_predictions = set(model_predictions)
print(f"Уникальные значения: {unique_predictions}")  # {0, 1}

In [None]:
# Анализ моделей, которые прошли разные этапы оценки
models_tested = {"GPT-4", "BERT", "T5", "RoBERTa"}
models_in_production = {"GPT-4", "BERT"}

# Добавление новой модели
models_tested.add("Claude")
print(f"Протестированные модели: {models_tested}")

# Удаление модели
models_tested.remove("T5")  # Вызовет ошибку, если элемента нет
# models_tested.discard("T5")  # Безопасное удаление - не вызовет ошибку
print(f"Новое множество моделей: {models_tested}")

# Проверка принадлежности (очень быстрая операция)
if "GPT-4" in models_in_production:
    print("GPT-4 используется в продакшене")

# Проверка подмножества
if models_in_production.issubset(models_tested):
    print("Все продакшен-модели были протестированы")

# Очистка множества
test_set = {"model1", "model2"}
test_set.clear()
print(f"После очистки: {test_set}")  # set()

**Кортежи (tuple)** — это упорядоченные коллекции элементов, которые нельзя изменять после создания. В задачах оценки AI они особенно полезны для хранения конфигураций экспериментов, координат данных, результатов измерений и других данных, которые должны оставаться неизменными. Кортежи гарантируют целостность данных и часто используются для возврата нескольких значений из функций.

In [None]:
# Создание кортежей
# Результат эксперимента: (название_модели, точность, время_обучения)
experiment_result = ("GPT-4", 0.92, 180)
print(f"Результат эксперимента: {experiment_result}")

# Координаты точки в пространстве признаков
data_point = (0.8, 0.65, 0.73, 0.91)  # 4 признака
print(f"Точка данных: {data_point}")

# Создание из других коллекций
scores_list = [0.85, 0.90, 0.78]
scores_tuple = tuple(scores_list)
print(f"Оценки как кортеж: {scores_tuple}")

# Создание пустого кортежа и с одним элементом
empty_tuple = ()
single_element = (42,)  # Запятая обязательна для одного элемента!
print(f"Пустой кортеж: {empty_tuple}")
print(f"Один элемент: {single_element}")

# Изменение в кортеже
new_element = list(single_element)
new_element.append("AI")
few_elements = tuple(new_element)

print (f"Новый кортеж с двумя значениями {few_elements}")

# Глава 2. Циклы и условия для анализа данных

## Условные конструкции в оценке моделей

**Условные конструкции** позволяют программе принимать решения на основе данных. В задачах оценки AI мы постоянно сравниваем результаты с пороговыми значениями, классифицируем типы ошибок, определяем качество работы модели. **Конструкция if-elif-else** позволяет создавать разветвленную логику принятия решений. В данном примере мы категоризируем качество модели на основе ее точности, что является типичной задачей при анализе результатов экспериментов.

In [None]:
# Анализ производительности модели
accuracy = 0.73

if accuracy >= 0.9:
    model_quality = "отличное"
    recommendation = "Модель готова к продакшену"
elif accuracy >= 0.8:
    model_quality = "хорошее"
    recommendation = "Модель может использоваться с осторожностью"
elif accuracy >= 0.7:
    model_quality = "удовлетворительное"
    recommendation = "Модель требует доработки"
else:
    model_quality = "неудовлетворительное"
    recommendation = "Модель непригодна для использования"

print(f"Качество модели: {model_quality}")
print(f"Рекомендация: {recommendation}")

In [None]:
# Анализ конкретного предсказания
predicted_class = "спам"
actual_class = "не спам"

if predicted_class == actual_class:
    print("Правильное предсказание")
    error_type = None
elif predicted_class == "спам" and actual_class == "не спам":
    print("Ложное срабатывание (False Positive)")
    error_type = "FP"
elif predicted_class == "не спам" and actual_class == "спам":
    print("Пропуск цели (False Negative)")
    error_type = "FN"

# Оценка критичности ошибки
if error_type == "FP":
    print("Критичность: низкая - письмо попадет в спам")
elif error_type == "FN":
    print("Критичность: высокая - спам останется в почте")

## Циклы для обработки больших объемов данных

**Цикл for** — основной инструмент для обработки последовательностей данных в задачах оценки AI. Функция range(len(predictions))** создает последовательность индексов от 0 до длины списка минус 1. Это позволяет одновременно работать с элементами нескольких списков, используя один и тот же индекс.

In [None]:
# Вычисление точности модели "вручную"
predictions = [1, 0, 1, 1, 0, 1, 0, 0, 1, 1]
true_labels = [1, 0, 1, 0, 0, 1, 0, 1, 1, 1]

correct_count = 0
total_count = 0

for i in range(len(predictions)):
    total_count += 1
    if predictions[i] == true_labels[i]:
        correct_count += 1
    
    # Подробный анализ каждого предсказания
    prediction = predictions[i]
    true_label = true_labels[i]
    is_correct = prediction == true_label
    
    print(f"Образец {i+1}: предсказание={prediction}, "
          f"истина={true_label}, правильно={is_correct}")

accuracy = correct_count / total_count
print(f"\nИтоговая точность: {accuracy:.3f}")

**Функция zip()** объединяет элементы нескольких списков попарно, что делает код более читаемым и менее подверженным ошибкам.

In [None]:
fruits = ['apple', 'banana', 'lime']

quant = [100, 50, 70]

all_fruit_zip = zip(fruits, quant) # Объединение последовательностей 

all_fruit_dict = dict(all_fruit_zip) # Конвертация с словарь

all_fruit_zip = zip(fruits, quant) # Объединение последовательностей 

all_fruit_list = list(all_fruit_zip) # Конвертация с список

print(f"Объединенные списки Dict {all_fruit_dict}")
print(f"Объединенные списки List (в формате кортежей Tuple) {all_fruit_list}")

In [None]:
correct_count = 0

for prediction, true_label in zip(predictions, true_labels):
    if prediction == true_label:
        correct_count += 1

accuracy = correct_count / len(predictions)
print(f"Точность: {accuracy:.3f}")

Функция **enumerate()** добавляет автоматический счетчик к любому итерируемому объекту (список, строка, результат zip() и т.д.). Она возвращает пары: (индекс, элемент).

In [None]:
fruits = ["яблоко", "банан", "апельсин"]

# Обычный цикл
for fruit in fruits:
    print(fruit)

# С enumerate
for i, fruit in enumerate(fruits):
    print(f"{i}: {fruit}")

In [None]:
# Инициализируем счетчики для разных типов результатов
true_positives = 0   # Правильно предсказали "да"
false_positives = 0  # Неправильно предсказали "да" (а было "нет")
true_negatives = 0   # Правильно предсказали "нет"
false_negatives = 0  # Неправильно предсказали "нет" (а было "да")

# zip() берет элементы из двух списков попарно
# Это как застегивание молнии (zipper) - соединяет элементы по парам

# Теперь перебираем эти пары
print("Пошаговый разбор каждой пары:")
for i, (prediction, true_label) in enumerate(zip(predictions, true_labels)):
    print(f"Шаг {i+1}: prediction={prediction}, true_label={true_label}")
    
    # Анализируем каждую пару
    if prediction == 1 and true_label == 1:
        true_positives += 1
        print("  → TRUE POSITIVE: модель сказала 'да' и это правильно")
    elif prediction == 1 and true_label == 0:
        false_positives += 1
        print("  → FALSE POSITIVE: модель сказала 'да', но правильно было 'нет'")
    elif prediction == 0 and true_label == 0:
        true_negatives += 1
        print("  → TRUE NEGATIVE: модель сказала 'нет' и это правильно")
    elif prediction == 0 and true_label == 1:
        false_negatives += 1
        print("  → FALSE NEGATIVE: модель сказала 'нет', но правильно было 'да'")
    print()

# Вычисление дополнительных метрик
if true_positives + false_positives > 0:
    precision = true_positives / (true_positives + false_positives)
    print(f"Precision (точность): {precision:.3f}")

if true_positives + false_negatives > 0:
    recall = true_positives / (true_positives + false_negatives)
    print(f"Recall (полнота): {recall:.3f}")

**Цикл while** полезен в ситуациях, когда нужно продолжать процесс до достижения определенного условия.Конструкция break позволяет принудительно завершить цикл, что критически важно для предотвращения бесконечных циклов.

In [None]:
# Симуляция обучения модели до достижения целевой точности
current_accuracy = 0.60
target_accuracy = 0.85
epoch = 0
learning_rate = 0.01

print("Начинаем обучение модели...")

while current_accuracy < target_accuracy:
    epoch += 1
    
    # Симуляция улучшения точности (в реальности это сложный процесс)
    improvement = learning_rate * (target_accuracy - current_accuracy) * 0.3
    current_accuracy += improvement
    
    print(f"Эпоха {epoch}: точность = {current_accuracy:.3f}")
    
    # Защита от бесконечного цикла
    if epoch > 100:
        print("Достигнуто максимальное количество эпох")
        break

print(f"Обучение завершено за {epoch} эпох")
print(f"Финальная точность: {current_accuracy:.3f}")

# Глава 3. Функции 

## Основы создания функций

Функции позволяют разбить сложные задачи оценки на управляемые части, избежать дублирования кода и создать переиспользуемые инструменты анализа. Документация функции (docstring) в тройных кавычках объясняет назначение функции, ее параметры и возвращаемое значение. Это хорошая практика, особенно важная при работе в команде.

In [None]:
# Функция для вычисления точности
def calculate_accuracy(predictions, true_labels):
    """
    Вычисляет точность модели.
    
    Аргументы:
        predictions: список предсказаний модели
        true_labels: список правильных меток
    
    Возвращает:
        float: точность в диапазоне от 0 до 1
    """
    if len(predictions) != len(true_labels):
        raise ValueError("Количество предсказаний должно совпадать с количеством меток")
    
    correct_count = 0
    for pred, true in zip(predictions, true_labels):
        if pred == true:
            correct_count += 1
    
    return correct_count / len(predictions)

# Использование функции
model_predictions = [1, 0, 1, 1, 0]
ground_truth = [1, 0, 0, 1, 0]

accuracy = calculate_accuracy(model_predictions, ground_truth)
print(f"Точность модели: {accuracy:.3f}")

## Глобальные и локальные переменные

In [None]:
a = 5  # Глобальная переменная


def new():
    a = 1  # Локальная переменная
    return a


def new_1():
    a = 1  
    global b  # Объявление глобальной переменной внутри функции
    b = 3  
    return a + b


new_1() # Для вывода глобальной переменной изнутри функции, функцию нужно вызвать хотя бы 1 раз


print(a)
print (new())

## Еще пример функций

In [None]:
def analyze_text_response(model_response, reference_response):
    """
    Анализирует ответ языковой модели в сравнении с эталонным.
    
    Возвращает:
        dict: метрики качества текстового ответа
    """
    # Приводим к нижнему регистру для сравнения
    model_lower = model_response.lower()
    reference_lower = reference_response.lower()
    
    print ("========Приводим к нижнему регистру для сравнения=========")
    print(f"Ответ от модели: {model_lower}")
    print(f"Эталонный: {reference_lower}")
    
    # Разбиваем на слова
    model_words = model_lower.split()
    reference_words = reference_lower.split()
    
    print ("")
    print ("========Разбиваем на слова=========")
    print(f"Ответ от модели: {model_lower}")
    print(f"Эталонный: {reference_lower}")
    
    # Подсчитываем пересекающиеся слова
    model_words_set = set(model_words)
    reference_words_set = set(reference_words)
    common_words = model_words_set.intersection(reference_words_set)

    print ("")
    print ("========Подсчитываем пересекающиеся слова=========")
    print(f"Ответ от модели: {model_words_set}")
    print(f"Эталонный: {reference_words_set}")
    print(f"Общие слова: {common_words}")
    
    # Вычисляем метрики
    """
    Метод .strip() удаляет пробелы и другие "невидимые" символы (пробелы, табуляции, переводы строки) с начала и конца строки. 
    Он не изменяет символы внутри строки.
    """
    exact_match = model_lower.strip() == reference_lower.strip()
    
    return {

        'exact_match': exact_match,
        'model_answer_length': len(model_words),
        'reference_answer_length': len(reference_words)
    }

# Пример использования
model_answer = "Столица России - это Москва, крупнейший город страны"
reference_answer = "Москва является столицей России"

analysis = analyze_text_response(model_answer, reference_answer)

print ("")
print(f"Анализ ответа модели: {analysis}")

# Глава 4. Работа с библиотеками

**Библиотеки** — это готовые наборы функций и инструментов, которые решают типичные задачи. Вместо написания всего кода с нуля мы можем использовать проверенные и оптимизированные решения.

**Установка библиотек** через pip — стандартный способ добавления новых возможностей в Python: 

bash
* Установка популярных библиотек для анализа данных
pip install numpy
pip install pandas  
pip install matplotlib

* Установка нескольких библиотек одновременно
pip install numpy pandas matplotlib

* Установка из файла requirements.txt
pip install -r requirements.txt

# Установка популярных библиотек для анализа данных
pip install numpy
pip install pandas  
pip install matplotlib

# Установка нескольких библиотек одновременно
pip install numpy pandas matplotlib

# Установка из файла requirements.txt
pip install -r requirements.txt

In [None]:
# Полный импорт библиотеки
import math
result = math.sqrt(25)  # Нужно указывать имя библиотеки

# Импорт с псевдонимом (сокращением)
import numpy as np
array = np.array([1, 2, 3, 4, 5])

# Импорт конкретных функций
from math import sqrt, log
result = sqrt(25)  # Можно использовать напрямую

# Импорт всех функций (не рекомендуется для больших библиотек)
from math import *
result = sqrt(25)

In [None]:
# Импорт библиотек
import math  # Встроенная библиотека для математических операций

# Использование готовых функций
numbers = [1, 4, 9, 16, 25]
square_roots = [math.sqrt(num) for num in numbers]
print(f"Квадратные корни: {square_roots}")

# Импорт конкретных функций
from math import sqrt, log
logarithms = [log(num) for num in numbers]
print(f"Натуральные логарифмы: {logarithms}")

In [None]:
import csv

# Создание CSV файла с результатами экспериментов
experiment_data = [
    ["experiment_id", "model_name", "accuracy", "training_time"],
    ["exp_001", "Модель A", 0.85, 120.5],
    ["exp_002", "Модель B", 0.82, 95.3],
    ["exp_003", "Модель C", 0.89, 180.7],
    ["exp_004", "Модель A", 0.87, 115.2]
]

# Открываем файл для записи с важными параметрами:
# "w" - режим записи (write), файл будет перезаписан
# newline="" - предотвращает лишние пустые строки в Windows
# encoding="utf-8" - поддержка русских символов

with open("experiments.csv", "w", newline="", encoding="utf-8") as csvfile:
    
    # Создаем объект writer для записи CSV данных
    writer = csv.writer(csvfile)
    
    # Проходим по каждой строке данных в experiment_data
    # experiment_data - это список списков, где каждый внутренний список = строка CSV
    for row in experiment_data:
        # Записываем строку в файл
        # writer.writerow() автоматически добавляет запятые между элементами
        writer.writerow(row)

print("Данные сохранены в experiments.csv")


# ===== ЧТЕНИЕ ДАННЫХ ИЗ CSV ФАЙЛА =====

# Создаем пустой список для хранения обработанных экспериментов

experiments = []

# Открываем тот же файл для чтения:
# "r" - режим чтения (read)
# encoding="utf-8" - обязательно тот же encoding, что при записи
with open("experiments.csv", "r", encoding="utf-8") as csvfile:
    
    # Создаем объект reader для чтения CSV данных
    reader = csv.reader(csvfile)

    # Извлекаем первую строку как заголовки
    # next() получает следующий элемент из итератора (первую строку)
    
    header = next(reader)  # Например: ["experiment_id", "model_name", "accuracy", "training_time"]
    print(f"Заголовки: {header}")
    
    # row - это список строк, например: ["exp_001", "Модель A", "0.85", "120.5"]
    for row in reader:
        # Создаем словарь dict для удобной работы с данными
        experiment = {
            # row[0] - первый элемент строки (ID эксперимента)
            "id": row[0],
            
            # row[1] - второй элемент (название модели)
            "model": row[1], 
            
            # row[2] - третий элемент, преобразуем строку в число
            # float() нужен, потому что CSV хранит все как строки
            "accuracy": float(row[2]),
            
            # row[3] - четвертый элемент, тоже преобразуем в число
            "time": float(row[3])
        }
        
        # Добавляем готовый словарь в список экспериментов
        experiments.append(experiment)
    print(experiments)

# Анализ прочитанных данных
print(f"\nЗагружено {len(experiments)} экспериментов:")
for exp in experiments:
    print(f"{exp['id']}: {exp['model']} - точность {exp['accuracy']:.3f}")

# Поиск лучшего эксперимента
best_experiment = experiments[0]  # Начинаем с первого эксперимента

for experiment in experiments:
    # Если нашли эксперимент с большей точностью
    if experiment['accuracy'] > best_experiment['accuracy']:
        best_experiment = experiment  # Обновляем лучший результат
        
print(f"\nЛучший результат: {best_experiment['model']} с точностью {best_experiment['accuracy']:.3f}")

# Глава 5. Обработка ошибок

In [None]:
try:
    print(10/2)
except ZeroDivisionError as e: # Выполняется, если ошибка есть
    print(e)
else:
    print("There was no error")  # Выполняется, если ошибки нет
finally:
    print('Proceed')  # Выполняется в любом случае

In [None]:
def divide_nums(a, b):
    if b == 0:
        raise ValueError("Second num can't be 0") # Добавления своего текста ошибки
    return int(a/b)


try:
    a = divide_nums(10, 0)

except Exception as e:
    print(e)

else:
    print(a)

In [None]:
def safe_read_scores(filename):
    """
    Безопасно читает файл с оценками, обрабатывая возможные ошибки.
    """
    scores = []
    
    try:
        with open(filename, "r", encoding="utf-8") as file:
            for line_number, line in enumerate(file, 1):
                line = line.strip()
                
                if not line:  # Пропускаем пустые строки
                    continue
                    
                try:
                    # Пытаемся преобразовать строку в число
                    score = float(line)
                    
                    # Проверяем, что оценка в разумных пределах
                    if 0 <= score <= 1:
                        scores.append(score)
                    else:
                        print(f"Предупреждение: странная оценка {score} в строке {line_number}")
                        
                except ValueError:
                    print(f"Ошибка: не удалось преобразовать '{line}' в число (строка {line_number})")
                    
    except FileNotFoundError:
        print(f"Ошибка: файл '{filename}' не найден")
        return None
        
    except PermissionError:
        print(f"Ошибка: нет прав доступа к файлу '{filename}'")
        return None
        
    except Exception as e:
        print(f"Неожиданная ошибка при чтении файла: {e}")
        return None
    
    return scores

# Использование функции
scores = safe_read_scores("model_scores.txt")
if scores is not None:
    if scores:
        print(f"Успешно прочитано {len(scores)} оценок")
        print(f"Средняя оценка: {sum(scores)/len(scores):.3f}")
    else:
        print("Файл пуст или не содержит корректных данных")

# Глава 6. Списковые включения и базовые операции с данными

## Списковые включения для обработки данных

**Списковые включения (list comprehensions)** — это элегантный способ создания новых списков на основе существующих данных. Они особенно полезны при обработке результатов оценки.

In [None]:
# Исходные данные - оценки модели от 0 до 1
scores = [0.95, 0.67, 0.89, 0.45, 0.92, 0.56, 0.78]

# Создаем пустой список для результата
# Этот список будет заполняться элементами, которые прошли проверку
good_scores = [] 

# Перебираем каждую оценку в списке scores
# На каждой итерации переменная score получает значение очередного элемента
for score in scores:
    # Проверяем условие: оценка должна быть 0.8 или выше
    # 0.8 = 80% точности - это наш порог для "хорошей" модели
    if score >= 0.8:
        # Если условие выполнено, добавляем эту оценку в список good_scores
        # append() добавляет элемент в конец списка
        good_scores.append(score)

print(f"Хорошие оценки (обычный способ): {good_scores}")

# ========== СПИСКОВОЕ ВКЛЮЧЕНИЕ (LIST COMPREHENSION) ==========
# Тот же результат с помощью спискового включения
# Это более компактный способ создать новый список на основе старого
# Структура: [что_взять for элемент in исходный_список if условие]
#            ↑         ↑                ↑                ↑
#         результат  цикл          источник         фильтр
good_scores_compact = [score for score in scores if score >= 0.8]

print(f"Хорошие оценки (списковое включение): {good_scores_compact}")

# Преобразование оценок в проценты
percentages = [score * 100 for score in scores]
print(f"Оценки в процентах: {percentages}")

# Классификация оценок
classifications = ["отлично" if score >= 0.9 else "хорошо" if score >= 0.7 else "плохо" 
                  for score in scores]
print(f"Классификация: {classifications}")

# Глава 7. Создание классов

### Что такое классы и зачем они нужны

**Класс** — это шаблон для создания объектов, которые объединяют данные и функции для работы с этими данными. Если функции помогают избежать дублирования кода, то классы помогают организовать связанные данные и функции в логические группы.

Представьте, что вы оцениваете несколько AI-моделей. У каждой модели есть название, точность, время обучения, и вы хотите выполнять с ними одинаковые операции: сравнивать, сохранять результаты, вычислять метрики. Без классов вам пришлось бы создавать множество отдельных переменных и функций. Классы позволяют объединить все это в удобную структуру.

In [None]:
class AIModel:
    # Метод для установки основных параметров модели
    # self — это ссылка на конкретный объект, с которым мы работаем
    def set_info(self, name, accuracy):
        """
        Устанавливает основную информацию о модели.
        
        Аргументы:
            name: название модели (строка)
            accuracy: точность модели (число от 0 до 1)
        """
        # self.name создает атрибут name для этого конкретного объекта
        self.name = name
        # self.accuracy создает атрибут accuracy для этого объекта
        self.accuracy = accuracy
    
    # Метод для отображения информации о модели
    def display_info(self):
        """Выводит информацию о модели."""
        print(f"Модель: {self.name}")
        print(f"Точность: {self.accuracy:.3f} ({self.accuracy*100:.1f}%)")
    
    # Метод для проверки качества модели
    def is_good_model(self):
        """
        Проверяет, является ли модель достаточно точной.
        
        Возвращает:
            bool: True, если точность >= 0.8, иначе False
        """
        return self.accuracy >= 0.8

# Создаем экземпляры класса
model1 = AIModel()
model2 = AIModel()

# Устанавливаем данные для каждой модели
# self передается автоматически, мы передаем только name и accuracy
model1.set_info("GPT-4", 0.92)
model2.set_info("BERT", 0.76)

# Вызываем методы для каждой модели
print("=== Информация о моделях ===")
model1.display_info()
print()
model2.display_info()
print()

# Проверяем качество моделей
print("=== Оценка качества ===")
if model1.is_good_model():
    print(f"{model1.name} — хорошая модель!")
else:
    print(f"{model1.name} — требует улучшения")

if model2.is_good_model():
    print(f"{model2.name} — хорошая модель!")
else:
    print(f"{model2.name} — требует улучшения")

## Метод инициализации init

**Метод __init__** — это специальный метод, который автоматически вызывается при создании нового объекта. Он позволяет сразу устанавливать начальные значения атрибутов.

In [None]:
class AIModel:
    # __init__ вызывается автоматически при создании объекта
    # Это конструктор класса
    def __init__(self, name, accuracy, training_time=None):
        """
        Инициализирует новую модель AI.
        
        Аргументы:
            name: название модели
            accuracy: точность модели (от 0 до 1)
            training_time: время обучения в минутах (необязательно)
        """
        # Сохраняем переданные параметры как атрибуты объекта
        self.name = name
        self.accuracy = accuracy
        self.training_time = training_time
        
        # Можем также вычислить дополнительные атрибуты
        self.accuracy_percent = accuracy * 100
        
        # Атрибуты могут иметь значения по умолчанию
        self.is_evaluated = False
        self.evaluation_date = None
        
        print(f"Создана модель: {self.name}")
    
    def display_info(self):
        """Выводит полную информацию о модели."""
        print(f"Название: {self.name}")
        print(f"Точность: {self.accuracy:.3f} ({self.accuracy_percent:.1f}%)")
        
        # Проверяем, указано ли время обучения
        if self.training_time is not None:
            print(f"Время обучения: {self.training_time} минут")
        else:
            print("Время обучения: не указано")
        
        print(f"Статус оценки: {'завершена' if self.is_evaluated else 'не проведена'}")
    
    def mark_as_evaluated(self):
        """Отмечает модель как оцененную."""
        self.is_evaluated = True
        # Можно добавить текущую дату (упрощенно)
        self.evaluation_date = "сегодня"
        print(f"Модель {self.name} помечена как оцененная")

# Теперь можем создавать модели сразу с параметрами
# __init__ вызывается автоматически
model1 = AIModel("GPT-4", 0.92, 180)  # С временем обучения
model2 = AIModel("BERT", 0.76)        # Без времени обучения
print()

# Используем методы
print("=== Информация о моделях ===")
model1.display_info()
print()
model2.display_info()
print()

# Изменяем состояние модели
model1.mark_as_evaluated()
print()
model1.display_info()