# **Логирование экспериментов**

Как вы уже знаете, в процессе проведения эксперимента по машинному обучению можно использовать функцию print() для просмотра выходных данных экспериментов, таких как уровень корреляции данных в выборке, результат тестирования статистической гипотезы и так далее. 

Однако время от времени выводить результат на экран с помощью функции print() бесполезно, так как при запуске следующего эксперимента вы потеряете все результаты предыдущего эксперимента, если не запишете их вручную в документ. 

**Логирование** решает эту проблему! Даже если информация изменится с запуском нового эксперимента, всё будет зафиксировано в **логе**. 

                    ЛОГ (log) — это специальный журнал, в котором хранится информация о состоянии работы программы.
                    Логирование (ведение журнала) обеспечивает отслеживание событий, происходящих во время
                    работы программы, и может выводить эти события в отдельный файл, чтобы вы могли отслеживать,
                    что происходит во время выполнения кода. 

Пример такого файла:  
![](https://lms.skillfactory.ru/assets/courseware/v1/950fc343eb32dab13e94f0f30764ca54/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-6-14.png)

Здесь зафиксирована информация о форме данных и соотношение классов целевой переменной Gender. Это даёт возможность отлаживать код. Далее мы подробнее разберём, как создавать логи. 

Для логирования в Python используется модуль **logging**. Он используется большинством сторонних библиотек Python, поэтому вы можете интегрировать свои логи с сообщениями из этих библиотек для создания единого журнала логов приложения. Данный модуль импортируется как другие библиотеки:

<div style="text-align: center;">

**import logging**

</div>

Прежде чем приступить к логированию, необходимо установить базовые настройки:

- **уровень**;
- **обработчик** (хендлер);
- **формат** логирования. 

In [16]:
# импорт библиотек
import pandas as pd
from IPython.display import display
import logging

import os
import sys

***
### **НАСТРОЙКА УРОВНЯ ЛОГИРОВАНИЯ**

С импортированным модулем **logging** вы можете использовать так называемый «logger» для логирования сообщений, которые вы хотите видеть (вместо вывода их на экран командой print()). 

По умолчанию существует пять стандартных уровней логирования, указывающих на важность событий: 

- **отладка**;
- **информация**;
- **предупреждение**;
- **ошибка**;
- **критический**. 

Самый низкий уровень из данных — **не установлен**, а самый высокий уровень является критическим. Установив уровень логирования, можно записать сообщение специально для этого уровня в определённый файл журнала. Возле сообщения будет указан его уровень.


In [17]:
logging.debug('Это сообщение отладки')
logging.info('Это информационное сообщение')
logging.warning('Это сообщение-предупреждение')
logging.error('Это сообщение об ошибке')
logging.critical('Это критическое сообщение')

ERROR:root:Это сообщение об ошибке
CRITICAL:root:Это критическое сообщение


Здесь мы дали команду залогировать пять сообщений. Вывод команд показывает уровень важности перед каждым сообщением (WARNING/ERROR/CRITICAL). **root** — имя логера по умолчанию.

Этот формат, который показывает уровень, имя и сообщение, разделенные двоеточием (:), является форматом вывода по умолчанию. Его можно изменить для включения таких вещей, как отметка времени, номер строки и других деталей. Мы научимся делать это чуть ниже.

Обратите внимание, что сообщения debug() и info() не были отображены. Это связано с тем, что по умолчанию модуль ведения журнала регистрирует сообщения только с уровнем ПРЕДУПРЕЖДЕНИЕ (WARNING) или выше. Вы можете изменить это, сконфигурировав модуль logging для регистрации событий всех уровней, то есть установив уровень на **ОТЛАДКУ (DEBUG)**:

![](https://lms.skillfactory.ru/assets/courseware/v1/104c7f4800236ffbd2c6408a909cdfe2/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-6-12.png)


In [18]:
# В приведённом ниже примере кода показано, как можно настроить уровень ведения журнала на DEBUG.

logging.basicConfig(level=logging.DEBUG)
logging.debug('Сообщение будет залогировано!')

Мы настроили уровень ведения журнала **DEBUG**, что означает, что **будут отслеживаться только сообщения этого уровня (DEBUG) и выше**.

Помимо файла лог может быть записан и в другой формат. Для этого используются **обработчики (хендлеры) логов**.

***
### **УСТАНОВКА ОБРАБОТЧИКА ЛОГИРОВАНИЯ**

Функция обработчиков ведения журналов состоит в том, чтобы **отображать записи/сообщения журнала на любом выходе**, который вы выберете. То есть вы можете выбрать, отображать ли ваш лог в виде файла, HTTP-страницы или даже отправить лог на электронную почту через **SMTP**. 

Более того, у созданного вами logger может быть несколько обработчиков, а это значит, что вы можете настроить его на сохранение в файл журнала, а также на отправку по email одновременно. Подробнее ознакомиться с видами хендлеров можно [здесь](https://digitology.tech/docs/python_3/library/logging.handlers.html).

Обработчики являются классами модуля logging. Нам понадобится обработчик **FileHandler**, который возьмёт запись/сообщение журнала и добавит его в файл журнала log_file.log:

In [19]:
logging.FileHandler('data/log_file.log')

<FileHandler c:\DS\Notebooks\EDA-6 Designing experiments\data\log_file.log (NOTSET)>

***
### **УСТАНОВКА ФОРМАТА ЛОГИРОВАНИЯ**

Как мы уже сказали, типичный формат лога выглядит так: **уровень: имя: сообщение**. Однако его можно изменить.

Существуют различные способы форматирования записи журнала. Вы можете включить дату, время и уровень ведения журнала в свой формат, чтобы знать, когда журнал был отправлен и на каком уровне. В приведённом ниже примере показано, как можно настроить формат записей журнала.

In [20]:
logging.basicConfig(format="%(levelname)s: %(asctime)s: %(message)s", level=logging.DEBUG)
logging.info('Проверка')

Здесь формат записей журнала включает дату, время, уровень ведения журнала и само сообщение.

Таким образом, вы можете изменять как формат лога, так и формат вывода. Добавление времени сообщения существенно облегчает работу — становится легко отследить, когда было получено сообщение.
***
Теперь, когда вы понимаете основы модуля logging в Python, посмотрим, как можно его использовать при проведении экспериментов по машинному обучению. Давайте залогируем информацию о нашем датасете Medical Appointment No Shows. 

Создадим функцию log() для генерации лог-файла и записи в него информации.

In [21]:
# Функция для создания лог-файла и записи в него информации
def get_logger(path, file):
  """[Создает лог-файл для логирования в него]
  Аргументы:
      path {string} -- путь к директории
      file {string} -- имя файла
   Возвращает:
      [obj] -- [логер]
  """
  # проверяем, существует ли файл
  log_file = os.path.join(path, file)
 
  #если  файла нет, создаем его
  if not os.path.isfile(log_file):
      open(log_file, "w+").close()
  
  # поменяем формат логирования
  file_logging_format = "%(levelname)s: %(asctime)s: %(message)s"
  
  # конфигурируем лог-файл
  logging.basicConfig(level=logging.INFO, 
  format = file_logging_format)
  logger = logging.getLogger()
  
  # создадим хэнлдер для записи лога в файл
  handler = logging.FileHandler(log_file)
  
  # установим уровень логирования
  handler.setLevel(logging.INFO)
  
  # создадим формат логирования, используя file_logging_format
  formatter = logging.Formatter(file_logging_format)
  handler.setFormatter(formatter)
  
  # добавим хэндлер лог-файлу
  logger.addHandler(handler)
  return logger

Итак, get_logger принимает на вход папку, в которой вы хотите хранить файл лога и имя файла. Функция нацелена на создание информационных сообщений и записи их в лог-файл. Для того, чтобы освежить в памяти знания по работе с файлами, вы можете вернуться к **Блоку 2 нашего курса («Подгрузка данных»)**.  

Для удобства лог-файлы хранят в отдельной директории. Новую папку можно создать с помощью команды 

                                                               ! mkdir

Создадим лог-файл и запишем туда информацию о датасете.

In [23]:
df = pd.read_csv('data/KaggleV2-May-2016.csv')

In [24]:
# создаем лог-файл
logger = get_logger(path="logs/", file="data.logs")

logger.info("Data")

logger.info("Data shape {}".format(df.shape))

logger.info("Percentage of women: {}".format(df[df['No-show']=='Yes']['Gender'].value_counts(True)[0]))

logger.info("Percentage of men: {}".format(df[df['No-show']=='Yes']['Gender'].value_counts(True)[1]))

В директории logs появится файл data.logs, который будет выглядеть следующим образом:

![](https://lms.skillfactory.ru/assets/courseware/v1/950fc343eb32dab13e94f0f30764ca54/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-6-14.png)

⭐️ Мы зафиксировали информацию о датасете в лог-файл. Такой файл отражает сведения о том, что всё работает в штатном режиме (то есть просто ежедневный мониторинг программы) или что произошла какая-то ошибка, на которую нужно максимально срочно отреагировать и устранить. Например, мы можем проверять форму данных, и, если форма не соответствует необходимой, логировать ошибку:

In [25]:
if df.shape != (110526,14):
    logger.error('Data shape is incorrect!')

ERROR:root:Data shape is incorrect!
