### **Импорт библиотек**

In [1]:
import pandas as pd 

import os
import logging

### **Загрузка данных**

In [3]:
df = pd.read_csv('data/KaggleV2-May-2016.csv')

### **Логирование информации о данных**

In [4]:
# Функция для создания лог-файла и записи в него информации
def get_logger(path, file):
   """[Создает лог-файл для логирования в него]
   Аргументы:
       path {string} -- путь к директории
       file {string} -- имя файла
  
   Возвращает:
       [obj] -- [логер]
   """
 
   # проверяем, существует ли файл
   log_file = os.path.join(path, file)
 
   if not os.path.isfile(log_file):
       open(log_file, "w+").close()
 
   # поменяем формат логирования
   file_logging_format = "%(levelname)s: %(asctime)s: %(message)s"
 
   # конфигурируем лог-файл
   logging.basicConfig(level=logging.INFO, 
   format = file_logging_format)
   logger = logging.getLogger()
  
   # создадим хэнлдер для записи лога в файл
   handler = logging.FileHandler(log_file)
 
   # установим уровень логирования
   handler.setLevel(logging.INFO)
  
   # создадим формат логирования, используя file_logging_format
   formatter = logging.Formatter(file_logging_format)
   handler.setFormatter(formatter)
 
   # добавим хэндлер лог-файлу
   logger.addHandler(handler)
 
   return logger

*Итак*, **get_logger** принимает на вход папку, в которой вы хотите хранить файл лога и имя файла. Функция нацелена на создание информационных сообщений и записи их в лог-файл. Для того, чтобы освежить в памяти знания по работе с файлами, вы можете вернуться к *Блоку 2 нашего курса («Подгрузка данных»)*.  

Для удобства лог-файлы хранят в отдельной директории. Новую папку можно создать с помощью команды **mkdir:**

In [5]:
# создаем папку для логирования
!mkdir logs

Создадим лог-файл и запишем туда информацию о датасете.

In [11]:
# создаем лог-файл
logger = get_logger(path="logs/", file="data.logs")

logger.info("Data")

logger.info("Data shape {}".format(df.shape))

logger.info("Percentage of women: {}".format(df[df['No-show']=='Yes']['Gender'].value_counts(True)[0]))

logger.info("Percentage of men: {}".format(df[df['No-show']=='Yes']['Gender'].value_counts(True)[1]))

INFO: 2024-05-13 00:27:18,411: Data
INFO: 2024-05-13 00:27:18,412: Data shape (110527, 14)
INFO: 2024-05-13 00:27:18,428: Percentage of women: 0.653882342398853
INFO: 2024-05-13 00:27:18,445: Percentage of men: 0.346117657601147


В директории **logs** появится файл *data.logs*, который будет выглядеть следующим образом:

<img src="images/data.logs.png">

⭐️ Отлично! Мы зафиксировали информацию о датасете в лог-файл. Такой файл отражает сведения о том, что всё работает в штатном режиме (то есть просто ежедневный мониторинг программы) или что произошла какая-то ошибка, на которую нужно максимально срочно отреагировать и устранить. *Например*, мы можем проверять форму данных, и, если форма не соответствует необходимой, логировать ошибку:

In [12]:
if df.shape != (110526,14):
 logger.error('Data shape is incorrect!')

ERROR: 2024-05-13 00:30:53,813: Data shape is incorrect!


Посмотрим на обновленный файл *data.logs*:

<img src="images/data.logs(1).png">