In [1]:
import logging
import pandas as pd
import os

In [2]:
def get_logger(path, file):
    
    """[Создает лог-файл для логирования в него]
    Аргументы:
      path {string} -- путь к директории
      file {string} -- имя файла
    Возвращает:
      [obj] -- [логер]"""
    
    # проверяем, существует ли файл
    log_file = os.path.join(path, file)
  
    # если файла нет, создаем его
    if not os.path.isfile(log_file):
        open(log_file, 'w+').close()
    
    file_logging_format = "%(levelname)s: %(asctime)s: %(message)s"
    
    # конфигурируем лог-файл
    logging.basicConfig(level=logging.INFO, format=file_logging_format)
    logger = logging.getLogger()
    
    # создадим хэндлер для записи лога в файл
    handler = logging.FileHandler(log_file)
    
    # установим уровень логирования
    handler.setLevel(logging.INFO)
    
    # создадим формат логирования, используя file_logging_format
    formatter = logging.Formatter(file_logging_format)
    handler.setFormatter(formatter)
    
    # добавим хэндлер к лог-файлу
    logger.addHandler(handler)
    return logger

In [4]:
df = pd.read_csv('data/KaggleV2-May-2016.csv.zip')

In [3]:
!mkdir logs

In [5]:
# создаем лог-файл
logger = get_logger(path="logs/", file="data.logs")

logger.info("Data")

logger.info("Data shape {}".format(df.shape))

logger.info("Percentage of women: {}".format(df[df['No-show']=='Yes']['Gender'].value_counts(True)[0]))

logger.info("Percentage of men: {}".format(df[df['No-show']=='Yes']['Gender'].value_counts(True)[1]))

INFO: 2023-02-12 16:08:41,527: Data
INFO: 2023-02-12 16:08:41,528: Data shape (110527, 14)
INFO: 2023-02-12 16:08:41,537: Percentage of women: 0.653882342398853
INFO: 2023-02-12 16:08:41,545: Percentage of men: 0.346117657601147


In [6]:
if df.shape != (110526, 14):
    logger.error('Data shape is incorrect!')

ERROR: 2023-02-12 16:12:11,271: Data shape is incorrect!
