Получаемые аналитиком данные не всегда соответствуют ожидаемому уровню качества. Человеческий фактор, ошибки системы или процесса выгрузки могут «испортить» их, то есть сделать непригодными для анализа.
На этом курсе вы научитесь оценивать, подходят ли данные для проверки гипотезы. Такая оценка — первое действие в алгоритме решения аналитических задач.
Ваши цели:
- узнать методы обработки пропусков;
- научиться преобразовывать один тип данных в другой;
- определять дубликаты и обрабатывать их различными способами;
- понять, как разделять данные на категории.
+1 проект в портфолио
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.