Skip to content
Andrey edited this page Dec 4, 2022 · 31 revisions

◀️ Понятия и методы извлечения, очистки и обогащения данных ▶️

Реферат к лекции 16 (32). Технологии хранилищ данных.

ИДБ-19-**

Выполнил: Рыкалов Андрей ИДБ-19-06

Проверил: Утенкова Елена ИДБ-19-06

Извлечение, очистка и обогащение данных

Извлечение, очистка и обогащение данных всё это их обработка. Технология обработки данных – информационная технология, направленная на процесс стандартизации, очистки и обогащения информации, что позволяет ее представлять и хранить в наиболее оптимальном виде.

Извлечение данных

Извлечение данных - совокупность действий/процессов/алгоритмов выборки данных из плохо структурированных или неструктурированны источников данных (электронные носители и техника, различные базы данных (веб-страниц, почтовых сервисов и т.п.)) для дальнейшего анализа или структурированного хранения.

При извлечении данных происходит добавление структуры к неструктурированным данным, и данная структура может принимать следующие формы:

  • Использование сопоставления текстовых шаблонов, таких как регулярные выражения, для идентификации мелкомасштабной или крупномасштабной структуры.
  • Использование табличного подхода для определения общих разделов в ограниченной области.
  • Использование текстовой аналитики для попытки понять текст и связать его с другой информацией.

Очистка данных

Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Как правило, очистка сводится к исправлению синтаксических, семантических и прагматических ошибок, допущенных в процессе сбора информации из разных источников.

Существуют следующие методы очистки данных:

  • Частотный анализ - метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности данных.
  • Использование контрольных чисел - в основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО и т.д.
  • Схожесть строк - анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности.
  • Дедубликация - основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов.

Обогащение данных

Обогащение данных относится к расширению существующей информации путем дополнения отсутствующих или неполных данных соответствующим контекстом, полученным из дополнительных источников, необходимая для качественного анализа. Проще говоря, это процесс улучшения, уточнения и дополнения необработанных данных. Данный термин производит аналогию данных с уранам, так как промышленники насыщают урановую руду.

Источниками сырых данных могут выступать телеметрия с датчиков IoT, информация с систем кассовых платежей, системы мониторинга инфраструктур и т.п. Существует два основных типа обогащения данных – внешнее и внутреннее. Внешнее обогащение предполагает привлечение дополнительной информации из источников, которые находятся вне информационной системы. Внутреннее обогащение не предполагает привлечения какой-либо внешней информации. Оно обычно связано с получением и включением в набор данных полезной информации, которая отсутствует в явном виде, но может быть тем или иным способом получена с помощью манипуляций с имеющимися данными.

Среди методов обогащения информации различают структурное, статистическое, семантическое и прагматическое обогащения.

  • Структурное обогащение предполагает изменение параметров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации и требуемой точности.
  • При статистическом обогащении осуществляют накопление статистических данных и обработку выборок из генеральных совокупностей накопленных данных.
  • Семантическое обогащение означает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость в ней.
  • Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.

Пример личного использования технологий

Во время прохождения курсов переподготовки по направлению Data Scientist использовался язык Python и его библиотеки машинного обучения. В качестве задания для закрепления нужно было с помощью различных моделей обучения спрогнозировать выживаемость пассажиров. Соответственно, для этого нужен был набор данных, приемлемый для анализа и обучения. Получив набор данных о пассажирах морского судна, потерпевшего крушение (ID, Выжил/Нет, Класс обслуживания, Имя, Пол, Возраст, Количество родственников 2-го порядка, Количество родственников 1-го порядка на борту, Билет, Цена билета, Кабина, Место посадки), началась их подготовка. Сразу при получении была произведена проверка на полные дубликаты строк и удаления их (дедубликация).

Первым делом, необходимо понять, какие данные будут полезны для обучения. Привести к нужной и понятной структуре для нас, но в первую очередь для ИИ. Нужными данными точно являются: Выжил/Нет, Возраст, Кабина. Проверить с помощью первичного анализа необходимо: Класс обслуживания, Пол, Количество родственников 2-го порядка, Количество родственников 1-го порядка на борту, Место посадки. На основе анализа графиков, значимость некоторых полей подтвердилось. Появилась следующая проблема: не все поля столбцом заполнены на 100%. Поэтому для различных столбцов были выбраны разные методы заполнения. Для возраста взята медиана и подставлена в пустые строки. Для места посадки - случайное из трех значений. После этого буквенным значениям различных столбцов были заданы численные с возможностью обратного преобразования (словарь). Заключительным этапом стало создание одной структуры всех полученных данных и сопоставление их со значением выжил/нет, после чего данные были готовы для анализа ИИ и дальнейшего обучения. Таким образом, во время прохождения курсов почти всегда использовались все три технологии: Извлечение, очистка и обогащение данных.

Источники

  1. Основные понятия обработки данных
  2. Data extraction
  3. Введение в ETL
  4. What is Data Enrichment?
  5. Обогащение данных
ИДБ-18-**

Выполнил: Сидоров Михаил ИДБ-18-05

Проверил: Гулан Адриан ИДБ-18-08

Извлечение данных

Извлечение данных - совокупность алгоритмов и компьютерных методов обработки информации, используемых для выборки данных из специальных хранилищ или баз знаний. Часто включает в себя процедуры анализа данных. В отличие от процедуры поиска термин “извлечение данных” характеризует применение сложных алгоритмов сопоставления и оценки данных.

Процесс извлечения данных из источников данных должен обеспечивать следующие важные возможности:

  1. возможность планировать извлечения по времени, интервалу или событию;
  2. набор правил для выбора данных из источника;
  3. возможность выбирать и объединять записи из нескольких источников.

Ряд коммерческих инструментов, таких как Informatica и Data Integrator, предоставляют большую часть этих функций извлечения.

Очистка данных

Очистка данных - процесс обнаружения, удаления и/или исправления грязных данных. (Данные, которые являются неправильными, устаревшими, избыточными, несогласованными, неполными или неправильно отформатированными). Очистка данных направлена не только на очистку данных, но и на обеспечение согласованности различных наборов данных, которые были объединены из отдельных баз данных. Доступны сложные программные приложения для очистки данных с использованием определенных функций, правил и справочных таблиц. Раньше эта задача выполнялась вручную и поэтому допускала человеческую ошибку.

Методы

Частотный анализ - метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности данных.

Контрольные числа - в основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО и т.д.

Схожесть строк - анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности.

Дедубликация - основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов.

Формализованные правила - накладывание заранее определенных правил очистки на контролируемые поля.

Способы замены - индексирование слов по их звучанию, кодирование.

Проверка по статистическим значениям - по доверительному интервалу, средним значениям.

Кластерный анализ - проверка написания значения с учетом попадания его в кластер.

Обогащение данных

Обогащение данных (улучшение данных) - процесс использования дополнительной информации из внутренних или внешних источников данных для улучшения качества входных данных, которые были неполными, неспецифическими или устаревшими. Пополнение почтовых адресов, геокодирование и добавление демографических данных являются типичными процедурами обогащения данных.

Методы

Интеграция с источниками - осуществляется сбор информации из различных внутренних и внешних источников: CRM-системы, БКИ, социальные сети, статистические службы.

Анализ связей - исследует взаимосвязанные объекты и определяет закономерности между ними.

Поиск близких объектов - основывается на «схожести» значений признаков объектов.

Реорганизация самих данных - введение кодировок, признаков состояний объектов, подразделение их на категории.

Нечеткий поиск - восстановление пропусков с помощью нечетких запросов.

Анализ источников данных - рейтингование источников данных по достоверности.

Источники

Informatica ETL

Data Integrator

Data Quality

Обзор инструментов качества данных

Введение в ETL

Clone this wiki locally