Тема10. Проектирование и разработка процесса ETL
Аннотация. В настоящей лекции рассматриваются общие принципы организации
процесса извлечения, преобразования и загрузки данных (Extract, Transform, Load — ETL) для ХД,
приводится классификация систем — источников данных, обсуждаются некоторые методы извлечения данных.
Рассмотрена в общих чертах методика проектирования ETL-процессов с использованием CASE-инструментов.
Ключевые слова: извлечение, преобразование и загрузка данных, планирование ETL-процесса,
элементы ETL-процесса, очистка данных, качество данных, диаграмма движения данных, диаграмма
преобразования данных, диаграмма управления потоком преобразования данных.
Цель лекции
Изучив материал настоящей лекции, обучающийся будет знать:
- что такое процесс ETL;
- место процесса ETL в архитектуре системы бизнес аналитики на основе хранилищ данных;
- что такое реализация ETL-процесса с использованием промежуточной области;
- что такое реализация ETL-процесса без использования промежуточной области;
- основные элементы ETL-процесса;
- как хранилище данных управляет системами бизнес-аналитики;
И научится:
- строить диаграммы движения данных, диаграммы преобразования данных, диаграммы управления
потоком преобразования данных;
- выполнять общее планирование реализации ETL-процесса;
- проектировать ETL-процессы.
Литература: [3], [14], [33], [32], [51].
Разработка ETL-процесса включает в себя следующие основные стадии:
- планирование ETL-процесса;
- конструирование процесса заполнения таблиц измерений;
- конструирование процесса заполнения таблиц фактов;
- извлечение данных; - преобразование и очистка данных;
- загрузка данных.
При проектировании процессов преобразования данных проектировщик ХД должен решить следующие задачи:
- проанализировать требования к данным ХД;
- проанализировать и описать источники данных для ХД;
- создать модель преобразования данных высокого уровня;
- определить и подробно описать каждую задачу преобразования данных.
Контрольные вопросы:
- Что такое процесс ETL?
- Что такое реализация ETL-процесса с использованием промежуточной области?
- Что такое реализация ETL-процесса без использования промежуточной области?