Распределенная обработка больших массивов изображений небесных обзоров при помощи Apache Spark
Мещеряков Александр Валерьевич
Институт космических исследований РАН
Авторы: Иван Колосов (ВМиК МГУ), Сергей Герасимов ((ВМиК МГУ), Александр Мещеряков (ИКИ РАН)
Объемы данных цифровых небесных обзоров, которые уже сейчас достигли порядка нескольких петабайт, в будущем продолжат расти. Поэтому актуальна задача создания настраиваемых и масштабируемых конвейеров обработки данных небесных обзоров, позволяющих исследователям решать интересующие их задачи, используя большой объем накопленных данных. Данная работа посвящена экспериментальному исследованию применения технологий аналитики больших данных, в частности, Apache Spark, для обработки фотометрических данных небесных обзоров. Исследованы сценарии создания сборок (англ. coadds) больших областей неба путем совмещения большого числа архивных изображений (на примере данных SDSS Stripe 82) и сценарий создания каталога объектов из потока изображений с обзорного телескопа (на примере данных DECaLS). Проведенные эксперименты позволяют заключить, что на платформе Apache Spark можно создавать эффективные настраиваемые конвейеры обработки больших массивов астрономических данных, обладающие свойствами масштабируемости и отказоустойчивости. Работа поддержана Российским фондом фундаментальных исследований (грант РФФИ №15-29-07085 офи_м).