Сравнение подходов к крупномасштабному анализу данных



Программа MapReduce


MR-программа состоит из одной функции Map, которая получает одиночную запись, уже расщепленную в соответствующую пару «ключ/значение», и выполняет сопоставление значения с подстрокой. Если поиск подстроки успешно завершается, то функция Map просто выводит полученную пару «ключ/значение» в HDFS. Поскольку нет никакой функции Reduce, выходные данные каждого экземпляра функции Map образуют окончательный результат программы.


Рис. 4. Результаты задачи Grep – набор данных с 535 мегабайтами на узел


Рис. 5. Результаты задачи Grep – набор данных с 1 терабайтом на кластер




Содержание  Назад  Вперед