Стратегические направления в системах баз данных

       

Исследования


Чтобы добиться практического воплощения наших представлений и преодолеть указанные препятствия, следует заняться рядом центральных исследовательских проблем. Ниже мы перечислим наиболее существенные из них.

  • Расширяемость и компонентизация. В то время, как в данном отчете высказывается убеждение в том, что компоненты СУБД должны использоваться для обеспечения более легковесной поддержки новых приложений, существует также и связанная с этим необходимость в подходе к конструированию СУБД по модульному принципу. Начинает наблюдаться появление упрощенных средств управления базами данных у некоторых поставщиков, которые начали заниматься этим делом. Даже для тех приложений, которым требуется полная функциональность системы управления базами данных, часто требуются расширения этой функциональности средствами поддержки, учитывающими специфику приложения.

    Хотя сегодня уже имеются расширяемые СУБД, которые допускают определение новых типов данных (например, абстрактных типов данных) или обеспечивают встроенную поддержку для таких новых типов, как текст, пространственные, аудио- и видеоданные, эти расширения и службы являются доступными лишь с помощью внутренних проприетарных способов. Необходимо создать системы, которые дают возможность разработчику легко вводить новые типы данных, разработанные вне данной СУБД, которыми можно манипулировать внутри базы данных наравне с ее собственными полноправными типами. Подобным же образом, нам необходимо найти способы сделать архитектуру СУБД открытой таким образом, чтобы могли подключаться новые функциональные компоненты, и чтобы функциональные возможности системы базы данных могли конфигурироваться более гибкими способами в соответствии с потребностями приложений.

    Необходимы также исследования для нахождения способов кооперирования компонентов СУБД с функциональными компонентами, не входящими в СУБД, такими как операционные системы, системы программирования и сетевые инфраструктуры. Так, например, средства обработки запросов и компоненты, обеспечивающие перемещение данных, должны получить возможность пользоваться преимуществами усовершенствованных сетевых средств, чтобы согласовать качество обслуживания и пропускную способность, и взаимодействовать с ними.


    Неточные результаты. В сегодняшних СУБД мы ожидаем результы, обладающие стопроцентной точностью. Иначе говоря, мы предполагаем, что существует единственный правильный и полный ответ на запрос. Однако в Web или в других больших информационных источниках этот уровень точности может оказаться невозможным или нежелательным. В самом деле, многие поисковые системы для текстового и мультимедийных типов не обеспечивают стопроцентной точности. Были проведены исследования запросов по сходству, но полученные результаты, вообще говоря, являются изолированными и основываются на особенностях конкретных типов данных (например, графических образов, текста). Нет ничего такого, что позволило бы связать воедино методы, специфичные для различных типов. Нужно разработать общую теорию неточности.

    Бессхемные базы данных. Чтобы применить средства баз данных к данным, созданным вне СУБД, нам потребуются достаточно сложные средства отображения. В идеале, хотелось бы, чтобы такие инструментальные средства отображения были бы декларативными и, таким образом, комбинируемыми с языком запросов, как это делается в SQL.

    Когда структура данных динамически эволюционизирует, трудно удержать ее в рамках фиксированной схемы. Хорошим примером таких данных является Web. Тем не менее, расширения существующей техники баз данных могут быть использованы для запросов и для трансформации такого рода неструктурированных данных.

    Простота использования. Если мы намерены достигнуть такого проникновения в сферу персонального использования вычислительной техники, какое имеют другие инструментальные средства, подобные системам электронных таблиц и текстовым процессорам, то для СУБД нужны гораздо лучшие интерфейсы. Мы не можем рассчитывать на то, что пользователь будет писать на SQL. Подобным же образом, важно воплотить теоретические представления в используемых технологиях. Так, например, в теории реляционных баз данных был разработан механизм функциональных зависимостей. Они лежат в основе средств проектирования баз данных многих СУБД для персональных ЭВМ, не вынуждая при этом пользователя быть экспертом в области этой теории.



    Новые модели транзакций. Новые модели транзакций допускают определяемые пользователем представления о корректности и вложенные транзакции. В них часто разделяются атомарность и изоляция. Они обычно допускают возможности семантической сериализуемости и семантической атомарности. Такие модели позволяют специфицировать компенсацию/откат, являющиеся локальными в некоторых пределах. Требуется разработать механизмы для такого рода моделей для поддержки частичных откатов с последующей возможностью перехода вперед к допустимому состоянию, которые не только обеспечивает согласованность базы данных, но также и выполняют полезную работу для конечного пользователя.

    В новых моделях транзакций предпринимаются попытки преодолеть блокировки в протоколе двухфазной фиксации с тем, чтобы они допускали больше автономии за счет ранних фиксаций, возможно, ценой потенциальных компенсаций. Требуется исследовать требования к свойствам подсистемы, при удовлетворении которых она может быть включена в такую распределенную транзакцию. Помимо этого, нужно изучить требования к планированию и к корректности, которые могут выходить за традиционные рамки.

    Оптимизация запросов. Должны быть расширены средства обработки запросов с тем, чтобы охватывать более широкий состав типов данных, чем те, с которыми имеют дело сегодняшние коммерческие СУБД. Например, становятся более важными запросы, связанные с последовательностями (например, с временными рядами). Оптимизация при работе с такими структурами потребует новых методов индексирования и новых стратегий обработки запросов.

    К тому же, могут измениться критерии оптимизации. В прошлом оптимизаторы пытались сократить полное время отклика путем сокращения общего расхода ресурсов (в котором доминирует, вероятно, число доступов к диску), требуемых для обработки запроса. Пользователи могут пожелать минимизировать их общие расходы на информацию, используя такие источники, которые являются более дешевыми, но могут иметь гораздо большее время отклика. В иных случаях пользователь может быть в большей мере озабочен точностью и полнотой, чем стоимостью, требуя тем самым, чтобы оптимизатор нашел наиболее надежные и актуальные источники.



    Помимо этого, при использования мобильного или беспроводного компьютинга оптимизация запросов должна быть чувствительной к факторам пропускной способности и энергопотребления. Чтобы достигнуть необходимой пропускной способности, позволяющей доставлять большие объемы данных в мобильную среду, могут потребоваться спутниковые широковещательные коммуникации. Кроме того, в алгоритмах обработки запросов должны учитываться вопросы, связанные с потреблением энергии батарей мобильных компьютеров.

    Перемещение данных. В сильно распределенной среде стоимость перемещения данных может быть чрезвычайно высокой. Поэтому оптимальное использование линий коммуникации и кэширования на различных промежуточных узлах становится важным фактором обеспечения эффективности. Хотя эти соображения относятся к оптимизации распределенных запросов, мы должны здесь принимать во внимание модели полного доступа в системе, а не ограничиваться рассмотрением обработки единственного запроса. Необходимо также учитывать существование асимметричных коммуникационных каналов, используемых в случае линий с низкой пропускной способностью и/или высоко загруженных серверов.

    Безопасность. К числу проблем, связанных с управлением доступом в распределенных гипертекстовых системах, относятся:


    1. формулирование модели авторизации доступа;
    2. расширение этой модели для того, чтобы принять во внимание аспекты распределенности;
    3. интероперабельность между различными стратегиями безопасности и
    4. изыскание стратегий управления доступом, основанных на мандатах.


  • Интеллектуальный анализ данных в базах данных. Интеллектуальный анализ данных (data mining) является другой быстро прогрессирующей областью исследований, которую также можно считать нетрадиционной. Она основана на совместном использовании машинного обучения, статистического анализа и технологий баз данных. Такие поисковые задачи, как генерация правил (ассоциаций правил), классификация и группирование, могут рассматриваться как случайные запросы, для которых необходимы новые семейства языков запросов.Обработка таких запросов требует использования индуктивных алгоритмов машинного обучения на больших базах данных. К числу исследовательских задач в этой области относится разработка адекватного набора простых примитивов запросов и нового поколения методов оптимизации запросов.

    Решение проблем в какой-либо из названных выше областей будет также оказывать положительное влияние на внедрение новых технологий. Например, расширяемость даст возможность использовать в системах баз данных совершенно новые, пока еще не разработанные подходы к индексированию, не оказывая при этом какого-либо влияния на другие компоненты существующих СУБД. Кроме того, сообщество исследователей должно принимать более активное участие в деятельности, связанной со стандартизацией, и сформировать более тесные партнерские отношения с индустрией.


    Содержание раздела