Методы добычи данных при построении локальной метрики в системах вывода по прецедентам


Описание контекстно-зависимой локальной метрики - часть 2


До сих пор считалось, что попадание объекта в область пересечения классов является препятствием для оценки объекта. Когда от этой ситуации не уйти, ее надо постараться использовать. Для этого будем использовать аналоги – объекты соответствующих классов, попадающие в ту же область пересечения.

Предположим, база прецедентов подверглась предварительной обработке – разбиению на классы эквивалентности. Три способа такого разбиения были указаны в предыдущем разделе. Рассмотрим один из них – кластеризацию – как частный случай, не требующий предварительного обучения.

При рассмотрении текущего случая точка, соответствующая ему, сравнивается с пространственным расположением кластеров в проекции на пространство его признаков. Близкими считаются прецеденты, принадлежащие кластеру, в который попадает случай. Если он попал в область пересечения кластеров, то ближайшими к нему будут прецеденты, также находящиеся в области пересечения (очевидно, что они могут быть наиболее полезны при выборе решения).

Допустим, он попал в область пересечения кластеров. В зависимости от сложности пересечения, мы можем разделить все объекты на группы (Рис. 3). Прецеденты, находящиеся в одной с текущим случаем области пересечения, естественно считать более близкими к нему, чем те, что находятся только в одном из кластеров, потому что с тем же набором признаков, что и текущий случай, они подобны ему по принадлежности к понятиям, обозначаемым кластерами.

Сравнив введенное понятие близости с тем, что говорилось в предыдущем разделе, нетрудно заметить, что предложенная метрика является локальной и контекстно-зависимой. Локальной, потому что привязана к текущему случаю, контекстной – потому что зависит от его набора признаков. Приведем более строгое определение предлагаемой меры:

Расстояние между текущим случаем и прецедентом равно разности количества кластеров, куда попал текущий случай, и количества кластеров из этого числа, в котором находится прецедент.

Это значит, что расстояние между текущим случаем и прецедентом, находящимся в той же области пересечении кластеров, равно нулю.

На Рис. 3 цифрами помечены области с соответствующим этим цифрам расстоянием между текущим случаем и прецедентами из этой области.

Рис. 3. Степени близости прецедентов.

Предложенная локальная метрика не является метрикой в классическом понимании, а только имеет интерпретацию расстояния. Для нее не гарантируется выполнение правила симметричности, потому что она привязана к объекту, и при переходе к другому объекту будет рассматриваться уже в его пространстве признаков. По этой же причине не гарантируется выполнение правила треугольника. Однако она позволяет учитывать контекст взаимоотношений объекта с окружающими, особенно в непосредственной близости от него.

      




Начало  Назад