Яndex.Server 3.1 ДОКУМЕНТАЦИЯ

       

Конфигурирование правил обработки текста


Формальные правила обработки текста можно представить следующим набором выражений: <TextFlags> ybreak = (xelem)* (, xelem.xattr)* (, xelem.xattr.xval)* </TextFlags> Где

ybreak - один из флагов обработки текста, перечисленных ниже
xelem - имя XML-элемента
xattr - имя XML-атрибута
xval - значение XML-атрибута
(...)* - ноль, один или несколько элементов
Символ _ (подчеркивание) вместо имени XML-элемента обозначает любой элемент.

Флажки обработки текста

BREAK_NONE, BREAK_WORD, BREAK_SENTENCE, BREAK_PARAGRAPH

Определяет, будет ли текст внутри XML-элемента отделен границами слова, предложения или абзаца в дополнение к обычным пунктуационным правилам.

Значение по умолчанию: BREAK_NONE

SPACE_DEFAULT, SPACE_PRESERVE

Определяет, значимы ли пробельные символы в тексте внутри XML-элемента.

Значение по умолчанию: SPACE_DEFAULT

WEIGHT_ZERO, WEIGHT_LOW, WEIGHT_NORMAL, WEIGHT_HIGH, WEIGHT_BEST

Определяет относительный вес слов в тексте внутри XML-элемента. В случае значения WEIGHT_ZERO текст проиндексирован не будет.

Значение по умолчанию: WEIGHT_NORMAL

Важно: Чтобы у найденного документа было определено свойство "заголовок документа", необходимо, чтобы в настройках парсера была определена зона title с флагом обработки текста BREAK_PARAGRAPH, и документ содержал не менее одного предолжения в этой зоне.



Содержание раздела