Яndex.Server 3.1 ДОКУМЕНТАЦИЯ

       

Конфигурация по умолчанию


Ниже приведен пример конфигурационного файла для HTML-парсера. Данная настройка соответствует поведению парсера по умолчанию, то есть будет использоваться в случае, если дополнительная конфигурация парсера не указана.

<HtmlParser> <Zones> title = title address = address anchor = a/link </Zones> <Attributes> _ = LITERAL/meta._ link = URL,anchor/a.href link = URL,any/frame.src,iframe.src,area.href link = URL/link._ robots = LITERAL,doc,parse_meta_robots,ignore/meta.robots refresh = URL,doc,parse_http_refresh,ignore/meta.refresh style = URL/link.stylesheet profile = URL/head.profile script = URL,any/script.src image = URL,any/img.src applet = URL,any/applet.code,applet.object object = URL,any/object.data,object.classid abstract = TEXT/meta.description keywords = TEXT/meta.keywords hint = TEXT,any/img.alt,area.alt tooltip = TEXT,any/_.title </Attributes> </HtmlParser>


Ниже приведен пример конфигурационного файла для XML-парсера. Данная настройка соответствует поведению по умолчанию - она будет использоваться в случае, если дополнительная конфигурация парсера не указана.

<XmlParser> <DOCTYPE> <Zones> !все XML-элементы образуют поисковые зоны с таким же именем _ = _ </Zones> <Attributes> !для всех зон все XML-атрибуты соответствующих элементов образуют поисковые зонные атрибуты !с таким же именем, как имя XML-атрибута и типом TEXT _ = TEXT,any/_._ </Attributes> <TextFlags> !все XML-элементы независимо от XML-атрибутов и их значений разбивают текст на абзацы BREAK_PARAGRAPH = _._ </TextFlags> </DOCTYPE> </XmlParser>



Содержание раздела