Поиск в элементах и объектах

Веб-страницы, которые, собственно, и составляют основную долю опубликованной в Интернете информации, — это электронные документы, как правило, содержащие, помимо текста, определенное количество других элементов. Среди таких элементов можно перечислить заголовки, гиперссылки, таблицы, иллюстрации, подписи к ним и т. д. В некоторых случаях бывает необходимо выполнить поиск интересующих вас данных именно среди подобных элементов и их атрибутов, например, найти статью с заранее известным вам заголовком или документ на сайте с каким-либо определенным адресом. Именно для этих целей в структуре языка запросов поисковой системы Яндекс предусмотрен набор команд для поиска в элементах и объектах.

Команда $title (выражение) предназначена для поиска веб-страниц с заданным заголовком, например: $title (flndex). При этом следует учитывать, что под «заголовком» здесь понимается не заглавие опубликованного на веб-странице текста, а заголовок документа, демонстрируемый в панели заголовков браузера слева от названия программы. В частности, при открытии веб-страницы http://www. yandex.ru в панели заголовков браузера Internet Explorer отображается следующая запись: flndex — Microsoft Internet Explorer. В данном случае заголовком является слово flndex.

Команда $anchor (выражение) позволяет выполнить поиск в якорях гиперссылок, причем в качестве выражения этой команды используется не адрес сайта, на который ссылается документ, а значение самого якоря. В частности, при использовании команды $anchor (Яндекс) поисковая система найдет документы, в html-коде которых имеется гиперссылка вида

Яндекс.

Такая конструкция будет продемонстрирована в окне браузера в виде представляющего собой гиперссылку слова «Яндекс», при щелчке мышью на котором осуществляется переход на страницу http://www.yandex.ru. Если же вам необходимо отыскать ссылки на сам адрес ресурса, в нашем примере — на http://www.yandex.ru, то в этом случае рекомендуется использовать команду вида #link= "значение". Иными словами, набрав в окне запроса #link= "www.yandex.ru", вы получите список веб-страниц, ссылающихся на http://www.yandex.ru, вне зависимости от того, как оформлена сама гиперссылка.

В html-коде многих веб-страниц присутствуют специальные МЕТА- определители: с их помощью разработчики документа указывают краткое описание ресурса и набор ключевых слов, характеризующих его содержание. Эти определители включаются в код электронных документов специально для роботов поисковых систем с целью облегчить для них задачу индексирования веб-страниц. В частности, МЕТА-определитель вида <МЕТА NAME="description" CONTENT= "краткое описание содержимого веб-страницы"> позволяет указать поисковой системе на содержимое документа в виде краткой аннотации, а определитель <МЕТА NAME="keywords" CONTENT'="'перечень ключевых слов"> — задать список ключевых слов, по которым ссылка на данную веб-страницу должна включаться в файл отчета с результатами поиска.

Язык запросов Яндекса имеет две специальные команды, позволяющие выполнять поиск в подобных конструкциях. В частности, команда #abstract=(выражение) предназначена для поиска заданного выражения в поле CONTENT определителя типа description, а команда #keywords=(ebtpa:vceHue) — в поле CONTENT определителя типа keywords. Примеры использования обеих команд приведены ниже:

#abstract=(поисковые системы)

#keywords=(поиск)

При использовании данных команд рекомендуется учитывать то обстоятельство, что содержимое МЕТА-определителей description и keywords всецело зависит от разработчика веб-страницы и далеко не всегда соответствует ее реальному содержимому.

Команда #image="значение" предназначена для поиска в именах файлов изображений и допускает использование маски *, обозначающей любую последовательность символов. Принцип действия данной маски можно пояснить на простом примере. Предположим, вам необходимо найти документы, содержащие все возможные производные от слова «contact». В этом случае можно использовать вместо его окончания маску: contact*. Тогда в файл отчета попадут слова «contact», «contactor», «contacts» и т. д., то есть все словоформы, содержащие корень «contact» и произвольную последовательность символов, автоматически подставляемую на место знака *. Таким образом, команда #image="contact*" позволит найти все файлы изображений, имена которых содержат указанное слово, например contact.jpg, contacts.gif, contactor.png и т. д.

Просматривая веб-страницы, вы наверняка неоднократно замечали, что если подвести к иллюстрации курсор мыши и задержать его на несколько секунд, на экране появится «всплывающая подсказка», демонстрирующая краткое пояснение к данному изображению. Это же пояснение отображается на экране в том случае, если браузер по каким-либо причинам не смог загрузить на страницу саму картинку. Такие «подсказки» принято называть «альтернативным текстом», и для поиска в этом тексте предусмотрена специальная команда языка запросов, которая выглядит следующим образом: #hint=(выражение). Например, набрав в окне поискового запроса #hint=(TopT), вы получите ссылки на изображения, в альтернативном тексте которых присутствует слово «торт». Для читателей, знакомых с языком HTML, можно пояснить, что и эта, и предыдущая команды производят поиск в тегах вида альтернативный текст, но команда #image оперирует параметром SRC, а команда #hint — параметром ALT.

Для поиска на сайте с известным адресом существует команда #url="значение". Например, по запросу компьютерная литература #url="www.holmogorov.ru", вы получите ссылки на все страницы, содержащие словосочетание «компьютерная литература» и распо- ложенные на сервере http://www.holmogorov.ru.

Наконец, для поиска строго определенного типа электронных документов предназначена команда #mime="значение". В качестве параметра значение могут использоваться обозначения двух типов электронных документов, с которыми умеет работать Яндекс (кроме, разумеется, веб-страниц): pdf или rtf. Например, по запросу nokia 3110 #mime="pdf" Яндекс попытается найти все документы в формате pdf, содержащие словосочетание «nokia 3110». Использование этой команды может оказаться очень удобным при поиске различной электронной документации в указанных файловых форматах: руководств пользователя устройств и программ, инструкций по эксплуатации, рефератов и т. д.