2.9.1. Классификация и особенности поисковых систем
Основные протоколы, используемые в интернете, не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в интернете, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в сети, навигационные методы просмотра быстро достигают предела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в сети сейчас находятся миллиарды документов и все они в распоряжении пользователей интернета, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям интернета во всем мире, никогда не было. Для того чтобы структурировать информацию, накопленную в интернете, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.
Существует два базовых вида поисковых систем:
Каталог, и
Индексирующая.
Каталог - каталогизированная (как правило, вручную), коллекция ссылок. Поиск в такой системе осуществляется путем перехода от более крупного к более мелкому разделу каталога с все большей детализацией области поиска. В итоге, серфер приходит в раздел, который содержит ссылки, близкие к интересующей его теме. Примерами каталогов являются:
Yahoo.com,
Dmoz.org,
Rambler.ru и т.д.
Индексирующая поисковая система (ИПС) - поисковик, индексирующий страницы найденные в сети и выдающий результаты поиска при вводе пользователем поискового запроса. Получая этот запрос, поисковая система делает запрос к своей базе и извлекает оттуда страницы, которые по ее мнению наиболее точно соответствуют вашему запросу. Индексирующими поисковыми системами являются:
Google.com,
Altavista.com,
AllTheWeb.com и т.д.
На данный момент практически все поисковые системы, совмещают в себе элементы индексирующей системы и каталога.
Поисковые системы обычно состоят из трех модулей:
- агент (паук или кроулер), который перемещается по сети и собирает информацию;
- база данных, которая содержит всю информацию, собираемую пауками;
- поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
Качество работы отдельно взятой поисковой системы сильно зависит от качества работы всех трех программных модулей системы.
Методы поиска, используемые в классических ИПС, разрабатывались и тестировались на относительно небольших и однородных коллекциях, таких как библиотечные каталоги или коллекции газетных статей. Веб как набор данных имеет ряд важных особенностей:
- Размер. За последние годы было предпринято множество попыток оценить размер Веб, и, хотя оценки не полностью совпадают, все они единогласны в том, что в Веб содержится более миллиарда страниц. Учитывая, что размер среднестатистической страницы составляет 5-10 Кб, нетрудно подсчитать, что речь идет о терабайтах. Объем же наиболее крупных тестовых коллекций для классических ИПС составляет около 2 Гб.
Отметим, что эти оценки касаются только той "поверхностной" части Веб, которая не скрыта за поисковыми формами, и доступ к которой не требует предварительной регистрации или авторизации. Другую, "скрытую" часть Веб (hidden web), поисковые системы обычно не рассматривают, а ведь к ней относится множество крупных баз данных, опубликованных в интернете. Поэтому неудивительно, что оценка объема "скрытого" Веб в 500 раз больше, чем объем "поверхностного" Веб.
Недавно исполнительный директор Google Эрик Шмидт заявил, что на индексацию всей информации интернета уйдет около 300 лет. В настоящее время из приблизительно пяти миллионов терабайт существующих данных проиндексированы "только" 170 терабайт. То есть сегодня с помощью поисковых систем человек может получить доступ менее чем к 0,01% всей информации существующей в сети.
Так что, на ближайшие несколько столетий у Google работа найдется.
- Динамика развития. Информация в интернете меняется очень динамично: информационные ресурсы появляются, пропадают, меняют свое местоположение или содержание очень часто. Так, ежемесячно изменяется около 40% информации, среднее время жизни половины страниц в Веб не превышает 10 дней, а объем всей информации в сети увеличился в два раза за последние два года. Отметим, что при этом изменяется и используемая лексика.
- Неструктурированность и избыточность. Принято считать, что Веб - это распределенный гипертекст. Однако это не совсем так. Гипертекст обычно подразумевает наличие концептуальной модели, которая накладывает ограничения согласованности на данные и гиперсвязи. В Веб это обычно не так даже для тех его частей, которые находятся под единым административным контролем.
Около 30% информации в Веб составляют точные или приблизительные копии других документов.
- Неконтролируемое качество. Отсутствие редакторского контроля над публикуемой информацией в Веб обуславливает проблему с ее качеством - информация может быть некорректной (например, уже устаревшей), ложной, плохо сформулированной, содержать массу ошибок (опечаток, грамматических ошибок, ошибок оцифровки и т.п.). Так, по некоторым оценкам, одна опечатка встречается в среднем в каждых двухстах часто употребительных словах или в трех иностранных фамилиях.
В Веб изменяется и понятие "типичного пользователя". Отметим следующие отличия:
- "Плохие" запросы. Никто толком не обучает пользователей ИПС для Веб формулировать запросы, и, как следствие, очень мало пользователей используют расширенные возможности поиска, такие как логические выражения.
Более того, типичные запросы очень коротки - более 60% поисковых запросов в Веб состоят из 1-2 слов, что сильно отличается от 7-9 слов в классических ИПС.
- Разнородный контингент. Разнообразие в знаниях, потребностях и ожиданиях пользователей очень велико. Большинство же пользователей классических ИПС обычно имеет много общих черт.
- Поведение. Пользователь не готов долго ждать результата и не готов даже искать его в предоставленной системой выборке. Так, 58% пользователей не идут дальше первого экрана, а 67% не предпринимают попыток модифицировать свой первоначальный запрос
Как следствие, меняется представление о критериях эффективности поиска. Например, традиционно популярный критерий полноты, т.е. процента обнаруженных релевантных документов, малополезен для оценки эффективности систем поиска для Веб.
2.9.2. Электронные справочники глобального масштаба
Созданием и актуализацией справочников глобального масштаба в большинстве случаев занимаются информационные компании, прежде всего американские. Практически все справочники декларируют всемирный охват материала, однако, практика показывает, что основной упор делается все-таки на североамериканские сайты. Естественно, что обращение к глобальным справочникам ресурсов требует минимального владения английским языком.
Yahoo! (http://www.yahoo.com/)
Yahoo! является одним из самых первых, надежных и авторитетных справочников Всемирной паутины. У каталога два основных достоинства: - внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. За счет этого в справочнике объективно отражаются все отрасли знания без каких либо приоритетов. В Yahoo! учитываются не только web-сайты, но и конференции UseNet. Эти достоинства на протяжении всей второй половины 1990 годов позволяли Yahoo! оставаться незаменимым инструментом для первоначального ознакомления с контентом в интернете по любой области деятельности.
Интерфейс справочника Yahoo сегодня нелегко разглядеть среди множества других сервисов, предоставляемых компанией.
Основной ряд Yahoo! включает 14 категорий, в числе которых:
БИЗНЕС И ЭКОНОМИКА, КОМПЬЮТЕРЫ И ИНТЕРНЕТ, НОВОСТИ И СМИ, РАЗВЛЕЧЕНИЯ, ИСКУССТВО И ГУМАНИТАРНЫЕ НАУКИ, ОБРАЗОВАНИЕ, ПОЛИТИКА, ЗДРАВООХРАНЕНИЕ, ЕСТЕСТВЕННЫЕ НАУКИ, ОБЩЕСТВЕННЫЕ НАУКИ и т.д. Использование Yahoo!, как и любых других справочников, наиболее эффективно для ознакомления с контентом интернета по различным областям деятельности, при размытости критериев поиска - когда неизвестно по каким ключевым словам осуществлять поиск. Поиск осуществляется путем последовательного просмотра категорий: шаг за шагом, разворачивая пункты меню, построенные в иерархическом порядке, можно знакомиться с полным перечнем ресурсов, постепенно сужая и конкретизируя тему. Так, от самого общего раздела
СПРАВОЧНЫЕ РЕСУРСЫ (REFERENCES) можно дойти до web-сервера конкретной библиотеки, миновав по пути разделы
БИБЛИОТЕКИ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОЙ СТРАНЫ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОГО ТИПА. На каждой ступени иерархии после названий разделов в скобках указывается число отраженных в них ресурсов. При большом количестве объектов в одном разделе пользователям предлагается выбрать первую букву названия сайта (например, названия университета или фамилии популярного исполнителя).
Справочник имеет перекрестную структуру, позволяющую находить данные, используя различную логику поиска. Например, Московский государственный университет может быть найден как по цепочке
ОБРАЗОВАНИЕ/ ВЫСШЕЕ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ/ УНИВЕРСИТЕТЫ РОССИИ, так и через
РЕГИОНЫ/ СТРАНЫ/ РОССИЯ/ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ.
При необходимости выявить данные о конкретных объектах целесообразно прибегнуть к непосредственному поиску. В поисковую строку должны быть введены ключевые слова, максимально полно обозначающие искомый объект. Следует учитывать большой объем Yahoo! и, следовательно, опасность возникновения большого информационного шума при выдаче результатов. Поэтому, прежде чем прибегать к поиску по ключевым словам, рекомендуется предварительно пройти несколько соответствующих иерархических ступеней. Например, для поиска сайтов, посвященных хоккеисту Павлу Буре (Bure), рекомендуется предварительно войти в раздел
СПОРТ/ ХОККЕЙ и ограничить условия поиска, передвинув соответствующую фишку на пункт
just this category (только в этой категории). В этом случае автоматически отсеются ссылки на многочисленные сайты, в которых встречается термин Bure, но которые не имеют никакого отношения к российскому хоккеисту.
В случае результативного поиска, в перечне результатов вначале будут указаны категории (рубрики классификации), в которых встречаются искомые слова, а затем названия отдельных серверов.
Yahoo! - огромный транснациональный проект. В основном справочнике учитываются, главным образом, англоязычные ресурсы, представленные по всему миру. Для поиска по отдельным странам выделены Local Yahoos! - региональные справочники, обладающие иерархической структурой, аналогичной главному справочнику, но отражающие ресурсы в основном отдельных стран, большинство которых представлено на национальных языках.
Учитывая гигантскую популярность и, следовательно, посещаемость Yahoo!, в последние несколько лет его владельцы уделяют все большее внимание побочным сервисам, среди которых электронные магазины, аукционы, службы новостей, агентства путешествий и т.п. Собственно справочник занимает все более и более скромное место в интерфейсе титульной страницы сервера. Кроме того, с марта 2004 года за включение сайта в справочник взимается не только разовая, но и ежегодная абонентская плата - 300 долларов. Это не только затрудняет включение в Yahoo! новых сайтов мелкого бизнеса, но и приводит к исключению из каталога сайтов, не уплативших ежегодный взнос. Естественным следствием этого является то, что содержание справочника постепенно все менее соответствует реальному контенту интернета. Эксплуатация известной торговой марки без поддержания высокого качественного уровня основного продукта уже обернулась снижением авторитета Yahoo! как ведущего справочника, и если в ближайшее время в этой области не будут предприняты кардинальные шаги, его популярность будет снижаться, несмотря на громкое имя.
Open Directory Project (http://dmoz.org/)
Справочник ресурсов интернета, являющийся на сегодня одним из наиболее полных в мире - порядка 4,5 миллионов сайтов в более чем 590 тысячах категорий. Главной особенностью проекта является его некоммерческая направленность: он практически полностью формируется силами добровольцев из числа пользователей Сети, считающих себя экспертами в различных областях знания. В этом одновременно сила и слабость проекта, поскольку степень и качество контента разных категорий справочника полностью определяются наличием, квалификацией и степенью ответственности редактора конкретной рубрики.
Иерархическая структура Open Directory достаточно логична. В каждой рубрике, помимо англоязычной части, как правило, представлены варианты справочника на нескольких десятках национальных языков, в числе которых и русский. Все они подготовлены региональными редакторами из числа жителей соответствующих стран. При желании можно перейти на русскоязычный вариант справочника с первой страницы, выбрав из основного деления
WORLD подрубрику
RUSSIAN. В ней, однако, на сегодня зарегистрировано немногим более 26 тысяч сайтов, что ни в коей мере не отражает реального контента российского сегмента Сети. Подобным же образом обстоит ситуация и с другими иноязычными вариантами.
В настоящее время Open Directory является динамично развивающимся проектом, который перехватывает значительную долю популярности у коммерциализировавшегося Yahoo!. Увеличение среднего объема справочника более чем на 1000 сайтов в день сулит проекту неплохие перспективы, подтверждая мысль о том, что совокупный интеллектуальный потенциал сетевого сообщества может превосходить интеллект одной, пусть даже очень мощной компании.
Усовершенствованный вариант Open Directory с успехом используется в качестве справочника в поисковой системе Google.
About (http://www.about.com/)
Справочник, поддерживаемый экспертами различных областей знания. Основная отличительная черта About - принципиальная ориентация на отражение не всех, а лишь наиболее ценных и заслуживающих доверия ресурсов. Основной ряд классификации включает 24 деления, которые выделены в соответствии с интересами среднестатистических пользователей интернета. Среди них
АВТОМОБИЛИ, ПОМОЩЬ В ВЫПОЛНЕНИИ ДОМАШНИХ ЗАДАНИЙ, ХОББИ И ИГРЫ, ДЕНЬГИ, ПУТЕШЕСТВИЯ, ПОДРОСТКИ и т.п. Внутри категорий подрубрики выделяются в виде перечней в правой стороне экрана. Очень квалифицированно составлены аннотации включенных сайтов.
Главным недостатком About является огромное количество рекламы, как встроенной в интерфейс, так и самопроизвольно открывающейся в новых окнах, а также практически стопроцентная ориентация на североамериканские ресурсы.
2.9.3. Глобальные поисковые системы
Поисковые системы (search engines) распространены в гораздо большем количестве, нежели электронные справочники, и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных навыков, поскольку простой ввод искомого термина в поисковую строку, скорее всего, приведет к получению списка из сотен тысяч документов, содержащих данное понятие, что практически равносильно нулевому результату.
Google (http://www.google.com/)
Лидер поисковых машин интернета (Google занимает более 70% мирового рынка, а значит, семь из десяти находящихся в сети людей обращаются к его странице в поисках информации в интернете) был запущен в 1998 году. Главное достоинство Google - объем его индексного файла. В сутки программы-роботы системы регистрируют около 50 млн. поисковых запросов и индексируют около 8,168,684,336 Веб-страниц, притом, что актуализация базы производится каждые 28 дней. Google может давать информацию на 101 языке. На конец августа 2004 года Google состояла из 132 тыс. машин, расположенных в разных точках планеты (источник информации - бывший высокопоставленный сотрудник компании).
Второе несомненное преимущество Google - его способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.
Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов -
PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.
Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу
http://www.google.ru/. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.
Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Язык запросов не допускает усечения терминов знаком
"*", поэтому все возможные варианты слов
(library, libraries, librarians) пользователю следует вводить самостоятельно. Все термины запроса по умолчанию объединяются условием
AND (И) - перед ними нет нужды ставить знак
"+". Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова. Для поиска по точной фразе традиционно используются кавычки: так, запрос
"Кто убил кошку у мадам Поласухер?" прямо приведет к ссылке на полный текст "Собачьего сердца" Михаила Булгакова. Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить
"+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например,
Александр +I).
Google имеет в своем арсенале множество опций для максимальной конкретизации запроса. Все они доступны через меню
Advanced Search "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру,
"только документы в PDF"), время опубликования
("последние три месяца"), место термина в самом документе
("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.
Выдаваемые в результате поиска ссылки на документы, помимо традиционных сведений о заглавии документа, контексте искомых слов и данных о размере, содержат функцию
Cached "Сохранено", позволяющую полностью восстановить весь документ, если по каким-либо причинам сайт, на котором он расположен, недоступен. Еще одна функция
Similar pages "Похожие страницы" позволяет получить перечень страниц, содержание которых схоже с указанным источником. Эта функция, впрочем, пока выполнена без особого успеха.
Помимо поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью режима
"Поиск изображений" (Images, "Картинки"). В его базе данных учтено более 880 тысяч иллюстраций, поиск которых ведется аналогично поиску текстовых документов с возможностью ограничения определенным размером, форматом или цветностью графических файлов - все через опцию
"Расширенный поиск изображений".
При использовании Google следует, однако, помнить, что при работе с файлами большого объема он индексирует не весь источник, а лишь его первые 101 Кб. (для PDF-файлов лимит ограничен 120 Кб.), поэтому индексация документа пока не всегда гарантирует возможность его нахождения по любому фрагменту текста.
В качестве собственного справочника ресурсов интернета Google использует усовершенствованный массив Open Directory Project, что порой позволяет сочетать достоинства обоих поисковых инструментов.
Дополнительным платным сервисом Google является поиск труднодоступной информации непосредственно человеком. Стоимость этого вида обслуживания - $2.50 за ответ.
AlltheWeb / Fast Search (http://www.alltheweb.com/)
Поисковая система, существовавшая с 1997 года под данным именем, была разработана в Норвегии и изначально ориентирована преимущественно на европейские сайты. В начале 2000 годов Fast Search был приобретен Yahoo!, но до марта 2004 года продолжал существовать в качестве оригинального поискового сервиса, регулярно наращивая собственный индексный файл и повышая степень релевантности поиска. На протяжении всех пяти лет с 2000 года Fast Search справедливо рассматривался в качестве главного конкурента Google. Однако с 25 марта 2004 года под брэндом Fast Search была размещена и запущена в действие поисковая система Yahoo!, разработанная на основе поискового механизма Inktomi, ранняя версия которого использовалась, в частности, в поисковой системе HotBot. В настоящее время Fast Search представляет собой фактическое "зеркало" поисковой системы Yahoo!, с той лишь разницей, что в его модуле выдачи результатов гораздо лучше решены проблемы вывода документов на разных языках, использующих кодировки, отличные от расширенной латиницы. В число 36 языков, с которыми система работает вполне корректно, попал и русский.
Индексный файл Fast Search по уверениям владельцев в настоящее время содержит несколько миллиардов документов. Более точная цифра владельцами не указана, однако, сравнительное тестирование показывает ее значительное отставание от Google. Зная объем базы последнего, можно оценить емкость индекса Fast Search приблизительно в пределах 2,3 - 2,5 миллиардов документов. Помимо текстового поиска в WWW, нынешний вариант системы поддерживает поиск в группах новостей по интересам, поиск иллюстраций, видеофрагментов и аудиофайлов, в том числе и с русскоязычных серверов. Система способна собирать сведения и индексировать размещенные в интернете файлы в форматах PDF, DOC, XLS, PPT.
Fast Search оперирует традиционным языком запросов, включающим знаки
"+", "-" и кавычки для поиска цитат. Для формирования сложных запросов рекомендуется обращаться к
Advanced Search ("Расширенному поиску"). Его система многоступенчатых меню позволяет легко применить фильтры, в числе которых ограничения по местоположению термина в документе, определенному домену или географическому местоположению, времени опубликования документа и формату файла. Среди сервисных функций Fast Search возможность установки персональных режимов для поиска и их сохранение в системе (на конкретном компьютере) для работы в дальнейшем.
Alta Vista (http://www.altavista.com/)
Система, обозначающая в переводе "вид сверху", введена в эксплуатацию в 1995 году и в течение трех лет являлась признанным лидером сетевого поиска по объему индексного файла, эффективности ранжирования результатов и сервисным функциям. Именно в ней был впервые опробован ставший ныне традиционным язык запросов: знаки
"+" и "-", усечение с помощью знака
"*" и кавычки для поиска по точной фразе. В форме углубленного запроса были впервые эффективно использованы булевы операторы и оператор расстояния -
NEAR.
В 2002 году AltaVista претерпела существенную модернизацию: был кардинально обновлен программный модуль, что позволило расширить объем базы данных, который составлял чуть более 1 миллиарда страниц. В это же время в AltaVista был добавлен интеллектуальный модуль Prisma, помогавший пользователям точнее сформулировать запрос. Однако приобретение данной поисковой системы корпорацией Yahoo! положило конец существованию оригинального поискового механизма AltaVista и ее индексного файла. В настоящее время, также как и в случае с Fast Search, при вводе запроса происходит транслирование результатов поиска из базы поискового модуля Yahoo!. Fast Search и AltaVista имеют одинаковые условия для формирования запроса и показывают практически идентичные результаты.
Помимо перечисленных глобальных поисковых систем, в некоторых случаях, скорее по инерции, продолжают использоваться устаревшие поисковые сервисы, среди которых наиболее заметны
Lycos (http://www.lycos.com/),
HotBot (http://www.hotbot.com/),
InfoSeek (http://www.infoseek.com/). Малый объем их индексных файлов в настоящее время не позволяет полагаться на предоставляемые ими сведения. "Молодые" поисковые системы, запущенные в 2000 и 2001 годах, такие как
WiseNut (http://www.wisenut.com/) и
Ask.com (бывшая Teoma)
(http://Ask.com/), несмотря на внушительный объем проиндексированных документов, пока не представляют особого интереса. Ни одна из них, к примеру, не способна осуществлять поиск документов на русском языке.
Мета-поисковые системы
Отличия в стратегии и широте охвата материала различных систем часто приводят к тому, что разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на использовании потенциала других поисковых систем. Все они получили название
мета-поисковые машины. К наиболее известным их представителям относятся, в частности,
MetaCrawler (http://www.metacrawler.com/),
KartOO (http://www.kartoo.com/),
Vivisimo (vivisimo.com),
Ez2www.com (http://ez2www.com/) и некоторые другие. Мета-поисковые системы не имеют собственных поисковых роботов и баз данных (индексных файлов). Их достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например, в Vivisimo, фактически одновременно обращается к десятку поисковых систем. Этим гарантируется "объективность" полученных результатов, однако, учитывая различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.
Пользоваться мета-поисковыми системами рекомендуется для выполнения запросов, связанных с поиском очень простых, и, предположительно, крайне редко встречающихся в Сети предметах (лекарственных препаратах, химических элементах, редких сочетаниях имен собственных и т.п.). В этом случае результаты поиска сразу же дают представление о том, насколько широко данные ключевые слова (объекты) встречаются в Сети. Другой причиной обращения к мета-поиску является крайний недостаток времени. Однако, поскольку мета-поисковые средства очень часто не в состоянии корректно обработать запрос для различных поисковых систем и правильно совместить полученные из разных источников результаты, их использование не рекомендуется при выполнении сложных запросов. Поисковые предписания, включающие несколько словосочетаний с указанием расстояния между терминами и тому подобными условиями, заведомо не могут принести правильный ответ. Развернутый список мета-поисковых систем можно получить в
Русской справочной библиотеке (http://www.vadimstepanov.ru/library/s_engine.htm).
2.9.4. Российские справочники ресурсов интернета
В большинстве стран мира существует множество собственных справочников ресурсов, которые гораздо полнее отражают национальный информационный массив, нежели глобальные каталоги. В России на сегодняшний день существует несколько подобных источников.
Апорт (справочник) (http://aport.ru/)
В настоящее время является единственным профессионально поддерживаемым отечественным справочником интернет-ресурсов. Данный каталог выступает ключевой составной частью одноименного портала, включающего также поисковую систему, характеристики которой рассмотрены ниже.
Справочник имеет многоуровневую иерархическую структуру, отличающуюся достаточной логичностью и продуманностью. Ее полный вид можно получить, щелкнув по пункту верхнего меню
"Все рубрики". Наполнение разделов, однако, производится далеко не всегда корректно (например, среди массовых библиотек указаны РГБ и РНБ, а также национальные библиотеки Британии, Франции, Испании, Литвы и Казахстана). Создатели каталога не выработали четкой политики в отражении материалов: в Апорт учитываются не только российские или содержательно относящиеся к России ресурсы, но и полностью иноязычные зарубежные ресурсы, причина включения которых абсолютно непонятна.
Каждая ссылка справочника снабжена аннотацией, дающей предварительное представление о содержимом сервера. Также сообщается его географическое местонахождение, указывается
"индекс цитирования", рассчитываемый на основании числа ссылок на данную страницу с других сайтов, и
"лига" (этот параметр определяет в большей степени качество дизайна).
К сервисным функциям Апорт относится возможность сортировки ссылок в рубриках по дате поступления, в алфавите названий, по индексу цитирования или лиге. Справочник обладает хорошей возможностью непосредственного поиска, который можно осуществлять как в справочнике в целом, так и в отдельных его разделах.
Апорт наиболее эффективен при поиске серверов российских учреждений, а также для выявления перечней сайтов однородных объектов, имеющих разные названия: например, сайты известных футболистов, сборники кулинарных рецептов, расписания авиарейсов, списки кадровых агентств, коллекции географических карт и т.п.
К числу главных недостатков справочника Апорт относится низкая скорость актуализации сведений. В ряде случаев до четверти ссылок из разделов уже устарели.
Все прочие российские каталоги ресурсов интернета демонстрируют еще менее качественный уровень работы. К числу справочников, в которых иногда можно обнаружить интересные сведения, относятся
List.ru (list.mail.ru),
Weblist (
Weblist.ru или
http://www.yahoo.ru/),
Улитка (http://www.ulitka.ru/),
Иван Сусанин (http://www.susanin.net/). К их общим недостаткам относятся отсутствие четких подходов в отборе материалов, серьезные ошибки в систематизации данных, запаздывание в отражении источников, низкий уровень аннотаций. Причинами этого является то, что справочники наполняются непрофессионалами, работа которых ни кем не редактируется. Зачастую наполнение производится исключительно путем самостоятельного ввода данных создателями сайтов, что, естественно, не гарантирует даже минимальный качественный уровень представленных материалов. Создание и поддержание в актуальном состоянии качественных справочников ресурсов интернета требует серьезных инвестиций, которых в России пока еще нет.
2.9.5. Российские поисковые системы
Поисковые системы глобального масштаба свое основное внимание концентрируют на зарубежных ресурсах Сети. Задачу поиска информации на серверах в пределах отдельных стран выполняют локальные машины, специально адаптированные к особенностям конкретных языков. Подобные поисковые средства существуют и в России. Все они специально предназначены для работы с русскоязычными документами и обладают мощным морфологическим аппаратом. К лидирующей группе российских поисковых средств в настоящее время относятся
Яндекс, Rambler и Апорт.
Яндекс (http://www.yandex.ru/)
Запущен в сентябре 1997 года. В настоящее время - признанный лидер российского поискового сервиса. Демонстрирует высокие показатели, как по объему проиндексированных документов, так и по релевантности поиска. На начало января 2006 года Яндексом проиндексировано свыше 2 миллионов 100 тысяч российских и зарубежных русскоязычных серверов, а также серверов на территории СНГ (всего учтено порядка 676 миллионов оригинальных документов). Актуализация базы осуществляется еженедельно. Кроме того, Яндекс - пока единственная российская поисковая система, индексирующая документы в форматах PDF, RTF и DOC.
Интерфейс максимально прост - состоит из единственной строки ввода. За счет встроенной системы морфологической обработки терминов Яндекс приспособлен для формирования запросов на естественном русском языке. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить поисковое предписание в высшей степени широко, охватив все возможные сочетания терминов. В процессе обработки запроса поисковый механизм самостоятельно производит расширения, исключает стоп-слова, анализирует расстояние терминов друг от друга и пр. Типичный запрос в этом случае задается путем ввода отдельных терминов или целой фразы в поисковую строку.
Для формирования более точного запроса целесообразно обратиться к "Расширенному поиску" (пункт в нижней части титульной страницы). С помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.
Максимально детализированный запрос можно создать также и в простой форме с использованием языка запросов Яндекс, который включает множество специальных символов:
~, &, /, "", (), |, $, #. Их употребление подробно описано в файле
"Синтаксис языка запросов" (http://www.yandex.ru/info/syntax.html). Снабженные этими символами ключевые слова, вводятся в ту же поисковую строку, что и в первом случае.
Безусловным достоинством Яндекс является модуль ранжирования результатов поиска. В его основе лежит алгоритм анализа местоположения и повторяемости термина в документе и анализ внешних ссылок на страницу. Система производит группировку найденных страниц по сайтам на этапе формирования списка результатов и выдает по одному документу с сервера, который, по ее мнению, наиболее соответствует запросу. При этом в ссылке указывается общее число документов с данного сервера, также содержащих искомый термин. Яндекс показывает найденные термины в окружающем словарном контексте, что позволяет сразу же установить степень соответствия найденного документа информационной потребности пользователя.
Среди сервисных функций Яндекс поиск в новостях, собственном каталоге ресурсов интернета и перечне товаров из электронных магазинов, включая книжные магазины.
Rambler (http://www.rambler.ru/)
Запущен в октябре 1996 года и изначально предназначался для выявления материалов на серверах в пределах бывшего СССР. К началу нового тысячелетия Rambler на время утратил лидирующие позиции, устарев практически по всем показателям. Однако проведенная в декабре 2002 коренная модернизации всей программно-аппаратной части позволила поисковой системе вновь обрести былой авторитет. По результатам тестов, Rambler занимает второе место после Яндекса по величине базы данных (ее объем на начало августа 2004 года составлял порядка 113 миллионов страниц). Производительность поискового робота декларируется в объеме 6,9 миллионов страниц в сутки. Rambler также усовершенствовал поиск по новостям, присылая робота на ведущие новостные сайты России каждые два часа.
Система обладает обычной и расширенной
("Расширенный поиск") формами ввода запроса. При серьезном поиске лучше обратиться к последней, которая предоставляет дополнительные возможности в ограничении запроса различными параметрами, задании критерия сортировки результатов и степени развернутости выводимых результатов. По умолчанию результаты поиска группируются по сайтам, что весьма логично, поскольку на одном сайте термин используется, как правило, в едином контексте. Всегда четко указывается дата создания документа и дата его последнего индексирования поисковым роботом.
Каждая найденная ссылка снабжена функциями
"Восстановить текст",
"Все документы с сайта" и
"Найти похожие". Все функции работают очень надежно. Особенно впечатляет последняя, демонстрирующая анализ именно содержания документа, а не его местоположения. Ее применение помогает, в частности, выявлять аспекты применения искомого термина в контексте, который крайне трудно было предположить при начальном поиске.
Помимо наличия и местоположения ключевых слов, механизм выдачи результатов Rambler учитывает также популярность ресурса, которая определяется его посещаемостью (в случае, если на странице установлен счетчик Rambler Top100) и количеством внешних ссылок на данную страницу. Достоинством модуля выдачи результатов Rambler также является отсев нерелевантных документов и система защиты от сайтов-двойников.
Апорт (http://www.aport.ru/)
Поисковая система, запущенная в феврале 1996 года, ныне замыкает группу лидеров отечественных навигационных сервисов. Объем ее индексного файла на начало августа 2004 года составлял порядка 68 миллионов документов. По этому показателю Апорт уступает даже зарубежному Google. Особенностью Апорт является то, что он не ограничивает своих роботов пределами доменов России и СНГ - в перечне результатов можно встретить ссылки на многие зарубежные сервера.
Апорт снабжен массой различных возможностей, заставляющих отнести его к числу самых удобных для пользователя. Именно в нем одним из первых в российской практике был применен сложный язык запросов
(http://aport.ru/help.htm), позволяющий максимально детализировать поисковое предписание и избавить пользователя от информационного шума, возникающего при случайном сочетании ключевых слов. Апорт на достаточно высоком уровне осуществляет поиск MP3-файлов и на настоящее время является, фактически, единственной системой, с помощью которой можно вести поиск аудиофайлов на российских серверах.
Список результатов содержит сведения об адресе, дате опубликования и последней проверке документа. Документы с одного сайта сгруппированы вместе. Доступна, ставшая уже привычной, функция реконструкции текста без обращения к исходному документу. Положительным моментом является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет точно определить соответствие страницы запросу уже на этапе просмотра ссылок.
Помимо поисковой системы, пользователей Апорт привлекают возможности одноименного справочника ресурсов, являющего на сегодня наиболее объемным каталогом в России.
Кроме перечисленных, в российском сегменте Сети существует еще несколько поисковых машин, которые не отличаются высокими показателями работы, но также могут быть применены в случаях, когда лидеры не дают результатов. К их числу относятся:
КМ-поиск (go.km.ru),
Лупа (http://www.lupa.ru/) и
Tela Textorum (tela.dux.ru).
В российском сегменте интернета представлены также и мета-поисковые системы, рассылающие запросы, как в российские, так и глобальные поисковые системы. К этой разновидности относятся
Punto (http://punto.ru/) и
MetaBot (http://www.metabot.ru/). Оба сервиса являются малоизвестными и не отмечены особыми достоинствами. Главное отличие их друг от друга заключается в том, что MetaBot обладает способностью объединять результаты, добытые из разных поисковых машин, а Punto не обеспечивает такое суммирование, фактически лишь транслируя результаты исходных поисковых средств. Punto также осуществляет поиск на новостных сайтах, словарях и разыскание иллюстраций, а MetaBot позволяет производить разыскания файлов на FTP-серверах.
2.9.6. Основы информационного поиска в интернете
Для примера в качестве основной будем использовать поисковую систему
Google и в качестве дополнительной -
Altavista. Вы можете спросить "Почему именно Altavista?". Altavista появилась в конце 1995 года и на тот момент была тем, чем сейчас для всех пользователей интернета является Google - наиболее совершенной системой текстового поиска в интернете. Она представляет собой систему интеллектуального поиска с очень гибким и обширным языком запросов. И поэтому многие сложные запросы невозможны в Google, но легко осуществимы в Altavista. Кроме того, никакая, даже самая лучшая, поисковая система не может вобрать в себя весь интернет. Упущенное в одном индексе может отыскаться в другом.
Разумно поэтому использовать, по крайней мере, две системы: основную (бесспорно, сейчас это Google) и дополнительную (ею может быть Altavista). Знакомство с системой Altavista начнем с поиска текста шекспировского
"Гамлета". Для этого используем отрывок из
"Макбета" - другой трагедии Шекспира. Это может показаться странным, но большой сайт, посвященный Шекспиру, должен хранить тексты обеих пьес - и, найдя текст "Макбета", можно быть уверенным, что "Гамлет" где-то рядом.
Естественно, можно было бы взять текст другой трагедии, но в моем книжном шкафу стоит именно "Макбет". Итак, открываем книгу на первой попавшейся странице и берем такую цитату: "Be innocent of the knowledge dearest chuck". Теперь соединяемся с
Altavista (www.altavista.com), набираем фразу в поле поиска, обрамляем ее кавычками и жмем кнопку
Search. Как видим, уже первая найденная страница содержит требуемый текст. Об этом говорят: ее заголовок
Macbeth: Entire Play ("Макбет", вся пьеса), название страницы
full.html ("full" - "полный") и, наконец, путь к ней
/Shakespeare/macbeth/, подразумевающий, что на сайте
tech-two.mit.edu есть раздел, посвященный Шекспиру, а в нем - отделение для "Макбета".
О том, что перед нами "Макбет", говорит и размер страницы - 127 Кбайт, вполне достаточный, чтобы вместить всю пьесу. Обратите внимание: второй найденный документ
macbeth.3.2.html показан с отступом вправо, потому что находится на том же сайте. По всей видимости, это фрагмент третьего действия пьесы. Выбрав ссылку
Macbeth: Entire Play, увидим начало пьесы "Макбет". И теперь - барабанная дробь и пауза, как в цирке перед финальным трюком, - подводим указатель мыши к адресу, выделяем его левой кнопкой мыши, нажимаем клавишу
"-", чтобы выделение исчезло, и стираем в адресе название папки makbeth и самого документа -
full.html. Остается вот что:
http://tech-two.mit.edu/Shakespeare/ Нажимаем теперь клавишу Enter, и в окне браузера появляется главная страница сайта, посвященного Шекспиру. А там есть текст не только "Макбета", но и "Гамлета", и "Короля Лира", и многие другие.
"Ну и что, - скажете вы, - неужели для поиска хорошего сайта нужны такие трюки? Не проще ли поискать слово
"Shakespeare" в индексе
Ask.com или каталоге
Lii.org?" Конечно, проще. Но системы начального поиска (неважно, Ask.com это, Lii.org или что-то еще) выдают нам то, что уже выбрали другие. Altavista позволяет искать и выбирать нам самим. Это другой стиль жизни и другой стиль мысли.
Чтобы лучше понять этот стиль, попробуем найти документы с обзором разных поисковых систем. Обращаясь к тематическому каталогу
dmoz.org, можно искать раздел или фразу
"Search Engines" и дальше смотреть описания сайтов.
Ясно, что такой подход не годится для Altavista, потому что поиск фразы
"Search Engines" даст слишком много случайных страничек, где есть общие слова о поисковых системах, но нет подробного их описания. Вместо этого полезно задуматься, как может выглядеть тот документ, который мы ищем. Очевидно, в нем должны быть упомянуты уже известные нам поисковые системы. Но в документе может быть несколько страниц; тогда часть известных нам систем будет упомянута на одной странице, а часть - на другой. В таком случае поиск ничего не даст. Поэтому стоит подумать о названиях похожих систем - чтобы их можно было найти на одной странице, а затем, возможно, по этой странице отыскать и весь большой документ.
Итак, будем искать страницы, где есть названия систем, пригодных для начального поиска:
"Google", "Wisenut", "Ask.com", "Guidebeam". Из фрагмента результатов поиска видно, что система Altavista вполне оправдала ожидания: первым в результатах оказался обзор, сделанный Гэри Прайсом (Gary Price) - одним из ведущих специалистов в области поиска. Очень хороша и страница
How to Choose a Search Engine or Directory (ее адрес -
library.albany.edu/internet/choose.html), показанная в результатах поиска второй. В ней формулируются задачи (например, найти документ по заголовку) и перечисляются поисковые системы, способные эти задачи выполнить. Но самое приятное в том, что этот документ (сам по себе хороший) - всего лишь часть обширного собрания документов, где говорится об исследованиях в интернете, выборе поисковых систем, оценке качества найденного и о многом другом. Чтобы в этом убедиться, достаточно направить браузер по адресу
library.albany.edu/internet/.
Итак, у нас появились документы, где описываются поисковые системы, - в том числе и те, чьих названий не было в первоначальном запросе к Altavista. Что делать дальше, зависит от цели и темперамента. Можно просматривать выданные адреса, их всего 33. Можно взять в одном из найденных документов названия других поисковых систем и добавить их к списку уже известных. Лучше всего использовать редкие названия, потому что они могут встретиться только в самых полных обзорах, и, что самое важное, их не может быть в "мусорных", не относящихся к делу документах.
В этом смысле слова
"Google" и
"Altavista" не очень подходят, потому что могут встретиться практически на любой странице. Но, выбирая для поиска редкое название, можно наряду с ненужными отсеять и часть нужных страниц, в которых есть адреса и обзоры только лучших поисковых систем. Важно понимать, что не существует идеального запроса к поисковой системе. Запрос всегда либо слишком широк (и тогда вместе с хорошими страницами выдаются "плохие"), либо запрос слишком узок (и тогда вместе с "плохими" страницами пропадает часть "хороших"). И если поставлена цель охватить как можно больше документов по данной теме, необходимо всячески менять запросы, чтобы не пропустить нужную информацию и одновременно не получить лишнюю.
Для этого в Altavista есть свой язык запросов, гораздо более мощный и гибкий, чем у Google. По умолчанию ищутся все введенные в поле поиска слова. Естественно, в языке запросов есть возможность явно задать поиск всех введенных слов. Для этого используется оператор
+:
+google +wisenut +ask.com +guidebeam. Вместо "плюсов", поставленных перед каждым словом, можно соединить слова логическими операторами
AND (прописные буквы нужны, чтобы отличить слова от операторов):
google AND wisenut AND ask.com AND guidebeam. Если перед заданным словом поставить знак
"минус", то найдутся лишь те документы, где этого слова нет. По следующему запросу Altavista найдет документы, где есть все четыре слова:
"google", "wisenut", "ask.com", "guidebeam" - и нет слова
"excite":
+google +wisenut +ask.com +guidebeam -excite.
Исключать слова можно, чтобы отсеять какие-то ненужные документы. В нашем случае слово
"Excite" полезно исключить потому, что это название уже "погибшей" поисковой системы и содержащие его обзоры, скорее всего, просто устарели. Знак
"минус", стоящий перед неугодным словом, можно заменить логическим оператором
AND NOT.
Предыдущий запрос на языке логических операторов записывается так:
google AND wisenut AND ask.com AND guidebeam AND NOT excite. Казалось бы,
AND NOT гораздо длиннее, чем
"минус", и нет никакого смысла применять логические операторы там, где есть простые "плюсы" и "минусы". Но бывают запросы, которые на языке "плюсов" и "минусов" не напишешь. Для примера попробуем изменить наш первоначальный запрос
google wisenut ask.com guidebeam, чтобы он стал более "объективен", то есть, чтобы в ответ на него система Altavista выдавала по возможности все хорошие обзоры поисковых систем, а не только какие-то случайные документы.
Чтобы написать новый запрос, нужно нащупать "узкие" места предыдущего. Для этого обратимся к числу найденных Altavista слов, показанному после первых результатов поиска. Как видим, в индексе Altavista слово
"google" встречается почти 5 миллионов раз, слово
"ask.com" - 20 тысяч, а слово
"guidebeam" - всего 494 раза. Значит, "изюминка" запроса именно в слове
"guidebeam". Не будь его, число результатов увеличилось бы в десятки раз, а качество выданных документов в той же мере ухудшилось. Действительно, слова
"google", "ask.com" и "wisenut" известны многим, а систему Guidebeam знают лишь те, кто серьезно интересуется поиском в интернете. Слово
"guidebeam" можно встретить лишь в основательных документах, где разбираются как сегодняшние фавориты, так и малоизвестные, но уже заслуживающие внимания системы.
Итак, слово
"guidebeam" отфильтровывает ненужные документы, но "вместе с водой можно выплеснуть и ребенка". Разумно предположить, что далеко не все серьезные обзоры поисковых систем содержат слово
"guidebeam". Кто-то из авторов отметил систему Guidebeam, кто-то - другую малоизвестную, но тоже симпатичную систему. Поэтому лучше составить запрос таким образом, чтобы нашлись документы, обязательно содержащие слова
"google", "wisenut", "ask.com" и одно из редких слов на выбор. Таким редким словом может быть имя поисковой системы, почерпнутое из уже найденных документов. Выберем такие имена:
"vivisimo" и "info-netware".
Теперь наш запрос будет выглядеть так:
google AND wisenut AND ask.com AND (guidebeam OR infonetware OR vivisimo). В ответ на такой запрос Altavista покажет документы, где обязательно есть: слова
"google", "wisenut", "ask.com", "guidebeam"; или слова
"google", "wisenut", "ask.com", "infonetware"; или слова
"google", "wisenut", "ask.com", "vivisimo". В нашем новом запросе слова, соединенные оператором
OR, заключены в круглые скобки, чтобы система Altavista смогла понять, к чему относятся операторы
OR, а к чему -
AND. Кроме логических операторов, в новом запросе можно применить и другие конструкции языка запросов Altavista. Вполне возможно, что документ с обзором поисковых систем называется
engines.html. Для поиска документов по имени в Altavista есть специальный префикс
url:
url:engines. По этому запросу Altavista выдаст документы, в адресах которых есть слово
"engines". Можно пытаться угадывать название документа. Например, доменные имена сайтов, посвященных поиску, могут содержать фрагмент
"searcher" (искатель), который можно искать с помощью префикса
url:
url:searcher.
Другой замечательный способ "очистки" - поиск слов только в заголовках документов, часто отражающих их суть. Можно, например, искать документы, в заголовках которых есть фраза
"search engine" или
"search engines". Делается это с помощью префикса
title:
title:"search engine*". Звездочка в конце слова
"engine" поставлена для того, чтобы система Altavista искала как слово
"engine", так и слово
"engines". Эта звездочка - очень важная мелочь, ее надо ставить, когда нет уверенности в том, как выглядит слово. Встретив звездочку, замыкающую слово
"engine", Altavista будет, конечно, искать не только слово
"engines", но и все слова, в начале которых стоит
"engine".
Полезен и префикс
anchor, командующий Altavista искать только среди ссылок, которые (если их выбрать мышью) переносят нас к другим страницам и сайтам. Поиск среди ссылок может быть полезен, потому что ссылки невелики, и тот, кто их создает, часто вынужден в немногих словах отразить суть документа, на который ссылка указывает. В этом смысле ссылка похожа на заголовок. Если, скажем, нас интересуют лекции по игре на барабанах, то можно искать их с помощью префикса
anchor:
anchor:"drum lessons".
Может помочь и префикс
link, который заставляет Altavista искать все страницы, ссылающиеся на данную. Например, по следующему запросу будут показаны многочисленные адреса страниц, где есть ссылки на поисковую систему Altavista:
link:www.altavista.com. Префикс
link полезен, прежде всего, владельцам сайтов, потому что позволяет понять, кто на них ссылается. Но его можно использовать и для поиска схожих сайтов. Если найденный сайт посвящен какой-то специальной теме, то можно предположить, что сайты, которые на него ссылаются, тоже имеют отношение к этой теме.
Нам пока удалось лишь бегло ознакомиться с языком запросов Altavista. Чтобы лучше почувствовать преимущества этого языка, полезно сравнить его с языком запросов Google. Самое важное преимущество языка Altavista - его изначальная продуманность и цельность. Язык Altavista - классический язык запросов, созданный скорее для профессионалов, чем для простых "искателей". В то же время языка запросов Google как чего-то цельного, заранее продуманного, никогда не существовало. Язык создавался и латался "на ходу", поэтому он напоминает костюм, где каждый рукав, каждая штанина сшиты разными портными.
Возьмем, к примеру, логический оператор
OR. Он есть сейчас как в языке запросов Google, так и в языке запросов Altavista. Но в языке Google пока нет скобок, поэтому далеко не каждый запрос, возможный в Altavista, возможен в Google. Грег Нотесс (Greg R. Notess) составил небольшую таблицу, где запросы, сделанные на языке Altavista, переводятся на язык Google.
Второй пример -
звездочка, которой можно пометить любую последовательность букв в середине или в конце слова. В Altavista она есть, в Google - нет. Поэтому Google понимает любое слово буквально, и для поиска слова во множественном числе нужен дополнительный запрос или оператор
OR. Между тем обе системы могут использовать звездочку внутри фразы - здесь она обозначает любое слово. Например, по запросу
"* bush" и Altavista, и Google найдут фразы и
"Barbara Bush", и
"President Bush", и
"Laura Bush", потому что звездочка заменяет любое слово.
Третий пример посвятим различным префиксам, которые есть как в Altavista, так и в Google. Если в Altavista смысл префиксов довольно прозрачен, и их можно друг с другом комбинировать, то в Google одни префиксы не могут существовать в одиночку, а другие - вместе с любой другой конструкцией языка. Пусть, например, у вас есть сайт
www.mysite.com и хочется посмотреть, кто на него ссылается.
В системе Google для этого есть префикс
link, и весь запрос будет выглядеть так:
link:www.mysite.com. Увы, в результатах поиска будут показаны и ссылки, сделанные со страниц самого сайта
www.mysite.com. Эти ссылки нельзя, к сожалению, убрать, потому что префикс
link в языке запросов Google ни с чем не сочетается.
В Altavista префикс
link сочетается с чем угодно, и запрос, исключающий внутренние ссылки, может выглядеть так:
+link:www.mysite.com -url:mysite. Пусть теперь нам захотелось посмотреть, каков объем чужого сайта, сколько в нем страниц. Поиск на конкретном сайте задает в Altavista префикс
host, и по следующему запросу Altavista выдаст все проиндексированные страницы:
host: www. hersite.com.
В Google, как мы уже знаем, поиск в пределах сайта задает префикс
site, но соответствующий запрос ничего не даст:
site:www.hersite.com. Причина - вместе с префиксом
site язык запросов Google требует указать еще какой-нибудь оператор. Поэтому приходится хитрить и записывать запрос так:
site:www.hersite.com inurl:hersite. Префикс
inurl ничего не добавляет к запросу, он - чистая формальность, необходимая для удовлетворения вздорных требований языка запросов Google.
И, наконец, последний пример, на этот раз показывающий непоследовательность языка запросов Altavista. Когда-то система Altavista учитывала при поиске регистр букв. Слова
"google" и
"Google" были для Altavista разными. Теперь Altavista не различает большие и малые буквы в отдельно введенных словах или словах, выделенных "плюсами" и "минусами". Следующие запросы эквивалентны:
+google +wisenut +ask.com +guidebeam -excite +Google +wisenut +asK.com +guidebeam -exCite. Но стоит заключить слово (или несколько слов) в кавычки, как Altavista начинает отличать прописные буквы от строчных. Если все буквы в словах строчные, Altavista найдет любые слова (как с большими, так и с малыми буквами). Но стоит сделать одну букву прописной, и Altavista будет искать слово в точности такое, как указано. Если, скажем, указано слово
"Bush", то слово
"bush" уже найдено не будет. Чувствительность к прописным буквам проявляется у Altavista не только при поиске фраз (слов, обрамленных кавычками), но и при использовании логических операторов. Следующие запросы не эквивалентны:
"google AND wisenut AND ask.com AND guidebeam" "google AND wisenut AND ask.com AND guidebeaM". По второму запросу вообще ничего найдено не будет, потому что слова
"guidebeaM" просто нет в индексе Altavista.
наверьх
следующий раздел
предыдущий раздел