Hi-Tech  ->  Интернет  | Автор: | Добавлено: 2015-03-23

Особенности поисковых систем и каталогов

Любой поисковый сервер представляет собой огромное хранилище информации. Если вы хотите найти информацию с помощью поисковых систем вам необходимо:

1. Сформулировать свой запрос (четко, ясно, исключая лишние, ненужные слова - например предлоги "в", "на" и т. д. ; подробнее см. в пункте меню Как и где искать -Алгоритм поиска ).

2. Ввести запрос в строку поиска поисковой системы.

Итак, для того чтобы поисковики нашли страницы с интересующей вас темой, достаточно сформулировать запрос и ввести его в специальную строку поиска.

А как же работают сами поисковые машины?

Эта база данных обновляется гораздо чаще, чем в каталогах - примерно раз в месяц производится ее переиндексация. Но даже при такой частоте обновления в базах поисковиков со временем образуются залежи "мертвых" ссылок, зато по сравнению с каталогами их доля в несколько раз меньше. А уж об объеме информации и вовсе не приходится говорить. Поисковый робот, в отличии от человека, беспристрастен и равнодушен к рекламным завлеканиям. Его задача проста: "сфотографировать " содержимое каждой странички на сайте и занести его в общий индекс. Сегодня большинство поисковых машин оснащено сложным механизмом сортировки, который позволяет частично отфильтровать заведомый мусор и оттеснить его в конец списка результатов. А на первые места в нем будут претендовать странички, обладающие большой степенью релевантности, то есть ожидаемой степени соответствия странички запросу пользователя.

Мы помним, что, индексируя страницу, поисковик работает сразу с несколькими элементами ее содержания:

- заголовок страницы;

- перечень "ключевых слов", составленный ее автором;

-краткое описание странички, также содержащееся в ее теле. Для пользователей эта информация, как и список ключевых слов, остается невидимой;

- собственно содержимое странички.

Получается, что если заданные вами ключевые слова будут найдены в заголовке, описании, да еще вдобавок и в самом тексте страничке, то степень ее релевантности будет достаточно высокой.

К сожалению, поисковые роботы не очень интеллектуальны и пользователи должны приложить усилия, формируя свой запрос.

Зачем нужны поисковые программы?

– Дают возможность сохранять результаты поиска, просматривая их в режиме отключения от сети. Причем не одного поиска, а сразу нескольких;

– запуская поиск по одному и тому же запросу несколько раз, вы можете отследить появление новых страниц и изменения на уже существующих;

– вы можете не только выбирать из имеющейся базы данных поисковики и каталоги, в которых будет производиться поиск, но и добавлять в нее свои ресурсы.

1. 1 Особенности поисковых систем и каталогов

Поисковые системы (search engines)

Ярким представителем поисковых систем является, например, международная AltaVista (www. altavista. com) или российский Rambler

Поисковые системы состоят из трех основных частей:

1. Spider (он же Crawler, он же Bot, он же Robot) - программа, которая посещает Web-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider возвращается через определенные периоды времени (например, каждый месяц) и индексирует страницу снова.

2. Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское вместилище информации, где хранятся копии текстовой составляющей всех посещенных и проиндексированных Spider'ом страниц.

3. Программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает ему в порядке убывания релевантности, найденные документы. Каждая поисковая система имеет своего собственного спайдера, со своими собственными "повадками". Каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.

Каталоги, или директории (directories)

Каталоги ресурсов (глобальные, локальные, специализированные) - представляют собой размещаемые в Сети базы данных с адресами ресурсов. Они характеризуются масштабами накопленной информации и охватом тематик.

Все каталоги Интернет построены по принципу «от общего – к частному» и обладают древовидной структурой. Зайдя на титульную страничку любого каталога, вы сразу же увидите перечень основных категорий – «Компьютеры», «Музыка», «Наука» и так далее. Щелкните по любой ссылке и вы окажетесь на новой странице, которая, в свою очередь, предложит вам список подразделов.

Так, постепенно сужая тему, вы и сможете добраться до странички с перечнем ссылок на интересующие вас сайты.

Плюсы каталогов:

➢ все каталоги имеют четкую, древовидную структуру;

➢ на них находятся все самые известные и популярные сайты по любой тематике.

Минусы каталогов:

➢ субъективизм ( составляют каталог люди);

➢ не все авторы сайтов хотят видеть свой сайт в одном из каталогов;

➢ наличие не действующих ссылок.

Типичным представителем каталогов является международная Yahoo! (www. yahoo. com).

Комбинированные системы (гибриды)

Некоторые поисковые системы, такие, например, как Exite (www. exite. com) или Infoseek (www. infoseek. com) имеют при себе и каталог. Соответственно, индексы для самой поисковой системы добываются Spider'ом, а каталог пополняется модераторами системы.

1. 2 Определение релевалентности страниц

При запросе по определенному слову или словосочетанию поисковая система находит в своих индексах все Web-страницы, которые их содержат. Таких страниц может быть десятки тысяч, и поэтому следующей задачей системы является отображение их пользователю в порядке убывания релевантности.

При вычислении коэффициента релевантности система учитывает следующее:

1. Количество ключевых слов, то есть сколько раз встречаются указанные ключевые слова в документе. Чем их больше, тем более релевантным является документ.

2. Месторасположение ключевых слов. Для поисковой системы одно и то же слово может иметь различный "вес" в зависимости от того, где оно встречается в Html-документе.

3. Густота ключевых слов. При определении степени релевантности страниц по заданным ключевым словам большинство поисковых систем учитывают не только количество ключевых слов, а еще и отношение их количества ко всем остальным словам. Таким образом, страница, содержащая только два слова "зимняя рыбалка", будет идти впереди страницы, содержащей помимо сочетания слов "зимняя рыбалка" еще и другие слова.

2. Список крупных поисковых систем и каталогов

2. 1 Основные международные поисковые системы и каталоги

Список наиболее значимых поисковиков и каталогов

Alta Vista - http://www. altavista. com. AltaVista (открыта в декабре 1995) по праву считается самой большой и авторитетной поисковой системой. Для России представляет особый интерес, так как позволяет вести поиск не только на английском, но и на русском, и многих других языках.

Hot Bot - http://www. hotbot. com. Система запущена в мае 1996 года. Информацию для каталога берется из проекта Open Directory. Hot Вot находится в постоянной конкурентной борьбе с AltaVista. Мощная поисковая система, одна из тех, которые выдают хорошие результаты поиска

Go / InfoSeek - http://www. go. com/. Портал, запущенный InfoSeek и Disney. Предлагает как бесплатную почту, так и возможности поисковых машин, заимствованные от InfoSeek (открытая в начале 1995 года, эта система имела весьма солидную репутацию). Осуществляет качественный поиск благодаря используемому алгоритму поиска ESP. Также содержит впечатляющий каталог веб-сайтов, собранный командой специалистов.

Northern Light - http://www. northernlight. com/. Система начала работать с августа 1997 года и в данный момент стремительными темпами индексирует Сеть, что ставит ее вровень с ведущими поисковыми системами. Northern Light имеет набор документов "специальной коллекции", которые обычно не доступны спайдерам поисковых машин. Это документы из тысяч источников, включая газеты, журналы, различные базы данных. Система, кроме обладания огромными ресурсами, имеет возможность классифицировать документы по темам, что является еще одним положительным моментом.

Ask Jeeves - http://www. askjeeves. com. Использует серию вопросов для того, чтобы сузить поле поиска, затем выдает ответ, основанный на материале, подготовленном группой редакторов. Это поисковая система, которая направляет пользователя на ту страницу, которая отвечает на заданный им вопрос. Если системе не удается найти нужную ссылку в собственной базе данных, то она обращается к другим поисковым машинам. Начала работать в июне 1997 года.

Direct Hit - http://www. directhit. com/. Direct Hit - компания, которая работает с другими поисковыми машинами для того, чтобы улучшить их результаты. Это осуществляется путем мониторинга того, на какие ссылки из результатов поиска реагируют пользователи. Сайты, ссылки на которые нажимаются чаще, чем на другие, поднимаются выше в рейтинге Direct Hit. Следовательно, Direct Hit позиционируется как "двигатель популярности". Подобная технология хорошо продемонстрирована также на HotBot.

Google - http://www. google. com/ - поисковая машина, которая использует популярность ссылок как основной критерий ранжирования веб-сайтов. Интересной особенностью данной системы является наличие второй кнопки рядом со строкой поиска. Если первая кнопка запускает традиционный механизм, то вторая кнопка "Мне повезет!" сразу же перебросит пользователя на сайт, который, по мнению Google, максимально отвечает его запросам.

Главным отличием Google является набор сервисов поиска. На сегодня он предлагает своим пользователям следующее:

3. Традиционный поиск- поиск по сайтам и страничкам Интернет. Поддерживает как сложный, так и расширенный поиск - в этом режиме можно составить выборку документов на определенном языке, указать, сколько результатов будет выведено на страничке. Наконец, можно задать поиск в границах одного сайта или странички.

4. Поиск по каталогу. В каталог Google внесено несколько сот тысяч страниц и сайтов со всего мира.

5. Поиск по группам новостей. Google может порадовать своих посетителей возможностью поиска информации в группах новостей.

6. Поиск изображений. Найденные картинки можно, в числе прочего, отсортировать по размерам, выведя на экран только список изображений требуемого формата.

7. Еще одна важная особенность работы в Google это возможность работы со всеми службами сервера: без захода на его страничку! Специально для тех, кому приходится отправлять запросы в Google десятки раз в день, создатели сервера придумали специальную поисковую панель Google Toolbar, которая встраивается в ваш браузер. После ее установки вы получаете в браузере как бы вторую адресную строку, в которой можно набирать текст запроса. Рядом с панелью предусмотрены кнопки быстрого поиска как по всей сети, так и по текущему сайту.

Каталоги

Yahoo! - http://www. yahoo. com. Существующий с конца 1994 года, Yahoo! - самый популярный и старейший из основных каталогов Интернета. Секрет популярности Yahoo! - люди. Это один из крупнейших путеводителей по веб, созданных вручную около 150 авторами в попытке упорядочить сеть. Yahoo! использует результаты поисковой машины Inktomi. При вводе запроса Yahoo! производит поиск по своему каталогу. Если результаты здесь неудовлетворительны, запрос автоматически перенаправляется к Inktomi. Содержит более миллиона веб-страниц. На голову выше конкурентов по качеству результатов поиска - каждый сайт каталога прошел фильтрацию работниками системы.

LookSmart - http://looksmart. com. Это каталог веб-сайтов, созданный вручную. LookSmart становится одним из основных конкурентов Yahoo! в категории сайтов. Содержит около четверти миллиона сайтов, разделенных на категории.

Open Directory - http://dmoz. org/. Известный ранее как NewHoo, каталог начал работу в июне 1998. Целью проекта Open Directory является создание каталога по Web с привлечением широкого круга добровольных авторов. Это связано с тем, что автоматизированные поисковые машины и каталоги не справляются с растущим количеством ресурсов. Каждый пользователь может сделать свой вклад в упорядочивание ресурсов Сети. Содержит 1739097 сайтов, 262356 категорий, 24598 авторов.

Основные поисковые системы и каталоги Рунета

Более подробно рассмотрим особенности поиска в русскоязычных поисковых системах:

Rambler - http://www. rambler. ru

На сегодняшний день, пожалуй, самая популярная российская поисковая система. Представляет собой базу данных по более чем 45 тысячам сайтов (имен DNS). Рамблер не учитывает мета-тэги. В результатах, наряду с заголовком и первыми строчками, поисковик выдает процент соответствия найденных документов запросу пользователя.

Поисковая система Rambler поддерживает рейтинг русских страниц Top 100 (более 35 тысяч участников). Списки страниц разбиты на группы, и многие используют данный рейтинг как каталог.

Ежедневно Rambler обрабатывает свыше 600 тыс. запросов. В его базе данных содержится информация о 12 млн. документов. Каждый день несколько одновременно работающих программ-роботов сканируют около 48 тыс. сайтов (данные на 2002 год).

Данная поисковая система поддерживает как сложный так и расширенный поиск (его точный адрес - http://www. rambler. ru/doc/advanced. shtml ), причем возможностей настроек здесь больше, чем на Яндексе. Помимо уже известных ограничителей, можно задать количество ссылок, которые будут выведены на каждой странице, определить порядок сортировки и так далее.

Также пользователям поисковой системы Rambler доступен новый механизм ассоциаций. Набрав в поисковой строке нужное слово, вы кликаете на окно "найти". На странице результатов в самом низу отображается строка "У нас также ищут". В ней приведено несколько слов и словосочетаний, тематически (ассоциативно) связанных с вашим исходным запросом. Можно, нажав на любое слово из списка , продолжить поиск.

Но самое большое различие заключается в формате вывода результатов поиска. Rambler ведет поиск не только по всему Интернету, но и - в первую очередь! - по собственному порталу. И если по вашему запросу, будет что-то найдено на его портале, то эти ссылки будут представлены вам в самой верхней части страницы результатов поиска.

В отличии от многих других поисковиков, Rambler может выводить на экран список не только сайтов, но и отдельных страниц - то есть каждому найденному документу будет отдана отдельная строчка. Rambler всегда напоминает пользователям, что под каждой ссылкой подразумевается сайт со множеством документов, а не одна страница. К тому же под главной ссылкой (на сайт) дополнительно размещаются несколько ссылок на его отдельные странички.

Яndex - http://yandex. ru

В своей базе содержит около 20 миллионов документов (май 2005 года). Выполняет поиск по российской части Интернета с учетом морфологии русского языка. Имеет очень мощный язык запросов, описание которого можно изучить по адресу: yandex. ru/ya_detail. html.

Результаты поиска упорядочиваются по степени значимости (учитывается число встретившихся в документе терминов, их положение и число слов между ними) и содержат хорошую аннотацию. Очень удобным инструментом является боковая табличка, в которой выдается Топ10 сайтов, на которых находятся странички с лучшей релевантностью запросу. Кроме этого, Яндекс быстрее всех индексирует новые ресурсы. Как показывает практика, робот приходит на сайт через 15 минут после добавления ресурса в базу данных.

Особенности поиска в Яндексе:

- Cловоформы - Яндекс умеет находить заданные слова независимо от формы, в которой они употребляются в документах. И поэтому каждая из форм слова - например, "кот", "кота", "котом" и т. д. для него одинаковы.

- Яндекс различает регистр букв. Если вы наберете слово с маленькой буквы, Яндекс будет искать все варианты этого слова, как с прописной, так и со строчной. Но стоит задать поиск только по слову с большой буквы, то именно их вы и получите.

- Яндексу можно указать, где именно искать нужную вам информацию. Помимо того, что по умолчанию поиск ведется "Везде" вам предлагаются следующие варианты: в каталоге, новостях, товарах, энциклопедиях, картинках. К сожалению, Яндекс позволяет задать лишь одну область тематического поиска.

- Также Яндекс поддерживает сложный и расширенный поиск (http://www. yandex. ru/advanced. html), но об этом подробнее можно прочитать выбрав нужный пункт в меню "Как и где искать"

- Доступен также региональный поиск.

- И наконец еще одной важной чертой Яндекса является наличие обширной помощи.

Апорт! - http://www. aport. ru/

Поисковая система "Апорт!" разработана компанией "Агама" при поддержке Intel. Понимает все кириллические кодировки и выполняет поиск с учетом морфологического анализа. Имеет гибкий язык запросов и возможность перевода запроса с русского на английский язык и наоборот.

Результаты поиска упорядочиваются по частоте употребления искомых терминов. Вместе со ссылкой отображается фрагмент текста, где встречается термин, указывается индекс соответствия запросу и дата последней модификации файла. "Апорт!" очень удобен тем, что в выдаваемом фрагменте текста выделяет красным цветом запрошенные слова.

База Апорта меньше, чем у Яндекса или Рамблера, и оперативность ее обновления не самая лучшая. Однако как и везде у него есть и плюсы - например, большое количество настроек поиска: сайты, рефераты, товары, работа, знакомства, мр3, новости, картинки, энциклопедия КРУГОСВЕТ. Помимо этого возможен региональный поиск, причем сервер сам определяет регион, в котором вы находитесь.

Следует обратить внимание, что на Апорте отсутствует форма "расширенного поиска", однако существует очень мощный язык запросов, ознакомиться с принципами которым можно в разделе помощи сервера.

Одной из особенностей Апорта является возможность указывать, что заданное слово в документе должно быть в именительном падеже. Для этого необходимо перед словом поставить восклицательный знак. Например: !пар.

Каталоги Рунета

Каталог находится в стратегическом союзе с поисковой системой "Апорт!" и рейтингом Ranker. Реализована система голосования. Представлена информация из российских узлов, а также зарубежные материалы, имеющие отношение к нашей стране. На 01. 04. 2000 содержал более 40 тысяч зарегистрированных сайтов.

List. Ru - http://www. list. ru

Каталог List. Ru - проект компании "РК-Аудит". Интересным аспектом является наличие гидов - реальных людей, поддерживающих определенные разделы каталога. На данный момент это самый обширный каталог (в мае 2000 года содержал более 89 тысяч зарегистрированных сайтов).

Улитка - http://www. ulitka. ru/

Каталог российских интернет-ресурсов "Улитка". Пока, к сожалению, все выглядит не очень профессионально, но проект продолжает работать и развиваться. Ссылки выстраиваются по рейтингу, который составляется на основе переходов из каталога на эти ресурсы. В марте 2000 года каталог содержал порядка 17 500 ссылок. Проект принадлежит дизайн-студии "Арт-Конструктор".

2. 3 Сравнительные характеристики Рамблер, Яндекс и Апорт

Ксожалению, данные, представленные в настоящей таблице, относятся к 2005 году. Но таблица может прекрасно дать понять, по каким критериям нужно сравнивать поисковые машины и какими особенностями обладают наши ведущие поисковики.

- Информативность:

Рамблер. На первой странице поиска представлено только три ссылки непосредственно на сайт, остальные же в лучшем случае - на другие сайты имеющие ссылки на нужный вам. Это неудобно, так как возможно, что все это ссылки на один и тот же сайт.

Яндекс. Почти все 10 первых ссылок по теме, но опять же это "ссылки на ссылки".

Metabot. На первой странице 3 ссылки непосредственно на сайты и еще ряд ссылок на страницы, содержащие соответствующие вашему запросу адреса.

Search. Da. По скольку на первой странице результатов поиска представленно 71 разная ссылка, то здесь можно найти все: как ссылки непосредственно на сайты, так и на другие схожие ресурсы.

Подводя итог, можно сказать, что использование метапоисковиков достаточно эффективно. В данном случае мы хотели найти как можно больше сайтов посвященных сериалу "Бригада", использование для этого одного поисковика явно недостаточно. Когда же мы стали использовать несколько поисковиков, то это значительно увеличило время, поскольку очень много повторяющихся ресурсов. Поэтому использование метапоиска нам очень помогло. Из двух используемых нами метапоисковых машин Search. Da нам показался более эффективным.

Заключение

В результате данной работы мы обобщили знания по поисковым системам сети Интернет и выявили значимые особенности поиска информации в крупнейших русскоязычных поисковых системах: Rambler, Yandex и Апорт.

Проанализировав различные поисковые системы и проведя ряд экспериментов, мы пришли к следующему выводу: нельзя выделить какую-то одну лучшую поисковую систему, так как у каждой есть свои особенности, плюсы и минусы. Поэтому при поиске информации в каждом отдельном случае нужно выбирать ту, которая подходит для данной задачи.

Комментарии


Войти или Зарегистрироваться (чтобы оставлять отзывы)