Как работают поисковые системы

19.08.2010 11:40

Заниматься раскруткой сайтов и не понимать, как работают поисковые системы – это все равно, что заниматься созданием группы ВКонтакте тут, не зная, что такое ВКонтакте вообще такое, управлять автомобилем, не имея понятия о его общем устройстве или искать информацию в Интернете, не зная, как работает гиперссылка. С другой стороны, оптимизатор может не сам раскручивать сайт (например, у него просто нет времени), а заказать раскрутку сайта сторонним людям или фирмам. Но, к сожалению, в последнее время развелось столько дилетантов и откровенных жуликов, которые пообещают луну с неба и золотые горы – только бы получить заказ на раскрутку сайта за сущие копейки! – а в итоге заказчик не получит ровным счетом ничего!

Поэтому каждый, кто задается вопросом, как раскрутить сайт, должен иметь хотя бы самые общие представления о том, как работают поисковые системы.

Вообще любая поисковая система – это не просто некая программа, с помощью которой можно найти во Всемирной Паутине любую информацию. Поисковая система или поисковик – это многокомпонентная система. состоящая из шести входящих в нее программ: Spider , Crawler, Indexer , Database, Search engine results engine и Web server.

Вот теперь давайте разберемся по порядку: для чего все это нужно, как это все работает и что делает каждый компонент поисковой системы.

Spider (в переводе с английского - паук) – это специальная браузероподобная программа, в задачу которой входит скачивание веб-страниц, причем делается это почти так же, как и браузер любого пользователя Интернета. Но именно «почти», но не совсем так же! В чем разница, спросите вы? А вот в чем. Проделайте эксперимент: откройте любой сайт, подведите мышку к любому свободному месту на экране и нажмите правую клавишу. Вы увидите контекстное меню, в котором будет пункт: «просмотр HTML-кода». Если выбрать эту опцию контекстного меню, то на экране появится исходный html-текст веб-странички. Вот в этом и состоит отличие программы Spider от браузера: Spider работает по тому же принципу - не имеет визуальных компонент, а работает напрямую с html-текстом страницы, тогда как браузер отображает информацию, которая содержится на веб-странице – графическую, текстовую, и т.д. После завершения своей работы, Spider направляет разобранную веб-страницу двум следующим компонентам: крaулеру и индексатору.

Crawler (на жаргоне веб-мастеров краулер, или, как его иначе называют, «путешествующий» паук) – это небольшая программа, входящая в состав поисковой системы, в задачу которой входит проходить в автоматическом режиме по всем ссылкам, которые найдены на веб-странице (которую, как вы уже догадались, ранее скачал Spider). Затем Crawler выделяет на веб-странице все найденные ссылки. Для чего это нужно? Дело в том, что Crawler работает «в связке» с программой Spider: Crawler определяет, куда Spider должен идти дальше. Основывается Crawler на найденных ссылках и, следуя по ним, ищет те новые веб-страницы, которые поисковой системе пока еще неизвестны.

Indexer (веб-мастера называют его еще индексатор) делает следующее: разбирает веб-страницу, полученную от паука, «по косточкам». Иными словами, индексатор проводит детальный анализ веб-страницы: выделяет и анализирует элементы страницы (следует помнить, что веб-страница состоит из различных элементов: это текст, размещенный на странице, заголовки, кроме того, любая страница имеет собственные стилистические и структурные особенности, а также служебные мета-теги). Цель этой операции, полагаю, понятна: поисковик долежен «знать», что за страница к нему попала. После завершения этой работы, индексатор помещает проанализированную веб-страницу в базу данных.

Database (это и есть база данных). Назначение данного элемента заложено в самом его названии: это хранилище обработанных пауком и индексатором веб-страниц. Иными словами, в базе данных хранятся проиндексированные веб-страницы. Именно по этой причине, базу данных часто называют индексом поисковой системы и термин «страница в индексе» означает, что веб-страница попала в базу данных поисковика. То есть, это означает, что страница в индексе участвует в поиске.

Но участие в поиске – это еще не все! В этом месте мы поняли, как страница попала в индекс, но ведь по конкретному поисковому запросу выдаются тысячи, а иногда миллионы результатов! Почему одни страницы стоят первыми по запросу, а другие – шут знает где? Как происходит ранжирование результатов? Для ответа на этот вопрос, мы подошли к самой важной части (для тех, кто думает над тем, как раскрутить сайт) поисковой системы: к системе выдачи результатов Search Engine Results Engine.

Search Engine Results Engine (система выдачи результатов). То, что видит пользователь в результатах выдачи поисковика по его запросу – это и есть результат работы Search Engine Results Engine, которая извлекает результаты поиска из Database. Search Engine Results Engine отвечает за ранжирование веб-страниц и «принимает решение» - какие веб-страницы следует выдать по конкретному запросу пользователя, а также решить другой – пожалуй, самый важный вопрос: в каком порядке результаты запроса следует отсортировать. Разумеется, Search Engine Results Engine – это всего лишь программа, которая работает в соответствии с тем алгоритмом ранжирования, который в нее был заложен! Естественно, разные поисковые системы делали разные люди, поэтому в разных поисковиках алгоритмы ранжирования разные (мы еще вернемся к этому вопросу). Вот именно данная информация для нас, владельцев сайтов, оптимизаторов, для тех, кто хочет раскрутить сайт и является наиболее ценной, поскольку оптимизатор взаимодействует именно с этим компонентом поисковой системы, когда раскручивает сайт (т.е. пытается улучшить позиции сайта в результатах выдачи). Но к этому вопросу мы еще обязательно вернемся и рассмотрим максимально подробно.

И, наконец, последний компонент поисковой системы - Web server (по-русски - веб-сервер). Здесь. полагаю, все понятно: с помощью веб-сервера осуществляется взаимодействие между пользователем и поисковой системой.

Далее рассмотрим главный вопрос: как поисковая система ранжирует сайты?

Оглавление