Работа поисковых систем

работа поисковых систем

Информация о поисковых системах

1.2. Работа поисковых систем

1.1. История развития поисковых систем
1.2. Работа поисковых систем
1.3. Особенности различных поисковых систем

1.2. Работа поисковых систем

Поисковые системы состоят из следующих основных компонентов:

Spider (паук) - браузероподобная программа, которая скачивает веб-страницы. Spider скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Crawler выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Indexer разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database (база данных) – хранилище скачанных и обработанных страниц. Database - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Работа поисковых систем

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных. Search Engine Results Engine занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы рассмотрим отдельные факторы, влияющие на ранжирование результатов.

Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы. Как правило, на нем присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

Подробнее в книге "Раскрутка сайта шаг за шагом"


Поисковая система Yandex.

Русскоязычная поисковая система. На сегодняшний день имеет самую большую базу данных, которая имеет кластерную структуру и размещена на нескольких серверах.
У Яндекса достаточно быстрый поисковый робот, после 4-24 часов регистрируемая страница появляется в поисковых результатах. Но это означает лишь то, что страница поставлена в очередь на полную индексацию. После того, как страница проходит полную индексацию, она может пропасть из поисковых результатов, если поисковый робот сочтет ее за спам, либо из-за каких-нибудь технических проблем. Т.е. если ваша станица после первичной индексации вышла на первые места по тому или иному запросу, то после полной индексации, возможно, она будет совсем на других позициях, вывод: положение страницы нужно отслеживать в течение нескольких дней, пока не пройдет полная индексация.

Не стоит волноваться, если попадете в следующую ситуацию:

Страница после полной индексации заняла хорошую позицию. Но после одной из проверок ее место в списке результатов ниже, чем обычно. А на следующий день опять все по-прежнему.
Список результатов может меняться в зависимости от загруженности серверов. Т.к. база данных имеет кластерную структуру и разнесена на несколько серверов.

Советы по оптимизации:
Хорошо индексируются страницы созданные скриптами cgi, php. Это касается гостевых книг, форумов и т.п. Для индексации остальных (кроме главной) страниц сайта требуется примерно 2-3 недели.
Если сайт на русском языке, а домен не в зоне .ru, то Яндекс все равно проиндексирует

UserAgent
Имя поискового робота: Yandex/1.03.00х, где х - тип паука, в зависимости от типа индексации (первичная, полная).
В формулу вычисления релевантности включен Взвешенный Индекс Цитирования, аналог Page Rank в Google. Обычный Индекс Цитирования используется только при сортировке сайтов в каталоге Яндекса. Влияние на положение в результатах поиска оказывает только ВИЦ .

Спам
Разработана технология определения спама. По сему, крайне не рекомендую использовать спамерские методы.




недвижимость в Черногории

Фитнес клуб с бассейном, видео тренажерные залы Киева по низким ценам.

славяно-арийские веды купить

SEO-оптимизация, продвижение сайта.

Главная страницаСвязаться с намиДобавить в избранноеКаталог ссылокСтраницы партнеровНовости

Работа поисковых систем. Spider, crawler, indexer, database, search engine results engine
Copyright © 2006, Олег Андронов, Матыльков Евгений. All rights recerved.

Rambler's Top100