Сказочный мир компьютерной графики - Общие принципы работы поисковых систем
Понедельник, 21-Май-2012, 09:17Главная | Регистрация | Вход

Меню сайта

Форма входа

Логин:
Пароль:

Категории раздела

Ваша корзина пуста

Новости

Поддержите наш проект SMS копилка

Поиск

Календарь

«  Май 2012  »
ПнВтСрЧтПтСбВс
 123456
78910111213
14151617181920
21222324252627
28293031

Наш опрос

Как вы оцениваете новый дизайн сайта?
1. Отлично
2. Хорошо
3. Плохо
4. Ужасно
Всего ответов: 348

Мини-чат

300

Статистика

Яндекс цитирования
Rambler's Top100
art-gorodok.ru

Онлайн всего: 2
Гостей: 2
Пользователей: 0


Всего зарегистрировано: 12084
Новых за месяц: 91
Новых за неделю: 25
Новых вчера: 6
Новых сегодня: 1

Пользователей 7102
Проверенных: 4946
Модераторов: 8
Администраторов: 1
Заблокированных: 0

Парней: 6720
Девушек: 5363

Сегодня нас посетили:
eva2003, homushka
Общие принципы работы поисковых систем
1
.2 Общие принципы работы поисковых систем

Поисковая система состоит из следующих основных компонентов:
Spider (паук) – браузероподобная программа, которая скачивает веб-страницы.
Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.
Indexer (индексатор) – программа, которая анализирует веб-страницы, скаченные пауками.
Database (база данных) – хранилище скачанных и обработанных страниц.
Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.
Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.

Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

Spider. Паук – это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler. Выделяет все ссылки, присутствующие на странице. Его задача – определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database. База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

Copyright art-gorodok.ru © 2012 | Создать сайт бесплатно