Сказочный мир компьютерной графики - Google PageRank – теоретические основы
Понедельник, 21-Май-2012, 09:13Главная | Регистрация | Вход

Меню сайта

Форма входа

Логин:
Пароль:

Категории раздела

Ваша корзина пуста

Новости

Поддержите наш проект SMS копилка

Поиск

Календарь

«  Май 2012  »
ПнВтСрЧтПтСбВс
 123456
78910111213
14151617181920
21222324252627
28293031

Наш опрос

Как вы оцениваете новый дизайн сайта?
1. Отлично
2. Хорошо
3. Плохо
4. Ужасно
Всего ответов: 348

Мини-чат

300

Статистика

Яндекс цитирования
Rambler's Top100
art-gorodok.ru

Онлайн всего: 3
Гостей: 3
Пользователей: 0


Всего зарегистрировано: 12084
Новых за месяц: 91
Новых за неделю: 25
Новых вчера: 6
Новых сегодня: 1

Пользователей 7102
Проверенных: 4946
Модераторов: 8
Администраторов: 1
Заблокированных: 0

Парней: 6720
Девушек: 5363

Сегодня нас посетили:
eva2003, homushka
Google PageRank – теоретические основы
3.5 Google PageRank – теоретические основы

Первыми, кто запатентовал систему учета внешних ссылок стала компания Google. Алгоритм получил название PageRank. В этой главе мы расскажем об этом алгоритме и о том, как он может влиять на ранжирование результатов поиска.

PageRank рассчитывается для каждой веб-страницы отдельно, и определяется PageRank’ом (цитируемостью) ссылающихся на нее страниц. Своего рода замкнутый круг.

Главная задача заключается в том, чтобы найти критерий, выражающий важность страницы. В случае с PageRank таким критерием была выбрана теоретическая посещаемость страницы.

Рассмотрим модель путешествия пользователя по сети путем перехода по ссылкам. Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. Затем по ссылкам он переходит на другие ресурсы. При этом есть вероятность того, что посетитель покинет сайт и вновь начнет просмотр документов со случайной страницы (в алгоритме PageRank вероятность такого действия принята 0.15 на каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие, перейдя по одной из доступных на текущей странице ссылок (все ссылки при этом равноправны). Продолжая путешествие до бесконечности, он побывает на популярных страницах много раз, а на малоизвестных - меньше.

Таким образом, PageRank веб-страницы определяется как вероятность нахождения пользователя на данной веб-странице; при этом сумма вероятностей по всем веб-страницам сети равна единице, так как пользователь обязательно находится на какой-либо странице.

Поскольку оперировать вероятностями не всегда удобно, то после ряда преобразований с PageRank можно работать в виде конкретных чисел (как, например, мы привыкли видеть его в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).

Согласно описанной выше модели получаем, что:
- каждая страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой PageRank (хотя и очень маленький);
- каждая страница, имеющая исходящие ссылки, передает часть своего PageRank страницам, на которые ссылается. При этом переданный PageRank обратно пропорционален числу ссылок на странице – чем больше ссылок, тем меньший PageRank передается по каждой;
- PageRank передается не полностью, на каждом шаге происходит затухание (та самая вероятность 15%, когда пользователь начинает просмотр с новой, случайно выбранной, страницы).

Рассмотрим теперь, каким образом PageRank может влиять на ранжирование результатов поиска (говорим «может», так как в чистом виде PageRank уже давно не участвует в алгоритме Google, как это было раньше, но об этом ниже). С влиянием PageRank все обстоит очень просто – после того как поисковая система нашла ряд релевантных документов (используя текстовые критерии), отсортировать их можно согласно PageRank – так как логично будет предположить, что документ, имеющий большее число качественных внешних ссылок, содержит наиболее ценную информацию.

Таким образом, алгоритм PageRank "вытесняет" наверх в поиске те документы, которые и без поисковика наиболее популярны.

Copyright art-gorodok.ru © 2012 | Создать сайт бесплатно