Для определения важности ссылки во внимание принимается не только сама ссылка
В данной статье детальному рассмотрению будут подвергнуты следующие процессы работы поисковой системы: индексирование документов, обработка запросов, ранжирование результатов.
Невероятно, но факт, современные поисковые системы, которыми многие из нас пользуются, имеют в своей основенауку, насчитывающую уже не один десяток лет, известную как информационный поиск. На заре своего развития данная наука нашла основное применение в крупных организациях, таких как библиотеки, научно-исследовательские центры, правительственные лаборатории. В то время учеными были определены два основополагающих компонента успешного поиска. По аналогии можно выделить подобные компоненты и в современном поиске.
Первым является релевантность, определяющая степень соотношения контента, как результатов поиска, оригинальному запросу пользователя. Документ считается релевантным запросу в том случае, если слова запроса часто встречаются в тексте самого документа, особенно в наиболее важных его частях, таких как заголовок и подзаголовки. В современном поиске данный процесс известен как анализ документа. Современные поисковые системы проверяют наиболее значимые области веб-страниц: заголовок, мета-данные, тэги заголовков, основную часть текстового сообщения, чтобы определить, насколько близок контент страницы запросу.
Вторым компонентом является популярность. Все, кто писал курсовые работы, сталкивался с этим. Вспомните преподавателя, настойчиво требующего Вас обратить особое внимание на ссылки и библиографию источников, в частности, на те ссылки, которые встречаются несколько раз. Такие работы считаются популярными, следовательно, важными для исследуемой темы. ВИнтернетеподобный процесс представлен в виде ссылочного анализа, с помощью которого поисковая система определяет общее количество входящих ссылок, кто ссылается на данную страницу или сайт, и что говорят о данной странице или сайте ссылающиеся источники.
В дополнение к релевантности и популярности, поисковым системам необходимо учитывать то, насколько источникам можно доверять. Продолжая проводить аналогию с университетской средой, можно предположить, что коммерческие интересы не повлияют на результаты поиска документа. Однако, в интерактивной среде все как раз наоборот. Одной из причин, почему ссылки со страниц с расширением. edu и. gov представляются более важными, является именно их некоммерческий характер. Техника анализа документов и ссылок предполагает изучение сотни процессов, проходящих в алгоритмах поисковой системы, и определение порядка выдачи результатов поиска пользователю.
Желая получить больше информации о человеке, обычно предпринимают следующее: знакомятся с ним лично, либо наводят справки о нем. При оценке веб-сайта поисковая система выполняет то же самое: проверяет, как сам сайт оценивает себя, и как его оценивают другие сайты. Однако, преследуя финансовую выгоду, многие сайты могут завышать собственную оценку, прибегая к чрезмерному использованию мета-тэгов и ключевых слов, что до 1998 г. оставалось совершенно безнаказанным. Сейчас поисковые системы не так уж просто провести, политика наказаний порой излишне сурова.
Если забыть на время о самооценке сайтов, стоит вспомнить об определении популярности. Если сотни тысяч сайтов ссылаются на определенный сайт, то согласно теории, он должен быть популярным, а, следовательно, значимым. Если ссылки сделаны с сайтов, обладающих большим количеством входящих ссылок, это увеличивает вес всех исходящих, с подобных сайтов, ссылок. Только не стоит забывать о качестве ссылок. Так, например, ссылки с сайтов, обладающих высокой степенью доверия (например, сайты Гарвардского Университета, Агентства Рейтер, Министерства Юстиции США и т. д.), непременно окажут положительное влияние на позиции сайта. Соответственно, ссылки с сайтов низкого качества (например, входящие в состав ссылочных ферм) не принесут выгоды, а, возможно, и негативно скажутся в SERP.
Актуальным остается вопрос: как поисковые системы определяют значимость входящих ссылок на сайт. Анализу подвергается весь контент страницы, с которой делается ссылка. Вот, например, как работает PageRank Google: для определения важности ссылки во внимание принимается не только сама ссылка со страницы А на страницу B, но и текст страницы А.