На заре своего существования Интернет еще не обладал большим объемом информации. Количество пользователей Сетью было тоже совсем невелико. Однако со временем возникла необходимость в оптимизации доступа к информации, содержащейся в Интернете, благодаря чему в 1994 году на свет появился проект под названием Yahoo. Данный проект подразумевал создание каталогов сайтов, в которых ссылки на сайты были сгруппированы по различным темам. Однако этот проект еще совсем мало был похож на современные поисковые системы. Первой поисковой системой в привычном для нас понимании стала WebCrawler.
На сегодняшний день основными мировыми поисковиками являются Google, Yahoo, MSN Search.
В российском Интернете этот список представлен следующими поисковыми системами: Яндекс, Google, Mail.ru, Aport, Rambler, KM.ru.
Бесспорно, самыми популярными из них являются Google и Яндекс.
Структура поисковых систем
Различные поисковые системы содержат одинаковый состав входящих в них основных элементов, а именно, поле поиска, кнопка поиска, список найденных результатов.
Структура поисковой системы представлена комплексом следующих программ.
- Робот spider (паук), целью которого является просмотр страниц сайтов, предназначенных для индексации.
- Робот crawler (путешествующий паук). Его функция заключается в поиске новых и неизвестных системе ссылок и добавление их в список индексации.
- Индексатор обрабатывает страницу очереди, стоящей на индексацию.
- База данных хранит различную информацию необходимую для выведения результатов поиска.
- Система обработки запросов и выдачи результатов. Алгоритм ее работы сводится к следующему: во-первых, принять от пользователя запрос на поиск какой-либо информации, во-вторых, обратиться с этим запросом к базе данных, в-третьих, вывести пользователю полученный результат.
Фильтры поисковых систем
Рассмотрим отдельно фильтры, применяемые поисковой системой Google и системой Яндекс. Однако следует понимать, что такое разграничение имеет весьма зыбкие границы, так как в той или иной степени большинство из нижеперечисленных фильтров частично присутствует в каждой из этих двух поисковых систем.
Фильтры, предусмотренные системой Google.
- Фильтр “Песочница” (Sandbox). Под этот фильтр попадают все новые сайты и могут находиться, в так называемой “песочнице”, от трех месяцев до нескольких лет. Страницы таких новообразованных сайтов не выводятся в результатах поиска по высокочастотным запросам. Однако по запросам с низкой частотностью могут выдаваться поисковой системой. Одной из особенностей этого фильтра является то, что сайты из “песочницы” выводятся не по отдельности, а целыми группами. Достаточно быстрый вывод сайта из “песочницы” может быть обеспечен благодаря большому количеству ссылок на этот интернет-ресурс.
- Фильтр “Дополнительные результаты”. Те страницы сайта, которые попали под данный вид фильтра, будут выводиться в результатах поиска только лишь в тех случаях, когда не будет хватать основных, так называемых, “хороших” страниц.
- Фильтр “Bombing”. Под этот фильтр сайты попадают по причине неуникальности анкоров в ссылках.
- Фильтр “Bowling”. Опасность попадания сайтов под этот тип фильтров может угрожать исключительно интернет-ресурсам, TrustRunk которых низкий. Попадание сайта под этот фильтр может быть умышленно спровоцировано конкурентами.
- Фильтр “Возраст домена”. Причина попадания под фильтр – недоверие поисковой системы новым доменам.
- Фильтр “Дублирующийся контент”. Для сайта очень важно наличие на своих страницах уникального контента. Если на интернет-ресурсе используется большое количество краденой информации, то есть скопированной с других ресурсов, то сайт окажется под данным фильтром.
- Фильтр-30. Этот фильтр получил свое название благодаря тому, что понижает сайт на тридцать позиций в том случае, если на веб-ресурсе применяются черные методы продвижения (дорвеи, редиректы с помощью JavaScript).
- Фильтр “Опущенные результаты”. Сайт может оказаться под фильтром из-за скопированного с других ресурсов контента, из-за недостаточного числа входящих ссылок, дублирующихся заголовков и других meta-тегов. Кроме того, дополнительной причиной может являться недостаточная внутренняя перелинковка страниц сайта.
- Фильтр “Социтирование”. Причиной действия этого фильтра на интернет-ресурс может являться то, что на него ссылаются сайты совершенно иной тематики.
- Фильтр “Links”. Чтобы избежать действия данного фильтра, не следует заводить у себя на сайте страницу, предназначенную для обмена ссылками с партнерами. Это не поможет повысить сайт в результатах выдачи поисковой системы, а только нанесет вред.
- Фильтр “Много ссылок сразу”. Чтобы миновать данный фильтр, необходимо воздержаться от приобретения для сайта большого количества ссылок за достаточно короткий период времени.
- Фильтр “Чрезмерная оптимизация”. Причина попадания сайта под фильтр является использование на нем чрезмерного количества ключевых фраз с высокой степенью плотности.
- Фильтр ”Битые ссылки”. Избежать действия фильтра можно при условии, что ссылки не будут вести на страницы, которых не существует.
- Фильтрация страниц по времени загрузки. Как уже понятно из названия, фильтрация в данном случае обусловлена слишком долгой загрузкой страницы.
- Общий фильтр “Степень доверия” (Google Trust Rank). Фильтр учитывает такие факторы, как качество перелинковки, число исходящих ссылок, количество и авторитетность входящих ссылок, возраст домена и др. Для повышения позиций сайта в выдаче поисковой системы необходимо повышать Trust Rank.
Фильтры, предусмотренные системой Яндекс.
- АГС. Благодаря этому фильтру из поисковой системы исключаются сайты, предназначение которых заключается в поисковом спаме.
- Непот-фильтр. Интернет-ресурс может пострадать от этого фильтра за ведение торговли ссылками с сайта, из-за чего сайт засоряется большим количеством таких ссылок.
- Редирект фильтр. Этот фильтр наказывает сайты за применение javascript редиректов.
- Фильтр плотности ключевых слов. Чтобы избежать действия фильтра, необходимо избегать чрезмерной концентрации ключевых слов и фраз на сайте.
- Фильтр “Ты последний”. Причина действия фильтра лежит в обнаружении поисковой системы дубля страницы.
Принципы ранжирования в поисковых системах
Ранжирование – это вывод сайтов на страницах поисковых систем в определенной последовательности в ответ на какой-либо запрос пользователя. Принято выделять внутренние и внешние принципы ранжирования. Рассмотрим каждую группу по отдельности.
Внутренние принципы ранжирования. Внутренние принципы ранжирования подчинены действиям владельца сайта. Они учитывают:
- объем информации на странице сайта;
- количество, плотность и расположение ключевых слов и фраз на странице интернет-ресурса;
- стилистику представленного на странице текста;
- наличие ключевых слов в теге Title и в ссылках;
- содержание ключевых слов в мета-тегах Description;
- общее количество страниц сайта.
Внешние принципы ранжирования учитывают:
- Индекс цитирования (оценивает популярность сайта).
- Ссылочный текст (внешние ссылки, которые ведут на сайт).
- Релевантность ссылающихся страниц (оценка информации ссылающейся страницы).
- Google PageRank (теоретическая посещаемость страницы).
- Тематический индекс цитирования Яндекс (авторитетность сайта относительно других близких ему интернет-ресурсов).
- Добавление информации о сайте (самбит) в каталоги общего назначения, каталог DMOZ, Каталог Яндекса.
- Обмен ссылками между сайтами.
Таким образом, мы представили некоторую информацию, касающуюся специфики работы поисковых систем. Однако следует учесть тот факт, что алгоритм их работы претерпевает различные изменения, поэтому информация о поисковых системах является весьма динамичной и требует постоянного анализа со стороны seo-специалистов.