Как убрать статистику Referral Spam из статистики Google

6 апреля 2015, 15:06 Комментарии: 0

Я знаю, что большинство сайтов в последнее время подвержено плохому влиянию реферального спама. Кто заглядывает в сервис Google аналитики, тот понимает о чем речь. Согласитесь, неприятное ощущение, когда ваш сайт спамят. В этой статье я расскажу, почему реферальный спам может быть опасным и как с ним бороться.
stop-Referral-Spam

Типы рефспама

В аналитике Google реферальный спам можно наблюдать из двух источников: спам поисковых роботов и спам призрачным реферальным трафиком.

Поисковый робот — робот, который посещает ваш сайт для индексирования контента, и всё это идет в статистику аналитики. Однако некоторые поисковые роботы идут с Semalt, в аналитике они не идентифицируются как роботы, и в статистике отчетов появляется 100% показатель отказов и посещение сайта продолжительностью в 0 секунд. Google не так давно ввел специальный фильтр для того, что бы отсеять спам ботов и пауков. Это конечно не идеальный вариант, но об этом позже.

Реферальный трафик — скорее всего большее из «двух зол» реферального спама, так как фактического посещения сайта не происходит. В этих случаях спамеры используют то, что Google напрямую передает информацию в аналитику при помощи HTTP запросов, то есть в принципе обмануть аналитику вполне просто =). Реферальный трафик может быть сгенерирован специальной программой которая посылает фейковые HTTP запросы в Google Analytics, но по сути этот трафик не попадает на ваш сайт. Также этот тип спама может использоваться для манипуляции органической выдачей.

google analytics referral spam

Работа с документом .htacces не поможет в борьбе с призрачным реферальным трафиком, потому как по сути посещения сайта не происходит

«Реферер это простой заголовок HTTP, который передает информацию перехода от одной страницы к другой, и как правило используется для того что бы указать откуда пришел этот пользователь. Но некоторые пользователи могут этим воспользоваться в своих целях установив реферер на страницы, которые хотят что бы посещали люди из интернета.»
Matt Cutts

Так почему же все таки реферальный спам — это плохо? Во первых, это искажает данные из аналитики. Это очень хорошо можно пронаблюдать на молодых сайтах, у которых 30-40 посещений в сутки, а потом за ночь поднимается до 100 и выше.

Кроме того, реферальный спам затрудняет SEO продвижение для любого сайта в сети. Одна из целей направленного рефспама — это получить ссылки с сайтов, которые открыты для всеобщего доступа. Некоторые веб-сайты публикуют данные веб-аналитики в публичном доступе с гиперссылкой редирект к спамерам. Эти бэклинки могут улучшить результаты поиска для данного URL.

Это дает больше возможностей для реферальных спамеров. Если спамер захотел отправить на сайт нежелательный трафик, он сможет просто отредиректить на URL жертвы.

Еще одна потенциальная угроза — это спам-рассылка. Когда производится кража электронных адресов, а потом рассылается в письме URL, содержащий вредоносное ПО, которое при установке или переходе будет скачивать важные данные ваших аккаунтов.

Ну и в конце концов, никто не хочет, что бы его сайт подвергался какому либо виду спама!

Исключение зарубежных хостов фильтр, краулеров

Одним из атрибутов, определяющих реферальный спам, является неточный хост. При наличии данных из Google аналитики, имя хоста будет связано с доменом вашего сайта (пример, «example.com»). Зная это, довольно просто создать фильтр, включая только данные хоста. Для тех кто использует один или несколько доменов, это довольно простое решение (немного о регулярных выражениях от Google):

Настройка фильтра (регулярные выражения)
В большинстве случаев подставить главный домен example.com будет достаточно. Проверить свои регулярные выражения можно на Regex Pal.

Это один из фильтров для борьбы с направленным спамом. Тем не менее, стоит настроить и дополнительный фильтр, который будет удалять спам поисковых роботов (как Semalt). Так как они на самом деле посещают сайт, можно определить точное имя хоста. Фильтр для удаления этих двух видов спама можно увидеть ниже:
Фильтр для удаления спама
Популярное регулярное выражение:
.*(semalt|buttons\-for\-website)\.com.*

Фильтр всех источников спама

Когда домены можно легко изменить, для блокировки направленного спама могут понадобиться более расширенные данные для фильтра, чтобы охватить все спам-сайты. С появлением рефспама на сайте пришлось обновить регулярные выражения, как показано ниже на скринах.

Фильтр спама
Популярные регулярные выражения:
.*((darodar|priceg|semalt|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|bestwebsitesawards|o\-o\-6\-o\-o|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*

тут я добавил еще один, так как первый достиг предела в 255 символов
.*best\-seo\-solution\.com.*

Бот-фильтрация в окне параметров

В июле 2014 года Google представила фильтрацию паука, чтобы дать пользователям более точные данные. Чуть ниже из интерфейса консоли администратора показано как это сделать. Это исключит любые сеансы ботов и пауков в списке (бесплатно).

В теории это все круто! Но эта функция все еще является новой, и мы все еще можем наблюдать влияние спама даже с настроенным фильтром. Тем не менее, все это тоже работает, и если Google решит ввести больше функциональных возможностей этой функции, будет еще круче!
Фильтрация реферального спама
Список спам сайтов:

  • semalt.com
  • buttons-for-website.com
  • darodar.com
  • priceg.com
  • makemoneyonline.com
  • blackhatworth.com
  • hulfingtonpost.com
  • bestwebsitesawards.com
  • o-o-6-o-o.com
  • ilovevitaly.com
  • simple-share-buttons.com
  • social-buttons.com
  • best-seo-solution.com
  • econom.co
  • ilovevitaly.co
  • ilovevitaly.ru
  • humanorightswatch.org
  • 4webmasters.org

Это не долгосрочное решение

К сожалению, все решения, описанные выше,— это только краткосрочный «пластырь» для закрытия дырок. Спамеры будут искать другие возможности использовать Google-аналитику в своих гадких целях. Чтобы быть «в струе» и понимать откуда ждать неприятностей, следует прочитать данный пост (тут линк).

Поделиться в соц. сетях

Опубликовать в Google Plus

Автор поста: Виталий