Лисаков и макромир

Ссылочный спам в Google Analytics и Yandex.Metrika

Описание проблемы

Обнаружение

Однажды я заметил в Google Analytics (далее GA) и Yandex.Metrika (далее YM), что у меня куча посещений из каких-то непонятных источников. Обрадовался даже поначалу. Поглядите и Вы (GA: Источники трафика → Обзор → Рефералы ; YM: Источники → сайты):

refspam

А вот соответствующая таблица (закрасил неважные столбцы):

refspamtable

Вся гадость отмечена галочками. Кроме показанных на картинках simple-share-buttons, buttons-for-website, semalt, humanorightswatch, o-o-6-o-o, s.click.aliexpress я у себя видел в статистике следующий мусор: hulfingtonpost.com, darodar.com, www.amazon.com, ilovevitaly.com. В общем, полный букет.

Если в списке ваших рефералов красуется что-то из перечисленного — поздравляю: и в Вашей статистике размещена реклама.

Почему это плохо?

Засоряется статистика. Особенно это мешает, если посещаемость у сайта невысокая. Также обычно растёт средний показатель отказов. При настоящих переходах это может негативно влиять на ранжирование сайта (он опускается в результатах выдачи). Но в большинстве случаев этого не происходит.

Реальный ссылочный спам

Весь этот ссылочный спам (реферальный спам, рефспам, referrer spam, referral spam) можно разделить на 2 категории: боты, которые на самом деле посещают ваш сайт, и «призрачный» ссылочный спам. Второй случай означает, что сайт на самом деле не посещали, а фальшивые данные были отправлены вместе с настоящими на сервера GA и YM.

Яркий представитель — semalt.com. Начал свою непотребную деятельность в сентябре 2013 года под руководством граждан Украины. Они предлагают купить их SEO-услуги. Сервис virustotal по запросу semalt.com показывает IP 217.23.11.15; по этому IP тот же virustotal даёт список URL, где можно найти, например, ссылку на soundfrost.exe. Это вирусная программа, при запуске которой в Windows запускается 5 процессов, из которых убивается при закрытии программы только один, SoundFrost.exe. Оставшиеся 4 генерируют посещения случайных сайтов от имени semalt.com (вот откуда такое количество этих переходов! См. подробнее на английском) и даже незаконно собирают данные о действиях пользователя в браузере.

Кстати, semalt вот тут можно попросить больше не посещать Ваш сайт. Кто-то пишет, что это работает, кто-то — что не работает.

Какие ещё сайты попадают в эту категорию?
Кроме semalt, из перечисленных выше спамеров в логах своего веб-сервера Nginx (access.log) я обнаружил только buttons-for-website.com. А вот simple-share-buttons.com там нет, хотя в статистике переходы оттуда присутствуют. Так что эти спамеры, несмотря на схожесть адресов, работают по-разному.

Призрачный ссылочный спам

Вот это уже интереснее. Большинство спама в статистике относится к этой категории.

Нужно понимать, что в данном случае Ваш сайт не при делах. Сайт не болен, не заражён, о его существовании спамерам даже неизвестно и они его никогда не посещали. Поиск «клиентов» идёт по номерам счётчиков YM и GA. Затем к реальным результатам, которые насчитал счётчик и передал на сервера Яндекса или Гугла, каким-то образом (©) спамеры добавляют фальшивые «призрачные» посещения. Если на странице стоят счётчики и от Гугла, и от Яндекса, они будут давать разные показания для такого спама с подделанными переходами.

Более того, счётчики можно даже не ставить на страницу, а просто зарегистрировать. Всё равно они могут показывать такие призрачные посещения, что красноречиво говорит об их поддельности.

Решение проблемы

Вариант для ленивых

Вопрос: А можно просто пренебречь этим спамом и ничего не делать?

Ответ: Можно. Ничего страшного не будет. Многие пишут, что из-за такого спама молодые сайты падают в выдаче, но я в это не верю, доказательств не видел.

Рекомендуемый вариант

Вопрос: как проще и быстрее всего почистить статистику от этого спама?
Ответ:

  • В Google Analytics: сверху вкладка Администратор → Все фильтры → красная кнопка «Новый фильтр» → выбрать пункт «Создать новый фильтр», выбрать «Тип фильтра»: Пользовательский, выбрать пункт «Включить»; в «Поле фильтра» выбрать «Имя хоста»; Шаблон фильтра: .*sitename\.com.* (поменяйте доменное имя на своё). Сохранить.
  • В Yandex Metrika: Редактировать счётчик (в старой Метрике — щёлкнуть на карандашик на странице metrika.yandex.ru/list/, в новой (2016 год) — щёлкнуть на шестерёнку или выбрать пункт «Настройки» в левой панели, если уже открыт счётчик для конкретного сайта) → вкладка Фильтры → Добавить фильтр → Тип фильтра: Оставить только трафик; Поле: URL страницы; Условие: сайт и зеркала; добавить «Все данные по веб-сайту» в «Выбранные представления». Сохранить. Это официальная рекомендация от Яндекса.

Вот и всё. Остальные советы, которые встречаются в большом количестве в интернете — заблокировать IP или домен в конфигурационном файле веб-сервера (.htaccess, nginx.conf и пр.), добавить фильтры в GA и YM на конкретные хосты — обычно не сработают (в следующем пункте объяснено, почему).

В GA есть ещё возможность вкладка АдминистраторНастройки представления → в пункте «Фильтрация роботов» поставить галочку «Исключение роботов и "пауков"». В YM в разделе Настройки → Фильтры можно выбрать «фильтровать роботов по строгим правилам и поведению» (в старой версии Метрики попасть в фильтры можно, нажав на зелёный квадрат с белым карандашом на странице со списком подключённых сайтов). Однако, большую часть спама это не предотвратит.

Дополнительная информация

Блокировка через веб-сервер

Почему бесполезно блокировать эти источники на уровне веб-сервера (Apache, Nginx и т.п.) в конфигурационных файлах .htaccess, nginx.conf и т.п.?

Можно зарегистрировать новый код YM или GA и даже никуда его не ставить, всё равно будут наблюдаться эти «посещения». Это означает, что на сайт никто не заходит, используются только номера счётчиков. Именно поэтому на уровне веб-сервера что-то запрещать бесполезно, будь то Apache с конфигурационным файлом .htaccess, Nginx с nginx.conf или что-то ещё. И тем не менее, люди в сети продолжают друг другу советовать .htaccess файлы, содержащие наиболее полные списки нежелательных сайтов.

Не смотря на то, что фильтр из пункта рекомендуемый вариант выкидывает и реальный, и призрачный спам из статистики, semalt и подобных ботов можно заблокировать на уровне веб-сервера в .htaccess, nginx.conf и т.п. Вот инструкции с официальных сайтов nginx и Apache. Я считаю блокирование спама через веб-сервер нецелесообразным и не пользуюсь им.

Фильтры

Почему бесполезно делать фильтры исключений для каждого спам-сайта?

Во-первых, их сотни. Во-вторых, появляются новые. Фильтр, описанный в пункте рекомендуемый вариант, поможет ото всего и сразу.

Кто?

Кто занимается «призрачным» спамом?

Начнём с Михаила. Владельцем адресов b-motor.(ru, info, com), 9157481813.ru являлся Михаил. Сейчас все эти сайты уже недоступны. Он работал с Яндекс.Метрикой. Вот здесь он довольно подробно отписывается в комментариях под именем «Михаил». Похоже, что где-то с декабря 2014 года Михаил остался не у дел из-за обновления алгоритмов Яндекс.Метрики. В GA, вроде, он не появлялся.

А вот и герой дня, встречайте: Ай Лав Виталий! Можете почитать вот эту тему, её и начал в сентябре 2014 года некто codobir (также известный как Виталий Попов), владелец пары-тройки сотен адресов, среди которых встречаются такие жемчужины, как ilovevitaly, priceg, advocateg, iskalko, besedko, vodkoved, blackhatworth, darodar… Там и упомянутый Михаил вступает в короткую дискуссию с Виталием. Очень забавная тема. Я с удовольствием прочитал все 48 страниц этой увлекательной истории.

Изменения алгоритмов Метрики, вызвавшие затруднения у Михаила, похоже, не помешали Виталию. Но с декабря 2014 года Виталия, по его словам, больше волнует GA — аудитория там побольше.

Кстати, замечено, что такому спаму чаще подвергаются номера GA, кончающиеся на цифру 1. Ещё лично я знаю один случай подверженного спаму номера, заканчивающегося на 3, и один случай не подверженного спаму номера счётчика, оканчивающегося на 4.

Пишут, что адреса типа со.старым.новым.годом.рф отправляют на apple.com. Принцип тот же, партнёрские ссылки. Виталий писал, что это не его рук дело.

Зачем?

Зачем они это делают?

Веб-мастера видят в статистике своих сайтов YM или GA переходы с каких-то непонятных адресов и переходят по ним (так было и со мной). Происходит переадресация по партнёрской ссылке, например, на aliexpress или amazon (если переадресации не происходит, то получается просто самореклама, что тоже, согласитесь, неплохо). Если в течение срока действия ссылки (у ссылки aliexpress — 30 дней) человек решает что-то купить на тех сайтах, куда его перенаправляло, то подсунувшие эту ссылку зарабатывают небольшой процент с покупки. Codobir пишет: «И вообще, я — первый, кто так технически грамотно и в таких масштабах сделал всевидящее око Гугла бесплатным распространителем своей рекламы». Действительно, масштабы впечатляют! Достаточно погуглить referral (или referrer) spam, и можно увидеть огромное количество жалоб на всех языках с одними и теми же симптомами. Много ли зарабатывает, например, Виталий таким образом? Не знаю. Славу он, по меньшей мере, стяжал себе нешуточную.

Официальная позиция Яндекса

Официальную реакцию Яндекса можно найти по ссылке.

Конечно, Яндекс и Гугл говорят, что всё это не влияет на ранжирование, беспокоиться, мол, не о чем. Но было бы странно, если бы они говорили иначе, не правда ли? Вот что пишет знаменитый Платон Щукин (таким именем подписываются все сотрудники службы поддержки Яндекса) на запросы о посещениях со странных сайтов: «Если Ваш сайт продвигается в интересах пользователей, не используя каких-либо техник, направленных на обман поисковых систем, то Вам не о чем волноваться, так как при разработке наших алгоритмов мы, конечно же, учитывали возможность злоумышленников повлиять на позиции того или иного сайта и минимизировали её».

Яндекс.Директ

Можно в сети встретить жалобы на то, что такие «посещения» будто бы «едят» платные щелчки на Яндекс.Директе, т.е. за них списываются деньги, как будто бы это были реальные переходы. Судя по всему, это неправда, описанный метод отправки фальшивых посещений не может подделывать клики пользователей.

Вопросы

Когда возник «призрачный» рефспам? Кто его придумал и осуществил впервые? Законно ли это? Сколько их, таких спамеров? Вот на эти вопросы мне самому было бы интересно узнать ответ. Жду экспертных мнений в комментариях!


И напоследок немного пикантности. Среди запросов в статистике YM можно увидеть «яндекс -официально -рекомендует ilovevitaly.ru поисковую оболочку». Похоже, кто-то отомстил Виталию его же методом. См. его комментарий.

P.S. Если появились какие-то новости, упущенные в моей записи — поделитесь, пожалуйста!