Директива Clean-param в Robots.txt, правильное использование для всех страниц сайта

Часто случается, так, что в индекс поисковиков попадают страницы с GET-параметрами, по типу site.ru/catalog/category/?sort_field=PRICE&order=asc или site.ru/catalog/category/?cf=390&cf=2816&cf=293 к подобным параметрам, можно также отнести различные UTM-метки, сортировки фильтров на сайте и прочие параметры, которые обычно передаются после знака вопроса ?.

Страницы с параметрами обычно содержат один и тот же контент, как если бы эти параметры были бы убраны из URL страницы, из-за чего поисковики могут посчитать такие страницы полными ДУБЛЯМИ. Чтобы этого избежать для Яндекса, можно использовать директиву Clean-param в robots.txt. Правило работает только для Яндекса, на всякий случай повторюсь!

Итак, как же она работает? Если кратко, то синтаксис таков:

Clean-param: p0[&p1&p2&..&pn] [path]

где p — это динамические параметры. Если их несколько, то нужно перечислить через амперсанд, например, sort&price. Поле path — префикс, указывающий путь применения директивы.

В интернете полно описаний, как применять эту директиву к конкретной категории, однако никто не упоминает тот факт, что зачастую параметры распространяются чуть ли не на все страницы сайта, и в таком случае, проще всего указывать их таким образом (без указания директивы):

Clean-param: utm&cf&order&sort_field

где utm,cf,order,sort_field - это параметры, которые нужно исключить из поиска, а символ & связывает их (что-то вроде запятой при перечислении). Таким образом, мы исключаем параметры со всех страниц сайта. Проверить корректность настройки Robots очень легко в Яндекс.Вебмастере, сервисом https://webmaster.yandex.ru/site/tools/robotstxt/

Файл robots.txt не имеет ограничений на количество указываемых директив Clean-param. В любом месте файла и количестве они будут учтены. В написании директивы учитывается регистр, а также длина правила ограничена 500 символами. Учитывайте это, при заполнении.