Защо файлът robots.txt е важен
Файлът robots.txt е протокол или стандарт за изключване на роботи. Това е текстов файл, който казва на търсещите машини кои страници на Вашия сайт да обхождат. Той може да казва на търсачките и кои страници да не обхождат.
Преди да посети директно страниците на Вашия сайт, търсачката посещава robots.txt за инструкции и ограничения.
Има много различни видове robots.txt, затова нека разгледаме две от най-използваните правила в този вид текстов файл:
- Звездичката след “User agent” (потребителски агент) означава, че файлът robots.txt се отнася за всички уеб роботи На търсачките, които посещават сайта;
- Наклонената черта след „Disallow“ казва на търсачката да не обхожда страници в сайта;
Вероятно се питате защо някой собственик на сайт би иска търсачките да не обхождат неговия сайт. По подразбиране търсачките обхождат целия Ви сайт, буквално всяка една страница от сайта ще бъде старателно прегледана и индексирана, което в 90% от случаите е наистина ненужно. Ако имате огромен сайт, това би отнело страшно много време на бота на търсачката, което може да се отрази негативно на класирането Ви. Това е така, защото роботите имат така наречния “Crawl budget” (бюджет за обхождане). При наличието на сайт с много страници, трябва да се обърнете към SEO професионалисти, които да настроят Вашия robots.txt по начин, по които този бюджет ще е достатъчен и търсачките няма да се затормозяват при обхождане и ще харесват Вашия сайт.
Създаване на robots.txt файл
Както казахме по-горе, това е обикновен текстов файл, който може да създадете с всеки текстов редактор по Ваш избор (word, notepad+ и тн.)
Ако във Вашия сайт вече съществува такъв файл, той може да е генериран от Вашия CMS (Content Management System) – Система за управление на съдържанието, като WordPress, Drupal, Joomla и тн. Тези системи понякога генерират автоматично такива файлове. Но това далеч не означава, че за Вашето SEO, това е най-добрия вариант. За да се подсигурите Ви съветваме да следвате добрите SEO практики и да създадете собствен robots.txt.
Оптимизиране на файла robots.txt
Оптимизирането на този файл зависи най-вече от съдържанието и големината на Вашия сайт. Има много начини да се възползвате от него. Ще Ви изброим някои от тях:
- Едно от най-важните и чести приложения на файла е, за да се използва максимално добре бюджетът за обхождане от търсачките. Например съвет от нас е, ако Вашият сайт е на WordPress, да “кажете” на търсачките, чрез robots.txt да НЕ обхождат /wp-admin, тък като това е админ панелът на сайта и наистина нямате нужда от това. Както и няма нужда да губите времето на търсачките. Оставете ги да обходят наистина важните страници на сайта Ви;
- Можете да забраните и други страници от Вашия сайт за обхождане. Например едва ли държите в търсачките да се позиционират страници от сайта Ви, като например /количка, /поръчка, /thank-you pages (благодарствени страници, обикновено след поръчка), /етикети и други подобни. Тези страници може да са важни за потребителите Ви, но защо да се намират и в индексираните на Вашия сайт страници. Тях спокойно може да ги изключите чрез този полезен файл, като използвате директива, за да предотвратите влизането на роботите в тях. След Disallow (забраната) въведете юрл-а, който искате да спрете от индексиране между две наклонени черти;
- Друга важна директива е – noindex. Заедно с Disallow трябва да използвате и noindex, за да се уверите, че ботовете наистина не посещават, както и не индексират Вашата страница;
- Има и nofollow. Това всъщност казва на роботите да не следват връзките от дадената страница. Тя обаче се прилага малко по-различно и не е част от robots.txt, тя се разполага в <head></head> на Вашия сайт и по този начин си гарантирате, че роботите наистина ще пропуснат, както Вашата страница, така и връзките в нея;
- Директива за хост на сайта. Тук няма потвърдена информация, че Google поддържа тази директива. Но много SEO оптимизатори я ползват и ние не смятаме, че ще Ви бъде излишна. Синтаксисът е: Host: https://вашият-сайт.com;
- Sitemap директивата. Тя накратко казва на търсачките, къде да намерят XML картата на Вашия сайт. Синтаксисът е: Sitemap: https://вашият-сайт.com/sitemap.xml;
- Не на последно място с този полезен за SEO файл, можете да ограничавате и определени търсачки да достигат до сайта. Нека предположим, че бизнесът Ви и сайтът Ви са разположени в България. Тук различни маркетингови проучвания сочат, че Google се използва от 99% от хората. Така че смело Ви съветваме почти да не разчитате на други търсачки. И спокойно можете да предотвратите тяхното влизане на сайта Ви, чрез robots.txt. За целта трябва да знаете имената на ботовете на всички търсачки, които искате да премахнете. И да ги изредите във файла robots.txt. Имената на роботите на всички търсачки може свободно да намерите в интернет. Както и можете да се допитате до професионалисти в SEO-то за помощ.
Има още техники, които можете да използвате. Те обаче са твърде сложни и за целта ще трябва да ги обсъдите с оптимизаторите на Вашия сайт.
Най-накрая, след като оптимизирате Вашия robots, в никакъв случай не забравяйте да тествате внимателно за грешки. Това може да направите и с някои безплатни онлайн туулове, както и с платени професионални софтуери, с каквито разполагат по-големите SEO агенции.