robots.txt فایلی است که مدیران وبسایت ها درون دایرکتوری اصلی سایت خود ایجاد می کنند تا رفتار robot ها یا crawler ها یا spider ها را نسبت به صفحات وبسایت تغییر دهند.در حقیقت با به کار بردن فایل Robots.txt این امکان برای شما به وجود می‌آید که صفحات سایت را تنها مختص کاربران خود طراحی کنید و ترسی از محتوای تکراری، وجود لینک های بسیار آن در صفحه و تأثیر منفی آن بر سئو سایت نداشته باشید.

در واقع فایل robots.txt بخشی از پروتکل ردگیری رباتها (REP) و یک گروه از استاندارهای وب است که تنظیم میکند چگونه رباتها وب را ردیابی کنند. این رباتها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات را بدست می آورند و آنها را به موتور جستجوی مربوطه ارسال می کنند. در واقع این فایل از محتوای تکراری در ظاهر شدن در serp جلوگیری میکند و این امکان را می دهد که صفحات کم ارزش را از دید موتورهای جستجو پنهان کند در واقع شما اگر قصد محدود کردن روبات های گوگل را داشته باشید از فایل robots.txt استفاده میکنید و اگر از نظر شما تمام صفحات سایت قابلیت و ارزش ایندکس شدن توسط گوگل را دارند نیازی به این فایل نخواهید داشت و حتی قرار دادن یک فایل خالی با همین نام نیز لزومی ندارد حال در اینجا سوال بوجود می آید که اگر نخواهیم بعضی از صفحات وبسایت مانند ادمین پیج و ... در موتورهای جستجو ایندکس شود و در اختیار عموم قرار گیرد چه کنیم :

برای ساخت این فایل کافیست درون دایرکتوری اصلی کنترل پنل هاست خود فایلی با همین نام (robots.txt) بسازید حال نوبت می رسد به این که چه کدی را درون این فایل قرار دهیم:

User-agent : نام ربات موتور جستجوگر که قرار است محدودیت روی آن اعمال شود قرار می گیرد.

نکته 1 : علامت ستاره جلوی User-agent به معنای این است که محدودیت روی همه ربات های موتورهای جستجوگر اعمال شود.

Disallow : فهرست فایل ها و دایرکتوری ها را از فهرست بندی حذف می کند.

برای مثال :

User-agent: *
Disallow: /
کد بالا به این منظور است که تمام ربات ها حق پیمایش هیچ محتوایی از سایت را ندارند.

مثالی دیگر :

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
کد بالا برای محدود کردن یک تصویر روی سایت که آدرس و User-agent آن را وارد می کنیم.

مثالی دیگر :

برای عدم دسترسی ربات ها به یک پوشه یا دسته می توانید نام آن را قرار دهید.

Disallow: /folder/

Allow : از این دستور هم معمولا برای اجازه دادن ایندکس شدن به زیرپوشه ای که درون یک پوشه Disallow شده قرار دارد استفاده می شود.

به عنوان مثال :

User-agent: *
Disallow: /files/
Allow: /files/public/
بهترین روش برای نشان دادن مکان هر نقشه سایت در پایین فایل robots.txt است به عنوان مثال :

Sitemap: http://example.com/sitemap
نکته 2 : درون این فایل می توانید کامنت قرار دهید فقط کافیست قبل آن علامت # قرار دهید.

نکته 3 : دقت کنید دستورات را پشت سر هم ننویسید و هر دستور را در یک خط قرار دهید.

نکته 4 : در نظر داشته باشید که robots.txt نسبت به بزرگ و کوچک بودن حروف لاتین حساس بوده و آدرس صفحات را باید به دقت وارد کنید.

برخی از موتورهای جستجو چندین User-agent دارند. به عنوان مثال گوگل از Googlebot برای بررسی و ایندکس صفحات وب و Google-Image برای جستجوی تصویر استفاده می کند لیست تمام ربات های معتبر در دیتابیس Web Robots Database موجود است و شما می توانید با قرار دادن نام هر یک به عنوان User-agent قوانین مشخصی برای آنها تعیین کنید.

یک موتور جستجو محتوای robots.txt را کش میکند اما محتوای آن حداقل یک بار در روز به روز می شود. اگر فایل را تغییر دادید و می خواستید آن را سریعتر از آنچه رخ میدهد به روز کنید، می توانید آدرس robots.txt خود را به Google ارسال کنید.

نکته 5 : دقت کنید که فایل robots.txt در دسترس عموم است بنابراین از این فایل برای مخفی کردن اطلاعات کاربر استفاده نکنید.

نکته 6 : دقت کنید که زیر دامنه ها باید فایل robots.txt جدا داشته باشند به عنوان مثال فایل robots.txt دامنه ی example.com جدا از فایل robots.txt زیر دامنه ی blog.example.com است.

آزمایش Robots.txt

robots.txt Tester وبمستر گوگل
سرچ کنسول گوگل یا همان وبمستر گوگل قسمتی برای تست و ارزیابی فایل robots.txt دارد که این صفحه با نام robots.txt Tester شناخته می شود.

در این بخش می توانید میزان محدودیت ربات های گوگل و دسترسی آن ها را مورد سنجش قرار دهید ، کافی است در بخش انتهایی یک نوع از ربات های گوگل را انتخاب کنید و با فشردن دکمه Test میزان دسترسی ربات ها به هر یک از این آدرس ها به شما نمایش داده خواهد شد.

google analytics

از طریق سایت
بهتر است بعد از آپلود فایل robots.txt در هاست این فایل را با استفاده از سایت http://tool.motoricerca.info/robots-checker.phtml بررسی کنید تا در صورت داشتن اشتباهات تایپی آن را به شما گزارش کند.

منبع : http://stylenet.ir/robots-txt-and-everything-we-need-to-know-about-it