Robots exclusion standard که به آن Robots exclusion protocol یا به سادگی robots.txt نیز گفته می شود استانداردی است که وب سایت ها برای برقراری ارتباط با خزنده های وب مانند گوگل، بینگ و الکسا از آن استفاده می کنند.

فایل robots.txt چیست

فایل ربات نحوه اطلاع رسانی به ربات وب را در مورد اینکه کدام یک از صفحات وب سایت نباید پردازش یا اسکن کند مشخص می کند. ربات ها اغلب توسط موتورهای جستجو برای دسته بندی وب وب سایت ها استفاده می شوند.

همه ربات ها با استاندارد شاخص کار نمی کنند. برداشت کنندگان ایمیل spambots ، بدافزار و روبات هایی که آسیب پذیری های امنیتی را جستجو می کنند ممکن است حتی به بخشهایی از وب وب سایت که به آنها گفته شده است که در آنجا نباشید سرک بکشند.

فایل استاندارد ربات

هنگامی که یک مالک وب سایت می خواهد به ربات های وب دستورالعمل بدهد یک فایل متنی به نام robots.txt را در ریشه وب سایت خود آپلود می کند (به عنوان مثال https://www.example.com/robots.txt) این فایل متنی شامل دستورالعمل ها در یک قالب خاص است. روبات هایی که دستورالعمل ها را دنبال می کنند سعی می کنند دستورالعمل ها را بخوانند. اگر این پرونده وجود نداشته باشدروبات های وب تصور می کنند که مالک وب سایت نمی خواهد محدودیتی در خزیدن کل وب سایت ایجاد کند.

نمونه فایل Robots.txt

مثال زیر به ربات ها می گوید که آنها می توانند از همه پرونده ها بازدید کنند زیرا wildcard * مخفف همه ربات ها است و دستورالعمل Disallow هیچ ارزشی ندارد ، به این معنی که هیچ صفحه ای مجاز نیست.

User-agent: *
Allow: /

همین نتیجه را می توان با یک پرونده خالی یا گمشده robots.txt به دست آورد. مثال زیر به همه روبات ها می گوید که هیچ کدام از صفحات یک وب سایت را اسکن نکند:

User-agent: *
Disallow: /

این مثال به همه ربات ها می گوید که نباید وارد سه دایرکتوری شوند:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

این مثال به همه روبات ها می گوید که از یک پرونده خاص دور باشند:

User-agent: *
Disallow: /directory/file.html

این مثال به یک ربات خاص می گوید که از یک وب سایت دور باشد:

User-agent: BadBot # replace 'BadBot' with the actual user-agent of the bot
Disallow: /

این مثال به دو روبات خاص می گوید که نباید وارد یک فهرست خاص شوند:

User-agent: BadBot # replace 'BadBot' with the actual user-agent of the bot
User-agent: Googlebot
Disallow: /private/

دیگر موارد مورد استفاده از فایل Robots.txt

زمان خزیدن توسط برخی از خزنده ها پشتیبانی می شود تا بازدید از میزبان را کنترل کند. از آنجا که این مقدار بخشی از استاندارد نیست تفسیر آن به خواندن خزنده بستگی دارد. این مورد زمانی به کار می رود که بازدید مکرر ربات از وب سایت سرعت را کاهش می دهد.

Yandex این مقدار را به تعداد ثانیه های انتظار بین بازدیدهای بعدی تفسیر می کند. Bing تاخیر خزش را به اندازه یک پنجره زمانی (از ۱ تا ۳۰ ثانیه) تعریف می کند که BingBot فقط یک بار به یک وب سایت دسترسی پیدا می کند. Google برای کنترل بازدیدهای بعدی GoogleBot رابطی در کنسول جستجوی خود برای مدیران وب فراهم کرده است.

User-agent: bingbot
Allow : /
Crawl-delay: 10