فایل robots.txt چیست؟

فایل robots.txt چیست؟

درپاسخ به این سوال که فایل robots.txt چیست باید ابتدا به این نکته اشاره کنیم که استفاده از فایل robots.txt به شما این امکان را میدهد که صفحات سایت را تنها مختص کاربران اینترنتی طراحی کرده و ترسی از محتوای تکراری، وجود لینک های بسیار در آن صفحه و تاثیر منفی بر سئو سایت نداشته باشید. همچنین به شما این امکان را میدهد که صفحات بی ارزش و کم محتوا را از دید موتورهای جستجو پنهان کنید تا زمان روبات ها در سایت شما برای ایندکس کردن این صفحات هدر نرود. شما تنها زمانیکه قصد محدود کردن روبات های گوگل را داشته باشید از فایل robots.txt استفاده میکنید و اگر از نظر شما تمام صفحات سایت قابلیت و ارزش ایندکس شدن توسط گوگل را داشته باشند نیازی به این فایل نخواهید داشت. حتی قرار دادن یک فایل خالی با همین نام نیز لزومی ندارد.

موتور های جستوجو همانند گوگل، یاهو ، بینگ و ماکروسافت برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود ار ربات های جستجو که با نام Robot و Spider و crawler مشهور هستند، استفاده می کنند. این ربات ها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو بدست می آورند و آنها رو به موتور های جستجو مربوطه ارسال می کنند. معمولا براساس مدت زمان آپدیت اول تا آپدیت بعدی سایت، مدت زمان جستجو و ایندکس آن هم متفاوت است، شاید شما علاقه نداشته باشید که موتور های جستجو صفحات شما را بشناسند و ایندکس کنند؛ برای اینکه به موتور های جستجو بگید چه صفحات یا فولدر هایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می توانید از یک فایل با نام robots.txt در ایندکس هاست سایتتون (ریشه اصلی) و یا در پوشه ای خاص استفاده کنید.

مهمترین دستورات در فایل robots.txt چیست

مهمترین دستورات robots.txt

فایل robots.txt یک فایل متنی با ساختاری ساده است. نحوه عملکرد این فایل با کمک دستورات پیش‌فرض و ادغام کلمات کلیدی از پیش تعیین شده است. از جمله مهم‌ترین و رایج‌ترین این دستورات مواردی مثل User-agent ، Disallow ، Allow ، Crawl-delay و Sitemap می‌باشند که در ادامه به صورت جداگانه هریک از این موارد را با جزئیات آن‌ها شرح می‌دهیم.

User-agent:

 این دستور برای مشخص کردن ربات‌ها و خرندگانی است که امکان دسترسی به بخش‌های سایت را داشته باشند یا خیر. با این دستورالعمل می‌توان به تمام ربات‌ها دسترسی داد و یا با اضافه کردن نام رباتی خاص، فقط به آن ربات دسترسی‌های مختلف را داد یا محدود کرد.

مثال: یک ربات وارد سایت شما شده و قصد بررسی و جمع‌آوری اطلاعات از یک صفحه خاص برای مثال www.example.com/test.html را دارد. این ربات قبل از اینکه این صفحه را مورد بررسی قرار دهد، ابتدا فایل robots.txt را چک می‌کند. برای مثال محتویات داخل این فایل به صورت زیر است:


* : User-agent

User-agent: * به این معنی است که تمام بخش‌های این سایت قابل دسترس برای تمام ربات‌ها و خزندگان موتورهای جستجو است. اما اگر قصد این را دارید که اطلاعات خود را فقط برای یک ربات خاص تعیین کنید باید نام دقیق آن ربات را به جای ستاره جایگذاری کنید.

به مثال زیر دقت کنید. در این مثال فقط ربات گوگل حق دسترسی به صفحات سایت را دارد :

User-agent: Googlebot

Disallow و Allow:

با کمک این دستورالعمل می‌توان به User-agent یا همان ربات‌های تعیین شده مشخص کرد که کدام بخش‌های سایت را بررسی و ایندکس کنند یا نکنند. همانطور که مشخص است، کد Allow به منزله ایجاد دسترسی و کد Disallow به منزله محدودسازی دسترسی ربات‌ها استفاده می‌شوند.

مثال: اگر فقط دستور “Disallow: /” را در فایل robots.txt درج کرده باشید، با این کار به ربات‌ها اعلام می‌کنید که آن‌ها نباید هیچ صفحه‌ای از این سایت را بازدید، بررسی یا ایندکس کنند. همچنین اگر می‌خواهید به همه آن‌ها دسترسی کامل داده باشید باید از دستور  “Allow: /” استفاده کنید.

شما می‌توانید فایل‌ها، مسیرها، آدرس‌ها و صفحات مشخص شده سایت خود را به عنوان موارد انتخابی تعیین کنید تا فقط این بخش‌ها قابل دسترسی باشند یا برعکس. به نمونه ساده زیر دقت کنید:

/Disallow: /wp-admin

/Allow: /contact

طبق مثال بالا، مسیر ورودی به پنل مدیریتی وردپرس برای دسترسی ربات‌ها محدود شده است اما صفحه Contact یا همان صفحه ارتباط با ما قابل دسترس است. به همین طریق می‌توان خیلی راحت و سریع این نوع دسترسی‌ها را مدیریت کرد.

Crawl-delay :

به زمانی گفته می شود که پایشگر بایستی قبل از بارگذاری پایش محتوای صفحه صبر کند. البته این دستور غالبا از طرف گوگل نادیده می شود.

Sitemap :

 اشاره به نقشه های سایت XML. دقت داشته باشید که این دستور تنها توسط گوگل، Ask، بینگ و یاهو پشتیبانی می شود.

اگر سایت فایل robots.txt را نداشته باشد چه اتفاقی می‌افتد؟

اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و ربات‌های موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.

اگر فایل robots.txt به درستی تهیه و آپلود نشود چه می‌شود؟

نتیجه این مورد بستگی به نوع مشکل خواهد داشت. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، ربات‌های موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و می‌توانند آن‌ها را ایندکس کنند. به عبارت دیگر، ربات‌ها فقط زمانی تغییر رفتار می‌دهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند. در غیر این صورت آن‌ها به رفتار طبیعی خود یعنی بررسی و ایندکس کردن تمام بخش‌های سایت ادامه خواهند داد.

چرا وب سایت شما به فایل robots.txt نیاز دارد؟

با استفاده از فایل robots.txt می توان به مدیریت دسترسی پایشگر ها در وب سایت پرداخت. با اینکه این امکان می تواند در صورت اشتباه شما کمی خطر ناک نیز باشد، اما از طرفی بسیار کارامد نیز است.

برخی از استفاده های مثبت از فایل robots.txt عبارتند از:

  • جلوگیری از ایجاد مشکل محتوای تکراری (دقت داشته باشید که در اغلب سناریو ها استفاده از متا robots گزینه بهتریست)
  • خصوصی نگه داشتن بخشی از وب سایت (به عنوان مثال بخش ادمین سایت)
  • جلوگیری از ایندکس شدن صفحات نتایج جستجوی داخلی وب سایت
  • اشاره به نقشه وب سایت
  • جلوگیری از ایندکس شدن برخی از فایل ها (مانند فایل های PDF) در وب سایت
  • ایجاد تاخیر در پایش وب سایت برای جلوگیری از فشار زیاد بر روی سرور وب سایت
  • بهینه سازی بودجه پایشی (Crawl Budget)

اگر در وب سایت شما هیچ بخشی برای پنهان کردن در نتایج جستجو وجود ندارد، شاید بهتر باشد که فایل robots.txt را به کل نادیده بگیرید.

چطور یک فایل robots.txt بسازیم؟

قبل از ساخت این فایل، اول مطمئن شوید که پیش از این چنین فایلی در سرور سایت شما ایجاد نشده باشد. برای اینکه از این مورد آگاه شوید، کافیست آدرس سایت خود را وارد کرده و در انتهای آن /robots.txt را تایپ کرده و اینتر بزنید.

یعنی به این صورت: www.website.com/robots.txt

اگر در صورت باز کردن این صفحه با ارور 404 مواجه شوید یعنی چنین فایلی ساخته نشده است. اما در صورتی که بعد از وارد شدن به این صفحه با کدهای User-agent و … مواجه شدید، یعنی سایت شما این فایل را دارد. در این حالت باید از طریق FTP و یا کنترل پنل هاست سایت خود، به قسمت مدیریت فایل رفته و در روت اصلی هاست فایل robots.txt را پیدا کنید. سپس باید آن را توسط یک ویرایشگر متنی آنلاین اجرا کرده و آن را ویرایش کنید. همچنین می‌توانید این فایل را دانلود کرده و روی کامپیوتر خود ویرایش کنید و در نهایت فایل ذخیره شده را با فایل قبلی جایگزین کنید.

همچنین اگر این فایل در هاست سایت شما پیدا نشد، خیلی راحت یک فایل متنی txt از طریق Notepad ویندوز بسازید و آن را با نام robots (با حروف کوچک) ذخیره کنید. سپس دستورات مورد نیاز خود را درون آن قرار داده و فایل را ذخیره سازی کنید. در نهایت، فایل آماده شده را از همان روش‌های گفته شده (از طریق FTP یا فایل منیجر کنترل پنل هاست) در روت اصلی سایت آپلود کنید.

اگر به هر دلیل دسترسی شما به سرور محدود شده باشد میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی روبات به آن را محدود کنید.

دستورات قرار دادن محدودیت هایی برای ربات های گوگل در هدر با تگ متا: برای جلوگیری از ورود تمامی ربات های اینترنتی به صفحه از تگ:

</”meta name=”robots” content=”noindex>

و برای محدود کردن ربات های گوگل از تگ:

< /”meta name=”googlebot” content=”noindex>

چطور فایل robots.txt خودمان را تست کرده و از عملکرد صحیح آن مطمئن شویم؟

در حالت عادی و با باز کردن آدرس فایل robots.txt و بررسی دستی دستورات داخل آن می‌توانید از صحت صحیح بودن دستورات مطمئن شوید. اما راه حرفه‌ای تر استفاده از ابزار تست فایل robots.txt کنسول جستجوی گوگل است. راهنمایی بیشتر:

  • برای این منظور ابتدا وارد سایت Google Search Console شوید
  • روی بخش robots.txt Tester کلیک کنید
  • گزینه Test را انتخاب کنید

اگر مشکلی در فایل وجود نداشته باشد، دکمه قرمزرنگ Test به دکمه سبزرنگ Allowed تغییر پیدا می‌کند. اما اگر ایرادی در فایل دیده شود، لاین (دستور) مشکل دار هایلایت شده و مشخص می‌شود.

همچنین با کمک این ابزار گوگل می‌توان از قابلیت‌های دیگری نیز بهره‌مند شد. مثلاً می‌توانید از بخش URL Tester آدرس صفحات سایت خود را آنالیز کرده تا متوجه شوید کدام یک از آن‌ها برای ربات‌ها مسدود شده هستند.

همچنین این ابزار یک ویرایشگر آنلاین نیز می‌باشد که می‌توانید محتویات آن را با استانداردهای پیشنهادی تغییر دهید. اما فراموش نکنید که به منظور اعمال این تغییرات در سایت خود، باید محتوای ویرایش شده جدید را با محتوای متنی قبلی موجود در robots.txt حال حاضر در هاست خود جایگزین کنید.

فایل robots.txt در کجا بایستی قرار داشته باشد؟

موتورهای جستجو و دیگر پایشگرهای وب پس از ورود به یک سایت  می دانند که بایستی به دنبال یک فایل robots.txt باشند. اما آنها تنها در یک مسیر مشخص (مسیر ریشه وب سایت) به دنبال این فایل هستند. اگر یک پایشگر در مسیر www.example.com/robots.txt هیچ فایلی را مشاهده نکند، فرض را بر این قرار می دهند که هیچ فایل robots.txt در این وب سایت وجود ندارد.

حتی اگر این فایل در سایر مسیر ها وجود داشته باشد، پایشگر متوجه حضور آن نخواهند شد. بنابراین برای حصول اطمینان تاکید می کنیم که آن را در مسیر روت وب سایت قرار دهید.

موارد قابل مخفی کردن توسط robots.txt

با استفاده از فایل robots.txt می توان به مخفی کردن برخی از مسیرهای سایت از دید موتورهای جستچو پرداخت. صفحاتی که در این جا می توان به آنها اشاره کرد عبارتند از:

  • صفحات با محتوای تکراری
  • صفحات دوم به بعد دسته بندی ها
  • آدرس های دینامیک محصولات یا دسته بندی ها
  • صفحات پروفایل کاربران
  • صفحات ادمین
  • صفحه سبد خرید
  • صفحه گفتگو های کاربران
  • صفحه تشکر از کاربران
  • صفحه جستجو ها

چک کردن وجود فایل robots.txt

آیا از وجود فایل robots.txt در وب سایت خود مطمئن نیستید؟ تنها کافیست که عبارت robots.txt را به انتهای نام دامنه خود اضافه کرد و یو آر ال نهایی را در مرورگر خود وارد کنید. اگر هیچ صفحه متنی ظاهر نشد، پس چنین فایلی در سایت شما وجود ندارد.

Robots.txt و وردپرس

هر آنچه که در مورد فایل robots.txt تاکنون یادگرفتید در وب سایت های وردپرسی نیز قابل انجام است. وردپرس به صورت پیشفرض دارای فایل فیزیکی برای robots.txt نیست، اما شما با تایپ آدرس https://www.yourdomain.com/robots.txt در مرورگر خود محتویات این فایل قابل مشاهده خواهد بود.

برای ویرایش robots.txt در وردپرس بایستی یک فایل متنی با همین نام را در مسیر روت آن آپلود نمایید. با انجام این کار دیگر فایل robots.txt مجازی وردپرس مشاهده نخواهد شد.

شرایط Robots.txt در وردپرس به چه صورت است؟

تمام مواردی که در بالا گفته شد، برای سیستم مدیریت محتوای Wordpress نیز صدق می‌کند. اما چند نکته راجع به وردپرس در این زمینه وجود دارد که دانستن آن‌ها خالی از لطف نیست.

نکته اول:

در گذشته پیشنهاد میشد که صفحه پنل مدیریتی وردپرس یا همان wp-admin را از طریق فایل robots.txt برای دسترسی ربات‌ها مسدودسازی کنیم. اما بعد از بروزرسانی وردپرس در سال 2012 این مسئله دیگر اهمیتی نداشت. چرا که وردپرس در سیستم جدید خود قابلیتی پیش‌فرض به تگ هدر فایل robots.txt اضافه کرده بود که در آن تگ noindex و دستور مسدودسازی دسترسی (disallow) گنجانده شده بود. بنابراین در حال حاضر بدون نیاز به مورد خاصی، صفحه مدیریتی پنل سایت شما به صورت خودکار از لیست ایندکس‌های موتورهای جستجو حذف می‌شود.

نکته دوم:

سیستم مدیریت محتوای Wordpress به صورت پیش‌فرض یک فایل robots.txt دارد که از این فایل با نام فایل مجازی robots.txt یا Virtual robots.txt یاد می‌شود. این به این معنی است که شما نمی‌توانید به صورت مستقیم این فایل را پیدا کرده و آن را ویرایش کنید. تنها راهی که بتوان این فایل را مشاهده کرد باز کردن آدرس مستقیم آن در مرورگرها (http://www.example.com/robots.txt) است.

دستورالعمل‌های پیش‌فرض موجود در فایل robots.txt مجازی در وردپرس شامل موارد زیر است :

*:User-agent:

/Disallow: /wp-admin

Allow: /wp-admin/admin-ajax.php

در این حالت ربات‌ها به صفحه admin-ajax.php دسترسی دارند. اگر می‌خواهید بدون دستکاری خاصی این حالت را نیز غیرفعال کنید، باید به تنظیمات وردپرس در صفحه wp-admin رفته و گزینه Search Engine Visibility را فعال کنید تا دسترسی تمامی ربات‌ها به سایت شما مسدود شود.

چطور باید فایل robots.txt در وردپرس را ویرایش کرد؟

طبق چیزی که گفته شد (عدم امکان ویرایش مستقیم فایل robots.txt در وردپرس) تنها راهی که بتوان فایل robots.txt را ویرایش کرد ساختن یک فایل جدید از آن و آپلود کردن آن در روت اصلی هاست سرور سایت است. درواقع وقتی یک فایل جدید با این عنوان ساخته شود، وردپرس به صورت خودکار فایل مجازی robots.txt را غیرفعال می‌کند.

ارتباط فایل robots.txt و سئو

قبل از هرچیز فایل robots.txt خود را بررسی و تست کنید تا مطمئن شوید بخش مهمی از سایت شما از طریق آن مسدود نشده باشد.

فایل‌ها و پوشه‌های مهم CSS و JS را مسدود نکنید. فراموش نکنید که ربات‌های گوگل درست از نگاه یک کاربر یک سایت را بررسی و ایندکس می‌کنند. در نتیجه اگر برخی از فایل‌های CSS و JS و دیگر فایل‌های مشابه را بلاک کنید، ممکن است سایت شما به صورت مناسب بارگذاری نشود و این مسئله نیز می‌تواند باعث ایجاد خطا شده و در ایندکس شدن دیگر صفحات سایت شما تأثیر منفی بگذارد.

اگر از WordPress استفاده می‌کنید، نیازی به مسدودسازی مسیرهایی همچون wp-admin و پوشه‌های wp-include نیست. وردپرس به صورت اتوماتیک این کار را از طریق تگ‌های متا انجام می‌دهد.

اگر مایلید که بعضی از صفحات سایت شما در موتورهای جستجو ایندکس نشوند، پیشنهاد می‌کنیم از متاتگ‌های هدر هر صفحه استفاده کنید. البته در حالی که تعداد این صفحات کم باشد یا این فرآیند برای شما دشوار نباشد.



درباره نویسنده
افسانه نامور هستم مدیر تارا وب. فوق لیسانس مهندسی کامپیوتر گرایش نرم افزار دارم. اگر نیاز به طراحی قالب وردپرس اختصاصی دارید ما در تارا وب این کار را با بهترین کیفیت برایتان انجام می دهیم.

  • دیدگاه خود را در مورد این محصول یا مطلب وارد کنید
  • ایمیل شما منتشر نخواهد شد، با خیال آسوده آن را به درستی وارد کنید
  • امکاناتی که قصد دارید به محصول اضافه شوند را در نظرات همین صفحه وارد کنید تا بررسی شوند
  • پیشنهادات و انتقادات خود را برای ما بنویسید

تعداد دیدگاه ها برای این مطلب: 0 دیدگاه