فایل robots.txt چیست؟
درپاسخ به این سوال که فایل robots.txt چیست باید ابتدا به این نکته اشاره کنیم که استفاده از فایل robots.txt این امکان را میدهد که صفحات سایت را تنها مختص کاربران اینترنتی طراحی کرده و ترسی از محتوای تکراری، وجود لینک های بسیار در آن صفحه و تاثیر منفی بر سئو سایت نداشته باشید.
همچنین به شما این امکان را میدهد که صفحات بی ارزش و کم محتوا را از دید موتورهای جستجو پنهان کنید تا زمان روبات ها در سایت شما برای ایندکس کردن این صفحات هدر نرود.
شما تنها زمانیکه قصد محدود کردن روبات های گوگل را داشته باشید از فایل robots.txt استفاده میکنید و اگر از نظر شما تمام صفحات سایت قابلیت و ارزش ایندکس شدن توسط گوگل را داشته باشند نیازی به این فایل نخواهید داشت. حتی قرار دادن یک فایل خالی با همین نام نیز لزومی ندارد.
موتور های جستوجو همانند گوگل، یاهو ، بینگ و ماکروسافت برای یافتن و ایندکس کردن صفحات مختلف وب و سایت های موجود ار ربات های جستجو که با نام Robot و Spider و crawler مشهور هستند، استفاده می کنند.
این ربات ها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو بدست می آورند و آنها رو به موتور های جستجو مربوطه ارسال می کنند.
معمولا براساس مدت زمان آپدیت اول تا آپدیت بعدی سایت، مدت زمان جستجو و ایندکس آن هم متفاوت است، شاید شما علاقه نداشته باشید که موتور های جستجو صفحات شما را بشناسند و ایندکس کنند؛ برای اینکه به موتور های جستجو بگید چه صفحات یا فولدر هایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می توانید از یک فایل با نام robots.txt در ایندکس هاست سایتتون (ریشه اصلی) و یا در پوشه ای خاص استفاده کنید.
مهمترین دستورات در فایل robots.txt چیست
مهمترین دستورات robots.txt
فایل robots.txt یک فایل متنی با ساختاری ساده است. نحوه عملکرد این فایل با کمک دستورات پیشفرض و ادغام کلمات کلیدی از پیش تعیین شده است. از جمله مهمترین و رایجترین این دستورات مواردی مثل User-agent ، Disallow ، Allow ، Crawl-delay و Sitemap میباشند که در ادامه به صورت جداگانه هریک از این موارد را با جزئیات آنها شرح میدهیم.
User-agent در robots
این دستور برای مشخص کردن رباتها و خرندگانی است که امکان دسترسی به بخشهای سایت را داشته باشند یا خیر. با این دستورالعمل میتوان به تمام رباتها دسترسی داد و یا با اضافه کردن نام رباتی خاص، فقط به آن ربات دسترسیهای مختلف را داد یا محدود کرد.
مثال: یک ربات وارد سایت شما شده و قصد بررسی و جمعآوری اطلاعات از یک صفحه خاص برای مثال www.example.com/test.html را دارد. این ربات قبل از اینکه این صفحه را مورد بررسی قرار دهد، ابتدا فایل robots.txt را چک میکند. برای مثال محتویات داخل این فایل به صورت زیر است:
* : User-agent
User-agent: * به این معنی است که تمام بخشهای این سایت قابل دسترس برای تمام رباتها و خزندگان موتورهای جستجو است. اما اگر قصد این را دارید که اطلاعات خود را فقط برای یک ربات خاص تعیین کنید باید نام دقیق آن ربات را به جای ستاره جایگذاری کنید.
به مثال زیر دقت کنید. در این مثال فقط ربات گوگل حق دسترسی به صفحات سایت را دارد :
User-agent: Googlebot
Disallow و Allow:
با کمک این دستورالعمل میتوان به User-agent یا همان رباتهای تعیین شده مشخص کرد که کدام بخشهای سایت را بررسی و ایندکس کنند یا نکنند. همانطور که مشخص است، کد Allow به منزله ایجاد دسترسی و کد Disallow به منزله محدودسازی دسترسی رباتها استفاده میشوند.
مثال: اگر فقط دستور “Disallow: /” را در فایل robots.txt درج کرده باشید، با این کار به رباتها اعلام میکنید که آنها نباید هیچ صفحهای از این سایت را بازدید، بررسی یا ایندکس کنند. همچنین اگر میخواهید به همه آنها دسترسی کامل داده باشید باید از دستور “Allow: /” استفاده کنید.
شما میتوانید فایلها، مسیرها، آدرسها و صفحات مشخص شده سایت خود را به عنوان موارد انتخابی تعیین کنید تا فقط این بخشها قابل دسترسی باشند یا برعکس. به نمونه ساده زیر دقت کنید:
/Disallow: /wp-admin
/Allow: /contact
طبق مثال بالا، مسیر ورودی به پنل مدیریتی وردپرس برای دسترسی رباتها محدود شده است اما صفحه Contact یا همان صفحه ارتباط با ما قابل دسترس است. به همین طریق میتوان خیلی راحت و سریع این نوع دسترسیها را مدیریت کرد.
Crawl-delay
به زمانی گفته می شود که پایشگر بایستی قبل از بارگذاری پایش محتوای صفحه صبر کند. البته این دستور غالبا از طرف گوگل نادیده می شود.
Sitemap
اشاره به نقشه های سایت XML. دقت داشته باشید که این دستور تنها توسط گوگل، Ask، بینگ و یاهو پشتیبانی می شود.
اگر سایت فایل robots.txt را نداشته باشد چه اتفاقی میافتد؟
اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و رباتهای موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.
اگر فایل robots.txt به درستی تهیه و آپلود نشود چه میشود؟
نتیجه این مورد بستگی به نوع مشکل خواهد داشت. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، رباتهای موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و میتوانند آنها را ایندکس کنند.
به عبارت دیگر، رباتها فقط زمانی تغییر رفتار میدهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند. در غیر این صورت آنها به رفتار طبیعی خود یعنی بررسی و ایندکس کردن تمام بخشهای سایت ادامه خواهند داد.
چرا وب سایت شما به فایل robots.txt نیاز دارد؟
با استفاده از فایل robots.txt می توان به مدیریت دسترسی پایشگر ها در وب سایت پرداخت. با اینکه این امکان می تواند در صورت اشتباه شما کمی خطر ناک نیز باشد، اما از طرفی بسیار کارامد نیز است.
برخی از استفاده های مثبت از فایل robots.txt عبارتند از:
- جلوگیری از ایجاد مشکل محتوای تکراری (دقت داشته باشید که در اغلب سناریو ها استفاده از متا robots گزینه بهتریست)
- خصوصی نگه داشتن بخشی از وب سایت (به عنوان مثال بخش ادمین سایت)
- جلوگیری از ایندکس شدن صفحات نتایج جستجوی داخلی وب سایت
- اشاره به نقشه وب سایت
- جلوگیری از ایندکس شدن برخی از فایل ها (مانند فایل های PDF) در وب سایت
- ایجاد تاخیر در پایش وب سایت برای جلوگیری از فشار زیاد بر روی سرور وب سایت
- بهینه سازی بودجه پایشی (Crawl Budget)
اگر در وب سایت شما هیچ بخشی برای پنهان کردن در نتایج جستجو وجود ندارد، شاید بهتر باشد که فایل robots.txt را به کل نادیده بگیرید.
چطور یک فایل robots.txt بسازیم؟
قبل از ساخت این فایل، اول مطمئن شوید که پیش از این چنین فایلی در سرور سایت شما ایجاد نشده باشد. برای اینکه از این مورد آگاه شوید، کافیست آدرس سایت خود را وارد کرده و در انتهای آن /robots.txt را تایپ کرده و اینتر بزنید.
یعنی به این صورت: www.website.com/robots.txt
اگر در صورت باز کردن این صفحه با ارور 404 مواجه شوید یعنی چنین فایلی ساخته نشده است. اما در صورتی که بعد از وارد شدن به این صفحه با کدهای User-agent و … مواجه شدید، یعنی سایت شما این فایل را دارد. در این حالت باید از طریق FTP و یا کنترل پنل هاست سایت خود، به قسمت مدیریت فایل رفته و در روت اصلی هاست فایل robots.txt را پیدا کنید. سپس باید آن را توسط یک ویرایشگر متنی آنلاین اجرا کرده و آن را ویرایش کنید. همچنین میتوانید این فایل را دانلود کرده و روی کامپیوتر خود ویرایش کنید و در نهایت فایل ذخیره شده را با فایل قبلی جایگزین کنید.
همچنین اگر این فایل در هاست سایت شما پیدا نشد، خیلی راحت یک فایل متنی txt از طریق Notepad ویندوز بسازید و آن را با نام robots (با حروف کوچک) ذخیره کنید. سپس دستورات مورد نیاز خود را درون آن قرار داده و فایل را ذخیره سازی کنید. در نهایت، فایل آماده شده را از همان روشهای گفته شده (از طریق FTP یا فایل منیجر کنترل پنل هاست) در روت اصلی سایت آپلود کنید.
اگر به هر دلیل دسترسی شما به سرور محدود شده باشد میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی روبات به آن را محدود کنید.
دستورات قرار دادن محدودیت هایی برای ربات های گوگل در هدر با تگ متا: برای جلوگیری از ورود تمامی ربات های اینترنتی به صفحه از تگ:
</”meta name=”robots” content=”noindex>
و برای محدود کردن ربات های گوگل از تگ:
< /”meta name=”googlebot” content=”noindex>
چطور فایل robots.txt خودمان را تست کرده و از عملکرد صحیح آن مطمئن شویم؟
در حالت عادی و با باز کردن آدرس فایل robots.txt و بررسی دستی دستورات داخل آن میتوانید از صحت صحیح بودن دستورات مطمئن شوید. اما راه حرفهای تر استفاده از ابزار تست فایل robots.txt کنسول جستجوی گوگل است. راهنمایی بیشتر:
- برای این منظور ابتدا وارد سایت Google Search Console شوید
- روی بخش robots.txt Tester کلیک کنید
- گزینه Test را انتخاب کنید
اگر مشکلی در فایل وجود نداشته باشد، دکمه قرمزرنگ Test به دکمه سبزرنگ Allowed تغییر پیدا میکند. اما اگر ایرادی در فایل دیده شود، لاین (دستور) مشکل دار هایلایت شده و مشخص میشود.
همچنین با کمک این ابزار گوگل میتوان از قابلیتهای دیگری نیز بهرهمند شد. مثلاً میتوانید از بخش URL Tester آدرس صفحات سایت خود را آنالیز کرده تا متوجه شوید کدام یک از آنها برای رباتها مسدود شده هستند.
همچنین این ابزار یک ویرایشگر آنلاین نیز میباشد که میتوانید محتویات آن را با استانداردهای پیشنهادی تغییر دهید. اما فراموش نکنید که به منظور اعمال این تغییرات در سایت خود، باید محتوای ویرایش شده جدید را با محتوای متنی قبلی موجود در robots.txt حال حاضر در هاست خود جایگزین کنید.
فایل robots.txt در کجا بایستی قرار داشته باشد؟
موتورهای جستجو و دیگر پایشگرهای وب پس از ورود به یک سایت می دانند که بایستی به دنبال یک فایل robots.txt باشند. اما آنها تنها در یک مسیر مشخص (مسیر ریشه وب سایت) به دنبال این فایل هستند. اگر یک پایشگر در مسیر www.example.com/robots.txt هیچ فایلی را مشاهده نکند، فرض را بر این قرار می دهند که هیچ فایل robots.txt در این وب سایت وجود ندارد.
حتی اگر این فایل در سایر مسیر ها وجود داشته باشد، پایشگر متوجه حضور آن نخواهند شد. بنابراین برای حصول اطمینان تاکید می کنیم که آن را در مسیر روت وب سایت قرار دهید.
موارد قابل مخفی کردن توسط robots.txt
با استفاده از فایل robots.txt می توان به مخفی کردن برخی از مسیرهای سایت از دید موتورهای جستچو پرداخت. صفحاتی که در این جا می توان به آنها اشاره کرد عبارتند از:
- صفحات با محتوای تکراری
- صفحات دوم به بعد دسته بندی ها
- آدرس های دینامیک محصولات یا دسته بندی ها
- صفحات پروفایل کاربران
- صفحات ادمین
- صفحه سبد خرید
- صفحه گفتگو های کاربران
- صفحه تشکر از کاربران
- صفحه جستجو ها
چک کردن وجود فایل robots.txt
آیا از وجود فایل robots.txt در وب سایت خود مطمئن نیستید؟ تنها کافیست که عبارت robots.txt را به انتهای نام دامنه خود اضافه کرد و یو آر ال نهایی را در مرورگر خود وارد کنید. اگر هیچ صفحه متنی ظاهر نشد، پس چنین فایلی در سایت شما وجود ندارد.
Robots.txt و وردپرس
هر آنچه که در مورد فایل robots.txt تاکنون یادگرفتید در وب سایت های وردپرسی نیز قابل انجام است. وردپرس به صورت پیشفرض دارای فایل فیزیکی برای robots.txt نیست، اما شما با تایپ آدرس https://www.yourdomain.com/robots.txt در مرورگر خود محتویات این فایل قابل مشاهده خواهد بود.
برای ویرایش robots.txt در وردپرس بایستی یک فایل متنی با همین نام را در مسیر روت آن آپلود نمایید. با انجام این کار دیگر فایل robots.txt مجازی وردپرس مشاهده نخواهد شد.
شرایط Robots.txt در وردپرس به چه صورت است؟
تمام مواردی که در بالا گفته شد، برای سیستم مدیریت محتوای Wordpress نیز صدق میکند. اما چند نکته راجع به وردپرس در این زمینه وجود دارد که دانستن آنها خالی از لطف نیست.
نکته اول:
در گذشته پیشنهاد میشد که صفحه پنل مدیریتی وردپرس یا همان wp-admin را از طریق فایل robots.txt برای دسترسی رباتها مسدودسازی کنیم. اما بعد از بروزرسانی وردپرس در سال 2012 این مسئله دیگر اهمیتی نداشت. چرا که وردپرس در سیستم جدید خود قابلیتی پیشفرض به تگ هدر فایل robots.txt اضافه کرده بود که در آن تگ noindex و دستور مسدودسازی دسترسی (disallow) گنجانده شده بود. بنابراین در حال حاضر بدون نیاز به مورد خاصی، صفحه مدیریتی پنل سایت شما به صورت خودکار از لیست ایندکسهای موتورهای جستجو حذف میشود.
نکته دوم:
سیستم مدیریت محتوای Wordpress به صورت پیشفرض یک فایل robots.txt دارد که از این فایل با نام فایل مجازی robots.txt یا Virtual robots.txt یاد میشود. این به این معنی است که شما نمیتوانید به صورت مستقیم این فایل را پیدا کرده و آن را ویرایش کنید. تنها راهی که بتوان این فایل را مشاهده کرد باز کردن آدرس مستقیم آن در مرورگرها (http://www.example.com/robots.txt) است.
دستورالعملهای پیشفرض موجود در فایل robots.txt مجازی در وردپرس شامل موارد زیر است :
*:User-agent:
/Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php
در این حالت رباتها به صفحه admin-ajax.php دسترسی دارند. اگر میخواهید بدون دستکاری خاصی این حالت را نیز غیرفعال کنید، باید به تنظیمات وردپرس در صفحه wp-admin رفته و گزینه Search Engine Visibility را فعال کنید تا دسترسی تمامی رباتها به سایت شما مسدود شود.
چطور باید فایل robots.txt در وردپرس را ویرایش کرد؟
در ادامه فایل robots.txt چیست به فایل روبوت در وردپرس رسیدیم. طبق چیزی که گفته شد (عدم امکان ویرایش مستقیم فایل robots.txt در وردپرس) تنها راهی که بتوان فایل robots.txt را ویرایش کرد ساختن یک فایل جدید از آن و آپلود کردن آن در روت اصلی هاست سرور سایت است. درواقع وقتی یک فایل جدید با این عنوان ساخته شود، وردپرس به صورت خودکار فایل مجازی robots.txt را غیرفعال میکند.
ارتباط فایل robots.txt و سئو چیست
قبل از هرچیز فایل robots.txt خود را بررسی و تست کنید تا مطمئن شوید بخش مهمی از سایت شما از طریق آن مسدود نشده باشد.
فایلها و پوشههای مهم CSS و JS را مسدود نکنید. فراموش نکنید که رباتهای گوگل درست از نگاه یک کاربر یک سایت را بررسی و ایندکس میکنند. در نتیجه اگر برخی از فایلهای CSS و JS و دیگر فایلهای مشابه را بلاک کنید، ممکن است سایت شما به صورت مناسب بارگذاری نشود و این مسئله نیز میتواند باعث ایجاد خطا شده و در ایندکس شدن دیگر صفحات سایت شما تأثیر منفی بگذارد.
اگر از WordPress استفاده میکنید، نیازی به مسدودسازی مسیرهایی همچون wp-admin و پوشههای wp-include نیست. وردپرس به صورت اتوماتیک این کار را از طریق تگهای متا انجام میدهد.
اگر مایلید که بعضی از صفحات سایت شما در موتورهای جستجو ایندکس نشوند، پیشنهاد میکنیم از متاتگهای هدر هر صفحه استفاده کنید. البته در حالی که تعداد این صفحات کم باشد یا این فرآیند برای شما دشوار نباشد.
تعداد دیدگاه ها برای این مطلب: 0 دیدگاه