فایل Robots.txt چیست و چه کاربردی دارد؟

سه شنبه, 03 آبان 1401 12:12
امتیاز شما به این مطلب
(10 رای‌ها)

 فایل Robots.txt چیست؟

 

به طور کلی یک سایت توسط ربات های خزنده مورد بررسی قرار می گیرد؛ این ربات ها روز به روز هوشمند تر شده و بر اساس الگوریتم های جدید، بروز می شوند. این امکان برای شما فراهم است که ربات های خزنده را کنترل کرده و دسترسی آنها را محدود کنید. یکی از راه های محدود کردن دسترسی ربات های گوگل، ویرایش فایل Robots.txt است. اما فایل Robots.txt چیست؟ این فایل چه کاربردی دارد؟ در ادامه به صورت کامل در این باره صحبت کرده ایم و آموزش ساخت فایل robots txt در وردپرس را نیز قرار داده ایم.

فایل Robots.txt چیست؟

موتورهای جستجو به کمک ربات های خزنده خود می توانند سایت های مختلف را بررسی کنند؛ اما این امکان برای شما وجود دارد که جهت حرکت یا به عبارتی مسیر حرکت ربات های خزنده را مشخص کنید. این کار به کمک فایل ربات امکان پذیر می باشد. فایل Robots.txt، در واقع یک فایل متنی ساده است که در مسیر اصلی سایت یا روت دایرکتوری ( Root Directory ) قرار می گیرد.

این فایل بخش های قابل دسترسی یا محدوده شده برای ربات ها را تعریف می کند. به کمک اطلاعاتی که در این فایل قرار می دهید، می توانید به ربات های خزنده بگویید که کدام یک از صفحات سایت را دیده و ایندکس کنند و کدامیک را نادیده بگیرند. می توان اینطور گفت که اولین چیزی که ربات های خزنده در سایت شما مشاهده می کنند، همین فایل است. شما می توانید اطلاعات این فایل را با جستجو آدرس زیر مشاهده کنید:

www.YourWebsite.com/robots.txt

 دستورات robots txt

آموزش ساخت فایل robots.txt 

پیش از آنکه برای ساخت فایل robots.txt اقدام کنید، اطمینان حاصل کنید که چنین فایلی وجود ندارد؛ برای این کار کافیست آدرس www.YourWebsite.com/robots.txt را سرچ کنید. اگر با صفحه 404 مواجه شدید، یعنی این فایل وجود ندارد.

اما اگر با صفحه ای شامل کدهای User-agent و … روبرو شدید، باید برای مدیریت فایل به کنترل پنل هاست سایتتان مراجعه کنید. برای ویرایش فایل robots.txt، آن را در یک ویرایشگر متنی ساده باز کرده و تغییرات لازم را اعمال کنید. سپس آن را ذخیره کرده و جایگزین فایل قبلی کنید.

اما اگر چنین فایلی در هاست سایتتان نبود، از طریق برنامه Notepad ویندوز یک فایل متنی بسازید و با نام robots آن را ذخیره کنید؛ پس از آن دستورات مورد نظرتان را در آن درج کرده و پس از ذخیره کردن، آن را در روت اصلی سایت آپلود کنید.

نکته بسیار مهمی که باید به آن دقت کنید، این است که فایل robots.txt به حروف بزرگ و کوچک حساس است. به عنوان مثال اگر بخواهید برای فایلی با نام File.php محدودیتی ایجاد کنید و به اشتباه در فایل robots.txt، نام آن را file.php بنویسید، هیچ محدودیتی برای آن اعمال نکرده اید.

 

نحوه تست فایل robots.txt

اگر بخواهید از روش معمولی استفاده کنید، باید فایل robots.txt را باز کرده و دستورات داخل آن را بررسی کنید. اما راه حرفه ای تری نیز وجود دارد که شما می توانید به کمک ابزار تست فایل robots.txt در کنسول گوگل آن را تست کنید.

برای استفاده از این ابزار مراحل زیر را طی کنید:

  • ابتدا وارد سایت Google Search Console شوید
  • روی بخش robots.txt Tester کلیک کنید
  • گزینه Test را انتخاب کنید

در صورتی که مشکلی در فایل robots.txt وجود نداشته باشد، دکمه قرمز رنگ تست، به رنگ سبز و Allowed تغییر می کند. اما اگر مشکلی باشد، دستور مشکل دار هایلایت و مشخص می شود. علاوه بر این، این ابزار امکانات دیگری را نیز در اختیار شما قرار می دهد؛ مثلا می توانید از طریق بخش URL Tester، آدرس صفحات مختلف سایت را بررسی کنید تا متوجه شوید که برای ربات ها مسدود شده اند یا خیر.

همچنین به کمک این ابزار می توانید محتویات فایل robots.txt را تغییر بدهید. اما برای اعمال تغییرات در سایتتان، باید محتوای ویرایش شده را جایگزین محتوای قبلی در فایل robots.txt در هاست خود کنید. برای این کار کافیست پس از ویرایش متن، روی دکمه Submit کلیک کنید تا به بخش بعدی بروید. در بخش بعدی شما می توانید فایل robots.txt را دانلود کنید، سپس فایل جدید را جایگزین فایل قبلی کنید. در نهایت به این صفحه برگشته و دکمه Submit را بزنید. 

آموزش ساخت فایل robots txt در وردپرس

آموزش ساخت فایل robots txt در وردپرس

مواردی که در بالا برای ساخت فایل robots txt گفته شد، برای وردپرس نیز قابل انجام است. اما نکاتی را باید در این زمینه رعایت کنید:

نکته اول

در سال های گذشته برای مسدود سازی دسترسی ربات ها به پنل مدیریت سایت وردپرس، باید از طریق پنل مدیریتی وردپرس، اقدام می کردیم. اما در سال 2012 با بروزرسانی وردپرس، دیگر این کار ضرورتی نداشت؛ چرا که وردپرس به صورت پیشفرض قابلیتی را به تگ هدر فایل اضافه کرده که تگ noindex و مسدود سازی یا disallow در آن گنجانده شده است. در نتیجه صفحه پنل مدیریت سایت وردپرس بدون هیچ اقدام خاصی از لیست ایندکس موتورهای جستجو خارج شده است.

 

نکته دوم

در وردپرس به صورت پیشفرض فایل robots.txt با نام فایل مجازی robots.txt یا Virtual robots.txt یاد می شود. یعنی شما نمی توانید به صورت مستقیم به این فایل دسترسی داشته و آن را ویرایش کنید. شما میتوانید تنها از طریق باز کردن آدرس http://www.example.com/robots.txt در مرورگر به این فایل دسترسی داشته باشید.

دستورالعمل پیش فرضی که در فایل robots.txt قرار دارد، به صورت زیر است:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

طبق این دستور، ربات ها اجازه دسترسی به صفحه admin-ajax.php را دارند؛ اگر می خواهید دسترسی به این صفحه را غیر فعال کنید، باید به تنظیمات وردپرس رفته و گزینه Search Engine Visibility را فعال کنید.

 

ساخت robots.txt وردپرس

برای ساخت فایل robots.txt در وردپرس ابتدا وارد هاست سایتتان بشوید؛ سپس از آنجا روی گزینه File Manager کلیک کنید تا بتوانید فایل ها مختلف موجود در سایتتان را مشاهده کنید.

 ساخت فایل robots.txt در وردپرس

پس از ورود به این گزینه، مسیر /public_html/ را انتخاب کنید. اکنون فایلی که با برنامه notepad یا هر نرم‌افزار ویرایشگر متن دیگری که ساخته اید را با نام robots.txt ذخیره و روی هاست آپلود کنید. برای این کار کافیست گزینه Upload را انتخاب و فایل را به هاست خود اضافه کنید.

علاوه بر این شما می توانید با کلیک روی گزینه " FILE+ " طبق تصویر زیر، در فیلد New File Name، فایلی را با نام robots.txt وارد کرده و در نهایت Create New File کلیک کنید تا فایل شما ساخته شود.

ساخت فایل robots.txt در وردپرس

اکنون به کمک دستورات زیر می توانید فایل robots.txt را کنترل کنید؛ پیش از آن باید بدانید که فایل robots.txt از دو دستور و قانون پیروی می کند. این قوانین به شرح زیر خواهد بود:

  • User-agent: به کمک این دستور می توانید مشخص کنید که چه نوع رباتی به دایرکتوری های هاست شما دسترسی خواهد داشت. 
  • Disallow: این دستور مشخص می کند که ربات ها اجازه ورود به چه مسیرهایی را در هاست ندارند.

به عنوان مثال اگر در هاست خود پوشه ای با نام "new folder " دارید و می خواهید که ربات ها به آن دسترسی نداشته باشند، باید قطعه کد زیر را در فایل robots.txt خود قرار بدهید:

User-agent: *

Disallow: /new folder/

دستورات تعیین سطح دسترسی فایل robots.txt در وردپرس

به طور کلی گوگل ربات های مختلفی را طراحی کرده است که هر کدام وظیفه بررسی مورد خاصی را در سایت ها دارند. به عنوان مثال ربات Googlebot وظیفه ایندکس صفحات را دارد یا ربات Googlebot-image، برای بررسی تصاویر یک سایت طراحی شده است. شما می توانید دسترسی تمامی این ربات ها را به کمک دستورات زیر محدود کنید:

محدود کردن دسترسی به یک تصویر:

user-agent: Googlebot-image

disallow: /photo/

غیر فعال کردن دسترسی به کل سایت:

 Disallow: /

 

غیر فعال کردن دسترسی به یک پوشه خاص:

Disallow: /name-folder/

Disallow: /name-folder/file/

محدود کردن به دسترسی به یک فایل:

 Disallow: /name-folder/name-file.format (pdf,jpg,...)

محدود کردن فایل‌هایی به فرمت خاص:

Disallow: /*.gif$

Disallow: /*.pdf$

Disallow: /*.docs$

دسترسی نقشه سایت در فایل robots.txt:

به طور کلی شما می توانید به دو روش نقشه سایتتان را به گوگل معرفی کنید؛ برای این کار می توانید از سرچ کنسول یا فایل robots.txt استفاده کنید. اما پیش از آن بهتر است با مطالعه مطلب " ساخت سایت مپ " نقشه سایتتان را بسازید. پس از آن بهتر است از طریق سرچ کنسول نقشه سایتتان را به گوگل معرفی کنید؛ برای این کار باید سایتتان را در سرچ کنسول ثبت کرده باشید. در مطلب " ثبت سایت در سرچ کنسول " به شما آموزش های لازم را داده ایم.

اما اگر می خواهید از طریق فایل robots.txt این کار را انجام بدهید، باید قطعه کد زیر را به فایل خود اضافه کنید:

 Sitemap:https://example.com/sitemap.xml 

نحوه ویرایش فایل robots.txt در وردپرس

با توجه به آنچه گفته شد، امکان ویرایش مستقیم فایل robots.txt در وردپرس وجود ندارد. به همین دلیل باید برای ویرایش آن، یک فایل جدید را ایجاد کرده و در هاست مجدد بارگذاری کنید. زمانی که فایل جدید robots.txt ساخته می شود، فایل مجازی به صورت خودکار غیر فعال می شود.

  

ضرورت داشتن فایل robots.txt چیست؟

کاربرد فایل Robots.txt

در صورتی که این فایل در هاست سایتتان آپلود نشده باشد، خزندگان و ربات های موتورهای جستجو می توانند به تمام صفحات سایت شما دسترسی پیدا کرده و آنها را مورد بررسی قرار دهند.

اگر فایل robots.txt به درستی در سایت آپلود نشود، چه می شود؟

اگر این فایل به درستی تهیه نشده باشد یا به صورت کامل در هاست آپلود نشده باشد، ربات های خزنده مانند قبل تمامی صفحات سایت را ایندکس می کنند. در واقع ربات ها دستوراتی را اجرا می کنند که به صورت دقیق و منطبق با رفتار آنها تعریف شده باشد. در غیر اینصورت وظیفه طبیعی و اصلی خود را انجام می دهند. 

 

دلایل اصلی استفاده از فایل robots.txt 

1. بهبود عملکرد بهینه سازی سایت

وب سایت های بزرگ و پر بازدید، روزانه هزاران بار توسط ربات های مختلف مورد بررسی قرار می گیرند. این ربات ها در طی دو مرحله یعنی بررسی و ایندکس، سایت را بررسی می کنند. حال فرض کنید روزانه بیش از صدها ربات یک سایت را بررسی کنند؛ این اتفاق سبب کند شدن سرعت لود سایت خواهد شد. چرا که تمام بخش های سایت و هاست، تحت تاثیر هزارن ربات قرار گرفته است.

لازم به ذکر است که این مورد برای سایت های کم بازدید، تاثیر کمتری دارد. اما به هر جهت سایت هایی که باید روزانه ترافیک زیادی را هندل کنند، با اضافه شدن حجم زیادی از ربات ها نیز، دچار مشکل خواهند شد. به همین جهت است که سئوکاران برای بهبود سرعت سایت، دسترسی ربات ها را محدود می کنند. در واقع با این کار اجازه بررسی برخی از بخش های سایت که از نظر سئو اهمیت کمتری دارند را به ربات ها نمی دهند.

 

2. مدیریت دسترسی موتورهای جستجو

از رایج ترین دلایل استفاده از فایل robots.txt، محدود کردن دسترسی ربات های خزنده به بخش های مختلف یک سایت است. قطعا این سوال برایتان پیش خواهد آمد که چرا برخی از صفحات نباید ایندکس شوند؟ ایندکس شدن برخی از صفحات سایت می تواند نتایج نامطلوبی را برای شما داشته باشد.

به عنوان مثال فرض کنید شما به مناسبت های مختلف، جشنواره ای را در سایت خود برگزار می کنید و برای این جشنواره ها صفحاتی را ایجاد می کنید. ضرورتی ندارد که ربات های خزنده این صفحات را ایندکس کنند؛ چرا که پس از مدتی غیر فعال شده و از طرفی بار محتوایی زیادی نیز ندارند. به همین دلیل در فایل robots.txt، ذکر میکنیم که این صفحات ایندکس نشوند.

چرا که در صورت ایندکس شدن، ممکن است به عنوان صفحات زامبی یا بی ارزش شناخته شوند. لازم به ذکر است که ایندکس نشدن یک صفحه از سایت، به معنای دیده نشدن آن صفحه توسط کاربر نیست. فقط در نتایج آورده نشده و توسط ربات ها بررسی نمی شود.

 

3. مدیریت لینک های سایت

یکی از تکنیک های سئو کلاه سیاه، تکنیک URL Cloacking می باشد؛ در واقع در این تکنیک شما آدرس یک صفحه را از دید موتورهای جستجو مخفی می کنید. یکی از دلایل استفاده از فایل robots.txt، مدیریت همین صفحات است. با این تکنیک شما می توانید آدرس صفحات را از دید کاربر و موتور جستجو مخفی نگه دارید.

بیشترین کاربرد URL Cloacking، در سیستم همکاری در فروش یا Affiliate Marketing به چشم می خورد. با این کار شما می توانید لینک های ایجاد شده در Affiliate را مدیریت کرده و آدرس آنها را مخفی کنید. در نهایت کاربر مجبور می شود روی آنها کلیک کند.

  

در پایان

در این محتوا به شما گفتیم که فایل Robots.txt چیست و چه کاربردی دارد؟ همانطور که گفتیم به کمک فایل Robots.txt میتوانید ربات های خزنده گوگل را تا حدی کنترل کرده و از ایندکس شدن و بررسی صفحات بی ارزش نیز جلوگیری کنید. با این کار می توانید بودجه خزش سایتتان را صرف صفحات با ارزش تر کنید و در نتیجه سئو تکنیکال سایتتان را افزایش دهید.

 

بروزرسانی در سه شنبه, 03 آبان 1401 12:12

نیاز به مشاوره دارید؟

با ما در تماس باشید

شمـاره های تمـاس:  32640006-031 / 09129252046 / 09133045663
پسـت الـکترونیـک: info at webpouya.com
ساعـات کـاری: شنبه تا پنجشنبه / 9 صبح الی 5 بعدازظهر

اینماد و مجوزها

اینماد

             کانال تلگرام وب پویا  صفحه اینستاگرام وب پویا  کانال آپارات وب پویا