رایج‌ترین مشکلات robots.txt، تأثیری که می‌توانند بر وب‌سایت شما و حضور جستجوی شما داشته باشند، و نحوه رفع آن‌ها را کشف کنید.

Robots.txt یک ابزار مفید و نسبتا قدرتمند برای آموزش خزنده های موتورهای جستجو در مورد نحوه خزیدن وب سایت شما است.

همه‌کاره نیست (به قول خود گوگل، “مکانیسمی برای دور نگه داشتن یک صفحه وب از گوگل نیست”) اما می تواند به جلوگیری از بارگیری بیش از حد سایت یا سرور شما توسط درخواست های خزنده کمک کند.

اگر این بلوک خزیدن را در سایت خود دارید، باید مطمئن شوید که به درستی از آن استفاده می شود.

اگر از URL های پویا یا روش های دیگری استفاده می کنید که از لحاظ نظری تعداد بی نهایت صفحه را ایجاد می کنند، این امر به ویژه مهم است.

در این راهنما، ما به برخی از رایج‌ترین مشکلات مربوط به فایل robots.txt، تأثیری که می‌توانند بر وب‌سایت شما و حضور جستجوی شما داشته باشند، و اگر فکر می‌کنید این مشکلات رخ داده‌اند، چگونه می‌توان آن‌ها را برطرف کرد.

اما ابتدا، اجازه دهید نگاهی گذرا به robots.txt و جایگزین های آن بیندازیم.

 تبلیغ خدمات رخ نت :  طراحی سایت در اصفهان

فایل Robots.txt چیست؟

Robots.txt از فرمت فایل متنی ساده استفاده می کند و در فهرست اصلی وب سایت شما قرار می گیرد.

باید در بالاترین دایرکتوری سایت شما باشد. اگر آن را در یک زیر شاخه قرار دهید، موتورهای جستجو به سادگی آن را نادیده می گیرند.

با وجود قدرت زیاد، robots.txt اغلب یک سند نسبتا ساده است و یک فایل robots.txt اولیه را می توان در عرض چند ثانیه با استفاده از ویرایشگری مانند Notepad ایجاد کرد.

راه های دیگری برای دستیابی به برخی از اهداف مشابهی وجود دارد که robots.txt معمولاً برای آنها استفاده می شود.

صفحات منفرد می توانند شامل متا تگ روبات در خود کد صفحه باشند.

همچنین می توانید از هدر HTTP X-Robots-Tag برای تأثیرگذاری بر نحوه (و اینکه آیا) محتوا در نتایج جستجو نشان داده می شود استفاده کنید.

Robots.txt چه کاری می تواند انجام دهد؟

Robots.txt می تواند نتایج مختلفی را در طیفی از انواع مختلف محتوا به دست آورد:

صفحات وب را می توان از خزیدن مسدود کرد.

ممکن است همچنان در نتایج جستجو ظاهر شوند، اما شرح متنی نخواهند داشت. محتوای غیر HTML در صفحه نیز خزیده نخواهد شد.

فایل های رسانه ای را می توان از نمایش در نتایج جستجوی گوگل مسدود کرد.

این شامل تصاویر، ویدئو و فایل های صوتی است.

اگر فایل عمومی باشد، همچنان به صورت آنلاین «وجود» خواهد داشت و می‌توان آن را مشاهده کرد و به آن پیوند داد، اما این محتوای خصوصی در جستجوهای Google نشان داده نمی‌شود.

فایل های منبع مانند اسکریپت های خارجی غیر مهم را می توان مسدود کرد.

  آموزش ساخت گراف دانش

اما این بدان معناست که اگر گوگل صفحه‌ای را بخزد که برای بارگیری آن منبع نیاز دارد، ربات Googlebot نسخه‌ای از صفحه را می‌بیند که گویی آن منبع وجود ندارد، که ممکن است بر نمایه‌سازی تأثیر بگذارد.

شما نمی توانید از robots.txt برای جلوگیری از نمایش کامل یک صفحه وب در نتایج جستجوی Google استفاده کنید.

برای رسیدن به آن، باید از یک روش جایگزین مانند افزودن متا تگ noindex به سر صفحه استفاده کنید.

file robots txt optimize 2

اشتباهات Robots.txt چقدر خطرناک هستند؟

یک اشتباه در robots.txt می تواند عواقب ناخواسته ای داشته باشد، اما اغلب این پایان دنیا نیست.

خبر خوب این است که با تعمیر فایل robots.txt خود، می توانید به سرعت و (معمولا) به طور کامل از خطاها بازیابی کنید.

راهنمای گوگل به توسعه دهندگان وب در مورد اشتباهات robots.txt چنین می گوید:

خزنده های وب معمولاً بسیار انعطاف پذیر هستند و معمولاً توسط اشتباهات جزئی در فایل robots.txt تحت تأثیر قرار نمی گیرند. به طور کلی، بدترین اتفاقی که می تواند بیفتد این است که دستورالعمل های نادرست [یا] پشتیبانی نشده نادیده گرفته شوند.

البته به خاطر داشته باشید که Google نمی تواند هنگام تفسیر فایل robots.txt ذهن را بخواند. ما باید فایل robots.txt را که واکشی کردیم تفسیر کنیم. گفته می‌شود، اگر از مشکلات موجود در فایل robots.txt خود آگاه هستید، معمولاً رفع آنها آسان است.”

6 اشتباه رایج Robots.txt

  1. Robots.txt در فهرست اصلی نیست.
  2. استفاده ضعیف از حروف عام.
  3. Noindex در Robots.txt.
  4. اسکریپت‌ها و صفحه‌های سبک مسدود شده
  5. بدون URL نقشه سایت.
  6. دسترسی به سایت های توسعه

اگر وب سایت شما در نتایج جستجو به طرز عجیبی رفتار می کند، فایل robots.txt شما مکان خوبی برای جستجوی اشتباهات، خطاهای نحوی و قوانین بیش از حد است.

بیایید به هر یک از اشتباهات بالا با جزئیات بیشتری نگاهی بیندازیم و ببینیم چگونه از داشتن یک فایل robots.txt معتبر اطمینان حاصل کنیم.

1. Robots.txt در دایرکتوری ریشه (پوشه روت) نیست

ربات‌های جستجوگر فقط در صورتی می‌توانند فایل را در پوشه ریشه شما پیدا کنند.

به همین دلیل است که در URL فایل robots.txt فقط باید یک اسلش رو به جلو بین .com (یا دامنه معادل) وب سایت شما و نام فایل «robots.txt» وجود داشته باشد.

  نظرات کاربران و تاثیر آن در سئو

اگر یک زیرپوشه در آن وجود داشته باشد، فایل robots.txt شما احتمالاً برای روبات های جستجوگر قابل مشاهده نیست و احتمالاً وب سایت شما طوری رفتار می کند که گویی اصلاً فایل robots.txt وجود ندارد.

برای رفع این مشکل، فایل robots.txt خود را به دایرکتوری ریشه خود منتقل کنید.

شایان ذکر است که برای این کار باید به سرور خود دسترسی ریشه داشته باشید.

برخی از سیستم‌های مدیریت محتوا به‌طور پیش‌فرض فایل‌ها را در یک زیرشاخه رسانه (یا چیزی مشابه) آپلود می‌کنند، بنابراین ممکن است لازم باشد این مورد را دور بزنید تا فایل robots.txt خود را در مکان مناسب قرار دهید.

 آشنایی با خدمات رخ نت :  قیمت سئو اصفهان

2. استفاده ضعیف از حروف عامیانه

Robots.txt از دو کاراکتر wildcard پشتیبانی می کند:

  • ستاره * که هر نمونه ای از یک شخصیت معتبر را نشان می دهد، مانند یک جوکر در یک دسته کارت.
  • علامت دلاری $ که پایان یک URL را نشان می دهد و به شما امکان می دهد قوانین را فقط در قسمت نهایی URL مانند پسوند نوع فایل اعمال کنید.

منطقی است که یک رویکرد مینیمالیستی برای استفاده از حروف عام اتخاذ کنید، زیرا آنها پتانسیل اعمال محدودیت در بخش بسیار وسیع تری از وب سایت شما را دارند.

همچنین مسدود کردن دسترسی ربات از کل سایت خود با یک ستاره نامناسب، نسبتاً آسان است.

برای رفع مشکل wildcard، باید علامت عام نادرست را پیدا کنید و آن را جابجا یا حذف کنید تا فایل robots.txt شما همانطور که در نظر گرفته شده عمل کند.

3. Noindex در Robots.txt

این مورد در وب سایت هایی که بیش از چند سال قدمت دارند بیشتر دیده می شود.

گوگل از 1 سپتامبر 2019 از قوانین noindex در فایل های robots.txt پیروی نمی کند.

اگر فایل robots.txt شما قبل از آن تاریخ ایجاد شده باشد یا حاوی دستورالعمل‌های noindex باشد، احتمالاً آن صفحات را در نتایج جستجوی Google نمایه‌سازی می‌کنید.

راه‌حل این مشکل پیاده‌سازی روش جایگزین «noindex» است.

یکی از گزینه ها متا تگ robots است که می توانید آن را به سر هر صفحه وب که می خواهید اضافه کنید تا از ایندکس شدن گوگل جلوگیری کنید.

4. اسکریپت ها و صفحه های سبک مسدود شده

ممکن است منطقی به نظر برسد که دسترسی خزنده به جاوا اسکریپت های خارجی و شیوه نامه های آبشاری (CSS) را مسدود کنید.

با این حال، به یاد داشته باشید که Googlebot برای اینکه صفحات HTML و PHP شما را به درستی «دیدن» کند، نیاز به دسترسی به فایل‌های CSS و JS دارد.

اگر صفحات شما در نتایج Google به طرز عجیبی رفتار می کنند، یا به نظر می رسد Google آنها را به درستی نمی بیند، بررسی کنید که آیا دسترسی خزنده به فایل های خارجی مورد نیاز را مسدود می کنید.

یک راه حل ساده برای این کار حذف خطی از فایل robots.txt است که دسترسی را مسدود می کند.

یا اگر فایل‌هایی دارید که باید مسدود کنید، یک استثنا وارد کنید که دسترسی به CSS و جاوا اسکریپت‌های ضروری را بازیابی می‌کند.

5. بدون URL نقشه سایت

این بیشتر از هر چیز دیگری در مورد سئو است.

می توانید URL نقشه سایت خود را در فایل robots.txt خود قرار دهید.

از آنجا که این اولین جایی است که Googlebot هنگام خزیدن وب سایت شما به آن نگاه می کند، این به خزنده یک سر در شناخت ساختار و صفحات اصلی سایت شما می دهد.

در حالی که این کاملاً یک خطا نیست، زیرا حذف نقشه سایت نباید بر عملکرد اصلی و ظاهر وب سایت شما در نتایج جستجو تأثیر منفی بگذارد، اگر می‌خواهید به تلاش‌های سئوی خود کمک کنید، همچنان ارزش آن را دارد که URL نقشه سایت خود را به robots.txt اضافه کنید.

6. دسترسی به سایت های توسعه

مسدود کردن خزنده‌ها از وب‌سایت زنده شما یک کار خیر است، اما اجازه دادن به آنها برای خزیدن و فهرست‌بندی صفحات شما که هنوز در حال توسعه هستند نیز وجود دارد.

بهترین کار این است که یک دستورالعمل غیر مجاز را به فایل robots.txt یک وب سایت در حال ساخت اضافه کنید تا عموم مردم آن را تا زمانی که تمام نشده نبینند.

  محتوای سنگ بنا (کرنر استون) چیست؟

به همین ترتیب، حذف دستورالعمل عدم اجازه هنگام راه‌اندازی یک وب‌سایت تکمیل‌شده، بسیار مهم است.

فراموش کردن حذف این خط از robots.txt یکی از رایج ترین اشتباهات در بین توسعه دهندگان وب است و می تواند کل وب سایت شما را از خزیدن و ایندکس صحیح جلوگیری کند.

اگر به نظر می‌رسد سایت توسعه‌دهنده شما ترافیک واقعی دریافت می‌کند، یا وب‌سایتی که اخیراً راه‌اندازی کرده‌اید در جستجو اصلاً خوب عمل نمی‌کند، در فایل robots.txt خود به دنبال یک قانون غیر مجاز عامل کاربر جهانی باشید:

User-Agent: *
Disallow: /

اگر این را در زمانی که نباید می‌بینید (یا زمانی که باید آن را نمی‌بینید)، تغییرات لازم را در فایل robots.txt خود اعمال کنید و بررسی کنید که ظاهر جستجوی وب‌سایت شما مطابق با آن به‌روزرسانی شود.

چگونه  خطای Robots.txt را بازیابی کنیم

اگر اشتباهی در robots.txt تأثیرات ناخواسته ای بر ظاهر جستجوی وب سایت شما داشته باشد، اولین قدم مهم این است که robots.txt را تصحیح کنید و تأیید کنید که قوانین جدید تأثیر مطلوب را دارند.

برخی از ابزارهای خزیدن سئو می توانند به این امر کمک کنند، بنابراین لازم نیست منتظر بمانید تا موتورهای جستجو سایت شما را در مرحله بعدی خزیدن کنند.

وقتی مطمئن هستید که robots.txt مطابق دلخواه رفتار می کند، می توانید سعی کنید سایت خود را در اسرع وقت دوباره خزیده کنید.

پلتفرم هایی مانند کنسول جستجوی گوگل و ابزار وب مستر بینگ می توانند کمک کنند.

یک نقشه سایت به روز شده ارسال کنید و درخواست خزیدن مجدد هر صفحه ای را که به طور نامناسبی از لیست حذف شده اند، کنید.

متأسفانه، شما در هوس Googlebot هستید – هیچ تضمینی وجود ندارد که چقدر طول می کشد تا صفحات گمشده دوباره در فهرست جستجوی Google ظاهر شوند.

تنها کاری که می توانید انجام دهید این است که اقدامات صحیح را انجام دهید تا آن زمان را تا حد امکان به حداقل برسانید و به بررسی ادامه دهید تا robots.txt ثابت شده توسط Googlebot پیاده سازی شود.

سخن نهایی

در مورد خطاهای robots.txt، قطعاً پیشگیری بهتر از درمان است.

در یک وب‌سایت بزرگ درآمدزا، یک علامت ولگرد که کل وب‌سایت شما را از Google حذف می‌کند، می‌تواند تأثیر فوری بر درآمد داشته باشد.

ویرایش‌های robots.txt باید با دقت توسط توسعه‌دهندگان باتجربه انجام شود، دوباره بررسی شود و – در صورت لزوم – مشروط به نظر دوم باشد.

در صورت امکان، قبل از اجرای زنده روی سرور دنیای واقعی خود، در ویرایشگر sandbox تست کنید تا مطمئن شوید که از ایجاد سهوا مشکلات در دسترس بودن جلوگیری می کنید.

به یاد داشته باشید، وقتی بدترین اتفاق می افتد، مهم است که وحشت نکنید.

مشکل را تشخیص دهید، تعمیرات لازم را در robots.txt انجام دهید و نقشه سایت خود را مجدداً برای خزیدن جدید ارسال کنید.

امیدواریم جایگاه شما در رتبه بندی های جستجو در عرض چند روز بازیابی شود.

منبع : searchenginejournal.com

دیدگاه خود را بنویسید

این مقاله را در شبکه اجتماعی خود،اشتراک گذاری کنید.