با این 14 نکته مفید بیاموزید که چگونه با موفقیت میلیون ها صفحه را برای سئو سایت سازمانی جستجو کنید.

کراول در سایت‌های بزرگ دارای تمام پیچیدگی‌های هر کراول معمولی به‌علاوه چندین عامل اضافی است که باید قبل از شروع کراول در نظر گرفته شوند.

رویکردهای زیر نشان می دهد که چگونه می توان یک کراول در مقیاس بزرگ را انجام داد و به اهداف داده شده دست یافت، چه بخشی از یک بررسی مداوم باشد.

1. سایت را برای کراول آماده کنید

نکته مهمی که قبل از کراول باید در نظر گرفت خود وب سایت است.

رفع مشکلاتی که ممکن است قبل از شروع کراول باعث کاهش سرعت کراول شود، بسیار مفید است.

ممکن است رفع مشکل قبل از رفع آن غیر منطقی به نظر برسد، اما وقتی صحبت از سایت های واقعا بزرگ می شود، یک مشکل کوچک ضربدر پنج میلیون به یک مشکل مهم تبدیل می شود.

از بهینه‌سازی پارامتر‌های سرعت لود سایت شروع کنید و فایل روبوتس ، سایت مپ و تمامی موارد سئو تکنیکال را رعایت کنید.در صورتی که به یک سایت با موارد تکنیکال صحیح نیاز دارید برای اطلاع از قیمت ها و شرایط روی لینک طراحی سایت در اصفهان کلیک کنید.

2. اطمینان از دسترسی کامل به سرور: IP کراولر در لیست سفید

فایروال ها و CDN ها (شبکه های تحویل محتوا) می توانند یک IP را از کراول یک وب سایت مسدود یا کند کنند.

بنابراین مهم است که همه پلاگین‌های امنیتی، نرم‌افزارهای پیشگیری از نفوذ در سطح سرور و CDN‌هایی که ممکن است کراول سایت را مختل کنند، شناسایی کنید.

3. در ساعات کم پیک کراول،پست منتشر کنید

کراول یک سایت در حالت ایده آل باید بدون مزاحمت باشد.

در بهترین سناریو، سرور باید بتواند با کراول تهاجمی مقابله کند و در عین حال صفحات وب را به بازدیدکنندگان واقعی سایت نیز ارائه دهد.

اما از سوی دیگر، آزمایش میزان پاسخگویی سرور تحت بارگذاری می تواند مفید باشد.

اینجاست که تجزیه و تحلیل بی‌درنگ یا دسترسی به گزارش سرور مفید خواهد بود زیرا می‌توانید فوراً ببینید که چگونه کراول سرور ممکن است بر بازدیدکنندگان سایت تأثیر بگذارد، اگرچه سرعت کراول و پاسخ‌های 503 سرور نیز سرنخی از تحت فشار بودن سرور است.

4. آیا خطاهای سرور وجود دارد؟

اگر سرور در ارائه صفحات به Googlebot با مشکل مواجه است، گزارش آمار کراول کنسول جستجوی Google باید اولین مکان برای تحقیق باشد.

هر مشکلی در گزارش آمار کراول باید قبل از کراول یک وب‌سایت در سطح سازمانی، علت شناسایی و رفع شود.

5. حافظه سرور

شاید چیزی که به طور معمول برای سئو در نظر گرفته نمی شود، مقدار RAM (حافظه دسترسی تصادفی) است که یک سرور دارد.

RAM مانند حافظه کوتاه مدت است، جایی که سرور اطلاعاتی را که برای ارائه صفحات وب به بازدیدکنندگان سایت استفاده می کند، ذخیره می کند.

سرور با رم کم،کند می شود.

بنابراین اگر یک سرور در حین کراول کند می شود یا به نظر نمی رسد که بتواند با کراول کنار بیاید، این می تواند یک مشکل SEO باشد که بر میزان توانایی گوگل در کراول و فهرست بندی صفحات وب تأثیر می گذارد.

نگاهی به مقدار رم سرور بیندازید.

  کراول و رتبه بندی سریع محتوا:5 نکته از کارشناس سئو

با این حال، اگر وب سایت یک فروشگاه آنلاین با ترافیک بالا باشد، ممکن است 2 تا 4 گیگابایت رم نیاز داشته باشید.

رم بیشتر به طور کلی بهتر است.

اگر سرور مقدار رم کافی داشته باشد اما سرعت سرور کند شود، ممکن است مشکل چیز دیگری باشد، مانند یک افزونه که ناکارآمد است و باعث نیاز به حافظه بیش از حد می شود.

بهینه سازی بودجه کراول در سایت های بزرگ

6. اتصال به اینترنت سریع

اگر در حال کراول از دفتر خود هستید، استفاده از سریعترین اتصال اینترنتی ممکن بسیار مهم است.

استفاده از سریع‌ترین اینترنت موجود می‌تواند به معنای تفاوت بین کراول که ساعت‌ها طول می‌کشد تا کراول چند روز طول بکشد.

به طور کلی، سریع ترین اینترنت موجود از طریق اتصال اترنت است و نه از طریق اتصال Wi-Fi.

7. نحوه مدیریت صفحات تکراری و Canonical

مگر اینکه دلیلی برای نمایه سازی صفحات تکراری وجود داشته باشد، تنظیم کراول برای نادیده گرفتن پارامترهای URL و سایر URL هایی که تکراری از یک URL متعارف هستند می تواند مفید باشد.

این امکان وجود دارد که یک کراول را فقط برای کراول صفحات متعارف تنظیم کنید. اما اگر شخصی صفحات صفحه‌بندی شده را طوری تنظیم کند که به صفحه اول متوالی تبدیل شوند، هرگز این خطا را کشف نخواهید کرد.

به یک دلیل مشابه، حداقل در کراول اولیه، ممکن است بخواهید از برچسب های noindex برای شناسایی نمونه هایی از دستورالعمل noindex در صفحاتی که باید ایندکس شوند، سرپیچی کنید.

8. ببینید گوگل چه می بیند

همانطور که بدون شک متوجه شده اید، راه های مختلفی برای کراول یک وب سایت متشکل از میلیون ها صفحه وب وجود دارد.

بودجه کراول به میزان منابعی است که گوگل برای کراول یک وب سایت برای ایندکس کردن اختصاص می دهد.

  گوگل چگونه صفحات با اسکرول بی نهایت را کراول میکند؟

هر چه صفحات وب بیشتر با موفقیت ایندکس شوند، صفحات بیشتری فرصت رتبه بندی را دارند.

سایت های کوچک واقعاً نباید نگران بودجه کراول گوگل باشند.

اما به حداکثر رساندن بودجه کراول گوگل یک اولویت برای وب سایت های سازمانی است.

برای این نوع کراول ، مهم است که عامل کاربر کراول را روی Googlebot تنظیم کنید، کراول را روی robots.txt تنظیم کنید، و کراول را برای اطاعت از دستورالعمل noindex تنظیم کنید.

به این ترتیب، اگر سایت طوری تنظیم شده باشد که عناصر صفحه خاصی را به Googlebot نشان ندهد، می‌توانید نقشه سایت را همانطور که گوگل می‌بیند ببینید.

این یک راه عالی برای تشخیص مشکلات احتمالی مانند کشف صفحاتی است که باید خزیده شوند اما در حال از دست دادن هستند.

برای سایر سایت‌ها، گوگل ممکن است راه خود را به صفحاتی پیدا کند که برای کاربران مفید هستند، اما ممکن است از نظر گوگل به عنوان صفحاتی با فرم‌های ثبت‌نام، کیفیت پایینی داشته باشند.

کراول با عامل کاربر گوگل برای درک اینکه گوگل چگونه سایت را می بیند و به حداکثر رساندن بودجه کراول کمک می کند مفید است.

منبع : searchenginejournal.com

دیدگاه خود را بنویسید

این مقاله را در شبکه اجتماعی خود،اشتراک گذاری کنید.