جستجو کردن
بستن این جعبه جستجو.
سهمیه خزش (Crawl Budget) چیست

سهمیه یا بودجه خزش (Crawl Budget) چیست؟

آنچه در این مقاله خواهید خواند

بودجه یا سهمیه خزش، به تعداد صفحاتی از سایت شما گفته می­شه که در یک بازه زمانی معین توسط گوگل بررسی میشه. در اینجا نکاتی رو که باعث میشن گوگل صفحات بیشتری از سایت شما رو بررسی کنه در وب آنجلآکادمی توضیح میدم.

سهمیه خزش (Crawl Budget) چه مفهومی داره و چیست؟

سهمیه خزش به تعداد صفحاتی از وبسایت شما که توسط روبات های خزنده گوکل در یک بازه زمانی مشخص (معمولا یک روز) بررسی می­شن گفته می­شه. گوگل ممکنه روزانه 30، 600، 20 صفحه از سایت شما رو کراول یا بررسی کنه. این تعداد متغیره و معمولا بزرگی وبسایت شما، تعداد لینک هایی که به سایت شما داده شده، و سلامت سایتتون (گوگل در سایت شما با چه تعداد خطا مواجه میشه) به گوگل کمک می کنه تا تعداد صفحاتی که باید کراول بشن رو تعیین کنه.

شما می­تونید روی بعضی از این فاکتورها تاثیر بگذارید. در ادامه به این بحث خواهیم پرداخت اما اول باید با سازوکار خزنده یا کراولر گوگل آشنا بشیم.

نحوه کار خزنده گوگل به چه صورتی است؟

یک کراولر (اسپایدر یا بات یا خزنده) لیستی از یوآرال هایی رو که در وبسایت شما باید تمامأ کراول و بررسی بشن در اختیار داره. کراولر همینطور گاهی فایل robots.txt شما رو هم بررسی میکنه تا مطمئن بشه که همه یوآرال ها هنوز مجوز بررسی دارن بعد یوآرال ها رو یکی یکی کراول میکنه. به محض کراول شدن یک یوآرال و کاویده شدن محتواش اسپایدر یوآرال های جدیدی رو که در اون صفحه برای بررسی پیدا کرده به لیست انجام کارش اضافه میکنه.

مواردی وجود داره که بدون شک گوگل رو ملزم به کراول کردن یک یوآرال میکنن. ممکنه کراولر لینک های جدیدی به محتوا پیدا کرده باشه، یا کاربرهایی محتوا رو توئیت کرده باشند، یا محتوا در XML sitemap  آپدیت شده باشه و غیره. وقتی گوگل تشخیص داد که یک یوآر ال باید کراول بشه اون رو به لیست انجام کارش to-do list اضافه می کنه.

crawl rate limit

گوگل نمیخواد با خزش سنگین در وبسات شما بار سنگینی بهش تحمیل کنه. به همین خاطر از یک crawl rate limit استفاده میکنه تا مانع از این بشه که کراولرها باعث کندی سایت شما بشن. به عبارتی، crawl rate limit حداکثر نرخ بررسی ها در یک سایت رو محدود میکنه. گوگل، crawl rate limit رو اینطور تعریف میکنه: به زبان ساده، عبارت از تعداد کانکشن­ های همبود موازی است که ممکن است کراولر برای کراول کردن سایت استفاده کنه و همچنین زمان انتظار بین بررسی­ هاست.

چند فاکتور هست که میتونن بر بالا و پایین رفتن crawl rate تاثیرگذار باشند:

  • Crawl health: اگه سرعت واکنش سایت برای مدتی خیلی خوب باشه، limit بالا میره، یعنی میشه از کانکشن های بیشتری برای کراول کردن استفاده کرد.

اگر سرعت سایت پایین بیاد یا در واکنش هاش خطا وجود داشته باشه، limit افت میکنه و خزنده کمتر کراول میکنه.

  • Limit set در سرچ کنسول: صاحبان سایت ها میتونن کاری کنن گوگل بات سایتشون رو کمتر کراول کنه. توجه داشته باشید بالا رفتن limit به طور اتوماتیک باعث کراول کردن بیشتر نمیشه.

اگه کسی از سایت شما بازدید یا استفاده نکنه، سرعت واکنش سایت شما به کراولر بالاتر میره و به احتمال زیاد کراولرها بیشتر اون رو بررسی می­کنن.

درخواست کراول

کراولرها برای اینکه تعیین کنن هر یوآرال به خصوصی چقدر باید فعال یا غیر فعال باشه، تعداد درخواست هایی که اون یوآرال برای ایندکس دریافت میکنه رو هم در نظر میگیرند.

دو فاکتوری که نقشی عمده در تعیین میزان درخواست کراول داره اینها هستند:

  • محبوبیت: یوآرال های محبوب بیشتر از یوآرال های نامحبوب تمایل به کراول و ایندکس شدن دارند.
  • کهنگی: سیستم گوگل جلوی یوآرال های قدیمی رو میگیره و محتوای به روز شده رو ترجیح میده.

اصولا گوگل از درخواست کراول crawl demand و نرخ کراول crawl rate برای تعیین بودجه یا سهمیه کراول (تعداد یوآرال هایی که کراولر توان و میل کراول کردنشون رو داره) استفاده میکنه. خواسته مطلوب شما اینه که صفحاتتون کراول بشن و خزنده گوگل تمایل به کراول کردن سایت شما داشته باشه.

تفاوت سهمیه ایندکس با سهمیه خزش

ایندکس باجت (یا سهمیه ایندکس) با کراول باجت (یا سهمیه خزش) تفاوت داره. ایندکس باجت تعیین میکنه که چه تعداد یوآرال میتونه ایندکس بشه. تفاوت این دو وقتی روشن میشه که یک سایت چند صفحه 404 داشته باشه. هر صفحه ای که درخواست داشته باشه سهمیه خزش محسوب میشه ولی اگر این صفحه به دلیل یک پیام خطا نتونه ایندکس بشه، سهمیه ایندکسش کاملا به مصرف رسیده.

چرا داشتن سهمیه خزش در سئو ضروری است؟
 
دلیلش ساده است! گوگل برای اینکه به یک صفحه رتبه بده باید اون رو ایندکس کنه.
 

یعنی اگه تعداد صفحات شما از سهمیه خزش سایتتون بیشتر بشه، تعدادی از صفحات وبسایت شما ایندکس نخواهند شد. خوشبختانه اغلب وبسایت ها از بابت سهمیه خزش نگرانی ندارن چون گوگل در رهگیری و ایندکس کردن صفحه ها مهارت داره.

محتوای دست چین شده برای شما:
موتور جستجو چیست؟

اما در موارد زیر باید به سهمیه خزش اهمیت داد:

  • – اگر اخیرا چندین صفحه به وبسایتتون اضافه کردید: اگه به تازگی یک بخش جدید با صدها صفحه به وبسایتتون اضافه کردید و دوست دارید سهمیه کراول کردن همه رو داشته باشید تا زودتر ایندکس بشن.
  • – اگر سایت بزرگی دارید: اگه مثلا سایت تجارت الکترونیک دارید که 5k+ صفحه داره، گوگل برای پیدا کردن همه اونها به مشکل برخواهد خورد.
  • – اگر ریدایرکت های زیادی دارید: ریدایرکت های زیاد و زنجیره ریدایرکت ها سهمیه خزش شما رو مصرف میکنند.

چطور میشه سهمیه خزش رو افزایش داد؟

برای افزایش تعداد صفحاتی که گوگل در سایت شما کراول میکنه می تونید کارهای زیر رو انجام بدید:

در robots.txt اجازه کراول شدن پیج هاتون رو بدین این کار به صورت دستی یا توسط ابزار website auditor قابل انجامه. به دلیل ساده تر شدن کل پروسه ترجیح من اینه که از یک ابزار استفاده کنیم. با افزودن robots.txt به ابزاری که انتخاب کردین باید به راحتی بتونید مجوز/عدم مجوز کرول شدن هر پیجی از دامنه تون رو در عرض چند ثانیه صادر کنید. بعد از انجام اینکار edited document رو آپلود کنید و تمام.

نکته! اگه سایت بزرگی دارید استفاده از یک ابزار خیلی راحت تر از انجام دستی این کاره.

نگهداری از وبسایت: کاستن خطاها

سعی کنین مطمئن بشین که همه پیج هایی کراول شده در صورت صحیح بودن به کد status 200 و در صورت ریدایرکت شدن به کد status 301 برمیگردن. هر کد status دیگه ای اشتباهه و باید در اولین فرصت اصلاح بشه. برای این کار باید به server log وبسایتتون برین. وقتی به server log رفتین سعی کنین خطاهای متداول رو پیدا و اصلاح کنین.

آسون ترین راه برای انجام این کار اینه که تمام یوآرال هایی رو که به کد200 یا به کد301 برنگشتند رو select کنین و بر اساس نحوه دسترسی مرتب کنین. اصلاح خطا ممکنه به این معنی باشه که یوآرالی رو به جای دیگه ای ریدایرکت کنین یا کدش رو اصلاح کنید. اگه دلیل اصلی خطا رو میدونین، سعی کنین منبعش رو هم اصلاح کنید. شما می تونید از گوگل آنالیتیکس یا پکیج های آنالیتیکال دیگه هم برای این کار استفاده کنید اما این ابزارها فقط صفحاتی رو ردیابی می کنن که دارای کد 200 هستند (به این دلیله که رفتن به server log مطمئن تره).

قسمت هایی از وبسایتتون رو بلاک کنید

درسته، اگه نمی خواید قسمت هایی از سایتتون توسط گوگل بررسی بشه با استفاده از robots.txt اونها رو block کنید. ولی مطمئن بشین که چه کاری دارین میکنین. یکی از مشکلات متداولی که در وبسایت های بزرگ تجارت الکترونیک دیده میشه اینه که چندین راه برای فیلتر کردن محصولاتشون وجود داره. در این مورد، هر فیلتری می تونه یوآرال های جدیدی ایجاد کنه. اگر شما خودتون رو در چنین وضعیتی دیدید باید مطمئن بشین که کراولر فقط به یکی دو تا از این فیلترها دسترسی داره نه بیشتر.

«صفحه های ارفان» نداشته باشید

صفحه های ارفان صفحه هایی از وبسایت هستن که هیج لینک داخلی یا خارجی به اونها داده نشده. پیدا کردن صفحه های ارفان برای گوگل خیلی زمان بره. بنابراین اگه میخواید از سهمیه خزش تون حداکثر استفاده رو ببرین، مطمئن بشین که حداقل یک پیج داخلی یا خارجی به همه صفحات سایت شما لینک داره.

سرعت سایت رو بهینه کنید

بهینه کردن سرعت وبسایت خیلی مهمه و باعث میشه کراولرها به اغلب یوآرال های سایت شما سرک بکشن صفحه هایی که بارگزاری کندی دارن زمان ارزشمند کرولرهای گوگل رو هدر میدن.

حتی گوگل تاکید می کند که:

«بالا بردن سرعت سایت باعث خوشنودی بیشتر کاربرها و افزایش نرخ کراول می شود».

زنجیره های ریدایرکت رو کاهش بدید

در لحظه ای که شما یک یوآرال رو به کد 301 ریدایرکت می­کنید اتفاق عجیبی می افته. گوگل این یوآرال رو میبینه و اون رو به to-do list اضافه می کنه. معمولا بلافاصله بهش رسیدگی نمیکنه فقط به to-do list اضافه می کنه و به کارش ادامه میده. حالا اگه شما این ریدایرکت ها رو به هم وصل کنین مثلا یوآرال بدون www رو به یوآرال با www و بعد http رو به https ریدایرکت کنید، شما همه جا دو ریدایرکت دارید و درنتیجه کار کراولرها زمان برتر خواهد شد.

محتوای دست چین شده برای شما:
ویجت (widget) یا ابزارک چیست؟‌

لینک های بیشتری بسازید

کسب لینک های بیشتر فقط عالی بودن نیست، بلکه دیگران­ رو هم متقاعد می­کنه که شما عالی هستین. یعنی اینک روابط عمومی شما خوبه و در سوشال مدیا تعاملات خوبی دارید. توجه داشته باشید که ساختن لینک روش سریعی برای افزایش سهمیه خزش شما نیست. اما اگه قصد شما ایجاد یک سایت بزرگه، باید لینک سازی جزو برنامه هاتون باشه.

محتوای تکراری رو محدود کنید

محتوای تکراری میتونه به سهمیه خزش شما صدمه بزنه. به این دلیل که گوگل نمی خواد منابعش رو برای ایندکس کردن صفحه های تکراری هدر بده. به همین خاطر باید مطمئن بشید که وبسایت شما محتوای منحصر به فرد و با کیفیتی داره. حتی اگه این کار برای خودتون مشکله میتونید کسی رو برای نوشتن محتوای با کیفیت و منحصر به فرد استخدام کنید.

هر وقت ممکن بود از HTML استفاده کنید

خود گوگل قبلا گفته که کروالرهاش به خصوص در جاوااسکریپت بهتر عمل می کنن. اما عملکرد خودش را در کروال کردن XML و XML هم بهتر کرده. از طرفی موتورهای جستجوی دیگه هنوز عقب هستن. به همین دلیل توصیه من اینه که در حد امکان از HTML استفاده کنید.

نقشه سایتتون رو به روز کنید

توصیه می کنیم که مراقب XML sitemap باشید. با این کار کراولرها راحت تر می فهمن که لینک های داخلی شما به کجا رهنمون میشن. فقط از یوآرال هایی که برای نقشه سایت شما کنونیکال هستن استفاده کنید. علاوه بر این مطمئن بشین که سایت مپ شما آخرین ورژن robots.txt رو داره.

تگ های hreflang حیاتی هستند

کراولرها وقتی دارند پیج های localized رو بررسی میکنن از تگ های hreflang استفاده می کنند. و شما باید در مورد ورژن های localized صفحه هاتون هم به ساده ترین شکل توضیح بدین.

نحوه کار به این صورته:

از <link rel=”alternate” hreflang=”lang_code” href=”url_of_page” /> در هدر صفحه تون استفاده کنین.

“lang_code” کدی است برای یک زبان پشتیبانی شده. همچنین باید از المنت <loc> برای هر یوآرال مفروض استفاده کنین. با این روش می تونید ورژن localized یک صفحه رو نشان بدید.

چرا موتورهای جستجو سهمیه خزش تعیین می کنند؟

چون منابع نا محدودی ندارن و باید توجه شون رو بین میلیون ها سایت تقسیم کنند. به همین خاطر برای اولویت بخش به وظایفشون به روشی احتیاج دارند. بنابراین به سهمیه بندی اولیت ها رو مشخص می کنن.

چطور میشه سهمیه خزش رو چک کرد؟

اگه وبسایت شما در سرچ کنسول گوگل تایید شده باشه، می تونید با این روش تا حدودی به سهمیه خزش تون پی ببرید:

 Settings > Crawl > Crawl Stats

در اینجا تعداد صفحاتی رو که گوگل در هر روز کراول میکنه می بینید.

نتیجه

سهمیه خزش برای سایت شما عاملی ضروری بوده، هست، و احتمالا در آینده هم خواهد بود. به همین دلیل منطقی است که بخواید به طور کامل از قدرت نفوذش استفاده کنید.

برای اینکه بتونین از تمام مزایای سهمیه خزش برخوردار بشین چه اقداماتی انجام دادید؟

حالا نوبت شماست که سایتتون رو ارزیابی کنید و تنظیمات ضروری برای این منظور رو انجام بدین.

به پایان آمد این دفتر حكایت همچنان باقیست

نظر شما برای بهبود کیفیت کار ما ارزشمند است

متاسفیم که این پست برای شما مفید نبود!

Let us improve this post!

چگونه میتوانیم این پست را بهبود بخشیم؟

مسیر موفقیت شما با خدمات VIP وب آنجل

یک پاسخ

  1. سلام و درود خیلی مطالب سایتتون خوب بود ولی اون یه خطی که هی نوشته و پاک میشه خراب کرده نگاه چشم رو اذیت میکنه چون باعث میشه متن های دیگ بالا پایین بشن
    از سایت لوله بازکنی اسنپ لوله دیدن کنید شاید به کارتون اومد

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

وب آنجل
جستجو کردن