خزیدن یا کراولینگ چه گونه عمل میکند؟
رباتهای خزندهی موتورهای جستجو، مطالب جان دار در صفحه های وب را میخوانند و از پیوندهای موجود در آن ها برای یافتن صفحه های بیشتر استفاده میکنند. براین اساس می توانند صفحه ها بیشتر و بیشتری را در وب پیدا کنند. سیستمهایی دراین روند درگیر می باشند که پیرو در زمینه ی آنان حرف خواهیم کرد.
– منابع URL
رباتهای خزنده برای کشف صفحه های می بایست از جایی استارت کنند. معمولا آنان لیستی از URLهای جانور در صفحات ساخت میکنند و آنهارا تحقیق میکنند. طریق دیگری که برای یافتن URLهای بیشتر به کار میگیرند، خواندن نقشه وبسایت است که توسط کاربران یا سیستمهای مختلفی که لیست صفحه های یک وبسایت را دارند ساخته شده است.
– صف خزش
مجموع URLهایی که باید رسیدگی (کراول) شوند طبق معیارهای مشخصی حق تقدمبندی شده و به صف خزیدن اضافه می شوند. صف خزش معمولا یک لیست دارای ترتیب میباشد که گوگل میخواهد URLهای موجود در آنان را بخواند.
– خزنده (Crawler)
خزنده یا ربات خزنده به زبان ساده به اپلیکیشن کامپیوتری گفته میشود که محتوای صفحه ها متعدد را فراخوانی و استیناف میکند.
– ارائه دهنده (Renderer)
سیستم ارائه دهنده، یک کاغذ را به همان شکلی که یک مرورگر نماد میدهد، همدم با فولدرهای CSS و جاوا اسکریپت بارگذاری میکند. این عمل با این غرض ایفا می گردد که گوگل کاغذ مورد نظر را همانطور که یک مخاطب آن را مشاهده میکند ببیند.
– ایندکس یا فهرست
ایندکس در واقع تمام صفحاتی میباشد که به وسیله گوگل ذخیره شده و با دقت به نیاز استفاده کننده به او نمایش می دهد.
در دست گرفتن و تنظیم خزیدن
شیوههایی وجود دارااست که گزینش نمایید چه صفحاتی از سایتتان کراول خواهد شد. به عنوان مثالی این راهها موارد تحت میباشند.
فولدر robots.txt
پوشه robots.txt به موتورهای جستجو می گوید که در یک سایت اجازه پژوهش و مشاهده کدام قسمتها را دارا هستند و کدام قسمتها را نباید ببینند. برای مثال برای هجران از دسترسی به pdf های موجود در وب سایت میقدرت دستور زیر را به فولدر ربات تارنما اضافه کرد:
user-agent:*
Disallow: /*.pdf$
میزان خزیدن (Crawl Rate)
در فولدر robots.txt میاقتدار دستوری اضافه کرد که بر پایه ی آن رباتهای خزنده طبق نرمافزار و مجالبندیای مشخص صفحه های آن وبسایت را بازرسی میکنند. ولی گوگل طبق این فرمان کار نمیکند و برای تعیین زمانبندی مشخص برای خزندههای گوگل، بایستی به گوگل سرچ کنسول مراجعه کرد. در مثال زیر ربات خزنده ملزم هست میان هر درخواست ۸ میلی ثانیه توقف کند.
user-agent:*
Crawl-delay: 8
تحقیق بیشتر: فولدر robots.txt چیست؟ یادگرفتن شیوه تشکیل داد و شغل با فایل ربات
محدودیتهای دسترسی
چنانچه بخواهید برگه یا صفحاتی برای بعضی کاربران قابل دسترسی باشد ولی موتورهای جستجو به آن دسترسی نداشته باشند، باید یکیاز سه گزینه تحت را مد لحاظ قرار دهید:
نوعی سیستم ورود یا همان لاگین (login)
اعتبارسنجی HTTP که در آن کاربر می بایست یک پسورد مشخص را وارد کند تا دسترسی پیدا کند
دسترسی دادن به لیست IPهای معلوم، که در آن تنها به کاربرانی با IP گزینه تایید دسترسی داده میشود
چنین تنظیمات و چیدمانی بیشتر در شبکههای داخلی، یا محتواهای مخصوص اعضا و یا برای اهداف گسترش و آزمایش کاربرد داراست. بنابراین، گروهی از کاربران اجازه دسترسی به صفحات را خواهند داشت، ولی موتورهای جستجو قابلیت و امکان دسترسی و مطالعه این صفحات را نخواهند داشت و در بهره نمیتوانند آنها را ایندکس کنند.
روش مشاهده فعالیتهای خزیدن
راجع به گوگل، بهترین روش برای مشاهده اینکه چه صفحاتی را بازرسی و ایندکس میکنند، مراجعه به گزارش موجود در گوگل سرچ کنسول با عنوان Crawl Stats Report هست که اطلاعاتی درباره طریق استیناف سایتتان بوسیله رباتهای خزنده ارائه می دهد.
درصورتیکه قصد داشته باشید تک تک فعالیتهای خزیدن موتورهای جستجو را با جزئیات مشاهده کنید، می بایست به گزارشهای سرور سایتتان رجوعنمایید و از ابزارهای مو جود برای محاسبه دقیق این دادهها استفاده نمایید. این فرایند قادر است بسیار بغرنج باشد، اما در شرایطی که سرویس دهندهی هاست شما از در اختیار گرفتن پنلی مانند cPanel استعمال کند، میتوانید به گزارشهای خام و ابزارهایی مانند Awstats و Webalizer دسترسی داشته باشید.
تنظیمات خزیدن
هر وبسایتی میزان دارایی خزیدن (Crawl Budget) خاص خودش را دارد که ترکیبی میباشد از دورانهای هنگامی که گوگل به سایت شما مراجعه میکند با میزان خزیدنی که سایت شما اجازه میدهد. صفحاتی از سایت که مراجعه کننده بیشتری دارند و محتوایشان بیشتر آپ دیت رسانی میگردند، در زمانههای هنگامی کوتاهتری بوسیله خزندهها رسیدگی میشوند و صفحه های نادر بازدید دیر به دیر مطالعه خواهند شد.
در شرایطی که رباتهای خزنده خطاها و موانعی را در هنگام استیناف یک شیت مشاهده کنند، عملا مراجعه به آن صفحه های را به ژرف اندیشی میاندازند و یا تا وقتیکه خطاها رفع نشوند هیچ زمان به آن صفحه های مراجعه نخواهند کرد.
بعداز این که صفحات بوسیله رباتهای خزنده تحقیق شدند، به نصیب ایندکس ارسال می شوند. ایندکس در واقع یک لیست بینهایت تعالی از تمام صفحاتی میباشد که میتوانند به عنوان حاصل جستجوی کاربران نمایش داده شوند. به دنبال در زمینه ی ایندکس صحبت خواهیم کرد.
امر Robots
برچسب متای Robots یک کد html است که موتورهای جستجو میگوید چگونه یک برگه را رسیدگی و ایندکس کنند. این برچسب در نصیب یک ورقه وب قرار میگیرد. مانند مثال پایین:
پرسشهای متداول درباره سئو تکنیکال
دراین قسمت پاسخ برخی از پرسشهای تکراری درباره seo تکنیکال ارائه گردیدهاست. چنانچه که پاسخ سوال خود را نیافتید برای ما در قسمت اظهار نظر بنویسید.
آیا سئو تکنیکال عمل پیچیدهای است؟
بستگی دارد. مفاهیم اساسی سئوی تکنیکال خیلی پیچیده نیستند و برای اکثر افراد قابل شعور می باشند. البته سئوی تکنیکال در فرآیند پیشرفتهتر می تواند مفهومی مشقت بار باشد. ما دراین راهنما عملکرد میکنیم تا جای ممکن همگی مفاهیم و تکنیکها را به گویش بی آلایش بیان کنیم.
مداقه بهینه سازی تکنیکال در چیست؟
seo تکنیکال مهم میباشد چونکه به کمک سئو تکنیکال میتوانید اعتقاد نتیجه ها نمایید که وب سایت دارای نقص فنی نیست که آن را از دیده شدن و درک کردن صفحه ها به وسیله گوگل بازدارد.
کلام نهایی
seo تکنیکال، سئو آن پیج و سئو آف پیج در کنار هم درهای ورود ترافیک از سمت گوگل به سایت شما را باز خواهند کرد. در حالی که سئوی آن پیج و offpage اولین اقداماتی هستند که جاری ساختن میشوند، سئوی تکنیکال نیازمند تخصص و مهارت بیشتری میباشد و نقش مهم در یاری به تارنما برای رسیدن به رتبههای برتر گوگل دارد. seo تکنیکال چیزی نیست که یک شبه بتوان بر آن مسلط شد. حرفهای شدن در بهینه سازی تکنیکال نیازمند سپری کردن زمان، مطالعه و یه خرده کوشش و اشتباه هست.
شما درباره سئوی فنی چه نظری دارید؟ آیا برای بهبود سئوی تکنیکال سایتتان کاری کردهاید؟ چه بخشهایی از seo تکنیکال از لحاظ شما بغرنجتر میباشد؟
خزیدن یا کراولینگ چه گونه عمل میکند؟
رباتهای خزندهی موتورهای جستجو، مطالب جان دار در صفحه های وب را میخوانند و از پیوندهای موجود در آن ها برای یافتن صفحه های بیشتر استفاده میکنند. براین اساس می توانند صفحه ها بیشتر و بیشتری را در وب پیدا کنند. سیستمهایی دراین روند درگیر می باشند که پیرو در زمینه ی آنان حرف خواهیم کرد.
– منابع URL
رباتهای خزنده برای کشف صفحه های می بایست از جایی استارت کنند. معمولا آنان لیستی از URLهای جانور در صفحات ساخت میکنند و آنهارا تحقیق میکنند. طریق دیگری که برای یافتن URLهای بیشتر به کار میگیرند، خواندن نقشه وبسایت است که توسط کاربران یا سیستمهای مختلفی که لیست صفحه های یک وبسایت را دارند ساخته شده است.
– صف خزش
مجموع URLهایی که باید رسیدگی (کراول) شوند طبق معیارهای مشخصی حق تقدمبندی شده و به صف خزیدن اضافه می شوند. صف خزش معمولا یک لیست دارای ترتیب میباشد که گوگل میخواهد URLهای موجود در آنان را بخواند.
– خزنده (Crawler)
خزنده یا ربات خزنده به زبان ساده به اپلیکیشن کامپیوتری گفته میشود که محتوای صفحه ها متعدد را فراخوانی و استیناف میکند.
– ارائه دهنده (Renderer)
سیستم ارائه دهنده، یک کاغذ را به همان شکلی که یک مرورگر نماد میدهد، همدم با فولدرهای CSS و جاوا اسکریپت بارگذاری میکند. این عمل با این غرض ایفا می گردد که گوگل کاغذ مورد نظر را همانطور که یک مخاطب آن را مشاهده میکند ببیند.
– ایندکس یا فهرست
ایندکس در واقع تمام صفحاتی میباشد که به وسیله گوگل ذخیره شده و با دقت به نیاز استفاده کننده به او نمایش می دهد.
در دست گرفتن و تنظیم خزیدن
شیوههایی وجود دارااست که گزینش نمایید چه صفحاتی از سایتتان کراول خواهد شد. به عنوان مثالی این راهها موارد تحت میباشند.
فولدر robots.txt
پوشه robots.txt به موتورهای جستجو می گوید که در یک سایت اجازه پژوهش و مشاهده کدام قسمتها را دارا هستند و کدام قسمتها را نباید ببینند. برای مثال برای هجران از دسترسی به pdf های موجود در وب سایت میقدرت دستور زیر را به فولدر ربات تارنما اضافه کرد:
user-agent:*
Disallow: /*.pdf$
میزان خزیدن (Crawl Rate)
در فولدر robots.txt میاقتدار دستوری اضافه کرد که بر پایه ی آن رباتهای خزنده طبق نرمافزار و مجالبندیای مشخص صفحه های آن وبسایت را بازرسی میکنند. ولی گوگل طبق این فرمان کار نمیکند و برای تعیین زمانبندی مشخص برای خزندههای گوگل، بایستی به گوگل سرچ کنسول مراجعه کرد. در مثال زیر ربات خزنده ملزم هست میان هر درخواست ۸ میلی ثانیه توقف کند.
user-agent:*
Crawl-delay: 8
تحقیق بیشتر: فولدر robots.txt چیست؟ یادگرفتن شیوه تشکیل داد و شغل با فایل ربات
محدودیتهای دسترسی
چنانچه بخواهید برگه یا صفحاتی برای بعضی کاربران قابل دسترسی باشد ولی موتورهای جستجو به آن دسترسی نداشته باشند، باید یکیاز سه گزینه تحت را مد لحاظ قرار دهید:
نوعی سیستم ورود یا همان لاگین (login)
اعتبارسنجی HTTP که در آن کاربر می بایست یک پسورد مشخص را وارد کند تا دسترسی پیدا کند
دسترسی دادن به لیست IPهای معلوم، که در آن تنها به کاربرانی با IP گزینه تایید دسترسی داده میشود
چنین تنظیمات و چیدمانی بیشتر در شبکههای داخلی، یا محتواهای مخصوص اعضا و یا برای اهداف گسترش و آزمایش کاربرد داراست. بنابراین، گروهی از کاربران اجازه دسترسی به صفحات را خواهند داشت، ولی موتورهای جستجو قابلیت و امکان دسترسی و مطالعه این صفحات را نخواهند داشت و در بهره نمیتوانند آنها را ایندکس کنند.
روش مشاهده فعالیتهای خزیدن
راجع به گوگل، بهترین روش برای مشاهده اینکه چه صفحاتی را بازرسی و ایندکس میکنند، مراجعه به گزارش موجود در گوگل سرچ کنسول با عنوان Crawl Stats Report هست که اطلاعاتی درباره طریق استیناف سایتتان بوسیله رباتهای خزنده ارائه می دهد.
درصورتیکه قصد داشته باشید تک تک فعالیتهای خزیدن موتورهای جستجو را با جزئیات مشاهده کنید، می بایست به گزارشهای سرور سایتتان رجوعنمایید و از ابزارهای مو جود برای محاسبه دقیق این دادهها استفاده نمایید. این فرایند قادر است بسیار بغرنج باشد، اما در شرایطی که سرویس دهندهی هاست شما از در اختیار گرفتن پنلی مانند cPanel استعمال کند، میتوانید به گزارشهای خام و ابزارهایی مانند Awstats و Webalizer دسترسی داشته باشید.
تنظیمات خزیدن
هر وبسایتی میزان دارایی خزیدن (Crawl Budget) خاص خودش را دارد که ترکیبی میباشد از دورانهای هنگامی که گوگل به سایت شما مراجعه میکند با میزان خزیدنی که سایت شما اجازه میدهد. صفحاتی از سایت که مراجعه کننده بیشتری دارند و محتوایشان بیشتر آپ دیت رسانی میگردند، در زمانههای هنگامی کوتاهتری بوسیله خزندهها رسیدگی میشوند و صفحه های نادر بازدید دیر به دیر مطالعه خواهند شد.
در شرایطی که رباتهای خزنده خطاها و موانعی را در هنگام استیناف یک شیت مشاهده کنند، عملا مراجعه به آن صفحه های را به ژرف اندیشی میاندازند و یا تا وقتیکه خطاها رفع نشوند هیچ زمان به آن صفحه های مراجعه نخواهند کرد.
بعداز این که صفحات بوسیله رباتهای خزنده تحقیق شدند، به نصیب ایندکس ارسال می شوند. ایندکس در واقع یک لیست بینهایت تعالی از تمام صفحاتی میباشد که میتوانند به عنوان حاصل جستجوی کاربران نمایش داده شوند. به دنبال در زمینه ی ایندکس صحبت خواهیم کرد.
امر Robots
برچسب متای Robots یک کد html است که موتورهای جستجو میگوید چگونه یک برگه را رسیدگی و ایندکس کنند. این برچسب در نصیب یک ورقه وب قرار میگیرد. مانند مثال پایین:
پرسشهای متداول درباره سئو تکنیکال
دراین قسمت پاسخ برخی از پرسشهای تکراری درباره seo تکنیکال ارائه گردیدهاست. چنانچه که پاسخ سوال خود را نیافتید برای ما در قسمت اظهار نظر بنویسید.
آیا سئو تکنیکال عمل پیچیدهای است؟
بستگی دارد. مفاهیم اساسی سئوی تکنیکال خیلی پیچیده نیستند و برای اکثر افراد قابل شعور می باشند. البته سئوی تکنیکال در فرآیند پیشرفتهتر می تواند مفهومی مشقت بار باشد. ما دراین راهنما عملکرد میکنیم تا جای ممکن همگی مفاهیم و تکنیکها را به گویش بی آلایش بیان کنیم.
مداقه بهینه سازی تکنیکال در چیست؟
seo تکنیکال مهم میباشد چونکه به کمک سئو تکنیکال میتوانید اعتقاد نتیجه ها نمایید که وب سایت دارای نقص فنی نیست که آن را از دیده شدن و درک کردن صفحه ها به وسیله گوگل بازدارد.
کلام نهایی
seo تکنیکال، سئو آن پیج و سئو آف پیج در کنار هم درهای ورود ترافیک از سمت گوگل به سایت شما را باز خواهند کرد. در حالی که سئوی آن پیج و offpage اولین اقداماتی هستند که جاری ساختن میشوند، سئوی تکنیکال نیازمند تخصص و مهارت بیشتری میباشد و نقش مهم در یاری به تارنما برای رسیدن به رتبههای برتر گوگل دارد. seo تکنیکال چیزی نیست که یک شبه بتوان بر آن مسلط شد. حرفهای شدن در بهینه سازی تکنیکال نیازمند سپری کردن زمان، مطالعه و یه خرده کوشش و اشتباه هست.
شما درباره سئوی فنی چه نظری دارید؟ آیا برای بهبود سئوی تکنیکال سایتتان کاری کردهاید؟ چه بخشهایی از seo تکنیکال از لحاظ شما بغرنجتر میباشد؟