গুগলের ইন্ডেক্সিং প্রসেসিং কিভাবে হয়?
গুগল অনেক গুলো ধাপ অতিক্রম করে তবেই রেজাল্ট দেখায়, এবং এই প্রক্রিয়া চলমান থাকে।
ওয়েবপেজ গুলো গুগল যেই প্রক্রিয়ায় তাদের সার্ভারে ইনডেক্স করে সেইটা আলোচনা করে দেখাচ্ছি।
এই প্রক্রিয়া টি, URLs > Scheduler > Crawler > Parser > Indexing > Index > Search এই প্রক্রিয়ায় আগাতে থাকে।
পরিচিত কিছু ইউআরএল দিয়ে এই যাত্রা শুরু হয় (এইগুলোকে সিড URLs বলা হয়) তারপর এই URLs গুলোকে Scheduler করে রাখা হয়।
লিংক ধরে ধরে Crawl করার সময় Crawler যাবে এবং পেইজগুলোর কনটেন্ট ডাউনলোড করবে। Crawler কিন্তু লিঙ্কগুলি follow করে না, Crawler এর কাজ হচ্ছে Parser এর কাছে ডেটা সরবরাহ করা এবং নতুন লিংক ধরে আগানো।
(Crawler যখন Parser এর কাছে ডাউনলোড করে ডাটা পাঠাই, Parser ওই ডাটাগুলো ক্রমবিন্যাস করে URLs গুলো URLs লিস্টে পূনরায় পাঠায় এবং সেগুলো Scheduled হয়ে সেখান থেকে আবার Crawler লিংক ধরে আগাতে থাকে।)
Parser একই সাথে URLs এবং প্রয়োজনীয় ডাটা যেমন Title, heading, meta description, content এবং সকল প্রয়োজনীয় তথ্য Indexing এর জন্যও পাঠাই এবং সেখান থেকে ইনডেক্স প্রসেস সম্পন্ন হয় এবং তারপর SERPs লিস্টের জন্য প্রস্তুত হয়।
Parser যদি extract করা Row ডাটা থেকে পূণরায় URLs গুলো না পাঠাতো তাহলে, নতুন কোনো ওয়েবপেজ খুঁজে পাওয়া যেতো না। এই প্রক্রিয়া অনুসরণ না করে যদি Crawler লিংক ফলো করে আগাতে থাকতো তাহলে ১০ লিংক থেকে ৫০ লিংক রেফার হতো এবং ৫০ লিংক থেকে ২৫০ লিংক রেফার হতো, এবং একটা সময় পর এতো বেশি হয়ে যেতো যেইটা গুগলের সার্ভারের পক্ষে একসাথে এতো লিংক Crawl হওয়া ডাটা ইনডেক্স করা সম্ভব হতো না। কারণ, গুগল সার্ভারে প্রতি মিনিটে ১০ মিলিয়নের মতো Crawl হওয়া লিংক ইনডেক্স করতে পারে।
ইনডেক্সিং সম্পন্ন হলে সেখান থেকে শুরু হয় RankBrain এর কাজ। RankBrain হচ্ছে গুগলের কমপ্লেক্স এলগরিদম, এই এলগরিদমে অনেকগুলো রেঙ্কিং ফ্যাকটর আছে। গুগলের তথ্য অনুযায়ী ২০০+ রেঙ্কিং ফেক্টর আছে। প্রত্যেকটা পেইজকে এই এলগরিদমের মাধ্যমে উত্তির্ন হয়ে তবেই SERPs লিস্টে আসতে হয়।