গুগলের ইন্ডেক্সিং প্রসেসিং কিভাবে হয়?

আমরা অনেকেই জানি গুগল বট ক্রল করে সেই ডাটা ইনডেক্স করে সার্প রেজাল্টে দেখায়, কিন্তু পুরো প্রক্রিয়াটা কিভাবে সম্পন্ন হয় সেটা হয়তো অনেকেই জানি না। প্রথমে আপনাকে বুঝতে হবে, গুগল কখনো পুরো ওয়েবসাইট ইনডেক্স করে না। গুগল মূলত ওয়েবপেজ ইনডেক্স করে। গুগলে সার্চ করে আমরা যখন রেজাল্ট গুলো দেখি, আমরা কিন্তু সরাসরি ওয়েব থেকে দেখি না। সেগুলো গুগল আগে থেকেই তাদের সার্ভারে স্টোর করে রেখেছে, তার ফলেই কিন্তু ৩০০-৫০০ মিলিসেকেন্ডে মিলিয়ন রেজাল্ট সামনে চলে আসে যেইটা ইনডেক্স করা ছাড়া এত দ্রুত দেখানো অসম্ভব।

গুগল অনেক গুলো ধাপ অতিক্রম করে তবেই রেজাল্ট দেখায়, এবং এই প্রক্রিয়া চলমান থাকে।

ওয়েবপেজ গুলো গুগল যেই প্রক্রিয়ায় তাদের সার্ভারে ইনডেক্স করে সেইটা আলোচনা করে দেখাচ্ছি।

এই প্রক্রিয়া টি, URLs > Scheduler > Crawler > Parser > Indexing > Index > Search এই প্রক্রিয়ায় আগাতে থাকে।

পরিচিত কিছু ইউআরএল দিয়ে এই যাত্রা শুরু হয় (এইগুলোকে সিড URLs বলা হয়) তারপর এই URLs গুলোকে Scheduler করে রাখা হয়।

লিংক ধরে ধরে Crawl করার সময় Crawler যাবে এবং পেইজগুলোর কনটেন্ট ডাউনলোড করবে। Crawler কিন্তু লিঙ্কগুলি follow করে না, Crawler এর কাজ হচ্ছে Parser এর কাছে ডেটা সরবরাহ করা এবং নতুন লিংক ধরে আগানো।

(Crawler যখন Parser এর কাছে ডাউনলোড করে ডাটা পাঠাই, Parser ওই ডাটাগুলো ক্রমবিন্যাস করে URLs গুলো URLs লিস্টে পূনরায় পাঠায় এবং সেগুলো Scheduled হয়ে সেখান থেকে আবার Crawler লিংক ধরে আগাতে থাকে।)

Parser একই সাথে URLs এবং প্রয়োজনীয় ডাটা যেমন Title, heading, meta description, content এবং সকল প্রয়োজনীয় তথ্য Indexing এর জন্যও পাঠাই এবং সেখান থেকে ইনডেক্স প্রসেস সম্পন্ন হয় এবং তারপর SERPs লিস্টের জন্য প্রস্তুত হয়।

Parser যদি extract করা Row ডাটা থেকে পূণরায় URLs গুলো না পাঠাতো তাহলে, নতুন কোনো ওয়েবপেজ খুঁজে পাওয়া যেতো না। এই প্রক্রিয়া অনুসরণ না করে যদি Crawler লিংক ফলো করে আগাতে থাকতো তাহলে ১০ লিংক থেকে ৫০ লিংক রেফার হতো এবং ৫০ লিংক থেকে ২৫০ লিংক রেফার হতো, এবং একটা সময় পর এতো বেশি হয়ে যেতো যেইটা গুগলের সার্ভারের পক্ষে একসাথে এতো লিংক Crawl হওয়া ডাটা ইনডেক্স করা সম্ভব হতো না। কারণ, গুগল সার্ভারে প্রতি মিনিটে ১০ মিলিয়নের মতো Crawl হওয়া লিংক ইনডেক্স করতে পারে।

ইনডেক্সিং সম্পন্ন হলে সেখান থেকে শুরু হয় RankBrain এর কাজ। RankBrain হচ্ছে গুগলের কমপ্লেক্স এলগরিদম, এই এলগরিদমে অনেকগুলো রেঙ্কিং ফ্যাকটর আছে। গুগলের তথ্য অনুযায়ী ২০০+ রেঙ্কিং ফেক্টর আছে। প্রত্যেকটা পেইজকে এই এলগরিদমের মাধ্যমে উত্তির্ন হয়ে তবেই SERPs লিস্টে আসতে হয়।

গুগলের ইন্ডেক্সিং প্রসেসিং কিভাবে হয়?

গুগলের ইন্ডেক্সিং প্রসেসিং কিভাবে হয়?

যোগাযোগ ফর্ম