ما هو ملف robots.txt و كيف يتم انشاؤه




ما هو ملف Robots.txt ؟

Robots.txt هو ملف يوضع لدى الخادم server و يقوم بمنع محركات البحث من المرور على موقع معين او {على صفحات معينة في هذا الموقع }وادراجها . اي انه يمكنك من حجب موقع كامل عن محركات البحث او قسم معين في الموقع بحيث يصبح غير موجود

بالنسبة لمحركات البحث المختلفة .




لماذا احتاج الى ملف robots.txt في موقعي ؟

على الرغم من ان فكرة حجب بعض الصفحات عن محركات البحث ليست جيدة ككل , لكن قد تحتاج الى معرفة الاساسيات عن هذا الملف وذلك للاسباب التالية

ــ قد ترغب في منع محركات البحث من ادراج الصفحات التي ما زالت تحت الانشاء ولم تكتمل بعد.

ــ او اذا كان هناك صفحة تحتوي على معلومات حساسة وشخصية ولا ترغب ان تصل اليها محركات البحث او ان تقوم بادراجها.

ــ اذا كان الموقع يحتوي على ما يسمى ب out-door page وهي تعني صفحات متشابهة في المضمون لكنها مهيئة لمحركات البحث المختلفة فمثلا قد يضم موقعك صفحة عن مبدا عمل محرك السيارة فتقوم بانشاء صفحة موجهة لمحرك بحث جوجل واخرى بنفس الموضوع لكنها مهيئة ومعدة لمحرك الياهو وهكذا , عندئذ قد تود بحجب صفحات معينة حتى لا يتم تصنيف موقعك على انه سبام بسبب وجود صفحات متشابهة فهذه تعتبر مخالفة وقد يتم حجب الموقع .

ــ اذا كنت تود في حجب موقعك من الظهور في نتائج بعض محركات البحث وخاصة تلك التي يكون هدفها الاول جمع عناوين الايميلات .




كيف اقوم بانشاء ملف Robots.txt ؟

ان انشاء ملف robots.txt سهل وبسيط , يمكنك فعل ذلك عن طريق برنامج notpad او عن طريق موقع webmaster tools او عن طريق الميتا تاغ .

وسنبدا بالطريقة الاولى

ــ انشاء ملفRobots.txt يدويا طريق برنامج notpad :




هناك سطران اساسيان لعمل ملف robots.txt

user-agent : [ spider or bots name ]



disallow : [Directory or FileName]



يمكنك استعمال هذين السطرين والتعديل عليهما لحجب اي ملف من الادراج سواء في محرك بحث محدد او في جميع محركات البحث المختلفة , سنورد بعض الامثلة للتوضيح :




لنفرض انك قمت بانشاء قسم جديد في موقعك باسم vediogame واردت حجبه عن محرك جوجل مثلا

فعليك بكتابة السطرين كمل يلي

user-agent : googlebot



disallow : /vediogame/



ملاحظة : يسمى الزاحف الخاص بمحرك جوجل والذي يقوم بالمرور على المواقع باسم googlebot




اما اذا اردت حجب القسم عن جميع محركات البحث فاستبدل السطر الاول بما يلي

user-agent : *



ضع النجمة لتدل على جميع محركات البحث







لجحب جميع محتويات الموقع عن جميع محركات البحث

use-agent : *



Disallow : /



ملاحظة يجب الحذر عند كتابة هذه الاسطر فمثلا اذا نسيت كتابة / فسيتحول الامر الى ترحيب بمحركات البحث ودعوة لزيارة الموقع بدلا من حجبها .




ــ ماذا ان لم استطع عمل ملف robots.txt ؟

في بعض الاحيان لا تستطيع انشاء ملف robots.txt بسبب مشاكل في السيرفر , هناك خيار سهل وبسيط وهو اضافة سطر الى الميتا تاغ كما يلي :

META NAME = ''ROBOTS'' CONTENT=''NOINDEX''




ــ انشاء ملف Robots.txt عن طريق google webmaster tools




1ـاذهب الى صفحة مشرفي المواقع الخاصة بك webmaster tool




2ـاختر الموقع الذي تريده




3ـانقر على generate robots.txt tabs




4ـالان اختر allow all robots




5ـ ثم حدد جميع الزواحف التي تود حجب الصفحة عنها




6ـالان قم بتعديل الخيارات التالية مثلا لحجب الزاحف الخاص بجوجل من تصفح موقعك قم بما يلي




ــ في قائمة action اختر disallow




ــ عند قائمة robots اختر googleblot




ــ في قائمة file or directons ضع اشارة /




7ـ الان انقر على اضافة add وسيتم عمل كود تلقائيا لملف Robots.txt الخاص بك واحفظ الملف عن طريق تحميله تحت اسم robots.txt وليس اي اسم اخر




ملاحظة : احفظ الملف في اسم نطاقك الرئيسي مثل :




www.example.com/robots.txt


ولا تستخدم اي نطاق فرعي مثل :


www.example.com/mysites/robots.txt هذا غير صحيح ولن يتم التعرف على الملف




كيف اختبر ملف Robots.txt الذي انشاته ؟




يمكنك اختبار اذا كان هناك ملف Robots.txt الذي انشاته يقوم بحجب زاحف جوجل عن طريق الخطا او اذا كان زاحف جوجل يصل الى صفحات لا تود ادراجها في موقعك .



اولا اذهب الى موقع مشرفي المواقع وادخل الى حسابك الخاص




تحت site configuration اختر crawl access.




اذا لم تجد هذا الخيار فانقر على test robots.txt tab.




انسخ محتويات ملفRobots.txt الخاص بك والصقها في الصندوق الفارغ الذي ستجده .




في خانة urls ادخل روابط المواقع التي تود اختبارها .




في قائمة user-agents list اختر محركات البحث التي قمت بحجب صفحاتك عنها .




ملاحظة اي تغيير تقوم به لن يتم حفظه عليك بنسخ التحديثات والصاقها في ملف الخاص بك .




كما تجدر الاشارة الى ان هذا الفحص خاص بزاحف جوجل فقط .