شرح ملف robots.txt وكيفية إعداده.
![]() |
ملفات robots |
تعتبر ملفات robots.txt جزءًا هامًا من بروتوكولات الويب وتستخدم للتواصل مع محركات البحث ومؤشرات الويب.
عند كتابة مقال حول ملف robots.txt وكيفية إعداده، يمكنك تقديم مقدمة تشرح الأهمية والوظيفة الأساسية لهذا الملف. تقوم ملفات robots.txt بتوجيه محركات البحث حول كيفية زيارة وفهرسة صفحات موقع الويب، ويساعد هذا الملف على توجيه الزوار الآليين مثل عناكب الويب وروبوتات محركات البحث في فهم الصفحات المسموح لها بالوصول إليها والصفحات التي يجب تجاهلها.
في المقال سنوضح أهمية ملف robots.txt في تحسين تجربة محركات البحث وزيارة موقعك بشكل فعال. وتوضيح كيفية إعداد ملف robots.txt بشكل صحيح.
ومعرفة بعض الأوامر الشائعة التي يمكن استخدامها في الملف، مثل "User-agent" و "Disallow" و "Allow".
ويمكن أن توضح أيضًا كيفية استخدام تعليمات خاصة لملفات محددة أو مجلدات في الموقع، وسنوضح بعض الأمثلة العملية لكيفية كتابة ملف robots.txt بشكل صحيح.، وكيف استخدم .Robots.txt
ماهو ملف Robots.txt؟
![]() |
ملف Robots.txt |
ملف نصي يتم وضعه في جذر موقع الويب لتوجيه زوار الموقع ومحركات البحث حول الطريقة التي يجب على الروبوتات ومحركات البحث اتباعها عند زيارة الموقع.
ملف Robots.txt هو ملف نصي يتم وضعه في جذر موقع الويب الخاص بك، ويستخدم لتوجيه محركات البحث حول كيفية الوصول إلى صفحات ومحتوى الموقع. ويتم استخدامه للتحكم في سلوك محركات البحث عند زيارة موقعك وفهرسته في نتائج البحث.
يعمل ملف Robots.txt عن طريق توفير تعليمات للروبوتات أو الزوار الآليين لمحركات البحث حول الصفحات التي يجب أن يزوروها أو يتجاهلوها. يمكن استخدامه لعدة أغراض، بما في ذلك:
1. توجيه الزوار الآليين:
يمكنك استخدام ملف Robots.txt لتوجيه محركات البحث إلى الصفحات المهمة ومنعهم من زيارة صفحات محددة، يمكنك تحديد صفحات لا ترغب في أن يتم فهرستها أو عرضها في نتائج البحث.
2. حماية المحتوى الحساس:
إذا كان لديك محتوى حساس أو خاص بحقوق النشر، يمكنك استخدام ملف Robots.txt لمنع محركات البحث من الوصول إليه.
هذا يساعد في حماية المحتوى الخاص بك ومنع استخدامه بدون إذن.
3. تحسين سرعة الموقع:
يمكن استخدام ملف Robots.txt لتوجيه محركات البحث بعيدًا عن الملفات والمجلدات غير الضرورية أو الثقيلة التي قد تؤثر على سرعة تحميل الموقع.
يمكنك تجاهل المجلدات غير الهامة أو الملفات الطويلة وتوجيه محركات البحث إلى المحتوى الأساسي والمهم.
ملف Robots.txt يتبع بروتوكول توجيه المحركات البحث القائم على المعيار الذي يسمى "بوتسكيت" (Robots Exclusion Protocol)، والذي يتيح لأصحاب المواقع التحكم في تفاعل محركات البحث مع موقعهم.
يجب أن يتم وضع ملف Robots.txt في موقع الجذر الرئيسي للموقع وتحديثه بشكل منتظم إذا تغيرت تعليمات الوصول إلى الموقع.
يستخدم هذا الملف لتوجيه الروبوتات بشأن الصفحات التي يجب أن تكون مؤهلة للفهرسة والصفحات التي يجب أن تكون محظورة من الفهرسة.
أهمية ملف robots.txt
إضافة ملف robots.txt للموقع الإلكتروني ذو أهمية كبيرة، ويمكن استخدامه للتحكم في عملية الزحف والفهرسة من قبل محركات البحث مثل جوجل. بواسطة تحديد الصفحات التي يجب أن تتم أرشفتها والصفحات التي يجب تجاهلها، يمكنك تحسين عملية الفهرسة وتوجيه اهتمام محركات البحث إلى المحتوى الأكثر أهمية على موقعك. ويمكن استخدام ملف robots.txt لتنفيذ أعمال الصيانة على الموقع.
يمكنك منع عناكب محركات البحث من الوصول إلى موقعك أثناء فترة الصيانة، مما يمنحك السيطرة الكاملة على توافر الموقع للزوار، بالإضافة إلى ذلك يمكن استخدام ملف robots.txt لمنع ظهور ملفات الوسائط مثل الصور والفيديو والملفات الصوتية في نتائج البحث على جوجل.
هذا يمكن أن يكون مفيدًا إذا كنت ترغب في الحفاظ على خصوصية بعض المحتوى أو توجيه الاهتمام إلى المحتوى النصي الرئيسي لموقعك.
أخيرًا، يمكن استخدام robots.txt لحظر ملفات الموارد غير الضرورية. إذا كانت هناك ملفات تعتبر غير هامة ولا تؤثر بشكل كبير على محتوى صفحاتك، يمكنك حظرها باستخدام robots.txt. ومن الجدير بالذكر أنه يجب التأكد من عدم حظر الملفات الأساسية التي يعتمد عليها محرك البحث لتحليل صفحاتك بشكل صحيح.
الخلاصة:
إضافة ملف robots.txt لموقعك الإلكتروني يعتبر أمرًا هامًا لتنظيم وتحسين عملية الفهرسة والظهور في نتائج البحث على محركات البحث.
يساعدك في توجيه الاهتمام إلى المحتوى الأكثر أهمية ويمنحك السيطرة على زحف وفهرسة الموقع.
وظيفة ملف Robots.txt:
وظيفة ملف robots.txt هي:
تحديد القيود والإرشادات لزوار الموقع الآليين، مثل محركات البحث، بشأن الصفحات التي يجب أن يستكشفها وفهرستها والصفحات التي يجب تجاهلها.
يساعد هذا الملف في تحسين تجربة البحث وفهرسة الموقع عن طريق التحكم في الإشارات التي يتلقاها محرك البحث بشأن المحتوى المراد فهرسته.
على سبيل المثال، يمكن استخدام ملف robots.txt لمنع محركات البحث من فهرسة صفحات معينة، أو توجيهها إلى ملفات محددة مثل ملف الخريطة القابلة للقراءة من قبل الروبوتات (Sitemap)، وتحديد معدلات زيارة الصفحات (Crawl-delay)، وتحديد المجلدات التي يجب تجاهلها.
من المهم أن يتم تنسيق ملف robots.txt بشكل صحيح وتوضيح القواعد بطريقة صحيحة، حيث أن التنسيق غير صحيح قد يؤدي إلى عدم فهرسة المحتوى بالطريقة المرغوبة. ويجب أن يلتزم أصحاب المواقع بتوجيهات محركات البحث الرسمية لضمان عمل ملف Robots.txt بشكل صحيح وفعال.
أين يتواجد ملف robots.txt؟
ملف robots.txt يتم وضعه في الجذر الرئيسي لموقعك وعادةً ما يتم تخزينه في مجلد public_html إذا كنت تستخدم خادم ويب يعتمد على نظام Unix. إذا كنت تستخدم منصة أخرى أو مزود خدمة استضافة، قد يكون الموقع مختلفًا، ولكن الهدف هو وضع الملف في المجلد الرئيسي لموقعك حيث يمكن الوصول إليه بسهولة عند زيارة رابط الموقع متبوعًا بـ "/robots.txt".
على سبيل المثال: https://login.com/robots.txtكيف أقوم ب إنشاء robots.txt ؟
لإنشاء ملف robots.txt، يمكنك استخدام أي محرر نصوص، مثل Notepad على نظام Windows أو TextEdit على نظام Mac.
يجب حفظ الملف باسم "robots.txt" وتحميله على خادم الويب الخاص بك، أما بالنسبة لشرح أوامر ملف robots.txt، فهنا هي الأوامر الرئيسية التي يمكن استخدامها:
1. User-agent:
يحدد المحركات التي ينطبق عليها الأوامر التالية. مثال: "User-agent: Googlebot" يعني أن الأوامر التالية ستنطبق على محرك البحث Googlebot.
2. Disallow:
يمنع المحركات من الوصول إلى صفحات محددة. مثال: "Disallow: /private/" يعني أن المجلد الذي يحتوي على الصفحات الخاصة يجب ألا يتم الوصول إليه من قبل المحركات.
3. Allow:
يسمح للمحركات بالوصول إلى صفحات محددة. يستخدم عادةً في حالة استخدام Disallow لمسارات عامة وتحتاج إلى السماح ببعض الصفحات.
مثال: "Allow: /public/page.html" يعني السماح للمحرك بالوصول إلى صفحة "page.html" في المجلد العام.
4. Sitemap:
يشير إلى رابط خريطة الموقع الخاصة بموقعك. مثال: "Sitemap: https://example.com/sitemap.xml".
يعرض رابط خريطة الموقع لمحركات البحث. يجب أن تضع كل أمر في سطر منفصل في ملف robots.txt. ويمكنك استخدام تعليقات لشرح الأوامر أو إضافة ملاحظات، عن طريق وضع "#" قبل النص المعلق.من المهم أن تتعلم وتفهم كيفية استخدام هذه الأوامر بشكل صحيح لتنفيذ احتياجاتك الخاصة وضمان أن المحركات تفهم كيفية الوصول والتفاعل مع موقعك بشكل صحيح.
خطوات إنشاء ملف Robots.txt.
2. قم بإنشاء ملف جديد واحفظه في المجلد الرئيسي لموقعك.
3. قم بتسمية الملف باسم "robots.txt". يجب أن يكون الاسم كاملاً بالحروف الصغيرة وبدون مسافات.
4. قم بإضافة الأوامر والتعليمات التي ترغب في توجيه محركات البحث بها. لكل تعليمة توجيه، قم بكتابتها في سطر جديد.
فيما يلي بعض الأمثلة الشائعة للأوامر التي يمكنك استخدامها في ملف Robots.txt:
لنفرض أنك تملك موقع والرابط الرسميه https://www.shaghaf-mhn.com/
وهنالك صفحة تسمى glo للدخول لهذه الصفحة تحتاج الانتقال الى هذا الرابط www.shaghaf-mhn.com
اذاً حالياً نريد عمل حظر محركات البحث من الدخول الى هذه الصفحة وأرشفة محتوياته.
ماذا سنفعل؟
Robots.txt:User |
بالتأكيد سنقوم بكتابة التالي داخل ملف Robots.txt:User-agent
Disallow: /glo : Googlebot
في الكود نخبر محرك البحث بعدم أرشفة الصفحة.
يمكننا أن نستخدم علامة النجمة (*) وتعني الكل أي نخبر جميع محركات البحث بعدم أرشفة الصفحة، مثلاً نريد أن يتم تطبيق هذه الكود على جميع محركات البحث، بالتأكيد سنستخدم هذا العلامة بدل كلمة Googlebot ليصبح كالتالي:
User-agent: * Disallow: /blog
لسماح محركات البحث بالوصول إلى موقعك
نستخدم الكود التالي:مربع الكود:
User-agent: *Allow: /
Sitemap: http://www.gredev.net/sitemap.xml
User-agent: *
Allow: /
Sitemap: http://www.gredev.net/sitemap.xml
User-agent: *Allow: /
Sitemap: http://www.gredev.net/sitemap.xml
User-agent: *
Allow: /
Sitemap: http://www.gredev.net/sitemap.xml
في بداية الكود يوجه جميع محركات البحث تطبيق الأمر الذي يليهه وهو في السطر الثاني يقول الكود لمحركات البحث بأنه يسمح للجميع بأرشفة جميع الصفحات الموجودة.
في السطر الثالث وهو الأهم وهو خريطة الموقع مهم جداً حتى تستطيع محركات البحث التعرف والزحف الى موقعك وصفحاتك بسهولة، وذلك من خلال استخدام تعليمة Sitemap ويليها رابط خريطة الموقع
أكواد إضافية
- لمنع محركات البحث من فهرسة جميع الصفحات:
User-agent: * Disallow: /
- للسماح لمحركات البحث بفهرسة جميع الصفحات:
User-agent: * Disallow:
- لمنع محركات البحث من فهرسة مجلد معين:
User-agent: * Disallow: /folder
- لمنع محركات البحث من فهرسة صفحة معينة:
User-agent: * Disallow: /page.html
- للإشارة إلى ملف خريطة الموقع (Sitemap):
Sitemap: https://www.example.com/sitemap.xml
5. بمجرد الانتهاء من كتابة الأوامر، قم بحفظ الملف.
بعد إنشاء ملف Robots.txt، يجب تحميله على المجلد الرئيسي لموقعك باستخدام أداة نقل الملفات عبر FTP أو أي وسيلة أخرى تسمح بتحميل الملفات على الخادم الذي يستضيف موقعك.
يجب التأكد من أن الملف يمكن الوصول إليه بواسطة عناوين URL مثل:"https://www.example.com/robots.txt"
لضمان أن محركات البحث يمكنها العثور عليه وقراءته بشكل صحيح.
نتشرف بتعليقاتكم ووضع آرائكم