वर्डप्रेस के लिए एक प्रभावी स्पाइडर ब्लॉक

यदि यह मकड़ियों के लिए नहीं थे, तो हम वेब सामग्री खोजने के लिए Google को खोज नहीं पाएंगे। स्पाइडर वे रोबोट होते हैं जो वेब और इंडेक्स को सब कुछ दिखाते हैं जो वे पाते हैं ताकि जब आप वर्डप्रेस पर लेखों की खोज करना चाहते हैं, तो यह जानता है कि वे लेख कहां हैं और आपको उन्हें निर्देशित कर सकते हैं। हालाँकि, आपको स्पाइडर इंडेक्स वर्डप्रेस नहीं देना है, और वर्डप्रेस के लिए एक प्रभावी स्पाइडर ब्लॉक बनाने का एक आसान तरीका है जो प्रतिष्ठित कंपनियों के मकड़ियों को ब्लॉक करता है। एक और भी अधिक प्रभावी मकड़ी ब्लॉक में कुछ सेटअप और खराब मकड़ियों को पहचानने और अवरुद्ध करने की प्रक्रिया शामिल है जो आपके निर्देशों और सूचकांक वेब सामग्री को अनदेखा करते हैं जिन्हें आपने मकड़ियों के लिए ऑफ-लिमिट के रूप में नामित किया है।

robots.txt

जब कोई मकड़ी आपके वर्डप्रेस साइट पर जाती है, तो सबसे पहले उसे "robots.txt" फ़ाइल को पढ़ना चाहिए। इस फ़ाइल में ऐसे नियम हैं जो उन फ़ाइलों और निर्देशिकाओं को निर्दिष्ट करते हैं जो या तो सभी मकड़ियों या व्यक्तिगत रूप से नामित मकड़ियों द्वारा अनुक्रमित नहीं की जा सकती हैं या नहीं। एक मकड़ी फ़ाइल या एक वाइल्डकार्ड में अपना अनूठा "उपयोगकर्ता-एजेंट" कोड पाता है जो "सभी मकड़ियों" को इंगित करता है। इसके बाद उन फ़ाइलों और निर्देशिकाओं की सूची को पढ़ता है जिन्हें या तो अनुमति दी गई है या अस्वीकृत है। इसके बाद, यह साइट के केवल उन हिस्सों को अनुक्रमणित करना शुरू करता है जिन्हें इसे अनुक्रमणित करने की अनुमति है।

मकड़ियों को अवरुद्ध करना

आप अपने वर्डप्रेस रूट डायरेक्टरी में "robots.txt" फाइल बनाकर और साइट के रूट डाइरेक्टरी के अनुक्रमण को रोकने वाले नियम को निर्दिष्ट करके वर्डप्रेस के लिए एक प्रभावी स्पाइडर ब्लॉक बना सकते हैं। यह स्वचालित रूप से रूट के किसी भी उपनिर्देशिका के अनुक्रमण को अस्वीकार करता है। फ़ाइल में, आपको यह भी निर्दिष्ट करना चाहिए कि यह नियम सभी मकड़ी उपयोगकर्ता-एजेंट कोड पर लागू होता है। आपकी साइट पर जाने वाले प्रत्येक मकड़ी को फ़ाइल को पढ़ना चाहिए और आपकी साइट के किसी भी हिस्से को अनुक्रमित किए बिना छोड़ देना चाहिए। उदाहरण के लिए, "robots.txt" फ़ाइल को इस तरह दिखना चाहिए:

उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /

अच्छा और बुरा मकड़ियों

अच्छी स्पाइडर हैं और खराब स्पाइडर हैं। अच्छी मकड़ियों Google, याहू या माइक्रोसॉफ्ट जैसी प्रतिष्ठित कंपनियों से हैं और आपकी "robots.txt" फ़ाइल में नियमों का पालन करती हैं। खराब मकड़ियों व्यक्तियों या कंपनियों से हैं जो जानबूझकर "robots.txt" फ़ाइल को अनदेखा करते हैं और संभावित रूप से आपकी साइट की पूरी सामग्री को अनुक्रमणित करते हैं चाहे आप अनुमति दें या अस्वीकार करें। ये रोबोट कभी-कभी विशिष्ट जानकारी खोजते हैं जैसे ईमेल पते, स्पैमर्स को बेचने के लिए, या उपयोगकर्ताओं के बारे में व्यक्तिगत जानकारी, अन्य कंपनियों को बेचने के लिए। मकड़ियों ने आपकी पूरी साइट को छान मारा, ऐसी जानकारी या सामग्री की तलाश में जिसे आपने ठीक से छिपाया या संरक्षित नहीं किया है। अलग-अलग वेबमास्टर्स के पास दुष्ट मकड़ियों से निपटने के विभिन्न तरीके हैं। कुछ बस यह पहचानने की कोशिश करते हैं कि वे कौन हैं और उन्हें साइट में सामग्री को अनुक्रमित करने से रोकते हैं। अन्य लोग मकड़ी के डेटाबेस को नकली जानकारी के साथ या मकड़ी को एक अंतहीन लूप में धोखा देकर नुकसान पहुंचाने की कोशिश करते हैं जो या तो इसे छोड़ देता है या गर्भपात कर देता है।

शहद का बर्तन

एक हनीपोट या टारपिट एक तकनीक है जिसका उपयोग कुछ वेबमास्टरों द्वारा दुष्ट मकड़ियों की पहचान करने के लिए किया जाता है ताकि उन्हें अवरुद्ध किया जा सके। आप केवल एक निर्देशिका जोड़कर एक हनीपॉट बना सकते हैं जिसमें नकली सामग्री होती है, जैसे कि ईमेल पते, और विशेष रूप से "robots.txt" फ़ाइल में उस निर्देशिका को अस्वीकार करना। सर्वर लॉग आपको बताएगा कि किन मकड़ियों ने डायरेक्टरी को एक्सेस किया है, और आप उनके उपयोगकर्ता-एजेंट स्ट्रिंग और आईपी एड्रेस को रिकॉर्ड कर सकते हैं। उस जानकारी के साथ, आप वर्डप्रेस "htaccess" फ़ाइल में नियम बना सकते हैं जो इन दुष्ट मकड़ियों तक पहुंच से इनकार करते हैं। नए दुष्ट रोबोट को आपकी साइट तक पहुंचने से पकड़ने के लिए हनीपोट को नियमित आधार पर नियमित रूप से जांचना आवश्यक है।

लोकप्रिय पोस्ट