एक मोठी साइट क्रॉल कशी करावी आणि स्क्रिमिंग फ्रॉगच्या एसईओ स्पायडरचा वापर करुन डेटा कसा काढावा

किंचाळणे एसईओ स्पायडर

आम्ही आत्ता कित्येक ग्राहकांना मदत करत आहोत मार्केटो स्थलांतर. मोठ्या कंपन्या यासारख्या एंटरप्राइझ सोल्यूशन्सचा उपयोग करीत असताना, हा एक कोळीच्या जाळ्यासारखा आहे जो वर्षानुवर्षे प्रक्रियेत आणि प्लॅटफॉर्ममध्ये विणला जातो… जोपर्यंत कंपन्यांना प्रत्येक टचपॉईंटबद्दल माहिती नसते तोपर्यंत.

मार्केटो सारख्या एंटरप्राइझ मार्केटिंग ऑटोमेशन प्लॅटफॉर्मसह, फॉर्म साइट्स आणि लँडिंग पृष्ठांवर डेटाचा प्रवेश बिंदू आहेत. कंपन्यांकडे बर्‍याचदा त्यांच्या साइटवर हजारो पृष्ठे आणि शेकडो फॉर्म असतात ज्यांना अद्ययावत करण्यासाठी ओळखले जाणे आवश्यक असते.

या साठी एक उत्तम साधन आहे ओरडत बेडूक एसईओ स्पायडर… कदाचित साइटवरून क्रॉलिंग, ऑडिटिंग आणि डेटा काढण्यासाठी बाजारातील सर्वात लोकप्रिय प्लॅटफॉर्म. प्लॅटफॉर्म वैशिष्ट्य समृद्ध आहे आणि आपल्याला आवश्यक असलेल्या प्रत्येक कार्यासाठी शेकडो पर्याय उपलब्ध आहेत.

ओरडणारा फ्रॅग एसईओ स्पायडर: क्रॉल आणि एक्सट्रॅक्ट

स्क्रिमिंग फ्रॉग एसईओ स्पायडरची एक मुख्य वैशिष्ट्य म्हणजे आपण आधारित सानुकूल माहिती काढू शकता रेजेक्स, एक्सपथकिंवा CSSPath वैशिष्ट्य. आम्ही क्लायंटच्या साइट क्रॉल करू इच्छितो आणि पृष्ठे वरून मुंचकीनआयडी आणि फॉर्मआयडी मूल्ये कॅप्चर करू इच्छितो तेव्हा हे अत्यंत उपयुक्त ठरते.

टूलसह, उघडा कॉन्फिगरेशन> सानुकूल> माहिती आपण काढू इच्छित असलेले घटक ओळखण्यासाठी.

screamingfrog सानुकूल माहिती

माहिती स्क्रीन अक्षरशः अमर्यादित डेटा संकलनास अनुमती देते:

किंचाळणे एसईओ स्पायडर एक्सट्रॅक्शन नियम

रेजेक्स, एक्सपथ आणि सीएसएसपाथ एक्सट्रॅक्शन

मुंचकीनआयडीसाठी, अभिज्ञापक पृष्ठामधील फॉर्म स्क्रिप्टमध्ये स्थित आहे:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

त्यानंतर आम्ही ए रेजेक्स नियम पृष्ठामध्ये घातलेल्या स्क्रिप्ट टॅगमधून आयडी कॅप्चर करण्यासाठी:

Regex: ["']id["']: *["'](.*?)["']

फॉर्म आयडीसाठी, डेटा मार्केटो फॉर्ममधील इनपुट टॅगमध्ये आहे:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

आम्ही एक लागू एक्सपाथ नियम पृष्ठामध्ये समाविष्ट केलेल्या फॉर्ममधूनच आयडी कॅप्चर करण्यासाठी. एक्सपथ क्वेरी नावाच्या इनपुटसह एक फॉर्म शोधते फॉर्मिड, नंतर माहिती जतन करते मूल्य:

XPath: //form/input[@name="formid"]/@value

किंचाळणे एसईओ स्पायडर जावास्क्रिप्ट रेंडरिंग

स्क्रिमिंग फ्रॉगचा आणखी एक चांगला पर्याय म्हणजे आपण पृष्ठावरील HTML पर्यंत मर्यादित नाही, आपण आपल्या साइटवर फॉर्म समाविष्ट करण्यासाठी कोणतीही जावास्क्रिप्ट प्रस्तुत करू शकता. आत कॉन्फिगरेशन> कोळी, आपण प्रस्तुत टॅबवर जाऊन हे सक्षम करू शकता.

किंचाळणे एसईओ स्पायडर जावास्क्रिप्ट रेंडरिंग

या साइटला रेंगाळण्यास थोडा जास्त वेळ लागतो, अर्थातच, परंतु आपल्याला जावास्क्रिप्टद्वारे क्लायंट-साइड रेन्डर केलेले फॉर्म तसेच सर्व्हर-साइड समाविष्ट केलेले फॉर्म प्राप्त होतील.

हा एक अत्यंत विशिष्ट अनुप्रयोग आहे, परंतु आपण मोठ्या साइट्सवर कार्य करीत असल्याने हे आश्चर्यकारकपणे उपयुक्त आहे. आपले फॉर्म संपूर्ण साइटमध्ये कुठे एम्बेड केलेले आहेत हे आपल्याला पूर्णपणे ऑडिट करायचे आहे.

स्क्रीमिंग फ्रॉग एसईओ स्पायडर डाउनलोड करा

तुला काय वाटत?

ही साइट स्पॅम कमी करण्यासाठी अकिस्मेट वापरते आपल्या टिप्पणी डेटावर प्रक्रिया कशी केली जाते ते जाणून घ्या.