ما هو تجريف الويب؟ كل ما تحتاج معرفته حول عملية جمع البيانات الآلية من مواقع الويب؟

كشط أو تجريف الويب هو الاسم الذي يطلق على عملية استخراج البيانات المنظمة من مواقع ويب الجهات الخارجية. بمعنى آخر ، إنها طريقة لالتقاط معلومات محددة من موقع ويب واحد أو أكثر دون نسخ المعلومات غير المرغوب فيها أو غير ذات الصلة. إنها ممارسة شائعة لها الكثير من التطبيقات المحتملة وملف تعريف قانوني غامض.

ماذا تعرف عن تجريف الويب

عادةً ما يكون تجريف الويب عملية آلية ، ولكن لا يجب أن تكون كذلك ؛ يمكن استخراج البيانات من مواقع الويب يدويًا بواسطة البشر ، على الرغم من أن ذلك بطيء وغير فعال. بشكل أكثر شيوعًا ، يتم تنفيذ الكشط بواسطة برنامج مصمم خصيصًا لهذا التطبيق ، بشكل عام في مكونين رئيسيين. الزاحف هو برنامج يتصفح الإنترنت ويفهرس المحتوى محل الاهتمام ، ويمرر هذه المعلومات إلى الكاشطة.

تم تصميم الكاشطة لتحديد موقع المعلومات المنظمة ذات الصلة باستخدام علامات تسمى محددات البيانات. تشير محددات المواقع هذه إلى وجود البيانات ، والتي تقوم أداة الكشط بعد ذلك باستخراجها وتخزينها في وضع عدم الاتصال في جدول بيانات أو قاعدة بيانات للمعالجة أو التحليل.

أحد الأمثلة البسيطة على تجريف الويب: ضع في اعتبارك موقع ويب يجمع معلومات التسعير لمنتجات البيع بالتجزئة حتى يتمكن المتسوقون من معرفة بائعي التجزئة الذين لديهم أفضل الأسعار. يمكن برمجة أداة الكاشطة لفهرسة صفحات المنتج في كل بائع تجزئة رئيسي ، مع قيام الكاشطة بعد ذلك بزيارة كل صفحة واستخدام محددات البيانات للوصول إلى حقل السعر فقط وتجاهل جميع البيانات الأخرى الموجودة على الصفحة – وصف المنتج ، والمراجعات ، و حالا. يمكن تشغيل الكاشطة يوميًا لتحديث صفحة الويب بأحدث معلومات التسعير من جميع أنحاء الويب.

كيف يتم استخدام تجريف الويب

نظرًا لوجود مجموعة كبيرة ومتنوعة من البيانات عبر الإنترنت ، هناك مجموعة متنوعة من تطبيقات تجريف الويب. فيما يلي بعض الاستخدامات الأكثر شيوعًا:

  • معلومات السعر: مثل المثال أعلاه ، تم تصميم العديد من أدوات كشط الويب لمراقبة الأسعار من مواقع البيع بالتجزئة. قد يستخدم تجار التجزئة هذا لمراقبة الأسعار في مواقع المنافسين ، أو يمكن استخدام البيانات للتحليل التنافسي أو مراقبة الاتجاهات أو كخدمة للمستخدمين الآخرين.
  • العقارات: وبالمثل ، تستهدف برامج كاشطات الويب عادةً مواقع العقارات لمراقبة أسعار الإيجار والبيع ، وتقييم قيم العقارات في منطقة معينة ، وإجراء تحليل للسوق.
  • توليد العملاء المحتملين: يستخدم المسوقون عادةً تجريف الويب لتوليد عملاء محتملين عن طريق استخراج البيانات المنظمة من مواقع الويب مثل لينكد ان.
  • تحليل المشاعر: حتى أن العلامات التجارية تستخدم تجريف الويب لفهم كيفية الحديث عن منتجاتها وخدماتها عبر الإنترنت. يمكن للشركات جمع البيانات التي تشير إلى اسمها من مواقع التواصل الاجتماعي مثل فيسبوك و تويتر.

شرعية تجريف الويب

لا توجد إجابة سهلة لمسألة شرعية تجريف الويب. واجهت هذه التكنولوجيا عددًا من التحديات القانونية التي يعود تاريخها إلى عام 2000 ، عندما قدم موقع المزادات على الإنترنت eBay أمرًا قضائيًا (تم منحه من قبل المحكمة) ضد موقع يسمى Bidder’s Edge لإلغاء بيانات مزاده.

في السنوات التي تلت ذلك ، كان هناك عدد من التحديات الإضافية للتجريد من الويب ، ولكن في عام 2017 خسر لينكد ان دعوى ضد شركة كانت تلغي محتواها. مع وجود بعض السوابق في المحاكم سواء مع أو ضد تجريف الويب ، فهي حاليًا ممارسة شائعة عبر الإنترنت.