Semalt แบ่งปันวิธีง่ายๆในการดึงข้อมูลจากเว็บไซต์

Web Scraping เป็นวิธียอดนิยมในการรับเนื้อหาจากเว็บไซต์ อัลกอริธึมที่ตั้งโปรแกรมไว้เป็นพิเศษมาที่หน้าหลักของไซต์และเริ่มติดตามลิงก์ภายในทั้งหมดรวมถึงการตกแต่งภายในของ div ที่คุณระบุ ดังนั้นไฟล์ CSV ที่พร้อมจะมีข้อมูลที่จำเป็นทั้งหมดอยู่ในลำดับที่เข้มงวด CSV ที่เป็นผลลัพธ์สามารถใช้สำหรับการสร้างเนื้อหาที่เป็นเอกลักษณ์ในอนาคต และโดยทั่วไปในฐานะที่เป็นตารางข้อมูลดังกล่าวมีคุณค่าอย่างยิ่ง ลองนึกภาพว่ารายการผลิตภัณฑ์ทั้งหมดของร้านก่อสร้างจะแสดงอยู่ในตาราง ยิ่งไปกว่านั้นสำหรับแต่ละผลิตภัณฑ์สำหรับแต่ละประเภทและยี่ห้อของผลิตภัณฑ์ฟิลด์และคุณลักษณะทั้งหมดจะถูกเติม ผู้เขียนคำโฆษณาใด ๆ ที่ทำงานให้กับร้านค้าออนไลน์ยินดีที่จะมีไฟล์ CSV ดังกล่าว

มีเครื่องมือมากมายสำหรับดึงข้อมูลจากเว็บไซต์หรือการขูดเว็บและไม่ต้องกังวลหากคุณไม่คุ้นเคยกับภาษาการเขียนโปรแกรมใด ๆ ในบทความนี้ฉันจะแสดงวิธีที่ง่ายที่สุดวิธีหนึ่ง - การใช้ Scrapinghub

ก่อนอื่นให้ไปที่ scrapinghub.com ลงทะเบียนและเข้าสู่ระบบ

ขั้นตอนถัดไปเกี่ยวกับองค์กรของคุณสามารถข้ามได้

จากนั้นคุณจะไปที่โปรไฟล์ของคุณ คุณต้องสร้างโครงการ

ที่นี่คุณต้องเลือกอัลกอริทึม (เราจะใช้อัลกอริทึม "Portia") และตั้งชื่อโครงการ เราเรียกมันว่าผิดปกติ ตัวอย่างเช่น "111"

ตอนนี้เราเข้าสู่พื้นที่ทำงานของอัลกอริทึมที่คุณต้องการพิมพ์ URL ของเว็บไซต์ที่คุณต้องการดึงข้อมูลออกมา จากนั้นคลิกที่ "New Spider"

เราจะไปที่หน้าเว็บที่จะแสดงเป็นตัวอย่าง ที่อยู่ได้รับการอัพเดทในส่วนหัว คลิก "อธิบายหน้านี้"

เลื่อนเคอร์เซอร์เมาส์ไปทางขวาซึ่งจะทำให้เมนูปรากฏขึ้น ที่นี่เรามีความสนใจในแท็บ "แยกรายการ" ซึ่งคุณต้องคลิก "แก้ไขรายการ"

แต่รายการที่ว่างของสาขาของเราจะปรากฏขึ้น คลิก "+ ฟิลด์"

ทุกอย่างเป็นเรื่องง่ายที่นี่: คุณต้องสร้างรายการของฟิลด์ สำหรับแต่ละรายการคุณต้องป้อนชื่อ (ในกรณีนี้ชื่อและเนื้อหา) ระบุว่าจำเป็นต้องใช้ฟิลด์นี้หรือไม่ ("จำเป็นต้องใช้") และสามารถเปลี่ยนแปลงได้หรือไม่ ("แตกต่างกัน") หากคุณระบุว่ารายการนั้นเป็น "จำเป็น" อัลกอริทึมจะข้ามเพจที่ไม่สามารถเติมฟิลด์นี้ได้ หากไม่ถูกตั้งค่าสถานะกระบวนการสามารถคงอยู่ตลอดไป

ตอนนี้เพียงคลิกที่ฟิลด์ที่เราต้องการและระบุว่ามันคืออะไร:

ทำ? จากนั้นในส่วนหัวของเว็บไซต์คลิก "บันทึกตัวอย่าง" หลังจากนั้นคุณสามารถกลับไปที่พื้นที่ทำงาน ตอนนี้อัลกอริทึมรู้วิธีรับบางสิ่งเราต้องตั้งค่างานให้ ในการทำเช่นนี้คลิก "เผยแพร่การเปลี่ยนแปลง"

ไปที่กระดานงานคลิก "เรียกใช้ Spider" เลือกเว็บไซต์ลำดับความสำคัญและคลิก "เรียกใช้"

ตอนนี้การขูดอยู่ในระหว่างดำเนินการ ความเร็วของมันจะปรากฏขึ้นโดยการชี้เคอร์เซอร์ของคุณตามจำนวนคำขอที่ส่ง:

ความเร็วของการเตรียมสตริงใน CSV โดยการชี้ไปที่หมายเลขอื่น

หากต้องการดูรายการสินค้าที่ทำไปแล้วเพียงคลิกที่หมายเลขนี้ คุณจะเห็นสิ่งที่คล้ายกัน:

เมื่อเสร็จแล้วสามารถบันทึกผลลัพธ์ได้โดยคลิกที่ปุ่มนี้:

แค่นั้นแหละ! ตอนนี้คุณสามารถดึงข้อมูลจากเว็บไซต์โดยไม่มีประสบการณ์ในการเขียนโปรแกรม