Semalt: HTML-nusxalash bo'yicha qo'llanma - eng yaxshi maslahatlar

Veb-tarkib asosan tuzilgan yoki HTML formatida. Har bir sahifa undagi tarkib turiga qarab o'ziga xos tarzda tashkil etiladi. Agar kimdir veb-ma'lumotni olishni istasa, har kimning ma'lumotlarini tizimli va yaxshi tashkil etilgan tarzda olishni istaydi. Bu hujjatni almashishdan oldin uni ko'rib chiqish, tahlil qilish va tashkillashtirish uchun zarur bo'lgan vaqtni tejashga yordam beradi. Ammo, tuzilgan formatga ega bo'lish oson emas, chunki ko'pchilik veb-saytlar odamlarning katta hajmdagi ma'lumotlarni olishiga yo'l qo'ymaslik uchun bunday imkoniyatni taklif qilmaydi. Ammo ba'zi saytlar odamlar uchun tez va oson jarayonda ma'lumot olish imkoniyatini beradigan API-larni taqdim etadi.

Bunday holatlarda sizda hurda deb nomlanuvchi dasturiy ta'minot yordamidan foydalanishdan boshqa iloji qolmaydi. Bu foydalanuvchilarga ma'lumotni foydali formatda to'plashga va ma'lumotlarning tuzilishini saqlashga yordam beradigan kompyuter dasturidan foydalanadigan yondashuv.

Lxml va so'rov

Bu keng qamrovli qirqish kutubxonasi bo'lib, u XML va HTML ni tezkor tahlil qilish va baholashga yordam beradi va vaqtni tejashga yordam beradi. Bundan tashqari, tahlil jarayonida tartibsiz teglar bilan ishlashda foydali bo'ladi. Ushbu protsedurada siz ichki urllib2 o'rniga Lxml so'rovlaridan foydalanasiz, chunki u tezkor, bardoshli va tayyor. Lxml va pip o'rnatish so'rovlaridan foydalanib, uni o'rnatish juda oson.

HTMLni qirqish uchun quyidagi amallarni bajaring

Import qilish bilan boshlang - bu erda siz Lxml-dan HTML-ni import qilasiz, keyin so'rovni import qiling. So'rovdan foydalaning va so'ng siz ajratib olishni istagan ma'lumotni o'z ichiga olgan veb-sahifani kuzatib boring, uni HTML moduli yordamida tahlil qiling va tahlil qilingan ma'lumotlarni daraxtda saqlang.

HTML baytlarda kirishni qabul qilishini kutganligi uchun siz matndan emas, balki sahifadan tarkibni ishlatishingiz kerak. Siz tahlil qilgan ma'lumotni saqlagan daraxt hozirda HTML tuzilishini daraxt tarkibiga kiritadi. Siz daraxt tuzilishini turli xil yondashuvlar orqali o'tishingiz mumkin, XPath va CSSelect.

XPath sizga ma'lumotlarni to'plash yoki HTML yoki XML kabi tuzilgan formatda olishda yordam beradi. XPath elementlarini olishning turli xil usullari mavjud. Bularga Firefox yoki Chrome Inspector uchun Firebug kiradi. Chrome-dan foydalanganda ma'lumotni tekshirish oson, chunki tekshirishni talab qiladigan elementni "sichqonchani" bosish, "Tekshirish elementini" belgilash, berilgan kodni ajratib ko'rsatish, so'ng o'ng tugmani bosib XPath-ni tanlash kerak. Ushbu jarayon sizning sahifangizda qanday elementlar mavjudligini bilib olishga yordam beradi va u erdan, to'g'ri XPath so'rovini yaratish va Lxml XPath-ni to'g'ri qo'llash oson.

Ushbu amallarni bajarish Lxml va Requests-dan foydalanib, ma'lum bir veb-saytdan olishni istagan barcha ma'lumotlarni qirqib olganingizni ta'minlaydi. Siz ikkita ro'yxat xotirasida ma'lumotga ega bo'lasiz va endi saralashga tayyor. Siz uni Python kabi dasturlash tili yordamida tahlil qilishingiz yoki saqlashingiz va ulashishingiz mumkin. Shuningdek, ma'lumotni almashishdan oldin uning ba'zi qismlarini qayta yozishni yoki tahrirlashni xohlashingiz mumkin.

mass gmail