Semalt - ویب صفحات کو کھرچنے کا طریقہ؟

خوبصورت سوپ ایک ازگر لائبریری ہے جو XML اور HTML دستاویزات سے پارس ٹری بنا کر ویب صفحات کو کھرچنے کے لئے وسیع پیمانے پر استعمال ہوتا ہے۔ ویب سکریپنگ ، ویب سائٹوں اور صفحات سے ڈیٹا نکالنے کی ایک تکنیک ، ڈیٹا تجزیہ اور نظم و نسق کے شعبوں میں وسیع پیمانے پر استعمال ہوتی ہے۔ زیادہ تر معاملات میں ، ڈیٹا سائنس میں ازگر کی پروگرامنگ زبان ایک شرط ہے۔

ازگر 3 میں سکریپنگ کے ٹولز اور ماڈیولز ہیں جو آپ اپنے ڈیٹا مینجمنٹ پراجیکٹ پر لاگو کرسکتے ہیں۔ فی الحال خوبصورت سوپ 4 کے طور پر چل رہا ہے ، یہ ماڈیول ازگر 3 اور ازگر 2.7 دونوں کے ساتھ مطابقت رکھتا ہے۔ خوبصورت سوپ 4 ماڈیول غیر بند ٹیگ سوپ کیلئے پارس ٹری بنانے کی صلاحیت رکھتا ہے۔ اس ٹیوٹوریل میں ، آپ یہ سیکھیں گے کہ کس طرح صفحے کو کھرچنا ہوگا اور اسکریپڈ ڈیٹا کو کسی CSV فائل میں لکھنا ہے۔

شروع ہوا چاہتا ہے

شروع کرنے کے لئے ، اپنے کمپیوٹر پر سرور یا لوکل پر مبنی ازگر کوڈنگ ماحول تیار کریں۔ آپ کو اپنی مشین پر خوبصورت سوپ اور درخواستوں کا ماڈیول بھی انسٹال کرنا چاہئے۔ دونوں ماڈیولز کے ساتھ کام کرنے کا علم بھی ضروری شرط ہے۔ ایچ ٹی ایم ایل ٹیگنگ اور ڈھانچہ سے واقفیت بھی ایک اضافی فائدہ ہے۔

اپنے ڈیٹا کو سمجھنا

اس تناظر میں ، آرٹ کی نیشنل گیلری سے حاصل کردہ اعداد و شمار کا استعمال آپ کو یہ سمجھنے میں مدد ملے گا کہ خوبصورتی سوپ 4 کو کس طرح استعمال کیا جائے۔ نیشنل گیلری ، آرٹ میں 120،000 ٹکڑوں پر مشتمل ہے جو تقریبا 13،000 فنکاروں کے ذریعہ کیا گیا ہے۔ یہ آرٹ واشنگٹن ڈی سی ، ریاستہائے متحدہ میں واقع ہے۔

خوبصورت سوپ کے ساتھ ویب ڈیٹا نکالنا اتنا پیچیدہ نہیں ہے۔ مثال کے طور پر ، اگر آپ Z Z پر توجہ مرکوز کرتے ہیں تو ، فہرست میں پہلا نام نشان زد کریں اور نوٹ کریں۔ اس معاملے میں ، پہلا نام زباگلیا ، نکولا ہے۔ مستقل مزاجی کے ل that ، اس صفحے پر صفحات کی تعداد اور آخری فنکار کا نام بتائیں۔

درخواستوں اور خوبصورت سوپ لائبریری کو کیسے درآمد کریں

لائبریریوں کو درآمد کرنے کے ل your ، اپنا ازگر 3 پروگرامنگ ماحول چالو کریں۔ یہ یقینی بنانے کے ل Check چیک کریں کہ آپ اپنے پروگرامنگ ماحول کے ساتھ اسی ڈائرکٹری میں ہیں۔ شروع کرنے کے لئے درج ذیل کمانڈ کو چلائیں۔ my_env / bin / چالو کرنا۔

ایک نئی فائل بنائیں اور خوبصورت سوپ اور درخواستوں کی لائبریریوں کو درآمد کرنا شروع کریں۔ درخواستوں کی لائبریری آپ کو اپنے ازگر پروگراموں میں پڑھنے کے قابل فارمیٹس میں HTTP استعمال کرنے کی اجازت دے گی۔ دوسری طرف ، خوبصورت سوپ صفحات کو تیزی سے کھرچنے کا کام کرتا ہے۔ خوبصورت سوپ کو درآمد کرنے کے لئے bs4 کا استعمال کریں۔

کسی ویب صفحہ کو جمع اور تجزیہ کرنے کا طریقہ

درخواستوں کے استعمال سے آپ کے پہلے صفحے کا URL جمع ہوتا ہے۔ پہلے صفحے کا URL متغیر صفحے پر تفویض کیا جائے گا۔ درخواستوں سے ایک بیوٹیشل سوپ آبجیکٹ بنائیں اور ازگر کے پارسر سے اس آبجیکٹ کو پارس کریں۔

اس ٹیوٹوریل میں ، مقصد لنکس اور فنکاروں کے نام اکٹھا کرنا ہے۔ مثال کے طور پر ، آپ فنکاروں کی تاریخوں اور قومیتوں کو جمع کرسکتے ہیں۔ ونڈوز صارفین کے لئے ، مصور کے پہلے نام پر دائیں کلک کریں۔ اس صورت میں ، زباگلیہ ، نیکولا استعمال کریں۔ میک OS صارفین کے لئے ، "CTRL" کو تھپتھپائیں اور نام پر کلک کریں۔ ویب ڈویلپرز کے اوزار تک رسائی حاصل کرنے کے ل your "اسکیم عنصر" مینو پر کلک کریں جو آپ کی سکرین پر پاپ اپ ہوتا ہے۔ خوبصورتی سوپ کے درخت کو جلدی سے پارس کرنے کے لئے مصور کے نام پرنٹ کریں۔

نیچے کے لنکس کو ہٹانا

اپنے ویب پیج پر نیچے والے لنکس کو دور کرنے کے ل the ، عنصر پر دائیں کلک کرکے DOM کا معائنہ کریں۔ آپ شناخت کریں گے کہ لنکس کسی HTML ٹیبل کے نیچے ہیں۔ خوبصورت سوپ کا استعمال کرتے ہوئے ، پارس درخت سے ٹیگس کو ہٹانے کے لئے "سڑنے والے طریقہ" کا استعمال کریں۔

کسی ٹیگ سے مواد کیسے کھینچیں

آپ کو پورے لنک والے ٹیگ کو پرنٹ کرنے کی ضرورت نہیں ہے ، ٹیگ سے مواد نکالنے کے لئے خوبصورت سوپ استعمال کریں گے۔ آپ آرٹسٹوں سے وابستہ یو آر ایل کو بیوٹیفل سوپ 4 استعمال کرکے بھی حاصل کرسکتے ہیں۔

کسی CSV فائل میں سکریپڈ ڈیٹا کی گرفت

CSV فائل آپ کو سادہ متن میں سنجیدہ اعداد و شمار کو ذخیرہ کرنے کی اجازت دے گی ، ایک شکل جس میں زیادہ تر ڈیٹا شیٹس کے لئے استعمال کیا جاتا ہے۔ ازگر میں سادہ متن فائلوں کو سنبھالنے کے بارے میں علم کی سفارش کی جاتی ہے۔

ویب ڈیٹا نکالنے کا استعمال صفحات کو کھرچنے اور معلومات حاصل کرنے کے لئے کیا جاتا ہے۔ ان ویب سائٹوں پر غور کریں جن سے آپ معلومات نکال رہے ہیں۔ کچھ متحرک ویب سائٹیں اپنی سائٹوں پر ویب ڈیٹا نکالنے پر پابندی عائد کرتی ہیں۔ خوبصورت سوپ اور ازگر 3 کے ساتھ صفحہ کھرچنا اتنا آسان ہے۔