Semalt- ը առաջարկում է վեբ էջերը քերծելու 5 քայլ

Scrapy- ը տարբեր աղբյուրներից տեղեկատվության ստացման բաց աղբյուր է և շրջանակ: Այն օգտագործում է API- ներ և գրված է Python- ում: Scraping- ը ներկայումս պահպանում է վեբ scraping ընկերությունը, որը կոչվում է Scrapinghub Ltd.

Դա պարզ ձեռնարկ է, թե ինչպես գրել վեբ սողացողներ ՝ օգտագործելով Scrapy, parse Craigslist և տեղեկատվություն պահպանել CSV ձևաչափով: Այս ձեռնարկի հինգ հիմնական քայլերը նշվում են ստորև.

1. Ստեղծեք Scrapy- ի նոր նախագիծ

2. Գրեք սարդ ՝ վեբ կայք սողալու և տվյալներ հանելու համար

3. Արտահանեք քերծված տվյալները `օգտագործելով հրամանի տողը

4. Փոխեք սարդը ՝ հղումներին հետևելու համար

5. Օգտագործեք spider փաստարկներ

1. Ստեղծեք նախագիծ

Առաջին քայլը նախագիծ ստեղծելն է: Դուք պետք է ներբեռնեք և տեղադրեք Scrapy: Իր որոնման բարում դուք պետք է մուտքագրեք գրացուցակի անունը, որտեղ ցանկանում եք պահել տվյալները: Scrapy- ն օգտագործում է տարբեր սարդեր ՝ տեղեկատվություն ստանալու համար, և այդ սարդերը նախնական խնդրանքներ են տալիս գրացուցակներ ստեղծելու համար: Սարդը աշխատելու համար հարկավոր է այցելել գրացուցակների ցուցակը և այնտեղ տեղադրել հատուկ կոդ: Ուշադրություն դարձրեք ֆայլերին ձեր ընթացիկ գրացուցակում և նկատեք երկու նոր ֆայլ ՝ quotes-a.html և quotes-b.html:

2. Գրեք սարդ ՝ վեբ կայք սողալու և տվյալներ հանելու համար.

Սարդի և տվյալների հանման լավագույն միջոցը Scrapy- ի կճեպում տարբեր ընտրիչների ստեղծումն է: Դուք միշտ պետք է կցեք URL- ները քվոտներով: հակառակ դեպքում, Scrapy- ն անմիջապես կփոխի այդ URL- ների բնույթը կամ անունները: Սարդը պատշաճ կերպով գրելու համար դուք պետք է օգտագործեք կրկնակի գնանշումներ URL- ի շուրջ: Պետք է օգտագործել.extract_first () և խուսափել ինդեքսի սխալից:

3. Արտահանեք քերծված տվյալները `օգտագործելով հրամանի տողը.

Կարևոր է արտահանել ջնջված տվյալները ՝ օգտագործելով հրամանի տողը: Եթե այն չես արտահանում, ճշգրիտ արդյունք չեք ստանա: Սարդը կստեղծի օգտակար տեղեկություններ պարունակող տարբեր դիրեկտորիաներ: Այս տեղեկատվությունն ավելի լավ եղանակով արտահանելու համար դուք պետք է օգտագործեք եկամտաբեր Python հիմնաբառեր: Հնարավոր է տվյալների ներմուծում JSON ֆայլերի մեջ: JSON ֆայլերը օգտակար են ծրագրավորողների համար: JQ- ի նման գործիքները օգնում են արտահանել քերծված տվյալներն առանց որևէ խնդիրների:

4. Փոխեք սարդը ՝ հղումներին հետևելու համար.

Փոքր նախագծերում դուք կարող եք փոխել սարդերը ՝ համապատասխան հղումներին համապատասխան հետևելու համար: Բայց դա անհրաժեշտ չէ մեծ քանակությամբ տվյալների ջարդման նախագծերով: Spider- ը փոխելիս կկառուցվի Իրերի խողովակաշարերի տեղադրման վայրի ֆայլ: Այս ֆայլը կարող է տեղակայվել ձեռնարկի / piplines.py բաժնում: Scrapy- ի միջոցով դուք կարող եք կառուցել բարդ սարդեր և ցանկացած պահի փոխել դրանց գտնվելու վայրը: Կարող եք միանգամից մի քանի կայքեր արդյունահանել և իրականացնել տարբեր արդյունահանման նախագծեր:

5. Օգտագործեք spider փաստարկներ.

Parse_author հետադարձ կապը սարդի փաստարկ է, որը կարող է օգտագործվել դինամիկ կայքերից տվյալներ հանելու համար: Կարող եք նաև հրամանի գծի փաստարկներ տրամադրել սարդերին հատուկ կոդով: Սարդի փաստարկները ոչ մի ժամանակ դառնում են սարդի ատրիբուտներ և փոխում են ձեր տվյալների ընդհանուր տեսքը:

Այս ձեռնարկում մենք ընդգրկեցինք միայն Scrapy- ի հիմունքները: Այս գործիքի համար կան շատ առանձնահատկություններ և տարբերակներ: Դուք պարզապես պետք է ներբեռնեք և ակտիվացնեք Scrapy- ը `դրա առանձնահատկությունների մասին ավելին իմանալու համար: