Tutorial Scraper Web Chrome de la Semalt Expert

Dacă utilizați Google Chrome, există o extensie pentru browserul dvs., care vă poate ajuta să zgâriați paginile web. Este cunoscut sub numele de '' Scrapper '' și poate fi utilizat fără probleme. Scrapper va ajuta la razuirea conținutului unui site web și la încărcarea rezultatelor în documentele Google.

Cum să scrap un site web folosind extensia Scraper?

1. Selectați Chrome Web Store în Google Chrome;

2. În extensii, efectuați o căutare pentru „Scrapper”;

3. Primul rezultat al căutării este extensia cunoscută sub numele de „Scrapper”;

4. Selectați butonul listat ca „„ Adăugați la Chrome ”;

5. Reveniți la listarea parlamentarilor din Marea Britanie;

6. Faceți clic pe următorul link ;

7. Căutați acum un singur MP și asigurați-vă că intrarea este marcată;

8. Faceți clic dreapta pentru a alege opțiunea „Răzuiți similar ...”;

9. Consola pentru casatorie va apărea într-o altă fereastră;

10. Vizualizați conținutul răzuit în consola razuitorului;

11. Pentru a vă asigura că conținutul este salvat ca fișă de calcul Google, selectați „Salvați în documente Google ...”

Răzuire extinsă

Înainte de a respecta această rețetă, este util să înțelegeți elementele de bază ale HTML-ului. De exemplu, puteți citi o scurtă introducere la HTML prin intermediul acestui link

Să ne imaginăm că ne interesează toate filmele care au jucat Asia Argento, o faimoasă actriță italiană.

1. Există o arhivă foarte detaliată a actorilor din IMDB. Site-ul Asia Argento este: http://www.imdb.com/name/nm0000782/;

2. Aici, puteți vedea toate rolurile jucate de actriță. Haideți să începem să scrapăm informațiile care ne interesează;

3. Încercați să-l zgâriați așa cum a fost descris mai sus;

4. Veți vedea că lista este puțin deformată. Acest lucru se datorează faptului că lista de aici poate fi structurată diferit;

5. Îndreptați-vă spre consola razuitorului. În stânga sus, veți vedea caseta mică care spune XPath;

6. Xpath este un fel de limbaj de interogare care funcționează pentru XML și HTML;

7. XPath vă poate ajuta să localizați părțile din pagina care vă interesează. Următorul lucru este să găsiți un element adecvat și să scrieți XPath pentru acesta;

8. Acum să ne aranjăm masa;

9. Veți vedea că XPath-ul nostru existent, care conține toate datele necesare este „// div [3] / div [3] / div [2] / div”;

10. XPath informează Sistemul pentru a vizualiza documentul HTML și a alege al treilea element, apoi al doilea element și apoi toate;

11. Dar, am dori să avem datele noastre separate;

12. Utilizați secțiunea coloane din consolă pentru scrapper pentru a face acest lucru;

13. Să găsim mai întâi titlul nostru – Folosiți Inspect Element pentru a vizualiza titlul;

14. Verificați titlul în cadrul unei etichete. Adăugați eticheta la XPath;

15. Expresia pare să funcționeze corespunzător, deci face-o prima noastră coloană;

16. În secțiunea „Coloane”, înlocuiți numele primei coloane cu „titlu”;

17. Adăugați XPath la el;

18. În secțiunea de coloane, XPath-urile sunt relative și înseamnă că „./b” va alege elementul <b>

19. În XPath pentru coloana de titlu, adăugați „./b” și selectați „razuit”;

20. Acum să continuăm un an. Anii pot fi găsiți într-un interval;

21. Creați o nouă coloană selectând plusul mic de lângă coloana pentru titlul dvs.;

22. Folosind XPath "./span" creați o coloană pentru "an";

23. Faceți clic pe răzuit și vizualizați cum a fost adăugat anul;

24. Gata!