Back to Question Center
0

Web Scraping със Семал Експерт

1 answers:

Web scraping, извличане на данни от уебсайтове. Софтуерът за събиране на данни в интернет може да осъществява достъп до уеб директно чрез HTTP или уеб браузър. Макар процесът да може да се изпълнява ръчно от софтуерен потребител, техниката обикновено включва автоматизиран процес, изпълняван чрез уеб робот или бот.

Web scraping е процес, при който структурираните данни се копират от мрежата в локална база данни за преглед и извличане. Това включва извличане на уеб страница и извличане на нейното съдържание. Съдържанието на страницата може да се анализира, претърси, преструктурира и данните се копират в локално устройство за съхранение.

Уеб страниците обикновено са изградени от текстови маркиращи езици като XHTML и HTML, като и двете съдържат по-голямата част от полезните данни под формата на текст. Много от тези уеб сайтове обаче са предназначени за крайни потребители, а не за автоматизирана употреба. Това е причината, поради която е създаден софтуер за скрап.

Има много техники, които могат да бъдат използвани за ефективно остъргване на мрежата. Някои от тях са изработени по-долу:

1. Копие и паста за хора

От време на време дори най-добрият точността и ефективността на ръчното копиране и поставяне на хора..Това се прилага най-вече в ситуации, при които уебсайтовете създават бариери за предотвратяване на автоматизацията на машините.

2. Matching Pattern Matching

Това е доста прост, но мощен подход, използван за извличане на данни от уеб страници. Тя може да се основава на командата UNIX grep или просто на регулярно изразен обект на даден програмен език, например Python или Perl.

3. HTTP програмиране

HTTP програмирането може да се използва както за статични, така и за динамични уеб страници. Данните се извличат чрез публикуване на HTTP заявки към отдалечен уеб сървър, докато се използва програмиране на socket.

4. HTML Parsing

Много сайтове имат сложна колекция от страници, създадени динамично от основен източник на структура, като база данни. Тук данните, принадлежащи към подобна категория, са кодирани в подобни страници. При анализа на HTML програмата обикновено открива такъв шаблон в конкретен източник на информация, извлича съдържанието му и след това го превежда в филиал, наричан обвивка.

В тази техника програмата вгражда в пълнофункционален уеб браузър като Mozilla Firefox или Internet Explorer, за да извлича динамично съдържание, генерирано от скрипта от страна на клиента. Тези браузъри могат също да анализират уеб страници в дървовидна структура в зависимост от програмите, които могат да извлекат части от страниците.

Страниците, които възнамерявате да остъргвате, могат да обхващат семантични маркировки и пояснения или метаданни, които могат да бъдат използвани за намиране на конкретни фрагменти от данни. Ако тези пояснения са вградени в страниците, тази техника може да се разглежда като специален случай на разбор на DOM. Тези пояснения също могат да бъдат организирани в синтактичен слой и след това да се съхраняват и управляват отделно от уеб страниците. Тя позволява на стъргалките да извличат схеми за данни, както и команди от този слой, преди да ги изтрият.

December 6, 2017
Web Scraping със Семал Експерт
Reply