StormCrawler je otvorená súprava SDK na vytváranie distribuovaných webových prehľadávačov s Apache Storm.Projekt je pod licenciou Apache v2 a pozostáva zo zbierky opakovane použiteľných zdrojov a komponentov, písaných väčšinou v jazyku Java.Cieľom StormCrawleru je pomôcť pri vytváraní webových prehľadávačov, ktoré sú: škálovateľné odolné nízkej latencie ľahko rozšíriteľné zdvorilé, ale efektívne StormCrawler je knižnica a zbierka zdrojov, ktoré vývojári môžu využiť na zostavenie svojich vlastných prehľadávačov.Dobrou správou je, že to môže byť celkom jednoduché.Jediné, čo musíte urobiť, bude vyhlásiť búrkový prehľadávač ako závislosť od Maven, napísať svoju vlastnú triedu topológie (tip: môžete rozšíriť ConfigurableTopology), znova použiť komponenty poskytnuté v rámci projektu a prípadne napísať pár vlastných.pre vlastnú tajnú omáčku.Trochu vylepšenia konfigurácie a môžete ísť! ... Okrem základných komponentov poskytujeme niektoré externé zdroje, ktoré môžete vo svojom projekte opakovane použiť, ako napríklad náš výtok a skrutky pre ElasticSearch alebo ParserBolt, ktorý používa Apache Tika.analyzovať rôzne formáty dokumentov.StormCrawler je dokonale vhodný na použitie v prípadoch, keď adresa URL, ktorá sa má načítať a analyzovať, prichádza ako stream, ale je tiež vhodným riešením pre rozsiahle rekurzívne indexové prehľadávanie, najmä tam, kde sa vyžaduje nízka latencia.Projekt využíva niekoľko spoločností vo výrobe a aktívne sa vyvíja a udržiava.