Balayeur de sites:
Télécharger toutes les pages web d'un domaine donné ou d'une URL de base.
Indications
Limite de vitesse du balayage
Afin de limiter la charge sur le serveur ciblé, pas plus de 2 pages ne sont chargées par seconde depuis le même hôte (pas plus de 120 documents par minute).
Répartisseur de charge
Un second balayage sur un hôte différent augmente le débit jusqu'à un maximum de 240 documents par minute, puisque le balayeur équilibre la charge entre tous les hôtes.
Balayage à haute vitesse
Un "balayage superficiel" non limité à un seul hôte (ou site)
peut augmenter le nombre de pages par minutes (ppm) jusqu'à récolter un nombre illimité de documents par minute lorsque le nombre d'hôtes ciblés est élevé.
Cela peut être effectué au moyen de cette servlet: démarrer un balayage expert.
Commande du planificateur
Le planificateur de balayage peut être modifié ou supprimé au moyen de la commande de l'API.