Paramètres de crawl

Configurez le comportement du crawler pour l'adapter à vos besoins.

Paramètres généraux

Limite de pages

Définit le nombre maximum de pages à crawler.

Plan	Limite
Free	500 pages
Pro	100 000 pages

Concurrence

Nombre de requêtes simultanées. Une valeur plus élevée accélère le crawl mais peut surcharger le serveur cible.

Faible (2) : Sites fragiles
Normale (5) : Valeur par défaut
Élevée (10) : Sites robustes

Délai entre requêtes

Temps d'attente entre chaque requête. Augmentez si le site cible vous bloque.

Découverte de pages

Sources de découverte

Liens HTML : Suit les balises <a href>
Sitemaps : Parse les fichiers sitemap.xml
Robots.txt : Respecte les directives

Filtres d'URL

Excluez certaines URLs du crawl :

/admin/*
/api/*
*.pdf

Rendu JavaScript

Voir Rendu JavaScript pour la configuration détaillée.

En-têtes HTTP

User-Agent

Par défaut : SpiderPro/1.0

Vous pouvez personnaliser pour simuler un navigateur spécifique.

Headers personnalisés

Ajoutez des en-têtes HTTP pour l'authentification ou d'autres besoins :

Authorization: Bearer token123
Cookie: session=abc

Robots.txt

Respecter : SpiderPro suit les directives (par défaut)
Ignorer : Crawle toutes les pages accessibles

WARNING

N'ignorez le robots.txt que sur vos propres sites.

Paramètres de crawl ​

Paramètres généraux ​

Limite de pages ​

Concurrence ​

Délai entre requêtes ​

Découverte de pages ​

Sources de découverte ​

Filtres d'URL ​

Rendu JavaScript ​

En-têtes HTTP ​

User-Agent ​

Headers personnalisés ​

Robots.txt ​