Paramètres de crawl
Configurez le comportement du crawler pour l'adapter à vos besoins.
Paramètres généraux
Limite de pages
Définit le nombre maximum de pages à crawler.
| Plan | Limite |
|---|---|
| Free | 500 pages |
| Pro | 100 000 pages |
Concurrence
Nombre de requêtes simultanées. Une valeur plus élevée accélère le crawl mais peut surcharger le serveur cible.
- Faible (2) : Sites fragiles
- Normale (5) : Valeur par défaut
- Élevée (10) : Sites robustes
Délai entre requêtes
Temps d'attente entre chaque requête. Augmentez si le site cible vous bloque.
Découverte de pages
Sources de découverte
- Liens HTML : Suit les balises
<a href> - Sitemaps : Parse les fichiers sitemap.xml
- Robots.txt : Respecte les directives
Filtres d'URL
Excluez certaines URLs du crawl :
/admin/*
/api/*
*.pdfRendu JavaScript
Voir Rendu JavaScript pour la configuration détaillée.
En-têtes HTTP
User-Agent
Par défaut : SpiderPro/1.0
Vous pouvez personnaliser pour simuler un navigateur spécifique.
Headers personnalisés
Ajoutez des en-têtes HTTP pour l'authentification ou d'autres besoins :
Authorization: Bearer token123
Cookie: session=abcRobots.txt
- Respecter : SpiderPro suit les directives (par défaut)
- Ignorer : Crawle toutes les pages accessibles
WARNING
N'ignorez le robots.txt que sur vos propres sites.