Skip to content

Paramètres de crawl

Configurez le comportement du crawler pour l'adapter à vos besoins.

Paramètres généraux

Limite de pages

Définit le nombre maximum de pages à crawler.

PlanLimite
Free500 pages
Pro100 000 pages

Concurrence

Nombre de requêtes simultanées. Une valeur plus élevée accélère le crawl mais peut surcharger le serveur cible.

  • Faible (2) : Sites fragiles
  • Normale (5) : Valeur par défaut
  • Élevée (10) : Sites robustes

Délai entre requêtes

Temps d'attente entre chaque requête. Augmentez si le site cible vous bloque.

Découverte de pages

Sources de découverte

  • Liens HTML : Suit les balises <a href>
  • Sitemaps : Parse les fichiers sitemap.xml
  • Robots.txt : Respecte les directives

Filtres d'URL

Excluez certaines URLs du crawl :

/admin/*
/api/*
*.pdf

Rendu JavaScript

Voir Rendu JavaScript pour la configuration détaillée.

En-têtes HTTP

User-Agent

Par défaut : SpiderPro/1.0

Vous pouvez personnaliser pour simuler un navigateur spécifique.

Headers personnalisés

Ajoutez des en-têtes HTTP pour l'authentification ou d'autres besoins :

Authorization: Bearer token123
Cookie: session=abc

Robots.txt

  • Respecter : SpiderPro suit les directives (par défaut)
  • Ignorer : Crawle toutes les pages accessibles

WARNING

N'ignorez le robots.txt que sur vos propres sites.

SpiderPro - Le crawler SEO professionnel