Robot
Le robot est un outil utilisé pour détecter automatiquement les nouvelles ressources (URL) sur un site particulier. Il commence par une liste d'URLs à visiter, appelées les germes. Cette liste dépend de la manière dont le robot est démarré. Le robot visite ensuite ces URLs, identifiant tous les liens hypertexte dans la page et les ajoutant à la liste des URLs à visiter. Le processus poursuit de manière récursive, aussi longtemps que sont découvertes de nouvelles ressources.
Il y a 4 méthodes de démarrage du robot, différenciées par la liste de germes par laquelle le robot commence :
- Site du robot - la liste de germes contient toutes les URI existantes déjà découvertes pour le site sélectionné.
- Sous-arbre du robot - la liste des germes contient toutes les URI existantes déjà découvertes et présentent dans le sous-arbre du nœud sélectionné.
- URL du robot - la liste de germes contient seulement l'URI correspondant au nœud sélectionné (dans l'arborescence du site).
- Robot tout dans le périmètre - la liste de germes contient toutes les URI que l'utilisateur a sélectionnées comme étant 'dans le périmètre'.
- Robot tout dans le contexte... - la liste de germes contient toutes les URIs que l'utilisateur a choisies comme étant dans le contexte sélectionné.
Plus de détails se trouvent ci-dessous, dans la section "Accès via"
Lors du traitement d'une URL, le robot envoie une requête pour charger la ressource, puis analyse la réponse afin d'identifier des liens hypertexte. Il se comporte actuellement de la manière suivante lors du traitement des différents types de réponses :
HTML
Traite les balises spécifiques, identifiant les liens vers de nouvelles ressources:
- Base - traitement naturel
- A, Link, Area - attribut 'href'
- Frame, IFrame, Script, Img - attribut 'src'
- Meta - 'http-equiv' pour 'location' et 'refresh'
- Form - manipulation appropriée des formulaires avec les méthodes GET et POST. Les valeurs des champs sont générées correctement, y compris pour les
href="http://www.w3schools.com/html5/html5_form_input_types.asp">types d'entrée HTML 5.0.
- Commentaires - les balises valides trouvées dans les commentaires sont aussi analysées, si spécifié dans l'écran Options Robot
Fichier robots.txt
S'il est spécifié dans l'écran
Options Robot, il analyse également le fichier 'Robots.txt' et essaie d'identifier de nouvelles ressources en utilisant les règles spécifiées. Mentionnons encore que le robot ne suit pas les règles spécifiées dans le fichier « Robots.txt ».
Format OData Atom
Les contenus OData au format Atom sont actuellement pris en charge. Tous les liens inclus (relatifs ou absolus) sont traités.
Réponse texte non HTML
Les réponses texte sont analysées à la recherche de modèles d'URL
Réponse non textuelles
Actuellement, le robot ne traite pas ce type de ressources.
Autres aspects
- Lors de la vérification si une URL a déjà été parcourue, la manière de traiter les paramètres peut être configurée dans l'écran 'Options Robot'.
- Lors de la vérification si une URL a déjà été parcourue, un certain nombre de paramètres communs sont ignorés: jsessionid, phpsessid, aspsessionid, utm_*
- Le comportement du robot avec les cookies est défini par l'option présente dans l'écran Modifier -> Activer le suivi de session. Si cette option est activée, le robot gérera correctement tous les cookies reçus du serveur et les renverra en conséquence.
Si l'option est désactivée, le robot n'enverra aucun cookie dans ses requêtes.
Le robot est configuré à l'aide de l'écran
href="../../ui/dialogs/options/spider.html">Options de Robot.
Accès via
|
Onglet robot |
|
|
Onglet sites |
Menu contextuel clic droit 'Attaquer -> scanner le site' |
Menu contextuel clic droit 'Attaquer -> scanner l'URL' |
Menu contextuel clic droit 'Attaquer -> scanner la sous-arborescence' |
Élément de menu clic droit 'Attaquer -> scanner tout le champ' |
Menu contextuel clic droit 'Attaquer -> scanner tout le champ' |
Voir aussi