| Source: | https://subversion.assembla.com/svn/saintamh/extract-text-from-web-page/ |
|---|---|
| Source (en couleurs): | https://www.assembla.com/code/saintamh/subversion/nodes/extract-text-from-web-page/ |
Ce script prend un URL sur la ligne de commande, télécharge la page, et en extrait son contenu textuel. Il tente d'ignorer les en-têtes, liens de navigation et autre bruit entourant le contenu de la page, de sorte que tout ce qui reste est une version pur texte et agréable à lire du contenu de la page.
L'algorithme actual identifie dans l'arbre DOM du document HTML le noeud qui est à la racine du sous-arbre ayant le plus grand ratio de nombre de mots au nombre de noeuds, puis imprime simplement tout le contenu textuel de ce noeud.
C'est en utilisant Read It Later et Readbility, deux programmes qui offrent ce genre de fonctionalité, que j'ai été tenté d'essayer d'écrire ce genre d'outil.