Neodarz nous avait préparé une installation de searx pour faire de la recherche globale sur plusieurs sites autour de Khaganat, Ryzom, Ryzom core (trouver la doc !) :
https://git.khaganat.net/neodarz/ryzomcore_searxLe besoin d'un méta-moteur continue de se poser. Certaines parties de notre site ne sont pas bien indexées par les moteurs traditionnels, et si vous cherchez "site:khaganat.net brumes" sur votre moteur préféré, vous ne verrez rien venir du forum par exemple (alors que la recherche interne du forum ne marche pas trop mal). Si vous chercher un nom d'utilisateur sur le gitlab... vous n'allez pas avoir son profil, la liste de ses projets, ses contributions, ses issues... ou alors un peu, si vous avez de la chance. Le moteur de recherche interne de gitlab est pourri et c'est une volonté : le "bon" moteur est dans la version payante.
Searx répond au besoin d'agglomérer les résultats des divers moteurs internes, mais il n'a pas de crawler interne (ou araignée, c'est plus joli). Donc ça ne résous pas le souci de gitlab. Il faudrait donc ajouter un crawler, que Searx peut ensuite interroger ; ou faire un crawler qui récupère tous les sites.
J'ai commencé à regarder un peu
https://scrapy.org/ , qui est en python. Je vous avoue que j'ai mis de côté les crawlers en java, peut-être à tort.
Je ne peux pas tester beaucoup plus avant, j'ai cassé Nuxru pour le moment et ma vm de test était dessus. De votre côté, si vous avez déjà croisé des trucs de ce genre, si vous connaissez des solutions à cette problématique, laissez vos infos ici