clientsdoc:power_tools_scrap

Suite à la discussion avec Alexandre, voici la représentation approximative que nous avons du fonctionnement de l'application de scrapping déployée pour Power-Tools.

clientsdoc:scraping.png

  • L'application récupère les catalogues depuis les sites des fournisseurs mais chaque fournisseur présente son catalogue dans un format et sous un protocole propre ce qui nécessite un traitement particulier à chaque fournisseur.
  • L'application traite les catalogues, unifie le format des données et les stocke sur sa propre base de données.
  • Une partie de l'application s'occupe ensuite d'envoyer la mise à jour des produits fournisseurs depuis sa base de données vers Odoo (en utilisant XML/RPC)

Alexandre a exprimé son souhait d'une contribution au code de son application en vue d'interroger de nouveaux sites fournisseurs. Cette contribution se présenterait sous forme de modules spécifiques à chaque fournisseur.

Alexandre nous a fait savoir que le processus automatique quotidien de son application (cron) prenait plusieurs heures pour s'achever.

Nous aimerions qu'Alexandre nous confirme que ce processus (cron) englobe la totalité du cycle, c'est à dire :

  • Récupération du catalogue depuis les sites fournisseurs ;
  • Traitement des catalogue et insertion dans la base de données de l'application (middleware) ;
  • Mise à jour des produits dans Odoo (XML/RPC).

Nous aimerions également qu'Alexandre, dans la mesure du possible, nous indique quelle est la partie qui consomme le plus de temps.

  • Créer un module Odoo qui récupérera les produits fournisseurs depuis la base de de données de l'application ArkScrapWebV2.1)
  • [Nécessaire] Inviter Alexandre à fournir un diagram de la base de données de l'application ArkScrapWebV2.
  • [Facultatif] Inviter Alexandre à mettre à disposition un module minimal mais fonctionnel qui servirait de modèle pour la création de nouveaux scrapeurs pour de nouveaux fournisseurs. 2) 3) 4)

1)
Nous savons par expérience que l'utilisation de XML/RPC souffre de lenteur, c'est pour ça que nous souhaitons traiter les données de manière plus directe
2)
Avec un mini serveur web qui fournirait un exemple.xls avec quelques produits de démo
3)
Ce modèle de scrapeur devrait qui aboutir à la création de nouveaux enregistrements non actifs dans la base de données middleware
4)
Ceci aidera à embarquer de nouveaux contributeurs dans le projet
  • clientsdoc/power_tools_scrap.txt
  • Last modified: 2022/08/18 20:25
  • by aziz