Version préliminaire
La BD OFF Canada compte plus de 100,000 produits alimentaires. Par contre, les données sur les produits sont souvent incomplètes et parfois inexactes. Plusieurs mécanismes sont à l'oeuvre dans OFF pour détecter les erreurs et compléter les données. On veut ici améliorer l'état de la BD en intégrant des données de sources externes.
Le projet implique la création d'une base de données locale, intégrant les produits OFF avec les Branded Foods du FoodData Central.
Aperçu des fonctionnalités à développer:
Extraire des données de OFF et les charger dans une BD locale
Extraire des données du FDC et les charger dans une BD locale
Normaliser les données
Comparer les produits OFF vs FDC
Intégrer les données OFF et FDC
Rendre les produits conformes aux règles canadiennes d'étiquetage, incluant le nouveau symbole nutritionnel
Préparer les données intégrées pour un chargement dans OFF
Autre option:
Faire du web scraping pour valider et compléter les données
Technos de base OFF : Perl, Python, MongoDB
Technos possibles pour le projet : Antigravity, DuckDB Stack
On utilisera un outil comme Code Wiki pour générer la documentation technique.
Le choix des technos se fera avec les étudiants.
Louis Bastarache et Estrella Paoli vont accompagner l'équipe de projet.
L'équipe Open Food Facts en France sera impliquée au besoin.
Nous cherchons des gens qui s'intéressent à l'alimentation.
Les étudiants participeront au choix des outils et des technologies de développement.
On tiendra quelques ateliers de travail en début de session pour bien définir le projet.
Nous proposons ensuite un suivi de 30 minutes par semaine.
On utilisera Slack ou Discord pour les communications.
Discutons du projet sur le canal #données