Extraire, fiabiliser et exploiter la donnée documentaire à grande échelle, en environnement souverain.
Date
2026
Durée
10 jours
Client
Bostik
Utilisateurs
20
Bostik manipule quotidiennement de nombreux documents PDF contenant des données critiques pour ses opérations internes. L’extraction manuelle était chronophage, peu fiable et difficile à industrialiser.
Le besoin portait sur une solution capable d’automatiser l’extraction de données tout en conservant un haut niveau de contrôle, de sécurité et d’intégration avec les outils existants du groupe, dans un contexte industriel exigeant.
Nous avons développé une plateforme d’extraction documentaire sur-mesure, basée sur des LLM open source, capable d’analyser automatiquement des PDF complexes pour en extraire les données structurées pertinentes.
Un processus de validation directement intégré à la plateforme permet aux utilisateurs de vérifier, corriger et approuver les données extraites avant leur diffusion, garantissant ainsi fiabilité et traçabilité.
La solution s’appuie sur Mistral en version open source, déployé sur des serveurs français souverains afin de maximiser la sécurité et la maîtrise des données. Une brique de recherche sémantique permet de faire correspondre les informations extraites avec les données existantes, améliorant la cohérence et la qualité globale du traitement. Les données validées sont ensuite exportées automatiquement vers les outils internes de Bostik.
Fonctionnalités clés :
- Extraction automatique de données depuis des PDF complexes via LLM
- Workflow de validation humaine intégré à la plateforme
- Déploiement souverain basé sur Mistral open source
- Recherche sémantique pour le rapprochement avec les données existantes
- Exports automatisés vers les outils internes
- Sécurité renforcée et traçabilité complète des traitements