Fine-tuning Small Language Model

Exploiter 400 000 CCTP grâce à un modèle IA sobre, performant et maîtrisé.

Agent IA Algorithmie Intelligence artificielle Collecte de données

Date

2026

Durée

1 mois

Client

Secteur public

Utilisateurs

3000

Le brief

Ce client du secteur public devait analyser et exploiter un volume massif de CCTP (Cahiers des Clauses Techniques Particulières) afin d’en extraire les informations clés et d’en produire des synthèses exploitables.
Les solutions existantes, basées sur des modèles généralistes de grande taille, présentaient des coûts élevés — à la fois financiers et environnementaux — peu compatibles avec un usage à grande échelle et des contraintes publiques fortes. Le besoin portait donc sur une solution performante, souveraine et frugale, capable de traiter plusieurs centaines de milliers de documents sans compromis sur la qualité.

Les solutions

Nous avons conçu et entraîné un SLM (Small Language Model) spécifiquement adapté au langage et à la structure des CCTP.
Le modèle a été optimisé pour l’extraction ciblée d’informations et la génération de résumés fiables, tout en limitant drastiquement les besoins en calcul et en ressources. Cette approche a permis de traiter plus de 400 000 CCTP avec un coût réduit et une empreinte environnementale maîtrisée, tout en atteignant des performances comparables aux meilleurs modèles du marché.
L’ensemble de la chaîne a été pensée pour un usage industriel : robustesse, reproductibilité des résultats et intégration simple dans les outils existants du client.

Fonctionnalités clés :

* Entraînement d’un SLM spécialisé sur les CCTP
* Extraction automatisée des données clés
* Résumé structuré et exploitable des documents
* Traitement à grande échelle (400 000+ documents)
* Coûts financiers et environnementaux fortement réduits
* Performances équivalentes aux modèles de référence

Les retombées
Analyse massive de documents rendue économiquement viable
Réduction significative des coûts d’infrastructure et d’exploitation
Empreinte environnementale maîtrisée
Accès rapide à l’information stratégique contenue dans les CCTP
Une solution souveraine, durable et réutilisable sur d’autres corpus documentaires

D'autres projets dont on est fiers

Blarney

Un coach d'anglais en ligne propulsé par l'IA

Learn From Your Blunders

Un coach d’échecs personnalisé basé sur l’analyse de parties en ligne

Bostik

Extraire, fiabiliser et exploiter la donnée documentaire à grande échelle, en environnement souvera…