Salut à tous !
Je bosse sur une app de reconnaissance d’images pour analyser des documents techniques (plans, schémas, factures) et j’ai besoin de tester les performances de GPT-4V vs Claude 3.5 Sonnet sur différents types de contenu visuel.
Le truc c’est que les tests manuels prennent un temps fou et c’est pas reproductible.
J’aimerais automatiser ça mais j’arrive pas à trouver un framework qui gère bien les tests multimodaux.
Problèmes que je rencontre :
-
Comment évaluer automatiquement la précision des réponses sur des images complexes ?
-
Gérer les différents formats d’API (OpenAI vs Anthropic)
-
Métriques pertinentes pour comparer les performances
-
Tests de régression quand les modèles sont mis à jour
Environnement actuel :
python
Python 3.12
OpenAI SDK 1.35.x
Anthropic SDK 0.28.x
Pytest 8.2.x
Vous avez déjà mis en place ce genre de pipeline de tests ?
Des recommandations pour structurer ça proprement ?