Optimisation RAG avec embedding models 2025 - Cohere vs OpenAI ada-002 vs BGE

Salut la communauté !

Je suis en train d’optimiser notre système RAG pour notre app SaaS et je galère un peu sur le choix des embedding models.

On a actuellement OpenAI ada-002 mais les coûts explosent avec notre volume qui augmente…

Notre setup actuel :

  • 500k documents techniques indexés

  • ~10k requêtes/jour

  • Vector DB : Pinecone

  • Stack : Python 3.12 + LangChain 0.2

Les problèmes qu’on rencontre :
1.

Coûts élevés avec OpenAI (0.0001$/1K tokens, ça chiffre vite)

Latence parfois élevée (200-400ms pour les embeddings)
3.

Qualité variable selon le domaine (on fait de la tech B2B)

J’ai entendu parler de Cohere embed-v3 et BGE models mais pas d’expérience concrète.

Est-ce que quelqu’un a comparé ces solutions récemment ?

Merci d’avance pour vos retours !

Hello @alex_ml O ! On a eu exactement le même problème chez nous il y a 3 mois. On était sur ada-002 et les coûts devenaient ingérables. Voici notre analyse comparative (testée sur 50k docs RH/juridiques) : Cohere embed-v3 : - Prix : ~60% moins cher qu’OpenAI - Performance : équivalente voire meilleure sur nos use cases - Latence : 150-250ms (stable) - Gros plus : support multilingue excellent BGE-large -en : - Gratuit si auto -hébergé (on utilise HuggingFace) - Performance correcte mais en dessous des deux autres - Latence : 100-180ms (hébergé local) - Bien pour commencer/tester On est passés sur Cohere depuis juin et franchement, aucun regret. La qualité est là et on a divisé nos coûts d’embedding par 2. 5. Tu as testé d’autres vector DBs ? Weaviate pourrait être intéressant pour ton volume.

Très intéressant cette discussion ! Je bosse dans l’edtech et on a récemment migré notre système de recommandation de contenu vers un setup RAG. Après plusieurs tests, voici notre retour : Notre stack finale : - Cohere embed -v3 pour les embeddings - Qdrant comme vector DB (moins cher que Pinecone) - Claude 3.5 Sonnet pour la génération Benchmark qu’on a fait (sur 100k contenus éducatifs) : 1. Précision retrieval @marie_rh_tech=5 : - Cohere embed -v3 : 84.2% - OpenAI ada -002 : 81.7% - BGE -large : 76.3% 2. Coût pour 1M tokens : - OpenAI : $100 - Cohere : $40 - BGE (self -hosted) : ~$15 infra 3. Latence moyenne : - Cohere : 180ms - OpenAI : 220ms - BGE local : 120ms Le truc cool avec Cohere, c’est leur nouveau reranking model (rerank -v3) qui booste encore la précision. On l’utilise en combo et c’est du feu :fire: Pour ton volume, je recommande vraiment de tester Cohere + un reranker.

Super thread ! Je suis dev junior en reconversion (ex-finance) et je bosse sur un projet perso de RAG pour analyser des rapports financiers. J’ai commencé avec BGE parce que gratuit, mais la qualité était pas terrible sur mes docs financiers spécialisés… Du coup j’ai testé Cohere embed-v3 et effectivement c’est un autre niveau ! Même sur des termes financiers complexes, la récupération est beaucoup plus précise. Question technique : @alex_ml tu utilises quel chunking strategy avec Cohere ? J’ai l’impression que la taille des chunks impacte beaucoup la qualité avec les nouveaux models. Et niveau intégration, leur API est super simple : python import cohere co = cohere.Client('your-api -key') response = co.embed( texts=['votre texte'], model='embed-multilingual -v3.0', input_type='search_document' ) embeddings = response.embeddings Bien plus clean que l’API OpenAI selon moi. @marie_rh_tech O pour ton cas, je pense que Cohere + Qdrant serait un excellent combo coût/performance. Tu peux économiser sur les deux côtés !

Wow merci à tous pour ces retours super détaillés ! :folded_hands: @marie_rh_tech vos benchmarks sont exactement ce que je cherchais. Le combo économies + performance de Cohere semble vraiment intéressant. Quelques questions de suivi : 1. Migration : vous avez re-indexé tous vos documents ou fait une migration progressive ? 2. Qdrant vs Pinecone : @alex_ml tu mentionnes que Qdrant est moins cher, tu as des chiffres ? On paie actuellement ~800$/mois sur Pinecone pour 500k vecteurs. 3. Reranking : le rerank-v3 de Cohere ajoute combien de latence ? Ça vaut le coup niveau coût/bénéfice ? 4. Production : vous avez eu des soucis de disponibilité avec l’API Cohere ? Je pense qu’on va faire un POC sur 50k docs cette semaine. Si les résultats sont concluants, on migrera progressivement. excellente question sur le chunking ! Nous on utilise actuellement des chunks de 512 tokens avec 50 tokens d’overlap. Vous faites comment ? Merci encore, cette discussion va nous faire économiser pas mal de temps et d’argent ! :money_bag:

@dev_reconversion O avec plaisir ! Voici les détails que tu demandes : Migration : On a fait du progressive rollout. D’abord migré 10% du trafic pendant 2 semaines, puis 50%, puis 100%. Ça permet de valider la qualité sans risque. Qdrant pricing : Pour 500k vecteurs (1536 dim), tu serais autour de 200-300$/mois sur Qdrant Cloud vs tes 800$ actuels sur Pinecone. Énorme différence ! Sinon self-hosted sur AWS/GCP, c’est encore moins cher mais faut gérer l’infra. Reranking latency : Le rerank -v3 ajoute ~50-80ms mais boost la précision de 8 -12%. Pour nous ça vaut largement le coup, surtout sur les requêtes complexes. Availability Cohere : Zéro problème depuis 6 mois. Leur SLA est de 99.9% et on n’a jamais eu d’incident. Chunking strategy (réponse à @dev_reconversion aussi) : - Chunks de 400 tokens (optimal pour embed -v3) - Overlap de 40 tokens - On préserve les phrases complètes (split intelligent) Code exemple : python from langchain.text_splitter import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=400, chunk_overlap=40, separators=["\n\n", "\n", ".", " "] ) Votre POC va être concluant j’en suis sûre ! Cohere + Qdrant c’est vraiment la combinaison gagnante en 2025.