CLEVYA tourne sur votre infrastructure. Voici, en toute transparence, les ressources estimées pour héberger
vos agents : d'une PME de cinq personnes à un groupe de plusieurs centaines. On vous accompagne pour dimensionner.
Self-hostedBYOAKOllama local possibleDimensionnement fourni
Paliers de dimensionnement
Estimations pour des agents enregistrés sur une instance, en modèle BYOAK (clés IA externes). Ce sont des
points de départ que nous affinons avec vous selon votre usage réel.
Agents
Processeur
Mémoire
Disque
50 agents
2 à 4 vCPU
8 Go RAM
40 Go SSD
500 agents
4 à 8 vCPU
16 à 32 Go RAM
100 Go SSD
jusqu'à 1 000 agents
8 à 16 vCPU
64 Go RAM
250 Go SSD
Estimations d'ingénierie, en cours de validation par nos propres tests de charge. La mémoire grimpe surtout
avec la mémoire sémantique de chaque agent (vos données vectorielles) : un poste que nous ajustons ensemble.
Agents enregistrés ou agents qui travaillent en même temps ?
C'est la vraie question, et elle est honnête : avoir mille agents qui existent coûte peu. Ce qui compte, c'est
combien raisonnent à la même seconde.
Agents enregistrés
Vos agents existent, gardent leur mémoire et attendent. Au repos, ils consomment très peu : quelques mégaoctets pour mille connexions. Un serveur modeste suffit.
Agents actifs en même temps
Quand un agent raisonne, il appelle un modèle IA. Le nombre d'agents simultanés dépend d'abord de votre forfait chez votre fournisseur IA, pas de la taille de votre serveur.
Le vrai plafond : votre forfait IA, pas votre serveur
En modèle BYOAK, vous branchez votre propre clé (Anthropic, OpenAI, Mistral). Votre fournisseur limite le
nombre d'appels par minute selon votre forfait. C'est ce qui borne combien d'agents travaillent en parallèle,
bien avant votre matériel. Et c'est vous qui pilotez ce curseur.
Vous payez vos tokens
En direct chez votre fournisseur IA. CLEVYA ne prend aucune marge sur votre consommation. La facture dépend de votre usage : un agent peut faire quelques échanges ou plusieurs centaines par jour.
Vous montez le curseur
Plus d'agents actifs en simultané = un forfait IA plus élevé chez votre fournisseur. C'est une décision business, pas une limite technique de CLEVYA.
Vous répartissez
CLEVYA est multi-fournisseur : vos agents peuvent se répartir entre plusieurs providers pour augmenter le débit total.
100 % chez vous : VPS + Ollama, sans aucun fournisseur externe
Vous voulez zéro dépendance et zéro limite d'appels externe ? Installez CLEVYA sur un simple VPS et faites
tourner un modèle local avec Ollama. Vos agents raisonnent alors entièrement sur votre machine.
Un VPS suffit pour démarrer
Pas besoin d'un cluster. Un serveur dédié ou un VPS chez votre hébergeur, Docker Compose, et la stack CLEVYA tourne. Sauvegardes et mises à jour incluses.
Ollama : l'IA sans facture de tokens
Avec un modèle local Ollama, aucune limite d'appels externe et aucun token facturé. Pour des agents intensifs, prévoyez plus de processeur ou un GPU - on vous aide à choisir.
Ce que ça veut dire pour vous
Vous gardez le choix : vitesse et puissance des grands modèles cloud (BYOAK), ou souveraineté totale et coût fixe avec Ollama en local. Souvent, un mélange des deux selon la sensibilité des données.