Open WebUI
Base pragmatique pour déployer vite une expérience type ChatGPT sur une instance privée.
Zetten AI fournit une capacité LLM privée opérée en Europe : interface prête à l'emploi type Open WebUI, autre interface open-source possible selon vos standards, modèles Qwen, serving vLLM, routage LiteLLM, supervision et support inclus.
La DSI garde une lecture simple du flux : accès web, authentification, routage des requêtes, moteur d'inférence, modèle, puis capacité GPU hébergée en Europe.
Zetten AI s'appuie sur des familles Qwen pour offrir une base robuste en rédaction, analyse, raisonnement et code. Si votre contexte le demande, nous pouvons installer et servir d'autres modèles open-source/open-weight adaptés à vos contraintes de langue, latence, coût, contexte ou domaine.
default_model: qwen
interface: open_webui
serving: vllm
routing: litellm
tuning:
- choix_modele
- quantization
- contexte
- prompts_systeme
- routage
options_sur_devis:
- rag_prive
- api_privee_compatible_openai
- modele_plus_puissant
- h100_pcie_tensor_core_gpu
Open WebUI fournit une expérience familière pour vos équipes : chat, documents, historique, modèles disponibles et administration. Si votre DSI préfère une autre interface open-source, l'architecture reste adaptable tant qu'elle respecte les contraintes d'authentification, de routage et d'exploitation.
Base pragmatique pour déployer vite une expérience type ChatGPT sur une instance privée.
Possibilité d'étudier une autre UI selon vos standards internes, vos workflows et vos contraintes SSI.
L'interface reste découplée du serving : LiteLLM et vLLM gardent le routage et l'inférence lisibles.
Pour les équipes qui veulent brancher leurs outils internes, back-offices, agents métiers ou scripts d'analyse, Zetten AI peut exposer une API privée compatible OpenAI. L'objectif : remplacer l'endpoint public par un endpoint privé, sans envoyer vos données vers les API d'OpenAI, Anthropic ou Google.
Cette capacité est proposée sur demande et devis, car elle dépend du volume, de la latence attendue, des quotas, du modèle exposé, du niveau de journalisation et du dimensionnement GPU.
OPENAI_BASE_URL=https://api.client.zetten.ai/v1
OPENAI_API_KEY=...
POST /v1/chat/completions
GET /v1/models
gateway: litellm
backend: vllm
models:
- qwen
- open_weight_sur_devis
La promesse technique est simple : vos conversations et documents ne partent pas vers les API publiques d'OpenAI, Anthropic ou Google. L'instance est opérée en Europe, avec des choix d'administration et d'intégration lisibles par vos équipes.
Données en transit vers votre instance, modèle servi sur capacité dédiée ou réservée, hébergement européen.
Gestion des comptes, groupes, rôles et modèles exposés aux collaborateurs.
SSO, LDAP/OAuth, API privée, restriction IP, journalisation avancée ou isolation renforcée sur devis.
La valeur n'est pas seulement le modèle. C'est l'exploitation : supervision, sauvegardes, mises à jour, support, et dimensionnement selon les usages réels de vos équipes.
RAG privé, API privée compatible OpenAI, connexion à vos bases documentaires, contexte étendu, modèle plus puissant, SLA renforcé, restriction IP et journalisation avancée peuvent être ajoutés selon vos contraintes internes.
Oui, l'architecture peut accueillir d'autres modèles open-source/open-weight. Le choix dépend du cas d'usage, de la mémoire GPU, du contexte, de la langue et de la latence attendue.
L'instance prévoit une administration des comptes, groupes et rôles. Selon votre contexte, on peut cadrer SSO, LDAP/OAuth, restriction IP et journalisation avancée sur devis.
Par dimensionnement : capacité GPU supérieure, modèle plus adapté, contexte ajusté, ou instance NVIDIA H100 Tensor Core GPU sur demande et devis.
Modèles, GPU, API privée, RAG, SSO, isolation, logs, volumétrie : envoyez votre contexte, nous répondons avec un cadrage technique concret.