Landing technique CTO / DSI

Une stack IA privée auditable

Zetten AI fournit une capacité LLM privée opérée en Europe : interface prête à l'emploi type Open WebUI, autre interface open-source possible selon vos standards, modèles Qwen, serving vLLM, routage LiteLLM, supervision et support inclus.

  • Données non envoyées à OpenAI, Anthropic ou Google
  • Interface Open WebUI ou alternative open-source
  • Modèles open-source/open-weight installables
  • API privée compatible OpenAI sur devis
  • Capacité GPU dédiée ou réservée
Architecture de service

Une chaîne claire, du navigateur au GPU

La DSI garde une lecture simple du flux : accès web, authentification, routage des requêtes, moteur d'inférence, modèle, puis capacité GPU hébergée en Europe.

01 Utilisateur Accès navigateur, expérience conversationnelle familière.
02 Open WebUI Interface type ChatGPT, remplaçable par une autre interface open-source selon vos standards.
03 Auth & rôles Comptes, groupes, droits, options SSO/LDAP/OAuth sur devis.
04 LiteLLM Routage des modèles, politiques, modes rapide/raisonnement.
05 vLLM Serving optimisé des modèles open-weight.
06 Qwen + GPU Modèles Qwen par défaut, GPU dédié ou réservé en Europe.
Modèles

Qwen par défaut, open-source quand c'est pertinent

Zetten AI s'appuie sur des familles Qwen pour offrir une base robuste en rédaction, analyse, raisonnement et code. Si votre contexte le demande, nous pouvons installer et servir d'autres modèles open-source/open-weight adaptés à vos contraintes de langue, latence, coût, contexte ou domaine.

Qwen Open-weight Mode raisonnement Contexte étendu sur devis
model-routing.yaml indicatif
default_model: qwen
interface: open_webui
serving: vllm
routing: litellm
tuning:
  - choix_modele
  - quantization
  - contexte
  - prompts_systeme
  - routage
options_sur_devis:
  - rag_prive
  - api_privee_compatible_openai
  - modele_plus_puissant
  - h100_pcie_tensor_core_gpu
Interface utilisateur

Open WebUI quand il faut aller vite, autre interface si vos standards l'exigent

Open WebUI fournit une expérience familière pour vos équipes : chat, documents, historique, modèles disponibles et administration. Si votre DSI préfère une autre interface open-source, l'architecture reste adaptable tant qu'elle respecte les contraintes d'authentification, de routage et d'exploitation.

Open WebUI

Base pragmatique pour déployer vite une expérience type ChatGPT sur une instance privée.

Interfaces open-source

Possibilité d'étudier une autre UI selon vos standards internes, vos workflows et vos contraintes SSI.

Découplage

L'interface reste découplée du serving : LiteLLM et vLLM gardent le routage et l'inférence lisibles.

Option API

Une API privée compatible OpenAI, routée par LiteLLM

Pour les équipes qui veulent brancher leurs outils internes, back-offices, agents métiers ou scripts d'analyse, Zetten AI peut exposer une API privée compatible OpenAI. L'objectif : remplacer l'endpoint public par un endpoint privé, sans envoyer vos données vers les API d'OpenAI, Anthropic ou Google.

Cette capacité est proposée sur demande et devis, car elle dépend du volume, de la latence attendue, des quotas, du modèle exposé, du niveau de journalisation et du dimensionnement GPU.

Compatible OpenAI Clés API Quotas Supervision
client.env option sur devis
OPENAI_BASE_URL=https://api.client.zetten.ai/v1
OPENAI_API_KEY=...

POST /v1/chat/completions
GET  /v1/models

gateway: litellm
backend: vllm
models:
  - qwen
  - open_weight_sur_devis
Données et sécurité

Privé ne veut pas dire boîte noire

La promesse technique est simple : vos conversations et documents ne partent pas vers les API publiques d'OpenAI, Anthropic ou Google. L'instance est opérée en Europe, avec des choix d'administration et d'intégration lisibles par vos équipes.

Flux maîtrisé

Données en transit vers votre instance, modèle servi sur capacité dédiée ou réservée, hébergement européen.

Administration client

Gestion des comptes, groupes, rôles et modèles exposés aux collaborateurs.

Options DSI/RSSI

SSO, LDAP/OAuth, API privée, restriction IP, journalisation avancée ou isolation renforcée sur devis.

Exploitation

Nous opérons la complexité, vous gardez la capacité

La valeur n'est pas seulement le modèle. C'est l'exploitation : supervision, sauvegardes, mises à jour, support, et dimensionnement selon les usages réels de vos équipes.

Inclus dans l'offre opérée

  • Supervision et maintenance Suivi de l'instance, mises à jour, sauvegardes et support.
  • Dimensionnement responsable On parle capacité réservée, usage quotidien d'équipe et montée en capacité, pas promesse illimitée.
  • Trajectoire GPU Option NVIDIA H100 PCIe Tensor Core GPU disponible sur demande et devis.

Pour aller plus loin

RAG privé, API privée compatible OpenAI, connexion à vos bases documentaires, contexte étendu, modèle plus puissant, SLA renforcé, restriction IP et journalisation avancée peuvent être ajoutés selon vos contraintes internes.

FAQ technique

Les questions que votre DSI posera vraiment

Peut-on changer de modèle ?

Oui, l'architecture peut accueillir d'autres modèles open-source/open-weight. Le choix dépend du cas d'usage, de la mémoire GPU, du contexte, de la langue et de la latence attendue.

Comment gérer les accès utilisateurs ?

L'instance prévoit une administration des comptes, groupes et rôles. Selon votre contexte, on peut cadrer SSO, LDAP/OAuth, restriction IP et journalisation avancée sur devis.

Comment gérer plus de charge ?

Par dimensionnement : capacité GPU supérieure, modèle plus adapté, contexte ajusté, ou instance NVIDIA H100 Tensor Core GPU sur demande et devis.

Discussion technique

Parlez-nous de vos contraintes d'architecture

Modèles, GPU, API privée, RAG, SSO, isolation, logs, volumétrie : envoyez votre contexte, nous répondons avec un cadrage technique concret.

contact@zetten.ai