Calcolo
Risorse di calcolo scalabili e ad alte prestazioni per i vostri carichi di lavoro critici. Orchestrate le vostre applicazioni cloud-native con le nostre moderne soluzioni container.
Scoprite l'offerta di calcolo
Macchine virtuali
Istanze VM
Una soluzione di macchine virtuali on-demand, flessibile e sicura su un'infrastruttura condivisa.
Server dedicati
IaaS open source
Infrastruttura virtualizzata open source in un ambiente cloud qualificato SecNumCloud per una completa sovranità tecnologica.
VMWare IaaS
Le vostre macchine virtuali VMware in un ambiente cloud affidabile qualificato SecNumCloud e certificato HDS.
Metallo nudo
Server dedicati e completamente personalizzabili per una totale autonomia sulla vostra infrastruttura sovrana.
Contenitori
OpenShift PaaS
La piattaforma unificata per creare, modernizzare e distribuire le vostre applicazioni su larga scala in un cloud sovrano.
Kubernetes gestito
Soluzione di orchestrazione dei container gestita che offre sicurezza, resilienza e automazione avanzata su infrastrutture sovrane.
Immagazzinamento
Soluzioni di storage adattabili e ad alte prestazioni per tutte le vostre esigenze. Ottimizzate i vostri dati con le nostre soluzioni a blocchi e a oggetti altamente disponibili.
Scoprite la nostra offerta di stoccaggio
Immagazzinamento
Archiviazione a blocchi
La soluzione di storage a blocchi adattabile per prestazioni di storage ottimali in un cloud sovrano.
Object storage
La soluzione di archiviazione scalabile e conveniente per i vostri dati non strutturati in un cloud sovrano.
Backup
Backup solutions
Soluzioni di backup differenziate e adatte alle vostre sfide e ai vostri ambienti
Rete
Soluzioni di rete avanzate per connettere e proteggere le vostre infrastrutture. Implementate le vostre reti private in modo automatico e sicuro.
Scoprire l'offerta della rete
Rete
Virtual Private Cloud
Implementate e gestite le vostre reti private 100% in modo automatico e sicuro.
Private Backbone
Assumete il pieno controllo della vostra rete con una connettività Layer 2 estesa, progettata per architetture ibride e configurazioni personalizzate.
Firewall
Managed Firewall
Soluzioni di sicurezza avanzate per un isolamento completo e una maggiore protezione
Sistemazione a secco
Alloggi - Spazio dedicato
Hosting sicuro per le vostre apparecchiature in un ambiente dedicato o condiviso, a seconda delle vostre esigenze.
Sicurezza
Soluzioni di sicurezza avanzate per proteggere le vostre infrastrutture critiche. Controllate l'accesso e difendetevi dalle minacce online.
Scopri l'offerta Sicurezza
Rilevamento
SIEM gestito
Una piattaforma centralizzata per la raccolta e la correlazione dei log di sicurezza, che combina l'automazione basata sull'intelligenza artificiale e le regole di rilevamento avanzate (MITRE ATT&CK).
Sovrano SOC
Un'offerta SOC sovrana gestita 24 ore su 24, 7 giorni su 7, distribuibile dal nostro marketplace, su un'infrastruttura qualificata SecNumCloud.
Protezione
Anti DDoS
Lo scudo contro gli attacchi online
Bastion host
Controllo degli accessi trasparente e centralizzato per una solida protezione della vostra infrastruttura
KMS gestito
Gestione sovrana delle chiavi crittografiche, con HSM hardware root of trust, per proteggere i vostri dati più sensibili sull'infrastruttura SecNumCloud.
AI
Soluzioni di intelligenza artificiale per trasformare i dati in approfondimenti e accelerare i processi aziendali.
Scoprite l'offerta IA
AI
LLMaaS
Accesso a modelli linguistici all'avanguardia su un'infrastruttura sovrana, qualificata SecNumCloud e certificata HDS, per applicazioni AI sicure e ad alte prestazioni.
GPU
Istanze di GPU NVIDIA per accelerare l'intelligenza artificiale e il calcolo ad alte prestazioni in un cloud sovrano.
Dati
Soluzioni dati per gestire, analizzare e sfruttare i vostri dati critici.
Scoprire l'offerta di dati
Banche dati
MariaDB gestito
Un database relazionale MariaDB completamente gestito e un backup PITR su infrastruttura sovrana SecNumCloud.
Gestiti PostGreSQL
La soluzione di database relazionale completamente gestita su infrastruttura sovrana SecNumCloud
Grandi dati
Managed Kafka
La piattaforma distribuita open-source per lo streaming di dati in tempo reale
Managed File System
Un file system distribuito gestito, sovrano e ad alta disponibilità, accessibile tramite NFS e SMB sull'infrastruttura SecNumCloud.
Gestione e governance
Servizi di coaching e assistenza per aiutarvi nella vostra trasformazione in cloud.
Supporto
Livelli di supporto
Scoprite i 3 livelli di assistenza disponibili per aiutarvi ad affrontare le vostre sfide.
Servizi professionali
Dalla progettazione all'ottimizzazione, Cloud Temple è al vostro fianco in ogni fase del percorso.
La governance
Console - API - Provider Terraform
Un'unica interfaccia per visualizzare e gestire i vostri prodotti e servizi
Osservabilità
Metriche infrastrutturali disponibili negli standard di mercato
Diventare partner

La nostra offerta Large Language Model as a Service (LLMaaS) vi dà accesso a modelli linguistici all'avanguardia, la cui inferenza viene eseguita con un'infrastruttura qualificata SecNumCloud, certificata HDS per l'hosting di dati sanitari, e quindi sovrana, calcolata in Francia. Beneficiate di prestazioni elevate e di una sicurezza ottimale per le vostre applicazioni AI. I vostri dati rimangono strettamente confidenziali e non vengono né sfruttati né conservati dopo l'elaborazione.

Prezzi semplici e trasparenti
1,8 €
per milione di token in ingresso
8 €
per milione di token emessi
8 €
per milione di gettoni di ragionamento
4 €
per milione di token di reranking
0,9 €
per milione di token batch in ingresso
4 €
per milione di token batch in uscita
0,01 €
per minuto di audio trascritto *
Calcolato su un'infrastruttura basata in Francia, qualificata SecNumcloud e certificata HDS.
Nota sul premio "Ragionamento" : Questo prezzo si applica specificamente ai modelli classificati come "ragionatori" o "ibridi" (modelli con la capacità "Ragionamento" attivata) quando il ragionamento è attivo e solo sui gettoni legati a questa attività.
* Ogni minuto iniziato viene contato

Chat e ragionamento

I nostri modelli di grandi dimensioni offrono prestazioni all'avanguardia per i compiti più impegnativi. Sono particolarmente adatti alle applicazioni che richiedono una comprensione profonda del linguaggio, ragionamenti complessi o l'elaborazione di documenti lunghi.

80 token/secondo

qwen3.6:27b

Modello di riferimento generalista con un contesto nativo di 1M di token. Eccelle nel ragionamento, nel seguire le istruzioni e nel multilinguismo.
Miglioramenti significativi nel seguire le istruzioni, nel ragionamento, nella comprensione della lettura, nella matematica, nella codifica e nell'uso degli strumenti. Il suo contesto di 1M di token consente l'analisi di interi documenti senza troncamenti.
94 token/secondo

gpt-oss:120b

Il modello open-weight all'avanguardia di OpenAI con ragionamento configurabile e catena di pensiero trasparente.
Modello Mixture-of-Experts con 120 miliardi di parametri che offre ragionamenti configurabili e accesso completo alla catena di pensiero. Ideale per scenari che richiedono una licenza permissiva (Apache 2.0).
10 gettoni/secondo

lama3.3:70b

Modello Meta multilingue, eccellente nel dialogo naturale e nella comprensione delle sfumature in 8 lingue.
Supporta inglese, francese, tedesco, spagnolo, italiano, portoghese, hindi e tailandese. La sua finestra di 132k tokens consente di analizzare documenti complessi e lunghe conversazioni.
72 token/secondo

nemotron-3-super:120b

Modello NVIDIA ottimizzato per agenti collaborativi, ragionamenti lunghi e carichi di lavoro ad alto volume. Contesto da 1 milione di gettoni.
Ideale per i flussi di lavoro agici, il ragionamento a lungo termine, l'automazione di grandi volumi (ticket di supporto, analisi di massa), l'uso di strumenti e RAG.
56 token/secondo

qwen3-2507:235b

Il modello più potente del catalogo (235B parametri, 22B attivi). Eccelle in matematica, codifica e ragionamento logico.
Architettura Mixture-of-Experts ultra-sparse che combina la potenza di un modello molto grande con l'efficienza di un modello più piccolo.
100 token/secondo

mistral-small4:119b

Modello Mistral ad alte prestazioni (119B) con visione, sicurezza integrata e contesto di 262K token. Veloce (100 t/s).
Versione grande della famiglia Mistral Small. Combina potenza, velocità e affidabilità con un contesto esteso. Filtri di sicurezza nativi.
55 gettoni/secondo

qwen3-2507-pensiero:4b

Modello compatto ottimizzato per il ragionamento profondo (logica, matematica, scienza, codice). Contesto di 250K token.
Versione "Thinking" con capacità di ragionamento avanzate. Combina compattezza, velocità e ragionamento avanzato.

Programmazione e agenti

I nostri modelli di programmazione e di agenti sono appositamente ottimizzati per l'ingegneria del software agenziale, la generazione di codice su larga scala e l'automazione del flusso di lavoro di sviluppo.

121 token/secondo

qwen3.6:35b

Leader nell'ingegneria del software agenziale (SWE-bench 73.4%). Contesto di 1M token, visione integrata e chiamata di strumenti.
Include interi repository di codice grazie al suo contesto di 1M token. Supporta il ragionamento e la visione in più fasi (screenshot, diagrammi). Ottimizzato per IDE e pipeline CI/CD.
97 token/secondo

qwen-coder-next:80b

Modello all'avanguardia per codice e ragionamento complessi. Contesto di 250K token.
Eccelle nella generazione e nell'analisi di codice su larga scala. Progettato per compiti avanzati di ingegneria del software.
67 token/secondo

qwen3-next:80b

Versatile modello 80B ottimizzato per contesti di grandi dimensioni, chiamate di funzioni e ragionamenti strutturati.
Contesto di 250K token con supporto per la chiamata di funzioni e la decodifica guidata.
33 token/secondo

devstral-small-2:24b

Modello agenziale all'avanguardia per l'ingegneria del software. Prestazioni vicine a >100B modelli per codice. Visione integrata.
Ottimizzato per l'esplorazione della base di codice, la modifica di più file e l'uso di strumenti. Supporto nativo per la visione. Contesto di 200K token.
40 gettoni/secondo

funzione gemma: 270 m

Micro-modello specializzato nel rilevamento delle chiamate di funzione. Ideale come router in un'architettura agenziale.
Ultra-compatto, ottimizzato per identificare e formattare rapidamente le chiamate di funzione.

Visione e multimodalità

I nostri modelli di visione e multimodali possono analizzare immagini, video e documenti visivi. Eccellono nell'OCR, nel rilevamento di oggetti, nell'estrazione di strutture e nel ragionamento spazio-temporale.

24 gettoni/secondo

qwen3-vl:235b

Il modello multimodale più potente del catalogo. Comprensione visiva avanzata e ragionamento eccezionale.
Eccelle nell'analisi di documenti complessi, nell'OCR multilingue, nel ragionamento spaziale 3D e nella comprensione dei video.
39 token/secondo

qwen3-vl:30b

Modello multimodale ad alte prestazioni per OCR, rilevamento di oggetti, analisi video e ragionamento spazio-temporale.
Incorpora innovazioni nell'analisi di immagini e video. Eccelle nell'OCR complesso, nella grafica e nell'estrazione strutturata (JSON).
57 token/secondo

qwen3-vl:4b

Modello di visione compatto e veloce per l'analisi dei documenti e la comprensione dei video.
Ottimo compromesso tra prestazioni e ingombro. Supporta l'estrazione strutturata e il ragionamento visivo.
59 token/secondo

gemma4:31b

Il denso modello multimodale di Google, classificato al 3° posto al mondo su Arena AI. Visione, ragionamento e codifica avanzati. Contesto 250K gettoni.
Il modello open-source più potente di Google. Chiamata di funzioni nativa, comprensione visiva avanzata (OCR, grafica, documenti, UI). Multilingua (oltre 35 lingue).
42 token/secondo

gemma4:12b-it-qat

Modello multimodale intermedio di Google, con visione integrata, ragionamento e chiamata nativa delle funzioni. Contesto molto ampio di 250.000 token.
Variante 12B della famiglia Gemma 4, che offre un buon compromesso tra qualità multimodale e ingombro. Ragionamento avanzato, comprensione visiva (OCR, grafici, documenti, interfaccia utente) e supporto multilingue (oltre 35 lingue).

Incorporazione

I nostri modelli di embedding trasformano il testo in rappresentazioni vettoriali per la ricerca semantica, il clustering e le pipeline RAG (Retrieval-Augmented Generation).

171 token/secondo

bge-m3:567m

Incorporamento multilingue all'avanguardia (oltre 100 lingue). Supporta ricerche dense, rade e multivettoriali.
Contesto di 8192 token con tre metodi di ricerca complementari.

qwen3-embedding:4b

Incorporamento ad alte prestazioni con comprensione semantica profonda e contesto esteso (40K token).
Ideale per l'elaborazione di documenti di grandi dimensioni in pipeline RAG.

qwen3-embedding:8b

Incorporamento ad alta capacità con la migliore comprensione semantica della famiglia Qwen3. Contesto esteso (40K tokens).
La versione più potente della famiglia Qwen3 embedding. Ideale per compiti che richiedono la comprensione del contesto.

qwen3-embedding:0.6b

Incorporamento ultraleggero e veloce per la ricerca semantica a bassa latenza.
Ottimo compromesso tra prestazioni semantiche e velocità di esecuzione.
196,3 token/secondo

granito-embedding:278m

Incorporamento IBM ultracompatto per la ricerca semantica con latenza minima.
Il modello di incorporazione più veloce del catalogo. Ideale per il clustering e la ricerca ad alta frequenza.
175 token/secondo

embeddinggemma:300m

Incorporamento Google multilingue (oltre 100 lingue), ottimizzato per la ricerca e il recupero semantico.
Produce rappresentazioni vettoriali del testo per la classificazione, il clustering e la ricerca di similarità.

Reranking

I nostri modelli di reranking riordinano i risultati della ricerca in base alla rilevanza per affinare la qualità delle pipeline RAG. Compatibile con l'API Cohere.

nvidia/llama-nemotron-rerank-vl-1b-v2

Modello di reranking compatibile con le API di Cohere (/v1/rerank e /v2/rerank). Ordina i documenti in base alla pertinenza rispetto a una query.
Compatibile con l'SDK Cohere v1/v2. Il punteggio di rilevanza è un logit grezzo (l'ordine relativo è garantito). Ideale come complemento allo stack RAG (embedding + retrieval + rerank).

qwen3-reranker:4b

Potente modello di reranking con un alto livello di comprensione del contesto.
Eccellente qualità di riprogrammazione grazie ai parametri 4B. Ideale per le pipeline RAG più esigenti.

qwen3-reranker:0.6b

Modello di reranking compatto ed efficiente per una riprogrammazione rapida.
Versione leggera per i casi d'uso che richiedono una bassa latenza di reranking.

bge-reranker-grande

Modello di reranking multilingue ad alte prestazioni della famiglia BGE.
Complementare al modello di incorporazione BGE-M3 per le pipeline RAG complete.

Sicurezza

I nostri modelli di sicurezza sono specializzati nel rilevamento di contenuti problematici, nella prevenzione di jailbreak e nella garanzia di conformità alle normative (RGPD, HDS). Possono essere utilizzati come pre-filtri o post-filtri nei vostri flussi di lavoro.

45 gettoni/secondo

granito3-guardia:8b

Granite Guardian 4.1 (aggiornamento alla v3) — individuazione di contenuti problematici, jailbreak, BYOC e "hybrid thinking".
Versione 4.1 (aprile 2026). Progettato per filtrare i contenuti sensibili e garantire la conformità al GDPR e all'HDS. Utilizzabile come prefiltro o postfiltro nei vostri flussi di lavoro. Hybrid thinking (ragionamento) attivato.
60 gettoni/secondo

granito3-guardiano:2b

Granite Guardian 4.1 compact (aggiornamento v3:2b) — alias verso la versione 8B con "hybrid thinking".
Stesse capacità di filtraggio della versione 8B con un ingombro ridotto. Ideale per flussi di lavoro ad alta frequenza. Hybrid thinking (ragionamento) attivato.

Traduzione

I nostri modelli di traduzione offrono un'elevata fedeltà in 55 lingue, rispettando la grammatica, le sfumature culturali e le specificità tecniche dei documenti.

17 gettoni/secondo

translategemma:27b

Traduzione ad alte prestazioni per 55 lingue. Qualità superiore per contenuti complessi e tecnici.
Coglie le sfumature letterarie e culturali con eccezionale fedeltà.

Audio e immagini

I nostri modelli audio e immagine consentono la trascrizione vocale in tempo reale (streaming ASR) e la generazione di immagini da descrizioni testuali, compatibili con le API OpenAI.

voxtral

Trascrizione audio in tempo reale tramite WebSocket. Riconoscimento vocale in streaming a bassa latenza.
Funziona in modalità Realtime tramite l'endpoint /v1/realtime (WebSocket). Trascrive l'audio in streaming.

immagine z:16b

Generazione di immagini da richieste di testo, compatibile con le API OpenAI /v1/images/generations.
Supporta le dimensioni e il numero di immagini. Compatibile con l'ecosistema OpenAI.

Modello a confronto

Questa tabella di confronto vi aiuterà a scegliere il modello più adatto alle vostre esigenze, in base a vari criteri come le dimensioni del contesto, le prestazioni e i casi d'uso specifici.

Tabella di confronto delle caratteristiche e delle prestazioni dei diversi modelli di IA disponibili, raggruppati per categoria.
Modello Editore Parametri Contesto (token) Visione Agente Ragionamento Sicurezza Rapido * Efficienza energetica *
Chat e ragionamento
qwen3.6:27b Squadra Qwen 27B 1 000 000
gpt-oss:120b OpenAI 120B 120 000
lama3.3:70b Meta 70B 132 000
nemotron-3-super:120b NVIDIA 120B 1 000 000
qwen3-2507:235b Squadra Qwen 235B 200 000
mistral-small4:119b Mistral AI 119B 262 144
qwen3-2507-pensiero:4b Squadra Qwen 4B 250 000
Programmazione e agenti
qwen3.6:35b Squadra Qwen 35B 1 000 000
qwen-coder-next:80b Squadra Qwen 80B 250 000
qwen3-next:80b Squadra Qwen 80B 250 000
devstral-small-2:24b Mistral AI e All Hands AI 24B 200 000
funzione gemma: 270 m Google 270M 32 768
Visione e multimodalità
qwen3-vl:235b Squadra Qwen 235B 200 000
qwen3-vl:30b Squadra Qwen 30B 250 000
qwen3-vl:4b Squadra Qwen 4B 250 000
gemma4:31b Google 31B 250 000
gemma4:12b-it-qat Google 12B 250 000
Incorporazione
bge-m3:567m BAAI 567M 8 192
qwen3-embedding:4b Squadra Qwen 4B 40 000
qwen3-embedding:8b Squadra Qwen 8B 40 000
qwen3-embedding:0.6b Squadra Qwen 0.6B 32 768
granito-embedding:278m IBM 278M 512
embeddinggemma:300m Google 300M 2 048
Reranking
nvidia/llama-nemotron-rerank-vl-1b-v2 NVIDIA 1B 4 096 N.C.
qwen3-reranker:4b Squadra Qwen 4B 4 096 N.C.
qwen3-reranker:0.6b Squadra Qwen 0.6B 4 096 N.C.
bge-reranker-grande BAAI 335M 512 N.C.
Sicurezza
granito3-guardia:8b IBM 8B 8 192
granito3-guardiano:2b IBM 2B 8 192
Traduzione
translategemma:27b Google 27B 120 000
Audio e immagini
voxtral Mistral AI 4B 32 768 N.C.
immagine z:16b Comunità 16B N.C. N.C.
Legenda e spiegazione
Funzionalità o capacità supportata dal modello
Funzionalità o capacità non supportate dal modello
* Efficienza energetica Indica un consumo energetico particolarmente basso (< 2,0 kWh/Mtoken)
* Veloce Modello in grado di generare più di 50 gettoni al secondo
Nota sulle misure di performance
I valori di velocità (token/s) rappresentano gli obiettivi di prestazione in condizioni reali. Il consumo energetico (kWh/Mtoken) è calcolato dividendo la potenza stimata del server di inferenza (in Watt) per la velocità misurata del modello (in token/secondo), quindi convertito in kilowattora per milione di token (divisione per 3,6). Questo metodo offre un confronto pratico dell'efficienza energetica di diversi modelli, da utilizzare come indicatore relativo piuttosto che come misura assoluta del consumo energetico.

Casi d'uso consigliati

Ecco alcuni casi d'uso comuni e i modelli più adatti per ciascuno di essi. Queste raccomandazioni si basano sulle prestazioni e sulle capacità specifiche di ciascun modello.

Dialogo multilingue

Chatbot e assistenti in grado di comunicare in più lingue con rilevamento automatico e mantenimento del contesto
Modelli consigliati
  • nemotron-3-super:120b
  • qwen3.6:27b
  • gpt-oss:120b

Analisi di documenti lunghi

Elaborazione di documenti di grandi dimensioni (>100 pagine) con estrazione di informazioni chiave, riassunti e risposte a domande
Modelli consigliati
  • nemotron-3-super:120b
  • qwen3.6:27b
  • qwen3-2507:235b

Programmazione e sviluppo

Generazione, ottimizzazione e debug del codice in più linguaggi, refactoring e creazione di test.
Modelli consigliati
  • qwen3.6:35b
  • qwen-coder-next:80b
  • devstral-small-2:24b
  • nemotron-3-super:120b

Analisi visiva

Elaborazione di immagini e documenti visivi, OCR, interpretazione di grafici e tabelle
Modelli consigliati
  • qwen3-vl:235b
  • gemma4:31b
  • qwen3-vl:30b

Sicurezza e conformità

Filtraggio dei contenuti sensibili, rilevamento del jailbreak, conformità RGPD/HDS
Modelli consigliati
  • granite4.1-guardian:8b
  • granito3-guardia:8b
  • granito3-guardiano:2b
  • mistral-small4:119b

Impieghi leggeri

Applicazioni che richiedono un ingombro minimo, bassa latenza e basso consumo energetico

RAG (Generazione Aumentata dal Recupero)

Pipeline complete per la ricerca semantica, il riordino e il reperimento di informazioni
Modelli consigliati
  • bge-m3:567m
  • nvidia/llama-nemotron-rerank-vl-1b-v2
  • qwen3.6:27b
Seguire lo sviluppo dell'offerta LLMaaS

Scoprite tutti i nostri documenti di ricerca sull'IA

 

Politica sui cookie

Utilizziamo i cookie per offrirvi la migliore esperienza possibile sul nostro sito, ma non raccogliamo alcun dato personale.

I servizi di misurazione dell'audience, necessari per il funzionamento e il miglioramento del nostro sito, non consentono di identificarvi personalmente. Tuttavia, avete la possibilità di opporvi al loro utilizzo.

Per ulteriori informazioni, consultare il nostro Informativa sulla privacy.