Arthur rilascia uno strumento open source per aiutare le aziende a trovare il miglior LLM per un lavoro

Arthur, una startup di monitoraggio dell'apprendimento automatico, quest'anno ha beneficiato dell'interesse per l'intelligenza artificiale generativa e ha sviluppato strumenti per aiutare le aziende a lavorare con i LLM in modo più efficace. Oggi rilascia Arthur Bench, uno strumento open source per aiutare gli utenti a trovare il miglior LLM per un particolare insieme di dati.

Adam Wenchel, CEO e co-fondatore di Arthur, afferma che l'azienda ha riscontrato molto interesse per l'intelligenza artificiale generativa e i LLM, e quindi si è impegnata molto nella creazione di prodotti.

Dice che oggi, e ammesso che sia passato meno di un anno dal rilascio di ChatGPT, che le aziende non dispongono di un modo organizzato per misurare l'efficacia di uno strumento rispetto a un altro, ed è per questo che hanno creato Arthur Bench.

"Arthur Bench risolve uno dei problemi critici che sentiamo con ogni cliente che è [con tutte le scelte di modello], quale è il migliore per la tua particolare applicazione", ha detto Wenchel a TechCrunch.

Viene fornito con una suite di strumenti che puoi utilizzare per testare metodicamente le prestazioni, ma il vero valore è che ti consente di testare e misurare il modo in cui i tipi di prompt che i tuoi utenti utilizzerebbero per la tua particolare applicazione si comporteranno rispetto a diversi LLM.

Crediti immagine:Artù

"Potresti potenzialmente testare 100 diversi prompt e poi vedere come due diversi LLM - ad esempio il confronto tra Anthropic e OpenAI - sui tipi di prompt che i tuoi utenti probabilmente utilizzeranno", ha detto Wenchel. Inoltre, afferma che è possibile farlo su larga scala e prendere una decisione migliore su quale modello sia il migliore per il proprio caso d'uso particolare.

Arthur Bench viene rilasciato oggi come strumento open source. Ci sarà anche una versione SaaS per i clienti che non vogliono affrontare la complessità della gestione della versione open source o che hanno requisiti di test più ampi e sono disposti a pagare per questo. Ma per ora, Wenchel ha detto che si stanno concentrando sul progetto open source.

Il nuovo strumento arriva sulla scia del rilascio di Arthur Shield a maggio, una sorta di firewall LLM progettato per rilevare allucinazioni nei modelli, proteggendo al contempo da informazioni tossiche e fughe di dati privati.

Crediti immagine: