Questa IA promette di sostituire giorni di controllo qualità in 2 ore

L'industria del software development sta attraversando una fase di trasformazione senza precedenti, dove l'intelligenza artificiale non si limita più a generare codice ma aspira a rivoluzionare l'intero ciclo di sviluppo. Il collo di bottiglia più critico si è spostato dalla scrittura del codice alla sua verifica, creando un paradosso: mentre gli strumenti AI accelerano la produzione di software, i tempi di testing rischiano di diventare il nuovo limite alla velocità di rilascio dei prodotti. In questo scenario complesso, emerge una nuova soluzione che promette di automatizzare completamente la fase di test end-to-end.

Andrew Filev, l'imprenditore seriale che ha fondato e venduto Wrike a Citrix per 2,25 miliardi di dollari nel 2021, ha annunciato il lancio in beta pubblica di Zentester, un agente IA progettato per automatizzare i test software completi. La sua startup Zencoder punta a distinguersi in un mercato sempre più affollato di assistenti AI per la programmazione, concentrandosi non sulla generazione di codice ma sulla sua validazione. "La verifica è l'anello mancante per scalare lo sviluppo guidato dall'AI dalla sperimentazione alla produzione", ha dichiarato Filev in un'intervista, sottolineando come Zentester non si limiti a generare test ma offra agli sviluppatori la fiducia necessaria per rilasciare software funzionante.

Il paradosso della velocità: più codice IA, più testing necessario

La problematica che Zentester intende risolvere affonda le radici in un processo di sviluppo tradizionale sempre più inadeguato per l'era dell'IA. Negli ambienti enterprise tipici, gli sviluppatori scrivono codice e lo inviano ai team di quality assurance, spesso attendendo diversi giorni per ricevere feedback. Nel frattempo, i programmatori sono già passati ad altri progetti, creando costosi context switching quando vengono scoperte problematiche. "In un processo ingegneristico tipico, dopo che uno sviluppatore costruisce una funzionalità e la invia al QA, riceve feedback diversi giorni dopo", spiega Filev. "A quel punto, si è già spostato su qualcos'altro. Questo cambio di contesto e il vai-e-vieni possono trasformare correzioni semplici in calvari di una settimana intera."

I primi risultati sembrano promettenti: Club Solutions Group, tra i clienti iniziali, ha riportato miglioramenti concreti, con il CEO Mike Cervino che afferma: "Quello che richiedeva al nostro team QA un paio di giorni ora richiede agli sviluppatori due ore".

Il tempismo è particolarmente rilevante considerando che gli strumenti di coding IA generano volumi di codice sempre maggiori. Filev stima che se gli strumenti aumentano la generazione di codice di 10 volte, i requisiti di testing aumenteranno similarmente di 10 volte, sovraccaricando i processi QA tradizionali.

Quello che richiedeva al nostro team QA un paio di giorni ora richiede agli sviluppatori due ore.

A differenza dei framework di testing tradizionali che richiedono agli sviluppatori di scrivere script complessi, Zentester opera su istruzioni in linguaggio naturale. L'agente IA può interagire con le applicazioni come farebbe un utente umano: cliccando pulsanti, compilando form e navigando attraverso i workflow software, validando sia le interfacce utente frontend che la funzionalità backend. Il sistema si integra con framework di testing esistenti, inclusi Playwright e Selenium, piuttosto che sostituirli completamente. "Non ci piace assolutamente che le persone abbandonino cose che fanno parte del nostro DNA", ha dichiarato Filev. "Sentiamo che l'IA dovrebbe sfruttare i processi e gli strumenti che già esistono nell'industria."

Zentester offre cinque capacità core: testing di qualità guidato dagli sviluppatori durante lo sviluppo delle funzionalità, accelerazione QA per la creazione di suite di test comprehensive, miglioramento della qualità per il codice generato dall'AI, manutenzione automatizzata dei test e verifica autonoma nelle pipeline di continuous integration. Lo strumento rappresenta l'ultima aggiunta alla piattaforma multi-agente più ampia di Zencoder, che include agenti di coding per generare software e agenti di unit testing per verifiche di base.

La battaglia per il dominio dell'IA development

Il lancio intensifica la competizione nel mercato degli strumenti di sviluppo IA, dove player consolidati come GitHub Copilot di Microsoft e nuovi entranti come Cursor si contendono la mindshare degli sviluppatori. L'approccio di Zencoder di costruire agenti specializzati per diverse fasi di sviluppo contrasta con i competitor focalizzati principalmente sulla generazione di codice. "A questo punto, ci sono tre prodotti di coordinamento forti nel mercato che sono production grade: siamo noi, Cursor e Windsurf", ha affermato Filev. "Per le aziende più piccole, sta diventando sempre più difficile competere."

L'azienda rivendica performance superiori sui benchmark industriali, riportando tassi di successo del 63% sui test SWE-Bench Verified e circa il 30% sul nuovo benchmark SWE-Bench Multimodal, risultati che secondo Filev raddoppiano le migliori performance precedenti. Gli analisti dell'industry notano che l'automazione dei test end-to-end rappresenta un passo logico successivo per gli strumenti di AI coding, ma l'implementazione di successo richiede una comprensione sofisticata della logica applicativa e dei workflow utente.

La visione di Zencoder si estende all'automazione completa dai requisiti al deployment in produzione, sebbene Filev riconosca le attuali limitazioni. "Il prossimo salto sarà dai requisiti alla produzione" ha spiegato. "In modo da avere requisiti in linguaggio naturale con l'IA che aiuterà poi a scomporli, costruire architettura, codice, review, verificare e spedire tutto in produzione".

Per un'industria che ancora dibatte se l'intelligenza artificiale sostituirà i programmatori o li renderà semplicemente più produttivi, Zentester suggerisce una terza possibilità: un'IA che gestisce il tedioso lavoro di verifica mentre gli sviluppatori si concentrano sull'innovazione. La domanda non è più se le macchine possano scrivere codice, ma se ci si possa fidare di loro per testarlo.

Fonte dell'articolo: venturebeat.com