ChatGPT, il chatbot AI che ha preso d'assalto il mondo, ha già superato numerosi test: l'esame Wharton MBA, l'esame di abilitazione e diversi esami AP, tra gli altri. Ma il robot parlante ha incontrato la sua partita quandoContabilità oggiha eseguito un esame CPA di pratica come esperimento: ChatGPT ha fallito completamente in tutte e quattro le sezioni.
—
L'esperimento ha avuto luogo presso l'ufficio Aricent nel distretto finanziario di New York City il 13 aprile in collaborazione con Surgent CPA Review. Abbiamo utilizzato due laptop, ciascuno con un account ChatGPT 3.5 Pro separato (la misurazione su account gratuiti o su GPT 4 avrebbe reso l'esperimento impraticabile). Un laptop gestiva la sezione BEC e FAR. L'altro gestiva la sezione REG e AUD.
Quando tutte le sezioni del test sono state completate, i suoi punteggi sono stati:
- REG: 39%;
- AUD: 46%;
- LONTANO: 35%
- BEC: 48%
I risultati indicano che ChatGPT non ha superato nessuna parte dell'esame CPA.(I dettagli completi sulla nostra metodologia sono inclusi in fondo all'articolo.)

La contabilità reagisce
Jack Castonguay, vicepresidente dello sviluppo di contenuti strategici presso Surgent Accounting & Financial Education, ha agito comeContabilità di oggicollegamento per il progetto e fornito supporto durante l'esperimento. Pur non aspettandosi necessariamente che ChatGPT ottenga un punteggio perfetto, ha affermato di essere rimasto sorpreso da quanto sia andata male.
"Considero la contabilità altamente basata su regole. La considero più vicina a una laurea in giurisprudenza che a una laurea in matematica. E pensavo che avrebbe funzionato molto bene nelle funzioni basate sulla matematica, che è la sezione FAR dell'esame, ma non ha funzionato molto bene alla FAR. Questo mi ha sorpreso perché molto è solo matematica. Ma forse dimostra che gli umani, in generale, non siamo nemmeno i migliori in matematica, quindi copiare i dati sulla matematica potrebbe avere l'ho fatto. Ma questo probabilmente mi ha sorpreso più degli altri."
Ha suggerito, tuttavia, che potrebbero esserci buone ragioni per contestare ChatGPT in modo specifico dalla contabilità. Per prima cosa, mentre ChatGPT potrebbe avere la conoscenza, ciò non significa che capisca come contestualizzarlo o trarne le giuste deduzioni.
"Se qualcuno sta cercando di capire qualcosa da un punto di vista finanziario o fiscale, posso leggere l'Internal Revenue Code, posso tirare fuori la codifica FASB. Ma il valore del CPA è l'interpretazione, ed è qui che ChatGPT ha fallito professionalmente", ha detto. "Leggi i rapporti sull'esame di avvocato e [ChatGPT] è bravo a dire qual è la legge, ma quando devi effettivamente applicarla, le cose diventano più difficili", ha detto. Ha anche aggiunto che i dati sulla formazione di ChatGPT includevano letteralmente centinaia di anni di giurisprudenza e dati aziendali. C'è molto meno materiale sulla contabilità.
Qualcuno che non è stato sorpreso dai risultati è stato Wes Bricker, vicepresidente e co-leader delle soluzioni di fiducia presso la società Big Four PwC, che ha affermato che c'è di più nella contabilità che avere solo molte conoscenze contabili: c'è anche la questione di giudizio professionale, scetticismo ed esperienza, che manca a ChatGPT.
"Il valore viene creato ogni volta che mettiamo insieme le persone con la tecnologia. Si crea qualcosa di molto più grande. Se potessi fare in modo che un'intelligenza artificiale offra lo stesso valore di un CPA, sarei scioccato perché l'intelligenza artificiale e gli strumenti tecnologici sono preziosi, ma sono solo uno pezzo di un'equazione in due parti: tecnologia più umani", ha detto.
Bricker ha notato che ChatGPT è un modello linguistico di grandi dimensioni, il che significa che la sua funzione principale è lavorare con le parole, non con i numeri. Come qualcuno che ha superato sia l'esame di avvocato che l'esame CPA, Bricker ha sollevato un punto simile a Castonguay in quanto, sebbene il chatbot possa avere le conoscenze necessarie, manca dell'esperienza per contestualizzarlo correttamente.
"Sono orgoglioso di essere un membro dell'ordine degli avvocati e un CPA. Entrambi sono esami difficili. Ma l'esame CPA è quello che collega i numeri, perché la contabilità non riguarda solo i sistemi di misurazione... ChatGPT è un modello linguistico ampio, non un grande modello di vita. La vita va oltre il linguaggio. Lo include, ma include anche la misurazione e la valutazione di grandezze, probabilità, gravità e valori. ChatGPT è potente ma i CPA stanno comunicando la contabilità nel contesto della società e della vita ", ha affermato.
Tracey Niemotko, professore di contabilità al Marist College e membro del consiglio direttivo dell'American Institute of CPAs, ha sollevato un punto simile notando un'altra possibile ragione per le scarse prestazioni di ChatGPT: non è molto bravo in matematica in questo momento.
"Sappiamo che ha un valore concettuale per la ricerca e la capacità di collegare la terminologia linguistica, ma non sono sorpreso quando si tratta del quantitativo.... Va bene per la ricerca generale, la stesura e la discussione, ma nel complesso la facoltà di contabilità, a questo punto , riconosciamo che c'è un vuoto quando si tratta di abilità e applicazioni matematiche", ha affermato.
Ha aggiunto che se ChatGPT fosse una persona, rifletterebbe un problema più ampio che ha osservato nell'istruzione statunitense in generale: un'enfasi sulla memorizzazione e una mancanza di pensiero critico. Ci sono esseri umani che si comportano come ChatGPT in quanto hanno memorizzato tutto ciò che c'è da sapere ma la memorizzazione non equivale all'intelligenza, ha suggerito: "Penso che ChatGPT sia il simbolo di quello studente che ha la conoscenza ma non può applicarla in mano -on situazione. Penso che sia simbolico dei nostri problemi in generale. Dove sono i nostri pensatori?... L'ostacolo che dobbiamo superare nell'istruzione superiore è parlare con studenti che non sono abituati a parlare con un cliente. Sono abituati a memorizzare e che , in poche parole, è il più grande ostacolo da superare per ottenere pensatori critici. Direi che [ChatGPT] è come qualcuno che ha la capacità di generare informazioni ma non è stato addestrato, o programmato, sulle sue applicazioni ", ha detto.
Enzo Santilli, Chief Transformation Officer presso Top 10 Firm Grant Thornton, conosceva studenti come questo quando era al college e ha convenuto che i risultati di ChatGPT suggeriscono qualcuno che era bravo a memorizzare ma pessimo nell'applicazione. "Se questa fosse una persona, sarebbe il tipo di studente, che non sono mai stato, che ha solo una memoria fotografica e se un insegnante scrive qualcosa su una lavagna e lo vede, lo imprimerebbe immediatamente nella memoria. Poi ricevevo una domanda e ricordavo immediatamente, qui a pagina 76, c'è il paragrafo di cui avete bisogno, e bang, conoscete la risposta", ha detto.
Ha anche notato che il bot potrebbe aver funzionato male perché i calcoli contabili sono spesso in più passaggi e, per quanto ChatGPT sia in matematica in generale, è ancora peggio per i problemi che richiedono un ragionamento in più passaggi.
Fili comuni
Contabilità oggiha condotto il suo esperimento molto poco prima del rilascio di un altro studio che ha dimostrato che ChatGPT ha ottenuto scarsi risultati sulle domande di contabilità generalmente poste agli studenti universitari (vedi storia precedente). Lo studio ha coinvolto 327 coautori di 186 istituzioni educative in 14 paesi, contribuendo all'esperimento con 25.181 domande d'esame di contabilità in classe. Hanno anche reclutato studenti universitari della Brigham Young University per fornire a ChatGPT altre 2.268 domande sulla banca di test dei libri di testo. Le domande riguardavano i sistemi informativi contabili, la revisione contabile, la contabilità finanziaria, la contabilità gestionale e fiscale, e variavano per difficoltà e tipologia (vero/falso, scelta multipla, risposta breve, ecc.)
Proprio come il nostro esperimento, lo studio ha rilevato che il chatbot AI, con un punteggio del 47,4%, bombarderebbe completamente un corso di contabilità, senza nemmeno ottenere un voto D. Gli studenti umani, pur non rispondendo esattamente alle domande, hanno fatto molto meglio, con una media del 76,7%. L'intelligenza artificiale ha superato gli studenti nell'11,3% delle domande, principalmente su AIS e auditing, ma ha ottenuto risultati peggiori degli umani nelle valutazioni fiscali, finanziarie e gestionali.
Daniel Street, un professore di contabilità della Bucknell University che era uno degli autori dello studio, ha notato che il loro studio, proprio come il nostro, ha scoperto che ChatGPT ha lottato con le informazioni quantitative, che ha osservato "sembra essere il compito più grande della contabilità".
"Se gli chiedi di un quadro concettuale, lo inchioda. Se chiedi dei periodi di inflazione LIFO, lo inchioda. Se chiedi quali sono le responsabilità della SEC rispetto al PCAOB o di interpretare uno standard, lo inchioderà. Ma poiché è un modello linguistico di grandi dimensioni e progettato per prevedere il testo in risposta ai prompt, questo testo può includere numeri ma non è progettato per essere un motore di calcolo, quindi ci sono calcoli stupidamente semplici che falliranno ", ha detto.
Ha aggiunto che questo potrebbe non essere necessariamente l'unico test che ChatGPT fallirà, osservando che attualmente sta lavorando con un collega per testare quanto bene fa sull'economia ingegneristica, che è anche altamente quantitativa, e ha riscontrato carenze simili.
Street ha ritenuto logico che ChatGPT fosse pessimo per le domande di contabilità universitaria, ma è andato anche peggio all'esame CPA, dove ha ottenuto una media del 42% tra tutte e quattro le sezioni. Le domande di classe provenivano da tutti i livelli dei curricula contabili su una vasta gamma di argomenti, molti dei quali sono stati scritti online.
"Ma confronta l'esame CPA, che è costantemente scritto a un livello di difficoltà: quello di un membro dello staff di livello base. E quindi quel livello è molto più alto di quello di uno studente introduttivo. Quindi uno dei motivi per cui non sono sorpreso che abbia ottenuto un punteggio un po' peggio del nostro è perché il tuo livello di difficoltà era un po' più alto", ha detto.
Come altri, Street ha anche sottolineato che ChatGPT sembra mancare del senso delle sfumature e del contesto che è essenziale per molte attività contabili. Ha anche sottolineato che probabilmente non ci sono tanti dati contabili nel suo corpus di formazione quanti ce n'erano per campi come il diritto o l'amministrazione aziendale. Ha anche scoperto che ha difficoltà a riconoscere come gli standard GAAP cambiano nel tempo.
Ragionieri al sicuro per ora
Wesley Hartman, fondatore del fornitore di soluzioni di automazione della contabilità Automata e direttore della tecnologia presso Kirsch Kohn & Bridge LLP, ha affermato che una chiara conclusione da trarre da ciò è che ChatGPT non arriverà presto per lavori di contabilità.
"L'intelligenza artificiale a volte può fare cose davvero interessanti ea volte è solo una follia. Non è ancora a un livello di coerenza in cui possiamo fare affidamento su di essa per molte cose. Puoi usarla come fonte iniziale ma devi verificare con fonti più legittime. Quindi non credo che il contabile scomparirà. Quello che penso accadrà è che il contabile che non usa gli strumenti di intelligenza artificiale passerà in secondo piano. Non troverai più contabili con registri giganti "Abbiamo computer e software. Quindi la prossima evoluzione della contabilità sarà dove i contabili sfruttano questi strumenti, e coloro che non li sfruttano non saranno così veloci o efficienti", ha detto, aggiungendo che l'invenzione della calcolatrice non ha distruggere il matematico come professione.
Tuttavia, "presto" è soggettivo. Joe Wilck, un professore di analisi e gestione delle operazioni della Bucknell University che sta lavorando con Street al suddetto documento di ingegneria economica, ha osservato che mentre GPT 3.5 ha chiaramente fallito, GPT 4.0, che è stato rilasciato quest'anno, avrebbe probabilmente funzionato meglio. E ulteriori versioni del software funzioneranno ancora meglio.
Street ha anche notato che la versione 4.0 potrebbe anche risolvere il problema della matematica tramite plugin. Ad esempio, si sta lavorando per un plug-in ChatGPT 4.0 che si connette con Wolfram Alpha, un motore di conoscenza che deve calcolare ciò che ChatGPT è per la lingua.
"Ora ChatGPT può trasmettere in modo affidabile le informazioni avanti e indietro a uno strumento progettato per i numeri piuttosto che per il testo. Quando [il plug-in] diventerà ampiamente disponibile — è ancora in versione beta, quindi nemmeno tutti gli abbonati a pagamento lo hanno — vorremo rivisitare le capacità di gestire le informazioni numeriche quando si reagisce ad altri domini. Potrebbe essere un punto di svolta, ma non lo sappiamo ancora ", ha affermato.
Metodologia
Ognuna delle quattro finestre di chat è stata avviata con il seguente messaggio: "ChatGPT, assumerai il ruolo di uno studente che oggi sostiene l'esame CPA. Ripetimi questa informazione". Abbiamo scoperto che non farlo potrebbe creare confusione, poiché ChatGPT non risponderebbe sempre come se stesse facendo un test.
Abbiamo quindi creato nuovi account con Surgent CPA Review, che ha fornito l'accesso a un esame di pratica online. Una volta caricati gli esami di pratica, abbiamo copiato ogni domanda del test e l'abbiamo incollata in ChatGPT. Una volta che il programma ha fornito una risposta, l'abbiamo inserita manualmente nella finestra dell'esame, quindi siamo passati alla domanda successiva. Abbiamo fatto due sezioni alla volta, iniziando con AUD su un laptop e FAR su un altro, e procedendo con REG sul primo laptop e BEC sull'altro. Un vicepresidente di Surgent era con noi in quel momento per fornire supporto.
Durante le sezioni a scelta multipla, a volte ChatGPT non accettava alcuna opzione disponibile come risposta. In risposta, abbiamo pensato che se un essere umano si fosse trovato di fronte a questa situazione, avrebbe scelto la risposta più vicina alla propria e quindi l'abbiamo fatto. Nelle attività di simulazione che prevedevano menu a discesa, abbiamo inserito manualmente le opzioni nel prompt, poiché ChatGPT non le riconoscerebbe altrimenti come opzioni. Nelle attività di simulazione in cui era presente documentazione esterna, abbiamo deciso che il tentativo di inserire le informazioni da quei documenti avrebbe complicato ulteriormente la domanda e quindi abbiamo deciso di non farlo, ragionando sul fatto che probabilmente ci sono veri studenti umani che cercano anche di rispondere alla simulazione domande senza leggere la documentazione. Questo non significa che questi umani siano saggi a farlo, semplicemente che esistono.