Home Tecnologia Prova di matematica della maturità 2025: come hanno risposto i modelli di intelligenza artificiale alla seconda prova del liceo scientifico
Tecnologia

Prova di matematica della maturità 2025: come hanno risposto i modelli di intelligenza artificiale alla seconda prova del liceo scientifico

Condividi
Condividi

La seconda prova dell’esame di maturità 2025 per il liceo scientifico ha visto per protagonista la matematica, una materia spesso temuta dagli studenti. InfoData ha deciso di testare l’efficacia di alcuni modelli di intelligenza artificiale nel risolvere i problemi proposti, inviando loro le immagini dei quesiti con un’istruzione semplice: “Risolvili”. Il risultato è stato deludente secondo l’analisi di Domenico Brunetto, docente associato di matematica al Politecnico di Milano, che ha valutato le risposte fornite.

Un test con quattro modelli di AI

L’esperimento ha coinvolto quattro modelli di AI selezionati per capire come affrontano problemi matematici complessi alla maturità. L’approccio di base è stato quello di caricare le immagini dei testi dei problemi senza aggiungere istruzioni complesse né trascrivere manualmente i contenuti. L’obiettivo era simulare la situazione di uno studente non preparato che prova a risolvere gli esercizi affidandosi a un aiuto immediato da parte dell’AI.

Il modello che ha deluso di più è stato Gemini, sviluppato da Google. In qualità di modello linguistico, Gemini ha dichiarato di non poter analizzare direttamente le immagini e ha chiesto di trascrivere i testi per poter procedere, soluzione poco praticabile in un contesto d’esame. Gli altri modelli, ChatGPT, DeepSeek e Claude, hanno accettato il compito ma non sono riusciti a fornire risposte accurate o complete.

Chatgpt e le sue difficoltà

ChatGPT ha incontrato difficoltà significative nella lettura e nella risoluzione dei problemi matematici proposti. Il modello non ha considerato il secondo problema, scelta non allineata alle richieste dell’esame, e ha affrontato in modo parziale il primo. Tra gli errori gravi, spicca la confusione tra f e f alla meno uno, quest’ultimo essendo l’inverso di una funzione, concetto matematico ben definito, mentre il primo indica il valore della funzione in -1. Questo errore sembrerebbe derivare dalla fase di interpretazione dell’immagine e del testo.

Per quanto riguarda i quesiti, ChatGPT ha gestito in modo più adeguato quelli procedurali, legati a operazioni e calcoli, mentre ha lasciato carenze su quelli più concettuali, che richiedono comprensione e ragionamento matematico approfondito. Secondo Brunetto, il punteggio complessivo attribuito al modello varia da 1 sui problemi a 4 sui quesiti.

I risultati di deepseek e claude

DeepSeek e Claude, entrambi meno noti rispetto a ChatGPT e Gemini, hanno mostrato risultati appena sopra la sufficienza o poco al di sotto. Brunetto ha assegnato a ciascuno voto 5 per i quesiti, indicando un risultato mediocre senza risposte convincenti sui concetti matematici.

Claude ha generato un termine, “derivate laterali”, che non fa parte del linguaggio matematico ufficiale italiano né inglese, dove si parla invece di derivata destra e sinistra. L’uso di questa terminologia è apparso come un errore di traduzione o interpretazione del modello, non accettabile in un compito d’esame.

DeepSeek ha ottenuto l’unica sufficienza minima, voto 6, con risposte sintetiche ma corrette in molti passaggi. In particolare, per il secondo problema ha suggerito di impiegare il prodotto scalare come metodo per verificare che un triangolo sia rettangolo, un approccio che raramente si trova nei programmi di matematica del liceo scientifico. Generalmente, infatti, gli studenti si affidano al teorema di Pitagora per questo tipo di verifica, rendendo la soluzione proposta poco pratica.

Brunetto ha paragonato la sintesi e precisione delle risposte di DeepSeek all’elaborazione matematica che osserva nei suoi studenti cinesi, noti per un metodo di studio rigoroso ma conciso. Ciò suggerisce un’influenza culturale nel modo in cui il modello genera le risposte.

Riflessioni sull’uso dell’intelligenza artificiale in ambito scolastico

Il giudizio complessivo di Domenico Brunetto sull’operato delle AI durante questo test è stato piuttosto netto: un risultato insoddisfacente. L’errore di base è stato affidare un prompt generico, con richieste semplici e nessuna specifica sulle competenze da considerare, come quelle tipiche di uno studente che si prepara al quinto anno del liceo scientifico.

Secondo il docente, il punteggio e la qualità delle risposte sarebbero migliorati se il prompt fosse stato più dettagliato, se avesse posto limiti sulle strategie ammesse o se avesse incluso lezioni e modelli di risoluzione specifici alle prove degli ultimi anni. In quel caso però, richiedendo un’interazione più strutturata, si avvicinerebbe anche l’idea di utilizzare l’AI come strumento di studio in anticipo, anziché come scorciatoia d’esame.

Il test sottolinea la distanza attuale tra gli strumenti di intelligenza artificiale e le esigenze di risposte esatte in ambiti specialistici come la matematica d’esame. Al momento le AI appaiono inadatte a sostituire lo studio personale e la preparazione specifica, soprattutto in contesti valutativi formali come quello della maturità.

Written by
Serena Fontana

Serena Fontana è una blogger e redattrice digitale specializzata in cronaca, attualità, spettacolo, politica, cultura e salute. Con uno sguardo attento e una scrittura diretta, racconta ogni giorno ciò che accade in Italia e nel mondo, offrendo contenuti informativi pensati per chi vuole capire davvero ciò che succede.

Unita.tv è un sito d’informazione generalista che offre aggiornamenti su cronaca, politica, spettacolo, gossip, sport e altri temi d’attualità, con uno stile dinamico e accessibile.

Info & Comunicati

Per info e comunicati stampa inviare email a: info@unita.tv

Questo blog non è una testata giornalistica, in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62 del 07.03.2001.