Introduzione
Il cancro della mammella è il tumore femminile più diffuso al mondo, con oltre 2,3 milioni di nuovi casi diagnosticati nel 2022. In Italia, nel 2022, è stato diagnosticato un tumore alla mammella a circa 57.000 donne [1].
I marcatori biologici che hanno un ruolo cruciale nella diagnosi del tumore della mammella sono: il recettore estrogenico (ER), il recettore progestinico (PgR), l’indice di proliferazione (Ki-67) e il recettore 2 del fattore di crescita epidermico umano (HER2). Nei referti di Anatomia Patologica (AP), queste informazioni sono contenute nel campo testuale non-strutturato relativo alla diagnosi. L’estrazione manuale delle informazioni dai referti richiede molto tempo ed una formazione approfondita del personale dedicato. L’elaborazione del linguaggio naturale (Natural Language Processing – NLP) è un valido strumento per trasformare questi dati da non strutturati a strutturati, utili per successive elaborazioni [2].
Obiettivi
L’obiettivo del nostro studio è quello di addestrare dei modelli in grado di estrarre e predire i valori dei marcatori biologici del tumore della mammella femminile contenuti nelle diagnosi di AP, attraverso l’applicazione di metodologie di Text Mining (TM) e di Machine Learning (ML).
Metodi
La metodologia adottata consiste, in primo luogo, nell’implementazione di un algoritmo di TM per l’estrazione delle informazioni testuali dalla diagnosi e successivamente nell’applicazione dell’algoritmo di ML Support Vector Machine (SVM) per la predizione dei marcatori biologici [3].
Il TM è una tecnica di Intelligenza Artificiale che utilizza NLP per trasformare il testo libero, non strutturato, in dati strutturati. L’applicazione del modello di TM permette la costruzione della matrice documenti-termini (Document Term Matrix – DTM), che contiene nelle righe i documenti (nel nostro caso i referti di anatomia patologica), nelle colonne i termini testuali estratti, mentre le celle contengono le “occorrenze” (frequenze) di ciascun termine in ciascun documento [4].
Una volta ottenuta la DTM finale (una per ogni marcatore biologico analizzato), è stato applicato il modello SVM con kernel lineare [3]. Questo modello è stato inizialmente addestrato sul training set, un sottoinsieme che contiene l’80% dei dati. Una volta individuato il modello “migliore” per ciascun recettore, è stato valutato sul test set, che contiene il restante 20% dei dati, confrontando la previsione ottenuta dal modello con il valore del Gold Standard, ovvero le informazioni registrate manualmente dagli operatori del Registro Tumori del Veneto (RTV). L’accuratezza della predizione è stata valutata con lo score pesato F1, che è una metrica di valutazione dell’apprendimento automatico che combina punteggi di precisione (precision) e recupero (recall) e risulta ottimale per misurare l’accuratezza quando i dati sono sbilanciati [5].
Tutte le analisi sono state effettuate utilizzando il software R, versione 4.2.1.
Risultati
I dati utilizzati per l’addestramento dei modelli sono stati estratti dal RTV e fanno riferimento a 9.807 referti provenienti da 7 servizi di AP del Veneto, relativi a 4.029 pazienti con tumore alla mammella diagnosticato tra il 2017 e il 2020.
I modelli “migliori” selezionati, addestrati nel training set, sono stati valutati sul test set, mostrando una buona accuratezza (dal 66,6% del Ki-67 al 78,3% di ER). Tuttavia, è possibile che un paziente abbia più di un referto patologico e, quindi, più valori dei marcatori biologici associati. Secondo le linee guida dell’Associazione Italiana di Oncologia Medica (AIOM) [6], all’interno di uno stesso soggetto, è necessario selezionare il valore minimo di ER, PgR e HER2 e il valore massimo di Ki-67 (considerando i referti entro 6 mesi dalla data della diagnosi). Inoltre, secondo le linee guida AIOM, per identificare i fenotipi tumorali ciascun marcatore deve essere ricodificato in positivo o negativo secondo opportune soglie [6].
Il confronto tra i valori predetti e il Gold Standard per ciascun paziente è stato effettuato sia sui valori esatti dei marcatori che sui valori ricodificati. Lo score F1 pesato relativo ai valori puntuali varia tra l’87,2% del Ki-67 ed il 91,7% di HER2 (Tabella 1). Considerando, invece, le categorie definite dalle soglie previste da AIOM, l’accuratezza è risultata ottima con valori compresi tra il 95,4% per HER2 ed il 99,6% per ER.
Tabella 1. Accuratezza di predizione per ciascun marcatore biologico
Marcatori biologici Numero di pazienti F1 pesato
(valori esatti) F1 pesato
(valori ricodificati)*
ER 3.613 89,3% 99,6%
PgR 3.592 89,1% 98,1%
Ki-67 3.540 87,2% 96,7%
HER2 3.574 91,7% 95,4%
- <10%/≥10% per ER, <20%/≥20% per PgR e Ki-67, e negativo (0-1) / dubbio (2) / positivo (3) / mancante (9) per HER2
Conclusioni
Nella letteratura scientifica, nonostante il crescente interesse per questo tema, c’è una disponibilità limitata di approcci NLP applicati ai referti di anatomia patologica in lingue diverse dall’inglese. Uno dei punti di forza del nostro studio è l’implementazione di un algoritmo di TM in grado di analizzare testi scritti in italiano. Inoltre, abbiamo applicato il modello SVM che si è rivelato un buon classificatore dei referti di anatomia patologica.
Al contrario, in questo studio è stato addestrato un solo modello di ML. Uno dei prossimi passi sarà quello di addestrare e confrontare diversi modelli di ML.
Inoltre, i referti patologici analizzati si riferiscono solo a 7 dei 22 servizi di AP del Veneto. A questo proposito, i quattro modelli validati verranno applicati ai referti degli altri servizi della regione e successivamente verificati a campione dagli operatori del RTV.
Infine, i modelli addestrati utilizzando i dati 2017-2020 verranno testati sui referti di pazienti con tumore della mammella incidenti in anni più recenti, per i quali sarà disponibile il Gold Standard.
Bibliografia
- Bray F., Laversanne M., Sung H. et al. Global cancer statistics 2022: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin., 2024; 74(3): 229-263
- López-Úbeda P., Martín-Noguerol T., Aneiros-Fernández J. et al. Natural Language Processing in Pathology: Current Trends and Future Insights. Am J Pathol, 2022 Nov; 192(11): 1486-1495
- McCowan I., Moore D., Fry M.J. Classification of cancer stage from free-text histology reports. Conf Proc IEEE Eng Med Biol Soc. 2006; 5153-6
- Feinerer I. Introduction to the tm Package Text Mining in R. The R Archive Network. 2023 Feb 5
- Spasić I., Livsey J., Keane J.A. et al. Text mining of cancer-related information: review of current status and future directions. Int J Med Inform 2014; 83(9):605-23
- Linee guida neoplasia della mammella. Associazione Italiana di Oncologia Medica (AIOM), 2021