Nel mondo dei database medici la terminologia appropriata e i vari livelli di profondità dei termini possono risultare un ostacolo nel caso vengano commissionate ricerche complesse ed esaustive.
Le informazioni mediche sono in crescita numerica esponenziale causando un aumento di difficoltà per chi compie ricerche nei database, soprattutto se sono generiche e per argomento. Infatti i ricercatori del mondo dell’informazione mettono a punto sistemi sempre più aggiornati per ottimizzare il recupero di tali informazioni.
Query Expansion nelle ricerche nei database medici
La complessità della terminologia nel settore risulta una barriera spesso impenetrabile per i laici, cioè i non esperti del settore medico, mentre anche per gli esperti è un gradiente di difficoltà che può consumare tempo e risorse computazionali. Per esempio, quando al dipartimento di Medical Information giungono richieste di ricerca su un argomento vasto, si deve ricorrere a una Query expansion, un’espansione dei termini di ricerca, includendo eventuali sinonimi. La difficoltà consiste quindi nel trovare informazioni rilevanti in mezzo a innumerevoli documenti.
Le tecniche di information retrieval, che si rivolgono alla ricerca e all’accesso di informazioni nei database e nel web, si sono sviluppate per migliorare la ricerca nei vasti database tecnici. Relativamente al problema delle query espanse, una tecnica ideale deve riuscire ad ampliare il risultato della richiesta trovando informazioni più rilevanti possibili. Nel settore medico, il database Pubmed/Medline permette di aumentare lo spettro della ricerca utilizzando i descrittori e i sinonimi del vocabolario interno MeSH (Medical Subject Headings).
I ricercatori informatici hanno profuso molti sforzi per perfezionare questa espansione della ricerca in maniera automatica, aumentando l’efficacia del ricercatore e della macchina. Nell’ultimo decennio sono stati messi a punto degli algoritmi a “sciame” (Particle-Swarm-Optimization) che si ispirano al comportamento naturale di alcuni animali gregari per esplorare con efficacia lo spazio di ricerca, come le lucciole (Firefly-Algorithm), i cuculi (Cuckoo System) e i pipistrelli (Bat Algorithm).
Bat-Algorithm per ottimizzare l’espansione della query
Lo studio di Khennak et al. si basa sull’applicazione del Bat-Algorithm nella ricerca nei database di letteratura scientifica. Questo algoritmo si basa sulla modalità con cui i pipistrelli cacciano le loro prede, cioè la localizzazione di queste grazie all’eco di ritorno degli ultrasuoni emessi dagli stessi pipistrelli.
I “pipistrelli virtuali” vengono generati basandosi su una expanded query, cioè un espansione dei risultati di ricerca, nella quale alla parola chiave vengono associati i sinonimi trovati nel dizionario del database. In questo caso viene usato il Thesaurus di Medline.
Queste funzioni virtuali ricercano i documenti nel database emettendo delle frequenze a un determinato volume. Il volume diminuisce man mano che la funzione si avvicina al documento rilevante, permettendo di individuarlo. In questo modo ogni pipistrello trova una soluzione costituita da una serie di documenti, che vengono pesati con una funzione di punteggio (scoring function), la quale determina il numero di termini e sinonimi presenti nel documento. Viene riportata infine la soluzione migliore, cioè il pipistrello che ha recuperato il maggior numero di documenti rilevanti.
Il vantaggio di questo metodo risiede nell’ottimizzare le ricerche ad ampio spettro portando in evidenza i risultati più rilevanti. Questa selezione va a favore dell’operatore che può risparmiare tempo nelle ricerche più vaste, iniziando a lavorare sui documenti che aderiscono meglio all’argomento.
Vantaggi e possibili applicazioni dell’algoritmo
Pur non essendo il primo algoritmo utilizzato per migliorare la qualità delle expanded queries, gli Autori dimostrano come la precisione, cioè il rapporto fra documenti rilevanti e documenti totali, sia superiore rispetto agli algoritmi utilizzati finora. Inoltre questo algoritmo rispetto ai precedenti impegna meno la CPU del computer, quindi risulta più veloce e leggero.
Questa innovazione informatica nel campo dell’Information retrieval consente alcuni vantaggi:
- affrontare la complessità della terminologia medica associandola a sinonimi;
- portare in evidenza i documenti più rilevanti e ricchi nei termini richiesti;
- creare beneficio all’operatore di ricerca diminuendo la complessità dei risultati e il tempo per analizzarli;
- garantire più precisione e più velocità del calcolatore rispetto agli algoritmi utilizzati finora.
Caratteristiche che possono essere applicate alle ricerche ad ampio spettro, metanalisi, reviews della letteratura che Centri di ricerca clinica e dipartimenti di Medical Information nelle aziende farmaceutiche affrontano spesso, impiegando tempo e risorse importanti.
Soprattutto nei dipartimenti di Medical Information specializzati in tale compito, avere strumenti all’avanguardia può essere molto utile per risparmiare tempo, costi computazionali e massimizzare la precisione nella ricerca, specialmente quando deve essere estesa.
Fonti:
“Bat-Inspired Algorithm Based Query Expansion for Medical Web Information Retrieval”. Khennak, I. & Drias, H. J Med Syst (2017) 41: 34. doi:10.1007/s10916-016-0668-1