loading

Ergobyte Success Story: Εξαγωγή Ημιδομημένων Δεδομένων με τη Χρήση Μεγάλων Γλωσσικών Μοντέλων

Μια ακόμη επιτυχημένη ιστορία (success story) αποτελεί η συνεργασία της εταιρείας Ergobyte και του smartHEALTH. Η Ergobyte, μέσω της συνεργασίας αυτής, αντιμετώπισε αποτελεσματικά τις ψηφιακές προκλήσεις, διερευνώντας καινοτόμες λύσεις με βάση την τεχνητή νοημοσύνη και τα μεγάλα γλωσσικά μοντέλα (LLMs), για την αποδοτικότερη εξαγωγή ημιδομημένων δεδομένων.

Βασικές Πληροφορίες

Η Ergobyte είναι μια ελληνική εταιρεία ανάπτυξης λογισμικού με έδρα τη Θεσσαλονίκη, η οποία ειδικεύεται στην παροχή ολοκληρωμένων λύσεων πληροφορικής στον τομέα της υγείας. Από το 2002, η εταιρεία έχει εξελιχθεί σε έναν από τους κορυφαίους παρόχους του κλάδου, παρέχοντας επιστημονικές, σύγχρονες και καινοτόμες υπηρεσίες.

Εφαρμόζοντας το motto «Giving Life to Innovation», η Ergobyte στοχεύει στη μεταφορά των τεχνολογιών πληροφορικής από την έρευνα στην αγορά. Με όραμα την προαγωγή και την πρακτική εφαρμογή της επιστημονικής γνώσης, η εταιρεία αναπτύσσει και προσφέρει καινοτόμες λύσεις πληροφορικής που απευθύνονται τόσο σε επιχειρήσεις και οργανισμούς, όσο και στο ευρύ κοινό.

  • Χρησιμοποιούμενες Τεχνολογίες: Αξιοποίηση LLMs
  • Περίοδος Συνεργασίας: Οκτώβριος 2024 – Μάιος 2025
  • Παρεχόμενες υπηρεσίες: IT Services and IT Consulting

Η Πρόκληση

Μία από τις πιο αξιόπιστες και κρίσιμες πηγές φαρμακευτικής πληροφόρησης για τις υπηρεσίες της Ergobyte είναι τα SPC (Summary of Product Characteristics), όπως δημοσιεύονται από τον Ευρωπαϊκό Οργανισμό Φαρμάκων (EMA). Τα ρυθμιστικά αυτά έγγραφα συνοδεύουν κάθε εγκεκριμένο φαρμακευτικό προϊόν στην Ευρωπαϊκή Ένωση και περιλαμβάνουν ουσιώδεις πληροφορίες σχετικά με τη σύσταση, τις ενδείξεις, τις αντενδείξεις, τις ανεπιθύμητες ενέργειες, τη φαρμακοδυναμική και τη φαρμακοκινητική του.

Ωστόσο, τα SPC διατίθενται αποκλειστικά σε μορφή PDF, γεγονός που καθιστά ιδιαίτερα δύσκολη την προγραμματιστική επεξεργασία και την αυτόματη εξαγωγή δεδομένων. Η ανομοιομορφία στη μορφοποίηση και τη δομή τους προσθέτει περαιτέρω πολυπλοκότητα, καθώς διαφέρει σημαντικά ανάλογα με το προϊόν και τον κατασκευαστή.

Η ανάγκη της Ergobyte εστιάστηκε στη μετατροπή των πληροφοριών αυτών σε δομημένες μορφές, ώστε να ενσωματωθούν απρόσκοπτα στη βάση δεδομένων της πλατφόρμας Γαληνός. Αυτό θα επέτρεπε πιο αποδοτική αναζήτηση, διασύνδεση και ανάλυση των δεδομένων.

Μέχρι σήμερα, η διαδικασία αυτή ήταν κυρίως χειροκίνητη—χρονοβόρα και επιρρεπής σε σφάλματα. Με τον όγκο των SPC να αυξάνεται και την ανάγκη για ακριβή, επικαιροποιημένη πληροφόρηση να εντείνεται, η αυτοματοποίηση αυτής της ροής αποτέλεσε σημαντική πρόκληση. Για την αντιμετώπισή της, η Ergobyte απευθύνθηκε στο smartHEALTH EDIH και στο εργαστήριο eHealth Lab του ΙΝΑΒ | ΕΚΕΤΑ, προκειμένου να διερευνήσουν καινοτόμες λύσεις με βάση την τεχνητή νοημοσύνη και τα μεγάλα γλωσσικά μοντέλα (LLMs), για την αποδοτικότερη εξαγωγή ημιδομημένων δεδομένων.

Οι λύσεις

Αρχικά, εξετάστηκαν μέθοδοι επεξεργασίας φυσικής γλώσσας (NLP) για την εξαγωγή δομημένης πληροφορίας από τα SPC έγγραφα. Ωστόσο, τα αποτελέσματα ήταν περιορισμένα λόγω της πολυπλοκότητας και της ετερογένειας της μορφής τους, ιδίως στους πίνακες, όπου συχνά υπήρχαν συγχωνευμένα κελιά, ειδικοί χαρακτήρες ή υποσημειώσεις που δεν ήταν αναγνώσιμες ως τυπικό κείμενο. Επιπλέον, η διάταξη των δεδομένων δεν ακολουθούσε σταθερή λογική, καθιστώντας δύσκολη την αναγνώριση σχέσεων όπως μεταξύ δραστικής ουσίας και δοσολογίας.

Ως εκ τούτου, διερευνήθηκε η χρήση LLMs ως εναλλακτική λύση. Το smartHEALTH EDIH, μέσω του eHealth Lab του ΙΝΑΒ | ΕΚΕΤΑ, συνεργάστηκε με την Ergobyte για να αξιολογήσει την ικανότητα προηγμένων LLMs να αναγνωρίζουν σημασιολογικά και να μετατρέπουν ημιδομημένο περιεχόμενο των SPCs — ιδίως πίνακες και λίστες — σε δομημένα δεδομένα.

Η αξιολόγηση περιλάμβανε μοντέλα αιχμής όπως το ChatGPT της OpenAI και το Gemini της Google DeepMind, τα οποία υποστηρίζουν πολυτροπική είσοδο (κείμενο και εικόνες). Δοκιμάστηκαν σε αυθεντικά παραδείγματα SPCs, με προσεκτικά σχεδιασμένα prompts, για να εξεταστεί η απόδοσή τους.

Η Υλοποίηση

Η αξιολόγηση πραγματοποιήθηκε από την ερευνητική ομάδα του Εργαστηρίου Ηλεκτρονικής Υγείας του ΙΝΕΒ | ΕΚΕΤΑ, σε συνεργασία με την εταιρεία Ergobyte, με στόχο την επιλογή της πιο κατάλληλης τεχνολογικής λύσης για την ημιαυτόματη εξαγωγή κρίσιμων φαρμακευτικών πληροφοριών από έγγραφα SPC.

Κατά τη δοκιμαστική φάση, τα μοντέλα υποβλήθηκαν σε στιγμιότυπα από αρχεία PDF SPC, συνοδευόμενα από προσεκτικά διατυπωμένα ερωτήματα. Ένα παράδειγμα ήταν: «Μπορείς να μου δώσεις σε λίστα τους όρους των ανεπιθύμητων ενεργειών μαζί με τους αντίστοιχους κωδικούς MedDRA και τη συχνότητά τους;» Σκοπός ήταν η αξιολόγηση της ικανότητας των μοντέλων να ερμηνεύουν οπτικό και ημιδομημένο περιεχόμενο και να επιστρέφουν πληροφορίες σε δομημένη μορφή, κατάλληλη για περαιτέρω επεξεργασία.

Ανάμεσα στα μοντέλα που αξιολογήθηκαν, το Gemini εμφάνισε την πιο ακριβή και συνεπή απόδοση, ειδικά στην αναγνώριση σύνθετων πινάκων και στην εξαγωγή της πληροφορίας με τρόπο που διευκολύνει την ενσωμάτωσή της σε δομημένα περιβάλλοντα. Η δυνατότητά του να επεξεργάζεται οπτικό περιεχόμενο σε συνδυασμό με φυσική γλώσσα κρίθηκε καθοριστική για τις ανάγκες του έργου.

Βασισμένοι σε αυτά τα ευρήματα, οι δύο φορείς προχώρησαν στον σχεδιασμό και την ανάπτυξη ενός λειτουργικού πρωτοτύπου. Το εργαλείο αυτό επιτρέπει σε τελικούς χρήστες — ακόμη και χωρίς τεχνικές γνώσεις — να επιλέγουν στιγμιότυπα από SPC PDFs και να λαμβάνουν τις πληροφορίες που περιέχουν (π.χ. ανεπιθύμητες ενέργειες, αντενδείξεις, συχνότητες) σε δομημένη μορφή. Η εφαρμογή αξιοποιεί το API του LLM για την επικοινωνία με το μοντέλο και την επιστροφή της πληροφορίας.

Τα οφέλη

Ως αποτέλεσμα της συνεργασίας του Εργαστηρίου Ηλεκτρονικής Υγείας του ΙΝΕΒ/ΕΚΕΤΑ με την εταιρεία Ergobyte, αναπτύχθηκε ένα πρωτότυπο που αξιοποιεί τα LLMs  για την ημιαυτόματη εξαγωγή κρίσιμης φαρμακευτικής πληροφορίας από SPCs. Το λειτουργικό αυτό πρωτότυπο επιτρέπει στον τελικό χρήστη να μετατρέπει στιγμιότυπα ημιδομημένων εγγράφων σε δομημένα δεδομένα, επιταχύνοντας σημαντικά την ενσωμάτωσή τους στη βάση δεδομένων της εταιρείας. Παράλληλα, υποστηρίξαμε τη διαμόρφωση τεχνικών προδιαγραφών για τη σημασιολογική αναπαράσταση των εξαγόμενων δεδομένων, με στόχο την ένταξή τους σε Γράφους Γνώσης (Knowledge Graphs), σύμφωνα με τις αρχές FAIR. Η συμμετοχή της Ergobyte στο έργο ενίσχυσε την ερευνητική της δραστηριότητα, αξιοποιώντας υπηρεσίες μεταφοράς τεχνογνωσίας του κόμβου smartHEALTH για την ενσωμάτωση καινοτόμων τεχνολογιών τεχνητής νοημοσύνης. Επιπλέον, η τεχνογνωσία που αποκτήθηκε, καθώς και τα εργαλεία που αναπτύχθηκαν, αποτελούν τη βάση για την τεχνολογική αναβάθμιση των παρεχόμενων προϊόντων και υπηρεσιών της εταιρείας.

Συνοπτικά, τα βασικά οφέλη περιλαμβάνουν:

  • Ανάπτυξη πιλοτικής εφαρμογής για την εξαγωγή ημιδομημένων φαρμακευτικών πληροφοριών σε δομημένη μορφή.
  • Διαμόρφωση προτύπων για τη σημασιολογική αναπαράσταση της πληροφορίας.
  • Ενίσχυση της ερευνητικής ικανότητας της εταιρείας μέσω πρόσβασης σε τεχνογνωσία αιχμής και υπηρεσίες smartHEALTH.
  • Θέσπιση βάσης για νέα προϊόντα και υπηρεσίες προστιθέμενης αξίας, καθώς και για συμμετοχή σε ερευνητικά έργα υψηλής εξειδίκευσης

Τα Διδάγματα

Καθ’ όλη τη διάρκεια της συνεργασίας, αναδείχθηκε η αξία της τακτικής και ουσιαστικής επικοινωνίας μεταξύ των εμπλεκόμενων ομάδων. Οι συχνές συναντήσεις βοήθησαν την ομάδα των εμπειρογνώμων του κόμβου  να αποκτήσει βαθιά κατανόηση των αναγκών της εταιρείας, όχι μόνο ως προς το “τι” απαιτείται, αλλά και ως προς το “γιατί”, καθώς και πώς αυτές οι ανάγκες εντάσσονται στην καθημερινή πρακτική.

Εξίσου κρίσιμο στοιχείο ήταν η ενεργή εμπλοκή των τελικών χρηστών από την αρχή του σχεδιασμού. Η συμμετοχή τους συνέβαλε καθοριστικά στη διασφάλιση ότι οι τεχνικές λύσεις ήταν πρακτικές, χρήσιμες και προσαρμοσμένες στις πραγματικές συνθήκες.

Κατά τον σχεδιασμό, αποδείχθηκε ιδιαίτερα χρήσιμο να λαμβάνονται υπόψη τα επόμενα βήματα και οι μελλοντικές ανάγκες, ώστε να προβλεφθούν από νωρίς τεχνικές απαιτήσεις που σχετίζονται με επεκτασιμότητα, διαλειτουργικότητα ή ενσωμάτωση σε άλλα περιβάλλοντα.

Τέλος, ένα ουσιαστικό μάθημα που προέκυψε ήταν η σημασία της ανοιχτής σκέψης και της ευελιξίας στην προσέγγιση. Αν και αρχικά είχε προβλεφθεί η χρήση τεχνικών επεξεργασίας φυσικής γλώσσας για την εξαγωγή πληροφορίας, διαπιστώθηκε ότι δεν μπορούσαν να ανταποκριθούν στις προσδοκίες. Η έγκαιρη προσαρμογή της μεθοδολογίας και η στροφή προς την αξιοποίηση LLMs αποτέλεσε καίρια και επιτυχημένη επιλογή.

Ακολουθήστε μας στα Social Media για να ενημερώνεστε σχετικά με τις δράσεις μας: Facebook, LinkedIn, X