Μελέτες Περίπτωσης Αξιοποίησης του Semantics.gr

Σε αυτή την ενότητα μπορείτε να ενημερωθείτε για τα πρώτα λεξιλόγια που ανέπτυξε και φιλοξενεί το ΕΚΤ στο Semantics.gr και τους τρόπους που αυτά αξιοποιούνται για τον εμπλουτισμό των υποδομών περιεχομένου του.

Σημασιολογικός εμπλουτισμός στις πύλες συσσώρευσης OpenArchives.gr και SearchCulture.gr

Το SearchCulture.gr είναι ο εθνικός συσσωρευτής (aggregator) πολιτιστικών δεδομένων και το OpenArchives.gr είναι ο μεγαλύτερος συσσωρευτής ελληνικού επιστημονικού περιεχομένου. Οι δύο συσσωρευτές που αναπτύσσονται από το ΕΚΤ συνοδεύονται από ανοικτές διαδικτυακές πύλες που προσφέρουν ενιαία αναζήτηση και πρόσβαση σε ελληνικό ψηφιακό περιεχόμενο, πολιτιστικό και επιστημονικό αντίστοιχα. Η διαδικασία συσσώρευσης περιλαμβάνει τον έλεγχο του περιεχομένου, τη μετάπτωση των μεταδεδομένων στο σχήμα που χρησιμοποιείται εσωτερικά, τον εμπλουτισμό των μεταδεδομένων με σημασιολογικές παραπομπές και τη διάθεσή τους ως Ανοικτά Διασυνδεδεμένα Δεδομένα.

Προκειμένου να εμπλουτιστεί το περιεχόμενο που συγκεντρώνεται από αυτούς τους δύο συσσωρευτές αξιοποιήθηκε το Semantics.gr σε δύο επίπεδα.

Αρχικά δημιουργήθηκαν 5 διαφορετικά λεξιλόγια:

  • Λεξιλόγιο τύπων πολιτιστικών αντικειμένων: Είναι ένα SKOS λεξιλόγιο διαφορετικών τύπων πολιτιστικών αντικειμένων (διαμορφωμένο στην κλάση skos:Concept). Είναι ιεραρχικό, δίγλωσσο, διασυνδεδεμένο στην πλειοψηφία των όρων του με το Θησαυρό Art and Architecture του Getty μέσω του γνωρίσματος skos:exactMatch. Το λεξιλόγιο αυτό χρησιμοποιήθηκε για τον εμπλουτισμό του περιεχομένου του SearchCulture.gr ως προς τους τύπους υλικού.
  • Λεξιλόγιο τύπων επιστημονικών πόρων: Είναι ένα λεξιλόγιο 84 διαφορετικών τύπων αντικειμένων, διαμορφωμένο στην κλάση skos:Concept, είναι ιεραρχικό, δίγλωσσο, διασυνδεδεμένο στην πλειοψηφία των όρων του με το Θησαυρό Art and Architecture του Getty μέσω του skos:exactMatch. Το λεξιλόγιο αυτό χρησιμοποιήθηκε για τον εμπλουτισμό του περιεχομένου του OpenArchives.gr ως προς τους τύπους.
  • Θησαυρός της UNESCO (έκδοση ΕΚΤ): Πρόκειται για ένα λεξιλόγιο βασισμένο στον θησαυρό της UNESCO. Ακολουθήθηκε η ιεραρχική δομή του πρωτότυπου θησαυρού, του οποίου οι έννοιες ομαδοποιούνται σε 7 ευρείες θεματικές περιοχές. Ο Θησαυρός της UNESCO συμμορφώνεται με το πρότυπο ISO 25964. Για την έκδοση ΕΚΤ επιλέχθηκαν 1387 όροι που εστιάζουν στο προς εμπλουτισμό περιεχόμενο. Το παραχθέν λεξιλόγιο ακολουθεί το πρότυπο SKOS, είναι ιεραρχικό, δίγλωσσο, κι έχει πλήρως διασυνδεθεί με τον θησαυρό της UNESCO μέσω του skos:exactMatch. Το λεξιλόγιο αυτό χρησιμοποιήθηκε για τον εμπλουτισμό του περιεχομένου του SearchCulture.gr ως προς τα θέματα.
  • Θεματικές ετικέτες: Πρόκειται για μια συλλογή όρων που καλύπτουν θεματικά διαφορετικές πτυχές του περιεχομένου που συσσωρεύεται στο SearchCulture.gr και που λόγω της ιδιαίτερης φύσης του (τοπικός χαρακτήρας, εξειδικευμένο πολιτιστικό ή ιστορικό υλικό) δεν περιγράφεται επαρκώς από τον παραπάνω θησαυρό της UNESCO. Οι πλειονότητα των όρων προήλθαν από τον Θησαυρό Ελληνικών Όρων του ΕΚΤ. Το παραχθέν λεξιλόγιο ακολουθεί και αυτό το πρότυπο SKOS, είναι ιεραρχικό, δίγλωσσο, και έχει διασυνδεθεί με το Θησαυρό της UNESCO (έκδοση ΕΚΤ) με τη σχέση skos:broaderMatch. Το λεξιλόγιο αυτό χρησιμοποιήθηκε επίσης για τον εμπλουτισμό του περιεχομένου του SearchCulture.gr ως προς τα θέματα.
  • Ιστορικές περίοδοι της Ελλάδας: Πρόκειται για ένα λεξιλόγιο διαμορφωμένο στη σημασιολογική κλάση edm:Timespan του EDM μοντέλου. Έχει 94 όρους που καλύπτουν την Ελληνική ιστορία από το 8.000 π.Χ. ως σήμερα. Είναι ιεραρχικό, δίγλωσσο, καλύπτει τον Ελλαδικό χώρο και κάποιες τιμές 3ου και 4ου ιεραρχικού επιπέδου καλύπτουν συγκεκριμένους πολιτισμούς. Το λεξιλόγιο αυτό χρησιμοποιήθηκε για τον εμπλουτισμό του περιεχομένου του SearchCulture.gr ως προς τις ιστορικές περιόδους.

Για την εξυπηρέτηση των εργασιών του εμπλουτισμού, έχει αναπτυχθεί στο Semantics.gr ένα πρωτότυπο και ιδιαίτερα φιλικό εργαλείο αντιστοιχίσεων για τον ημι-αυτόματο σημασιολογικό εμπλουτισμό μεταδεδομένων με όρους από λεξιλόγια που δημοσιεύονται στην πλατφόρμα. Αξιοποιώντας το παραπάνω εργαλείο το επιστημονικό προσωπικό του ΕΚΤ υλοποιεί τις διαδικασίες κανονικοποίησης και ομογενοποίησης των δεδομένων που συγκεντρώνονται στο SearchCulture.gr και στο OpenArchives.gr.

Λεξιλόγιο θεματικών επιστημονικών πεδίων

Πρόκειται για ένα λεξιλόγιο που βασίζεται στα πεδία ταξινόμησης Έρευνας και Ανάπτυξης του OECD FORD (Fields of R&D classification FORD, OECD 2015), και ακολουθεί την ταξινόμηση του FORD σε 6 ευρείες θεματικές περιοχές α’ επιπέδου και 42 θεματικές β’ επιπέδου. Το ΕΚΤ επεξεργάστηκε 42 θεματικές β’ επιπέδου, στοχεύοντας στην περαιτέρω ταξινόμησή τους σε γ’ επίπεδο, με βασικό γνώμονα την επιλογή και διαμόρφωση επιμέρους θεματικών που να αντιπροσωπεύουν τα κύρια επιστημονικά πεδία ΕΤΑ (Επιστήμης, Τεχνολογίας & Ανάπτυξης). Για την διαμόρφωση των θεματικών αυτών μελετήθηκαν και αξιοποιήθηκαν διαφορετικές επιστημονικές πηγές όπως μεταξύ των άλλων, τα FORD scopenotes, θέματα επιστημονικών άρθρων, όροι έγκριτων θησαυρών και λεξιλογίων (π.χ LCSH, UNESCO) ενώ απαιτήθηκε μελέτη της εννοιολογικής απόδοσης των θεμάτων.

Το λεξιλόγιο έχει διαμορφωθεί στο πρότυπο SKOS, είναι ιεραρχικό τριών επιπέδων και δίγλωσσο. Σε αυτό το στάδιο ανάπτυξής του, περιλαμβάνει συνολικά 408 θεματικές στην ελληνική και αγγλική γλώσσα που καλύπτουν τα κύρια πεδία ΕΤΑ. Οι θεματικές εμπεριέχουν σχέσεις ιεραρχίας (ευρύτερο/στενότερο) ενώ για κάθε θεματική αποδώθηκαν σημασιολογικές σχέσεις με θέματα τρίτων ανοικτών λεξιλογίων, με σχέσεις ισοδυναμίας, συνάφειας και συγγένειας (exact match, close match, related to).

Το λεξιλόγιο αυτό θα αξιοποιηθεί άμεσα στην θεματική τεκμηρίωση των διατριβών του Εθνικού Αρχείου Διδακτορικών Διατριβών (ΕΑΔΔ), όπου οι διδάκτορες θα επιλέγουν μέσω της διαδικασίας αυτο-αρχειοθέτησης, τις θεματικές της διατριβής τους. Επόμενος στόχος είναι η εφαρμογή του λεξιλογίου μετά από κατάλληλη διαμόρφωση και διεύρυνση και σε άλλες υποδομές του ΕΚΤ, όπως στον συσσωρευτή επιστημονικού περιεχομένου OpenArchives.gr.

Λεξιλόγια φυσικών προσώπων και συλλογικών οργάνων για τις υποδομές επιστημονικού περιεχομένου του ΕΚΤ

Το ΕΚΤ αξιοποιεί το Semantics.gr για τη δημιουργία δύο ακόμη κεντρικών λεξιλογίων, ένα για φυσικά πρόσωπα και ένα για συλλογικά όργανα. Τα λεξιλόγια αυτά θα χρησιμοποιηθούν αρχικά ενιαία από τις υποδομές επιστημονικού περιεχομένου του ΕΚΤ (το Εθνικό Αρχείο Διδακτορικών Διατριβών, την Υπηρεσία Ηλεκτρονικών Εκδόσεων ePublishing, και το νέο Ιδρυματικό Αποθετήριο του ΕΚΤ) υποστηρίζοντας την τεκμηρίωση των επιστημονικών πόρων. Αν και τα λεξιλόγια διακρίνονται σε δύο κατηγορίες «Φυσικά πρόσωπα» και «Φορείς», κάθε ένα θα μπορεί να διακριθεί και να ευρετηριαστεί, βάσει ιδιοτήτων, σε επιμέρους ομάδες όπως σε «Ακαδημαϊκά ιδρύματα», «Διδάκτορες» κ.ά.

Το Semantics.gr χρησιμοποιείται ως το κεντρικό σύστημα δημιουργίας των παραπάνω λεξιλογίων. Διασυνδέεται και διαλειτουργεί με τις ανωτέρω υποδομές και ειδικότερα, με τα περιβάλλοντα τεκμηρίωσής τους, όπου καταχωρούνται δεδομένα προσώπων κατά την περιγραφή των επιστημονικών πόρων (διασύνδεση των λεξιλογίων με πεδία δημιουργών, συντελεστών, εκδοτών στις φόρμες τεκμηρίωσης των επιστημονικών πόρων). Παράλληλα, αξιοποιείται το Εργαλείο Σημασιολογικού Εμπλουτισμού που διαθέτει το Semantics.gr για τη μαζική, ημι-αυτόματη αναδρομική επιμέλεια και ομογενοποίηση, του περιεχομένου των υποδομών.

Τα οφέλη της δράσης είναι πολλαπλά. Με τη δημιουργία κάθε οντότητας προσώπου ή φορέα στο Semantics.gr, του αποδίδεται ένα μοναδικό URI που χρησιμοποιείται ενιαία για την αναφορά σε αυτό από όλες τις υποδομές περιεχομένου του ΕΚΤ. Ως αποτέλεσμα, συγκεντρώνεται σε ένα σημείο η πληροφορία και αξιοποιείται με τρόπο ποιοτικό και μετρήσιμο. Επίσης, επιτυγχάνεται η διασύνδεση της κάθε οντότητας με όλα τα σχετικά έργα, διευκολύνοντας έτσι την πρόσβαση στην γνώση. Για τα παραπάνω λεξιλόγια δημιουργήθηκαν τεκμηριωτικά σχήματα που βασίζονται στο μοντέλο MADS/RDF (application profile). Στην παρούσα φάση έχει δημιουργηθεί ο πρώτος πυρήνας του λεξιλογίου φυσικών προσώπων με οντότητες ερευνητών και έχει γίνει η διασύνδεσή τους με την υποδομή του Ιδρυματικού Αποθετηρίου του ΕΚΤ.