Τμήμα Ηλεκτρονικών Μηχανικών

Ελληνικό Μεσογειακό Πανεπιστήμιο

Παρουσίασης ΠΠΣ Διπλωματικής Εργασίας David Akoda

Ονοματεπώνυμο: David Akoda
Αριθμός Μητρώου: ΤΛ20181

Θέμα: Ολοκληρωμένο Σύστημα και Λογισμικό Καταγραφής και Αξιολόγησης της Συγκέντρωσης Μαθητών
Τίτλος στα αγγλικά: Development of a Multisensor Framework for Objective Student Attention Assessment

Επιβλέπων:
Κωνσταντάρας Αντώνιος
Τριμελής Επιτροπή
1. Κωνσταντάρας Αντώνιος
2. Σπανουδάκης Νικόλαος
3. Γιαννακάκης Γεώργιος

Περίληψη
Η παρούσα διπλωματική εργασία έχει σαν αντικείμενο τον σχεδιασμό και την υλοποίηση του συστήματος πολυτροπικής αξιολόγησης εμπλοκής ALPER-EU (ALPER-EU Multimodal Engagement Assessment System), μιας πλατφόρμας προσανατολισμένης στους εκπαιδευτικούς για την αντικειμενική μέτρηση της συμπεριφορικής εμπλοκής μαθητών κατά τη διάρκεια δραστηριοτήτων εκπαιδευτικής ρομποτικής και προγραμματισμού. Η εργασία υλοποιήθηκε στο πλαίσιο του ερευνητικού έργου ALPER-EU (Agile Learning of Programming with Educational Robotics) στο Hellenic Mediterranean University και αντιμετωπίζει έναν βασικό περιορισμό των μονοτροπικών προσεγγίσεων παρακολούθησης: ούτε η παρακολούθηση βλέμματος ούτε η ανάλυση στάσης σώματος από μόνες τους μπορούν να διακρίνουν αξιόπιστα τη δραστηριότητα εκτός οθόνης που σχετίζεται με την εργασία (π.χ. αλληλεπίδραση με ρομπότ) από την πραγματική έλλειψη εμπλοκής.
Το σύστημα συνδυάζει δύο συμπληρωματικές αισθητηριακές τεχνολογίες: παρακολούθηση βλέμματος μέσω του Tobii Eye Tracker 4C και ανάλυση προσανατολισμού σώματος και κίνησης βάθους μέσω της κάμερας Intel RealSense D455. Η εκτίμηση στάσης σώματος πραγματοποιείται με τη χρήση του MediaPipe σε ελαφριά διαμόρφωση, ώστε να διατηρείται λειτουργία πραγματικού χρόνου στα 30 καρέ ανά δευτερόλεπτο. Οι δύο ροές δεδομένων συγχρονίζονται μέσω μηχανισμού δύο σταδίων: αρχικά χρησιμοποιείται κοινή χρονική σήμανση εκκίνησης και στη συνέχεια εφαρμόζεται χρονική ευθυγράμμιση με τη μέθοδο nearest-neighbour μέσω της συνάρτησης pandas merge_asof.
Η εμπλοκή υπολογίζεται μέσω ενός διαφανούς δείκτη συγκέντρωσης (Focus Index), ο οποίος εκφράζεται ως συνεχής βαθμολογία από 0 έως 100 και αποτυπώνει τον βαθμό στον οποίο οι παρατηρούμενες ενέργειες του μαθητή είναι προσανατολισμένες προς τον σταθμό εργασίας και την οθόνη. Ο δείκτης δεν εκφράζει συνολική γνωστική εμπλοκή ή ψυχολογική κατάσταση. Κατά συνέπεια, κατά τις φάσεις αλληλεπίδρασης με το ρομπότ, είναι αναμενόμενες χαμηλότερες τιμές, καθώς το βλέμμα και ο προσανατολισμός σώματος στρέφονται σωστά εκτός οθόνης.
Ο δείκτης υπολογίζεται ως γραμμικός συνδυασμός τριών σημάτων συμπεριφοράς: κατεύθυνση βλέμματος (50%), προσανατολισμός σώματος (30%) και απόσταση μαθητή από την κάμερα (20%). Οι τιμές ανά καρέ ομαδοποιούνται σε διαστήματα ενός δευτερολέπτου και εξομαλύνονται με κυλιόμενο μέσο όρο τριών δευτερολέπτων ώστε να μειώνεται η επίδραση παροδικών μεταβολών προσοχής.
Τα αποτελέσματα ταξινομούνται σε τρεις ζώνες: Υψηλή εμπλοκή (≥80), Μέτρια (50–79) και Χαμηλή (<50). Επιπλέον, εφαρμόζεται ένας συντηρητικός κανόνας τριών σημάτων για την ανίχνευση αποδέσμευσης: ένας μαθητής θεωρείται αποσυνδεδεμένος μόνο όταν και τα τρία σήματα αποτυγχάνουν ταυτόχρονα. Με αυτόν τον τρόπο αποφεύγονται λανθασμένες ταξινομήσεις κατά τη διάρκεια δραστηριοτήτων χειρισμού του ρομπότ εκτός οθόνης.
Το σύστημα υλοποιήθηκε ως αρθρωτή εφαρμογή Python αποτελούμενη από τέσσερις βασικές μονάδες: το MainApp.py για τον συντονισμό της συνεδρίας και το γραφικό περιβάλλον, το GazeAppAlpha.py για την καταγραφή δεδομένων βλέμματος μέσω ZeroMQ, το body-tracker.py για την παρακολούθηση σώματος και τη συγχρονισμένη εγγραφή βίντεο, και το engagement_analysis.py για την ανάλυση μετά τη συνεδρία. Κάθε συνεδρία παράγει αρχεία CSV, συγχρονισμένο βίντεο XVID, μεταδεδομένα και φάκελο ανάλυσης με χρονογραμμές εμπλοκής, heatmaps βλέμματος, πίνακες συμβάντων αποδέσμευσης και αναφορά Excel για τον εκπαιδευτικό. Το γραφικό περιβάλλον, υλοποιημένο σε Tkinter, επιτρέπει απλό χειρισμό με ένα κουμπί χωρίς να απαιτείται τεχνική εξειδίκευση.
Η προκαταρκτική αξιολόγηση του συστήματος πραγματοποιήθηκε σε συνεδρία εκπαιδευτικής ρομποτικής στο πλαίσιο του έργου ALPER-EU στο Hellenic Mediterranean University. Η ποιοτική σύγκριση των προφίλ εμπλοκής με τις παρατηρήσεις των εκπαιδευτικών έδειξε ότι το σύστημα παρήγαγε αποτελέσματα συμβατά με τη συμπεριφορά που παρατηρήθηκε στην τάξη. Ο κανόνας αποδέσμευσης τριών σημάτων απέτρεψε επιτυχώς ψευδείς ταξινομήσεις κατά τις φάσεις αλληλεπίδρασης με το ρομπότ. Ωστόσο, ως επόμενο βήμα αναγνωρίζεται η ανάγκη ποσοτικής αξιολόγησης μέσω σύγκρισης με σχολιασμένα δεδομένα παρατηρητών.
Tο σύστημα που αναπτύχθηκε αποτελεί μια διαφανή, αναπαραγώγιμη και εφαρμόσιμη βάση για την αξιολόγηση συμπεριφορικής εμπλοκής μέσω αισθητήρων σε περιβάλλοντα εκπαιδευτικής ρομποτικής. Η εργασία αποδεικνύει ότι οικονομικά διαθέσιμος εμπορικός εξοπλισμός μπορεί να συνδυαστεί με λογισμικό ανοιχτού κώδικα για την παραγωγή κατανοητών και αξιοποιήσιμων μετρικών εμπλοκής κατάλληλων για πραγματικές σχολικές συνθήκες.

Abstract
This thesis focuses on the design and implementation of the ALPER-EU Multimodal Engagement Assessment System, a teacher-oriented platform for the objective measurement of student behavioral engagement during educational robotics and programming activities. The work was carried out within the framework of the ALPER-EU (Agile Learning of Programming with Educational Robotics) research project at Hellenic Mediterranean University and addresses a fundamental limitation of unimodal monitoring approaches: neither gaze tracking nor body posture analysis alone can reliably distinguish task-related off-screen activity (such as robot interaction) from genuine disengagement.
The system combines two complementary sensing technologies: gaze tracking through the Tobii Eye Tracker 4C and body orientation and depth-motion analysis through the Intel RealSense D455 camera. Body pose estimation is performed using MediaPipe in a lightweight configuration in order to sustain real-time operation at 30 frames per second. The two data streams are synchronized through a two-stage mechanism: initially, a shared start timestamp is used, followed by temporal alignment using the nearest-neighbour method through the pandas merge_asof function.
Engagement is quantified through a transparent Focus Index, expressed as a continuous score ranging from 0 to 100, representing the degree to which a student’s observable actions are oriented toward the workstation and screen. The index does not represent overall cognitive engagement or psychological state. Consequently, during robot interaction phases, lower values are expected, since gaze and body orientation are appropriately directed away from the screen.
The index is calculated as a weighted linear combination of three behavioral signals: gaze direction (50%), body orientation (30%), and student-to-camera distance (20%). Frame-level values are aggregated into one-second intervals and smoothed using a three-second rolling average in order to reduce the effect of transient attention shifts.
The resulting values are classified into three zones: High engagement (≥80), Moderate engagement (50–79), and Low engagement (<50). In addition, a conservative three-signal disengagement rule is applied: a student is classified as disengaged only when all three behavioral signals fail simultaneously. This approach prevents false classifications during off-screen robot interaction activities.
The system was implemented as a modular Python application consisting of four primary modules: MainApp.py for session orchestration and graphical user interface management, GazeAppAlpha.py for gaze data acquisition through ZeroMQ, body-tracker.py for body tracking and synchronized video recording, and engagement_analysis.py for post-session analysis. Each session produces CSV output files, synchronized XVID video recordings, metadata, and an analysis folder containing engagement timelines, gaze heatmaps, disengagement event tables, and a teacher-facing Excel report. The graphical user interface, implemented using Tkinter, supports simple one-button operation without requiring technical expertise.
A preliminary evaluation of the system was conducted during an educational robotics session within the ALPER-EU project at Hellenic Mediterranean University. Qualitative comparison between the generated engagement profiles and teacher observations indicated that the system produced results consistent with the behavior observed in the classroom. The three-signal disengagement rule successfully prevented false classifications during robot interaction phases. However, quantitative validation through comparison with observer-annotated data is identified as an important next step.
The developed system establishes a transparent, reproducible, and deployable foundation for sensor-based behavioral engagement assessment in educational robotics environments. The work demonstrates that affordable commercially available hardware can be combined with open-source software to produce interpretable and practical engagement metrics suitable for real classroom conditions.

Λέξεις – Κλειδιά
Εκπαιδευτική Ρομποτική, Πολυτροπική Αξιολόγηση Εμπλοκής, Παρακολούθηση Βλέμματος, Ανάλυση Στάσης Σώματος, Συμπεριφορική Εμπλοκή, Ανάλυση Μάθησης (Learning Analytics), ALPER-EU

Keywords
Educational Robotics, Multimodal Engagement Assessment, Gaze Tracking, Body Pose Analysis, Behavioral Engagement, Learning Analytics, ALPER-EU

Ημερομηνία Εξέτασης: 14/5/2026 – 09:30 π.μ.
Χώρος Εξέτασης: Αίθουσα 8, Ανατολικό Κτήριο, Τμήμα Ηλεκτρονικών Μηχανικών, ΕΛΜΕΠΑ, Ρωμανού 3, Χανιά

Διαδικτυακά: https://meet.google.com/ono-rwqz-hze

Μετάβαση στο περιεχόμενο