Εντοπίζοντας αλληλουχίες (cascades) παραπληροφόρησης στο Twitter (CUT)

Όπως πρόσφατα γεγονότα έχουν δείξει, η παραπληροφόρηση που διαδίδεται στα μέσα κοινωνικής δικτύωσης μπορεί να έχει τρομερές πολιτικές, οικονομικές και κοινωνικές συνέπειες. Η ανίχνευση της παραπληροφόρησης πρέπει αναπόφευκτα να βασίζεται στη δομή του δικτύου, στις ιδιαιτερότητες των χρηστών και στα διάφορα μοτίβα εμφάνισης συμβάντων.

Στην έρευνα μας με τίτλο «A Unified Graph-Based Approach to Disinformation Detection using Contextual and Semantic Relations» (https://arxiv.org/abs/2109.11781), παρουσιάζουμε μια γραφοθεωρητική δομή δεδομένων, η οποία ονομάζεται μετα-γράφος, που συνδυάζει τις πληροφορίες συμβάντων μεταξύ των χρηστών, καθώς και σημασιολογική και θεματική μοντελοποίηση των κειμένων των ποστ (tweets). Περιγράφουμε με λεπτομέρεια τη κατασκευή ενός παραδείγματος μέτα-γράφου χρησιμοποιώντας δεδομένα από το Twitter που καλύπτουν την προεκλογική εκστρατεία του 2016 στις ΗΠΑ. Στη συνέχεια, συγκρίνουμε την ανίχνευση παραπληροφόρησης σε επίπεδο αλληλουχιών πληροφορίας (cascades) – χρησιμοποιώντας γνωστούς αλγόριθμους νευρωνικών δικτύων γράφων – με την ακρίβεια ανίχνευσης όταν οι αλγόριθμοι εφαρμόζονται στους κόμβους του μέτα-γράφου.

Σε σύγκριση με την απλή κατηγοριοποίση των αλληλουχιών πληροφορίας (cascades),  φαίνεται σταθερή βελτίωση της ακρίβειας κατηγοριοποίησης κατά 3%-4% – σε σχέση με όλους τους εξεταζόμενους αλγορίθμους όταν χρησιμοποιείται o μετα-γράφος – και περαιτέρω αύξηση κατά 1% όταν λαμβάνονται υπόψη η σημασιολογική και θεματική μοντελοποίηση των κειμένων (topi c modeling). Εκτελώντας τα ίδια πείραμα σε δύο άλλα σύνολα δεδομένων – το HealthRelease και το HealthStory – μέρος του αποθετηρίου δεδομένων FakeHealth λάβαμε παρόμοια αποτελέσματα. Τέλος, αναφέρουμε περαιτέρω πλεονεκτήματα της προσέγγισής μας, όπως είναι η δυνατότητα εμπλουτισμού της δομής του γράφου χρησιμοποιώντας εξωτερικές πηγές δεδομένων, την ευκολία με την οποία μπορούν να συνδυαστούν πολλαπλοί μέτα-γράφοι και τέλος, μια σύγκριση της μεθόδου μας με άλλα πλαίσια ανίχνευσης παραπληροφόρησης που βασίζονται σε δομές δεδομένων γράφου.