PDA

View Full Version : 11ο Σεμινάριο Μη Γραμμικών Συστημάτων



mboudour
18-04-2016, 18:40
Τα Σεμινάρια Μη Γραμμικών Συστημάτων του ακαδημαϊκού έτους 2015 - 16 συνεχίζονται αυτή την εβδομάδα με την παρουσίαση που ανακοινώνεται πιο κάτω. Τα Σεμινάρια αυτά έχουν εισαγωγικό χαρακτήρα και γίνονται με στόχο την ενημέρωση σε σύγχρονα θέματα Μη Γραμμικής Επιστήμης και Πολυπλοκότητας.

Χώρος: Αίθουσα Σεμιναρίων 342 Κτήριο Μαθ./Βιολ.
Χρόνος: 6 -€“ 7:30 μ.μ. Πέμπτη, 21 Απριλίου, 2016
Τίτλος: Εξαγωγή Δικτύων από Λογοτεχνικά Κείμενα: Οι Περιπτώσεις των Σέρλοκ Χολμς, ¶μλετ και Φαίδρου
Ομιλητής: Μωυσής Μπουντουρίδης, Αναπληρωτής Καθηγητής, Τμήμα Μαθηματικών


http://mboudour.github.io/2016/04/17/Arthur-Conan-Doyle's-A-Study-in-Scarlet-Network-&-Trajectories.html

Δοθέντος ενός ψηφιοποιημένου εγγράφου σε μορφή αρχείου κειμένου, μπορούν να εφαρμοσθούν διάφορες τεχνικές αυτοματοποιημένης μέσω υπολογιστή επεξεργασίας κειμένου, όπως αυτές έχουν αναπτυχθεί από πρόσφατες υπολογιστικές προόδους στην εξόρυξη και την ανάλυση δεδομένων. Εδώ, ενδιαφερόμαστε για τεχνικές κειμενικής εξαγωγής (ανίχνευσης) κάποιων χαρακτηριστικών οντοτήτων και επισήμανσης των τμημάτων του κειμένου, μέσα στα οποία αυτές οι χαρακτηριστικές οντότητες εμφανίζονται. Ιδιαίτερα, ενδιαφερόμαστε για τις περιπτώσεις που οι χαρακτηριστικές οντότητες είναι επιλεγμένες λέξεις, ονόματα ή ονοματικές φράσεις, οι οποίες περιέχονται στα τμήματα του κειμένου όπως (γραμματικές) προτάσεις ή παράγραφοι.

Με τον τρόπο αυτό, δημιουργείται ένα πλαίσιο δεδομένων με τις εξής δυο κύριες στήλες: τα επισημασμένα τμήματα του κειμένου και τα σύνολα των συν-εμφανιζόμενων χαρακτηριστικών οντοτήτων σε αυτά. Μια τρίτη στήλη είναι η θέση/δείκτης στο συνολικό κείμενο του πρώτου χαρακτήρα με τον οποίον αρχίζει κάθε τμήμα κείμενου. Επιπλέον, δυο ακόμη στήλες μπορούν να προσαρτηθούν από την βασική ταξινόμηση της ανάλυσης συναισθήματος: οι ποσοτικές εκτιμήσεις της πόλωσης και της υποκειμενικότητας που παρατηρούνται σε κάθε τμήμα κειμένου.

Έτσι, δημιουργείται το δίκτυο των εξαχθεισών χαρακτηριστικών κειμενικών οντοτήτων (ως κόμβων), όπου οι συνδέσεις (ακμές) μεταξύ δυο χαρακτηριστικών οντοτήτων έχουν ως βάρος το πλήθος των επισημασμένων τμημάτων κειμένου, μέσα στα οποία συνεμφανίζονται οι δυο αυτές χαρακτηριστικες οντότητες. Τέλος, επειδή κάθε τέτοια συνεμφάνιση αντιστοιχεί στον δείκτη του τμήματος κειμένου, όπου πραγματοποιείται, μπορούμε να σχηματίσουμε τις διαδοχικές (ως προς την αύξουσα σειρά των δεικτών θέσης) τροχιές των ακολουθιών των συνεμφανίσεων μιας συγκεκριμένης χαρακτηριστικής οντότητας με όλες τις άλλες οντότητες ("διαδοχικές" με την έννοια ότι ο δείκτης της θέσης λειτουργεί ως παράμετρος χρονικής διάταξης). Επομένως, παρατηρώντας την διαφοροποίηση της πόλωσης και της υποκειμενικότητας κατά μήκος αυτών των τροχιών μπορούμε να εξαγάγουμε χρήσιμα συμπεράσματα που απεικονίζουν τη συναισθηματική ροή της αφηγηματικής πλοκής του κειμένου.

Η μεθοδολογία αυτή εφαρμόσθηκε για τα εξής τρία κείμενα (στα Αγγλικά):

(1) Στο A Study in Scarlet του Arthur Conan Doyle με χαρακτηριστικές οντότητες τους ήρωες του έργου και τμήματα κειμένου τις προτάσεις του έργου.

(2) Στο Hamlet του William Shakespeare με χαρακτηριστικές οντότητες τους ήρωες του έργου και τμήματα κειμένου τις παραγράφους των διαλόγων του έργου.

(3) Στον Φαίδρο του Πλάτωνα με χαρακτηριστικές οντότητες τα πιο συχνά εμφανιζόμενα ονόματα του έργου και τμήματα κειμένου τις προτάσεις του έργου.