Περιγραφή: |
Συγγραφέας: Χουντής Βασίλειος
Λέξεις Κλειδιά: Διαχωριστική ανάλυση, Λογιστική παλινδρόμηση
Σύνοψη: Στην σημερινή εποχή είναι μεγάλη η ανάγκη να κατατάσσουμε παρατηρήσεις σε γνωστές ομάδες - πληθυσμούς καθώς επίσης και να κάνουμε προβλέψεις. Υπάρχουν πολλές μέθοδοι που κάνουν ή σκοπό έχουν να κατατάσσουν παρατηρήσεις. Στην διπλωματική εργασία περιγράφω δυο από τις σημαντικότερες μεθόδους που χρησιμοποιούνται ευρέως στην στατιστική, την διαχωριστική ανάλυση (discriminant analysis) και την λογιστική παλινδρόμηση (logistic regression). Στο πρώτο μέρος αναφέρω τι είναι η διαχωριστική ανάλυση, δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και περιγράφω την διαφορά από την ανάλυση σε συστάδες. Στην συνέχεια αναλύω τον διαχωρισμό δυο πληθυσμών που ακολουθούν την κανονική κατανομή και τα κριτήρια που πρέπει να λάβουμε υπόψη. Στόχος μας είναι να κατασκευάσουμε μια συνάρτηση που θα διαχωρίζει όσο το δυνατόν καλύτερα τους δυο πληθυσμούς. Πρέπει να σημειώσουμε ότι δεν υπάρχει τέλειος διαχωρισμός, δηλαδή ενδέχεται η συνάρτηση να κατατάσσει λανθασμένα μια παρατήρηση σε μια από τις δυο ομάδες. Για αυτό πρέπει να λάβουμε υπόψη τα κόστη λανθασμένης κατάταξης και τις εκ των προτέρων πιθανότητες. Ο βέλτιστος διαχωρισμός θα πραγματοποιηθεί αν καταφέρουμε να ελαχιστοποιήσουμε το κόστος λανθασμένης κατάταξης. Στο τμήμα 3 βρίσκω την συνάρτηση κατάταξης όταν οι δυο πληθυσμοί έχουν ίσους πίνακες διασποράς (γραμμικός κανόνας κατάταξης) αλλά και όταν έχουν άνισες διασπορές (τετραγωνικός κανόνας κατάταξης). Εφόσον, έχω φτιάξει την συνάρτηση κατάταξης το επόμενο βήμα είναι να την αξιολογήσω. Περιγράφω δυο τρόπους αξιολόγησης (επικύρωσης), τον υπολογισμό του ρυθμού σφάλματος και την holdout διαδικασία. Στο τμήμα 5 αναφέρω την διαχωριστική ανάλυση του Fisher, τι υποθέσεις έκανε και πως κατάφερε να φτάσει στην ίδια συνάρτηση κατάταξης. Στην συνέχεια κάνω μια γενίκευση της διαχωριστικής ανάλυσης αν έχω g πληθυσμούς και δίνω το νέο τύπο της συνάρτησης κατάταξης όταν έχω ίσους και άνισους πίνακες διασποράς (γραμμικό – τετραγωνικό διαχωριστικό σκορ). Ερμηνεύω γεωμετρικά το γραμμικό διαχωριστικό σκορ. Στο τελευταίο τμήμα μελετάω την μέθοδο του Fisher όταν έχω g πληθυσμούς και αποδεικνύω μερικά θεωρήματα. Στο δεύτερος μέρος της διπλωματικής περιγράφω μια άλλη διαδικασία κατάταξης, την λογιστική παλινδρόμηση. Δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και αναλύω πότε χρησιμοποιούμε αυτή την μέθοδο. Ξεκινώντας από το απλό γραμμικό μοντέλο παλινδρόμησης , αναφέρω τα προβλήματα που έχουμε τώρα που η μεταβλητή είναι δυαδική και πως τα αντιμετωπίζουμε, καταλήγοντας στην μορφή που έχει η απλή λογιστική συνάρτηση. Περιγράφω τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και πως προσαρμόζουμε το λογιστικό μοντέλο παλινδρόμησης χρησιμοποιώντας τους εκτιμητές μέγιστης πιθανοφάνειας. Κατόπιν δίνω την ερμηνεία του συντελεστή παλινδρόμησης και δίνω την μορφή της λογαριθμικής συνάρτησης πιθανοφάνειας όταν έχω επαναλαμβανόμενες παρατηρήσεις. Στο τμήμα 4 περιγράφω το πολλαπλό λογιστικό μοντέλο παλινδρόμησης και στο τμήμα 5 πως κατασκευάζεται το μοντέλο. Ελέγχω αν μπορούμε να παραλείψουμε μερικές προβλέπουσες μεταβλητές, χρησιμοποιώντας ένα στατιστικό που λέγεται μοντέλο απόκλισης, αλλά και από τον έλεγχο του λόγου πιθανοφάνειας. Προτού όμως χρησιμοποιήσω το μοντέλο στην πράξη εξετάζω την καταλληλότητα του, δηλαδή αν ικανοποιεί τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και αναζητώ τα outliers και τις παρατηρήσεις που έχουν την μεγαλύτερη επιρροή. Στα τμήματα 7 και 8 περιγράφω τα συμπεράσματα για τις παραμέτρους της λογιστικής παλινδρόμησης και για τον αποκρινόμενο μέσο, ενώ στο τμήμα 9 αναφέρω πως γίνεται η πρόβλεψη καινούριων παρατηρήσεων. Τελειώνοντας αναφέρω την πολύτομη λογιστική παλινδρόμηση και περιγράφω συνοπτικά τις ομοιότητες- διαφορές της διαχωριστικής ανάλυσης και της λογιστικής παλινδρόμησης.
Αρχείο Διπλωματικής Εργασίας |