Αυτόματη περίληψη κειμένου – Lincoln, Εισαγωγή στην αυτόματη περίληψη – Το ιστολόγιο δεδομένων

Ένα blog σχετικά με τα δεδομένα, την τεχνητή νοημοσύνη και τα έργα μου

Η αυτόματη περίληψη είναι να λάβετε ένα μακρύ κείμενο ή ακόμα και ένα σύνολο κειμένων και να δημιουργήσετε αυτόματα ένα πολύ μικρότερο κείμενο που περιέχει την πλειονότητα των πληροφοριών. Απλός ? Οχι τόσο πολύ. Πρώτον, πρέπει να συμφωνήσετε ποιες πληροφορίες είναι πραγματικά σημαντικές. Στη συνέχεια, πρέπει να είμαστε σε θέση να τα εξαγάγουμε σωστά, να τα αναδιοργανώσουμε, όλα σε ένα γραμματικό κείμενο και χωρίς ανθρώπινη παρέμβαση. Και αυτό δεν βασίζεται στον μεγάλο αριθμό παραλλαγών πιθανών περιλήψεων !

Αυτόματη περίληψη κειμένου

Με την έκρηξη της συλλογής και της αποθήκευσης υφής, η ανάγκη ανάλυσης και εξαγωγής σχετικών πληροφοριών από αυτή τη μάζα είναι ολοένα και περισσότερο παρόν.

Επιπλέον, η έκρηξη σε μοντέλα βαθιάς μάθησης για αυτόματη επεξεργασία φυσικής γλώσσας (TALN) διευκόλυνε τη χρήση δεδομένων κειμένου σε επιχειρησιακά θέματα. Η αυτόματη περίληψη κειμένου, με τον ίδιο τρόπο όπως η ερώτηση απαντήσεων, η ανάλυση ομοιότητας, η ταξινόμηση των εγγράφων και άλλων εργασιών που συνδέονται με το TALN αποτελούν μέρος αυτών των θεμάτων.

Σε αυτό το πλαίσιο Εργαστηριακή καινοτομία Ο De Lincoln αποφάσισε να πραγματοποιήσει εργασίες για την αυτόματη περίληψη κειμένου. Αυτά τα έργα έχουν καταστήσει δυνατή τη δημιουργία ενός σημείου αναφοράς των διαθέσιμων μοντέλων αυτόματου συνοπτικού γαλλική γλώσσα, να προκαλέσει το δικό μας μοντέλο και τελικά να το βάλουμε στην παραγωγή.

�� Μοντέλο κατάρτισης

Η παγκόσμια αυτόματη περίληψη

Δεδομένα

Πριν μπορέσουμε να ξεκινήσουμε τη δουλειά μας, έπρεπε πρώτα να δημιουργήσουμε μια βάση δεδομένων για την εκμάθηση αυτόματων συνοπτικών μοντέλων. Έχουμε ανακάμψει αντικείμενα τύπου από αρκετούς γαλλικούς ιστότοπους ειδήσεων. Αυτή η βάση περιέχει ~ 60k άρθρα και ενημερώνεται συνεχώς.

Τελευταίος της τέχνης

Οι αυτόματοι αλγόριθμοι σύνοψης μπορούν να χωριστούν σε δύο κατηγορίες: Περίψεις εξορυκτικός και περιλήψεις αφηρημένος. Στο πλαίσιο εξορυκτικός, Οι περιλήψεις είναι χτισμένες από προτάσεις που εξάγονται από το κείμενο ενώ οι περιλήψεις αφηρημένος δημιουργούνται από νέες προτάσεις.

Τα αυτόματα μοντέλα συνοπτικών είναι αρκετά συνηθισμένα στα αγγλικά, αλλά είναι πολύ λιγότερο στα γαλλικά.

Μετρήσεις

Για την αξιολόγηση των μοντέλων χρησιμοποιήσαμε τις ακόλουθες μετρήσεις:

ΤΟ ΚΟΚΚΙΝΟ : Αναμφισβήτητα η μέτρηση που αναφέρθηκε συχνότερα σε συνοπτικά καθήκοντα, η ανάκληση προσανατολισμένη για την αξιολόγηση της Gisting (Lin, 2004) υπολογίζει τον αριθμό των παρόμοιων N-grams μεταξύ της αξιολογημένης περίληψης και της περίληψης της ανθρώπινης αναφοράς.

Μετέωρο: Η μέτρηση για την αξιολόγηση της μετάφρασης με ρητή παραγγελία (Banerjee and Lavie, 2005) σχεδιάστηκε για την αξιολόγηση των αυτόματων αποτελεσμάτων μετάφρασης. Βασίζεται στον αρμονικό μέσο όρο ακρίβειας και ανάκληση στα unigrams, η ανάκληση που έχει μια στάθμιση μεγαλύτερη από την ακρίβεια. Ο μετεωρίτης χρησιμοποιείται συχνά σε αυτόματες συνοπτικές δημοσιεύσεις (βλ. Et al., 2017; Dong et al., 2019), εκτός από το κόκκινο.

Καινοτομία: Έχει παρατηρηθεί ότι ορισμένα αφηρημένα μοντέλα ξεκουράζονται πάρα πολύ στην εξαγωγή (βλ., 2017; Krysci ‘Nski et al.’, 2018). Ως εκ τούτου, έχει γίνει κοινό να μετρήσουμε το ποσοστό των νέων n-grams που παράγονται εντός των συνοπτικών παραγόμενων.

Πηγή: Μετάφραση από χαρτί MLSum [2].

Την ανάπτυξη μοντέλων

Για την εκπαίδευση μοντέλων, χρησιμοποιήσαμε την υπηρεσία Cloud Azure ML που παρέχει ένα πλήρες περιβάλλον για την κατάρτιση, την παρακολούθηση και την ανάπτυξη μοντέλων.

Αυτόματο μοντέλο συνοπτικής

Χρησιμοποιήσαμε με μεγαλύτερη ακρίβεια το Python SDK που σας επιτρέπει να διαχειριστείτε ολόκληρο το περιβάλλον AzureMl με προγραμματικό τρόπο, από την έναρξη “θέσεων εργασίας” στην ανάπτυξη μοντέλων.

Ωστόσο, ενθυλακώσαμε το τελικό μας μοντέλο σε μια εφαρμογή Flask Containerized και στη συνέχεια αναπτύχθηκε μέσω αγωγών CI/CD σε ένα σύμπλεγμα Kubernetes

Τα αποτελέσματα

Πρώτα απ ‘όλα, κάναμε αρκετές προσπάθειες, οδηγώντας τα μοντέλα σε άρθρα 10K, μεταβάλλοντας τον αριθμό των μαρκών που δόθηκαν στην αρχή του μοντέλου (512 ή 1024) και διαφορετικές αρχιτεκτονικές.

Πρώτη παρατήρηση: Οι μετρήσεις κόκκινου και μετεωρίτη δεν φαίνονται πολύ κατάλληλες για την αξιολόγηση των μοντέλων μας. Επομένως, επιλέξαμε να βασίζουμε τις συγκρίσεις μας μόνο και επιλέξαμε τη βαθμολογία καινοτομίας αρχιτεκτονική ευνοώντας πιο αφηρημένες περιλήψεις.

Αφού προωθήσαμε την εκπαίδευση του μοντέλου μας σε στοιχεία 700K, βελτιώσαμε σημαντικά τα αποτελέσματα και επικυρώσαμε μια πρώτη έκδοση που θα βρείτε παρακάτω.

Σημεία προσοχής

Πέρα από την απόδοση, αυτό το πείραμα μας επέτρεψε να επισημάνουμε μερικούς όρια Αυτόματη περίληψη:

Επί του παρόντος, το μέγεθος του κειμένου στις εισόδους των μοντέλων τύπου Μεταμορφώνω περιορίζεται από την ικανότητα στη μνήμη των GPU. Το κόστος στη μνήμη είναι τετραγωνική με το μέγεθος του κειμένου ως είσοδο, αυτό αποτελεί ένα πραγματικό πρόβλημα για τα καθήκοντα της αυτόματης σύνοψης όπου το κείμενο που πρόκειται να συνοψιστεί είναι συχνά αρκετό.

Είναι πολύ δύσκολο να βρεθούν σχετικές μετρήσεις για την αξιολόγηση των εργασιών παραγωγής κειμένου.

Πρόσεχε το βάρος του εξαγωγέα : Έχουμε επίσης αντιμετωπίσει διάφορα προβλήματα που σχετίζονται με τα δεδομένα από μόνα τους. Το κύριο πρόβλημα είναι ότι το άρθρο του άρθρου ήταν συχνά μια παράφραση ή ακόμα και ένα αντίγραφο των πρώτων προτάσεων του άρθρου. Αυτό είχε τη συνέπεια της ενθάρρυνσης των μοντέλων μας να είναι πιο εξορυκτικά από ό, τι αφηρημένα, επιστρέφοντας απλώς τις πρώτες προτάσεις του άρθρου. Επομένως, ήταν απαραίτητο να κάνουμε ένα έργο επιμέλειας διαγράφοντας τα άρθρα που θέτουν πρόβλημα για να αποφευχθεί αυτό το είδος προκατάληψης.

Ένα blog σχετικά με τα δεδομένα, την τεχνητή νοημοσύνη και τα έργα μου.

Η αυτόματη περίληψη είναι να λάβετε ένα μακρύ κείμενο ή ακόμα και ένα σύνολο κειμένων και να δημιουργήσετε αυτόματα ένα πολύ μικρότερο κείμενο που περιέχει την πλειονότητα των πληροφοριών. Απλός ? Οχι τόσο πολύ. Πρώτον, πρέπει να συμφωνήσετε ποιες πληροφορίες είναι πραγματικά σημαντικές. Στη συνέχεια, πρέπει να είμαστε σε θέση να τα εξαγάγουμε σωστά, να τα αναδιοργανώσουμε, όλα σε ένα γραμματικό κείμενο και χωρίς ανθρώπινη παρέμβαση. Και αυτό δεν βασίζεται στον μεγάλο αριθμό παραλλαγών πιθανών περιλήψεων !

Ήμουν σε θέση να δουλέψω για περίπου ένα χρόνο σε αυτό το συναρπαστικό θέμα λίγο πριν το διδακτορικό μου, αυτή η ανάρτηση είναι επομένως μια ευκαιρία για μένα να βυθίσω τον εαυτό μου σε αυτό το θέμα και να κάνω απολογισμό των τελευταίων καινοτομιών στον τομέα.

Ας πάρουμε λοιπόν μια επισκόπηση αυτού του θέματος, δημιουργώντας, περιγράφοντας τους διάφορους τύπους περιλήψεων που υπάρχουν, πριν κατοικήσετε σε δύο τύπους συστημάτων ελαφρώς λεπτομερώς: εκείνα από το AI και τα νευρωνικά δίκτυα και εκείνα που επικεντρώνονται μάλλον στη βέλτιστη εξαγωγή του πληροφορίες.

Οι διάφοροι τύποι συνοπτικών

Όταν μιλάμε για περίληψη, συχνά σκεφτόμαστε το πίσω εξώφυλλο ενός βιβλίου ή την περιγραφή του σεναρίου για μια ταινία. Γενικά, αποφεύγουν να χαλάσουν το τέλος, όταν αυτό είναι ακριβώς αυτό που θα ζητούσε ένα εργαλείο της κλασικής αυτόματης σύνοψης: να πει την ίντριγκα, έτσι ώστε η περίληψη να είναι αρκετή για να γνωρίζει τα βασικά στοιχεία. Εδώ είναι περίπου Περιλήψεις μονοφωνικού εγγράφου, Δηλαδή, συνοψίζουμε μόνο ένα μόνο έγγραφο (μια ταινία, ένα βιβλίο, ένα άρθρο, …).

Αντίθετα, θα μπορούσαμε να θέλουμε ένα Περίληψη πολλαπλών μηνυμάτων, Ότι συναντάμε συχνότερα στο πλαίσιο των κριτικών Τύπου: Θέλουμε να έχουμε μια περίληψη των σημαντικότερων πληροφοριών που αναφέρθηκε από διάφορους οργανισμούς Τύπου.

Μόλις αποφασίσαμε για το είδος των δεδομένων που επιδιώκουμε να συνοψίσουμε, μονο ή multi-documentary, έχουμε την επιλογή μεταξύ δύο προσεγγίσεων: τοεξορυκτικός, που συνίσταται στην εξαγωγή ως των πληροφοριών πριν από την επαναφορά τους για να δημιουργηθεί μια περίληψη και η προσέγγιση γεννητικός, η οποία συνίσταται στη δημιουργία νέων προτάσεων, οι οποίες δεν εμφανίζονται αρχικά στα έγγραφα, προκειμένου να έχουν πιο ρευστό και πιο ελεύθερη περίληψη.

Εκτός από αυτά τα κριτήρια, υπάρχουν διάφορες μορφές περιλήψεων, τα οποία δεν θα προσεγγίσουμε εδώ: περιλήψεις ενημέρωσης που συνίστανται στην συνοδεία των πληροφοριών που εμφανίζονται σε ένα νέο έγγραφο και το οποίο δεν αναφέρθηκε μέχρι στιγμής, συνοπτικά κατευθυνόμενα που συνίστανται στην υιοθέτηση μιας ακριβούς γωνίας που δίνεται από τον χρήστη, ..

Το AI και τα νευρωνικά δίκτυα επανάσταση στην αυτόματη περίληψη

Μέχρι τα μέσα -2010, οι περισσότερες από τις περιλήψεις ήταν εξορυκτικές. Ωστόσο, υπήρχε ήδη μεγάλη ποικιλομορφία σε αυτούς τους αλγόριθμους που θα μπορούσαν να κυμαίνονται από την επιλογή και την εξαγωγή ολόκληρων προτάσεων στην εξαγωγή ακριβών πληροφοριών που ανακατασκευάστηκαν στη συνέχεια σε κείμενα με τρύπες που παρασκευάστηκαν εκ των προτέρων που ονομάζονται πρότυπα. Η άφιξη νέων προσεγγίσεων που βασίζονται σε νευρωνικά δίκτυα έχει αλλάξει σημαντικά την κατάσταση. Αυτοί οι αλγόριθμοι είναι πολύ πιο αποτελεσματικοί από τους προηγούμενους που δημιουργούν γραμματικό και ρευστό κείμενο, όπως αυτό που μπορεί να γίνει με αυτό το demo GPT.

Τα νευρωνικά δίκτυα, ωστόσο, απαιτούν εκπαίδευση μεγάλων ποσοτήτων δεδομένων και είναι σχετικά ξεπερασμένα. Λειτουργούν τέλεια για να δημιουργήσουν σχόλια για τα οποία η ειλικρίνεια είναι ελάχιστη σημασία, αλλά μπορεί να δημιουργήσει αντιφατικές ή απλά λανθασμένες πληροφορίες που είναι προβληματικές στο πλαίσιο των περιλήψεων άρθρων Τύπου για παράδειγμα. Πολλά ερευνητικά άρθρα ενδιαφέρονται για αυτές τις “ψευδαισθήσεις” νευρωνικών δικτύων.

Ένα παράδειγμα ενός υβριδικού εργαλείου: Potara

Η αυτόματη περίληψη ήταν το πρώτο ερευνητικό θέμα στο οποίο με ενδιέφερε και είχα την ευκαιρία να αναπτύξω κατά τη διάρκεια του κυρίου μου ένα υβριδικό σύστημα περίληψης με την εξαγωγή/γενιά για μια προσέγγιση πολλαπλών δίδακτρων, δηλαδή συνοψίζει ένα σύνολο εγγράφων που μιλούν του ίδιου θέματος.

Η ιδέα ήταν να ξεκινήσουμε από μια κλασική εξαγωγή, δηλαδή να προσδιορίσουμε τις πιο σημαντικές προτάσεις και να τις συναρμολογήσουμε για να δημιουργήσουν μια περίληψη. Το πρόβλημα με αυτήν την προσέγγιση είναι ότι οι σημαντικότερες προτάσεις θα μπορούσαν συχνά να βελτιωθούν περαιτέρω. Για παράδειγμα, σε ένα άρθρο που μιλούσε για μια προεδρική εκτόπιση, η φράση “ο Emmanuel Macron συναντήθηκε με τον αμερικανικό ομόλογό του και συζήτησε τα οικονομικά” θα μπορούσε να βελτιωθεί στο “Emmanuel Macron Met Joe Biden και συζήτησε την οικονομία”. Οι δημοσιογράφοι αποφεύγουν προσεκτικά τις πρόβες, βρισκόμαστε συχνά αντιμέτωποι με αυτό το είδος φαινομένου.

Για να ξεπεραστεί αυτό το ελάττωμα, μπορούμε να εντοπίσουμε παρόμοιες προτάσεις που υπάρχουν σε διαφορετικά έγγραφα και να προσπαθήσουμε να τα συγχωνεύσουμε για να αποκτήσουμε καλύτερη πρόταση. Ansi, από τις ακόλουθες δύο προτάσεις:

  • Ο Εμμανουήλ Μακρόν συναντήθηκε με τον αμερικανικό ομόλογό του στην Ουάσινγκτον και μίλησε για τα οικονομικά.
  • Ο Γάλλος Πρόεδρος συναντήθηκε με τον Joe Biden και συζήτησε τα οικονομικά.

Μπορούμε να δημιουργήσουμε μια σύντομη και ενημερωτική πρόταση:

  • Ο Emmanuel Macron συναντήθηκε με τον Joe Biden στην Ουάσινγκτον και συζήτησε τα οικονομικά.

Απαιτούνται διάφορα βήματα για την επίτευξη αυτού του αποτελέσματος: Εύρεση παρόμοιων προτάσεων, Βρίσκοντας την καλύτερη σύντηξη, ελέγχοντας ότι η σύντηξη είναι πολύ καλύτερη από μια πρωτότυπη πρόταση. Συμμετέχουν σε πολλές τεχνολογίες: Word2 με νευρωνικά δίκτυα για να βρουν παρόμοιες προτάσεις, γραφήματα coccurence για να τα συγχωνεύσουν, βελτιστοποίηση ILP για να επιλέξουν τις καλύτερες συγχωνεύσεις.

Εάν θέλετε να δείτε περισσότερα, η Potara είναι ανοιχτή πηγή, αλλά δεν έχει διατηρηθεί για λίγο. Το έργο αυτό είχε υπηρετήσει κυρίως ως βιτρίνα όταν απελευθερώθηκα και ως εκ τούτου είχα τεκμηρίωση, δοκιμές, συνεχή ολοκλήρωση, ανάπτυξη στο PYPI, ..

Τι είναι μια καλή αυτόματη περίληψη ?

Εάν ορισμένα κριτήρια φαίνονται προφανή και σχετικά απλά να αξιολογηθούν (η γραμματική των προτάσεων για παράδειγμα), άλλοι είναι πολύ πιο περίπλοκες. Η απόφαση για τις σημαντικότερες πληροφορίες ενός κειμένου είναι ήδη ένα πολύ υποκειμενικό καθήκον από μόνο του. Αξιολογήστε τη ρευστότητα, τη σωστή επιλογή των λέξεων που χρησιμοποιούνται, επανέρχεται στη δημοσίευση εργασίας και ας μην μιλήσουμε για τον πολιτικό προσανατολισμό που μπορεί να πάρει μια περίληψη !

Τα νέα γενετικά μοντέλα που βασίζονται σε νευρωνικά δίκτυα είναι πιθανό να εισαγάγουν υποτιμητικές κρίσεις ή προκριματικά (ή φιλικά προς το χρήστη), ένα αποτέλεσμα που επιδιώκεται όταν πρόκειται για τη δημιουργία ενός κριτικού κινηματογράφου, αλλά πολύ λιγότερο όταν μιλάμε για πρόγραμμα προεδρικού υποψηφίου !

Συνεπώς, η αυτόματη περίληψη παραμένει ένα πολύ ενεργό θέμα στην έρευνα και μπορεί να είναι για μια στιγμή, ιδιαίτερα όσον αφορά την ικανότητα καθοδήγησης του αποτελέσματος του αλγορίθμου, ακριβώς προς ένα συγκεκριμένο συναίσθημα, ένα συγκεκριμένο στυλ, ένα πολιτικό χρωματισμό που δίνεται. Στον κλάδο, μόλις αρχίζει να εισάγει πολύ συγκεκριμένα στελέχη (περίληψη των συναντήσεων για παράδειγμα).

Προεδρικό 2022: στα δεδομένα σας !

3 Παραδείγματα έργων δεδομένων που θα πραγματοποιηθούν για τις προεδρικές εκλογές του 2022.

Thanks! You've already liked this
No comments