Automatische Textübersicht – Lincoln, Einführung in die automatische Zusammenfassung – The Data Blog
Ein Blog über Daten, künstliche Intelligenz und meine Projekte
Contents
- 1 Ein Blog über Daten, künstliche Intelligenz und meine Projekte
- 1.1 Automatische Textübersicht
- 1.2 Modelltraining
- 1.3 Ein Blog über Daten, künstliche Intelligenz und meine Projekte.
- 1.4 Die verschiedenen Arten von Zusammenfassung
- 1.5 KI und neuronale Netze revolutionieren die automatische Zusammenfassung
- 1.6 Ein Beispiel für ein hybrides Werkzeug: Potara
- 1.7 Was ist eine gute automatische Zusammenfassung ?
Die automatische Zusammenfassung besteht darin, einen langen Text oder sogar einen Satz von Texten zu nehmen und automatisch einen viel kürzeren Text zu generieren. Einfach ? Nicht sehr viel. Zuerst müssen Sie zustimmen, welche Informationen wirklich wichtig sind. Dann müssen wir in der Lage sein, sie richtig zu extrahieren, sie neu zu organisieren, alles in einem grammatikalischen Text und ohne menschliche Intervention. Und das ist ohne die große Anzahl von Varianten möglicher Zusammenfassungen zu zählen !
Automatische Textübersicht
Mit der Explosion der Textursammlung und -speicher ist die Notwendigkeit, relevante Informationen aus dieser Masse zu analysieren und zu extrahieren.
Darüber hinaus erleichterte der Boom in Deep -Learning -Modellen für die automatische Verarbeitung natürlicher Sprache (TALN) die Verwendung von Textdaten in operativen Problemen. Die automatische Textübersicht auf die gleiche Weise wie die Beantwortungsfrage, die Ähnlichkeitsanalyse, die Klassifizierung von Dokumenten und andere mit den Taln verbundene Aufgaben sind Teil dieser Themen.
In diesem Zusammenhang ist das, dass die Laborinnovation De Lincoln hat beschlossen, Arbeiten an der automatischen Textzusammenfassung durchzuführen. Diese Arbeit Französisch, Um unser eigenes Modell zu verursachen und schließlich in Produktion zu bringen.
Modelltraining
Daten
Bevor wir mit unserer Arbeit beginnen konnten, mussten wir zunächst eine Datenbank zum Erlernen automatischer Zusammenfassungsmodelle erstellen. Wir haben Presseartikel von mehreren französischen Nachrichtenseiten wiederhergestellt. Diese Basis enthält ~ 60k Artikel und wird kontinuierlich aktualisiert.
Stand der Technik
Automatische Zusammenfassungsalgorithmen können in zwei Kategorien unterteilt werden: Zusammenfassungen Rohstoff und Zusammenfassungen Abstraaktiv. Im Rahmen Rohstoff, Die Zusammenfassungen werden aus Sätzen erstellt, die aus dem Text extrahiert wurden, während die Zusammenfassungen Abstraaktiv werden aus neuen Sätzen erzeugt.
Automatische Zusammenfassungsmodelle sind in Englisch weit verbreitet, aber sie sind in Französisch viel weniger.
Metriken
Für die Bewertung von Modellen haben wir die folgenden Metriken verwendet:
ROT : Zweifellos die Messung, die am häufigsten in zusammenfassenden Aufgaben berichtete.
Meteor: Die Metrik für die Bewertung der Übersetzung mit expliziter Bestellung (Banerjee und Lavie, 2005) wurden für die Bewertung der automatischen Übersetzungsergebnisse ausgelegt. Es basiert auf dem harmonischen Durchschnitt von Präzision und Rückruf bei Unigramms. Meteor wird häufig in automatischen Zusammenfassungsveröffentlichungen verwendet (siehe et al., 2017; Dong et al., 2019) zusätzlich zu Rot.
Neuheit: Es wurde festgestellt, dass einige abstrakte Modelle von der Extraktion zu stark ruhen (siehe et al., 2017; Krysci ‘Nski et al.„, 2018). Daher ist es üblich geworden, den Prozentsatz der neuen N-Gramm in den erzeugten Zusammenfassungen zu messen.
Quelle: Übersetzung aus mlsumpapier [2].
Der Einsatz von Modellen
Für das Modelltraining haben wir den Cloud Azure ML -Dienst verwendet, der eine vollständige Umgebung für die Schulung, Überwachung und Bereitstellung von Modellen bietet.
Wir haben den Python SDK genauer benutzt, mit dem Sie die gesamte Azureml -Umgebung programmatisch verwalten können, vom Start von “Jobs” bis zur Bereitstellung von Modellen.
Wir haben jedoch unser endgültiges Modell in einer Anwendung von Containerfläern zusammengefasst und dann über CI/CD -Pipelines auf einem Kubernetes -Cluster bereitgestellt
Die Ergebnisse
Zunächst haben wir mehrere Versuche unternommen, die Modelle auf 10K -Artikeln anführten und die Anzahl der zu Beginn des Modells (512 oder 1024) und verschiedenen Architekturen variierten Token variieren.
Erste Beobachtung: Rot- und Meteor -Metriken scheinen für die Leistungsbewertung unserer Modelle nicht sehr geeignet zu sein. Wir haben uns daher entschieden, unsere Vergleiche nur auf die Neuheit zu stützen und ausgewählt zu haben die Architektur favorisiertere abstraaktivere Zusammenfassungen.
Nachdem wir das Training unseres Modells auf 700.000 Elementen weitergegeben hatten, haben wir die Ergebnisse erheblich verbessert und eine erste Version validiert, die Sie unten finden.
Achtungspunkte
Abgesehen von der Leistung ermöglichte uns dieses Experiment, einige hervorzuheben Grenzen Automatische Zusammenfassung:
Derzeit die Größe des Textes in Eingaben der Typmodelle Verwandeln ist durch die Kapazität im Gedächtnis von GPUs begrenzt. Die Kosten im Speicher sind quadratisch mit der Größe des Textes als Eingabe. Dies ist ein echtes Problem für die Aufgaben der automatischen Zusammenfassung, bei der der zu zusammenfassende Text oft lang genug ist.
Es ist sehr schwierig, relevante Metriken zu finden, um die Aufgaben der Textgenerierung zu bewerten.
Seien Sie vorsichtig das Gewicht des Extraktors : Wir sind auch auf verschiedene Probleme im Zusammenhang mit Daten in sich selbst gestoßen. Das Hauptproblem ist, dass der Artikel des Artikels oft eine Paraphrase oder sogar ein Duplikat der ersten Sätze des Artikels war. Dies hatte die Folge, dass wir unsere Modelle dazu ermutigen, extraktiver als abtraktiver zu sein, indem er einfach die ersten Sätze des Artikels zurückgab. Es war daher notwendig, eine Kurationsarbeit zu erledigen, indem die Artikel Probleme löschen, um diese Art von Voreingenommenheit zu vermeiden.
Ein Blog über Daten, künstliche Intelligenz und meine Projekte.
Die automatische Zusammenfassung besteht darin, einen langen Text oder sogar einen Satz von Texten zu nehmen und automatisch einen viel kürzeren Text zu generieren. Einfach ? Nicht sehr viel. Zuerst müssen Sie zustimmen, welche Informationen wirklich wichtig sind. Dann müssen wir in der Lage sein, sie richtig zu extrahieren, sie neu zu organisieren, alles in einem grammatikalischen Text und ohne menschliche Intervention. Und das ist ohne die große Anzahl von Varianten möglicher Zusammenfassungen zu zählen !
Ich konnte ungefähr ein Jahr vor meinem Doktortitel ungefähr ein Jahr lang an diesem aufregenden Thema arbeiten. Dieser Beitrag ist daher eine Gelegenheit für mich, mich in dieses Thema eintauchen und die neuesten Innovationen in der Domäne aufzunehmen.
Nehmen wir also einen Überblick über dieses Thema, indem wir die verschiedenen Arten von Zusammenfassungen erstellen, bevor zwei Arten von Systemen im Detail in der Nähe wohnen: diejenigen aus KI und neuronalen Netzwerken, und diejenigen, die sich eher auf die optimale Extraktion von konzentrieren Information.
Die verschiedenen Arten von Zusammenfassung
Wenn wir über eine Zusammenfassung sprechen, denken wir oft an das Hintergrund eines Buches oder die Beschreibung des Drehbuchs für einen Film. Im Allgemeinen vermeiden sie es, das Ende zu verderben, wenn dies genau das ist, was man um ein Werkzeug der klassischen automatischen Zusammenfassung verlangen würde: die Intrigen zu sagen, damit die Zusammenfassung ausreicht, um das Wesentliche zu wissen. Hier geht es um Zusammenfassungen von Mono-Dokument, Das heißt, wir fassen nur ein einzelnes Dokument zusammen (ein Film, ein Buch, ein Artikel, …).
Im Gegenteil, wir konnten eine wollen Multi-dokumentarische Zusammenfassung, dass wir uns im Kontext von Presseprüfungen häufiger treffen: Wir möchten eine Zusammenfassung der wichtigsten Informationen haben, wie von verschiedenen Presseorganisationen berichtet.
Sobald wir uns für die Art der Daten entschieden haben, die wir zusammenfassen möchten, mono oder multi-dokumentarisch, haben wir die Wahl zwischen zwei Ansätzen: dieRohstoff, Was darin besteht, als Informationen zu extrahieren, was mit den Informationen vor dem Erstellen einer Zusammenfassung und des Ansatzes zurückzuführen ist generativ, Dies besteht darin, neue Sätze zu erstellen, die ursprünglich nicht in den Dokumenten erscheinen, um eine flüssigere und freiere Zusammenfassung zu erhalten.
Zusätzlich zu diesen Kriterien gibt es verschiedene Arten von Zusammenfassungen, die wir hier nicht nähern: Aktualisieren Sie Zusammenfassungen, die darin bestehen, die Informationen in einem neuen Dokument zusammenzufassen und die bisher nicht aufgeführt wurden, zusammengefasst, angezeigt, die aus einem präzisen Winkel bestehen, vom Benutzer gegeben, ..
KI und neuronale Netze revolutionieren die automatische Zusammenfassung
Bis zur Mitte der Mitte der bis 2010er Jahre waren die meisten Zusammenfassungen extraktiv. In diesen Algorithmen existierte jedoch bereits große Vielfalt, die von der Auswahl und der Extraktion ganzer Sätze bis zur Extraktion präziser Informationen reichen könnten, die in Texten mit im Voraus erstellten Löchern als Templates bezeichnet wurden. Die Ankunft neuer Ansätze, die auf neuronalen Netzwerken basieren, hat die Situation erheblich verändert. Diese Algorithmen sind viel effektiver als die vorherigen, um grammatikalischen und flüssigen Text zu erzeugen, wie das, was mit dieser GPT -Demo getan werden kann.
Neuronale Netze erfordern jedoch, dass eine Menge Daten ausgebildet werden und relativ nicht gekroht werden. Sie arbeiten perfekt, um Kommentare zu generieren, für die Richtigkeit von geringer Bedeutung ist, kann jedoch nachdrücklich widersprüchliche oder einfach falsche Informationen erzeugen. Viele Forschungsartikel interessieren sich für diese “Halluzinationen” neuronaler Netze.
Ein Beispiel für ein hybrides Werkzeug: Potara
Die automatische Zusammenfassung war das erste Forschungsthema, an dem ich interessiert war, und ich hatte die Möglichkeit, mich während meines Meisters zu entwickeln, ein hybrides System der Zusammenfassung durch Extraktion/Generation für einen Multi-Dokument-Ansatz, dh zusammenfassen eine Reihe von Dokumenten, die sprechen des gleichen Themas.
Die Idee war, von einer klassischen Extraktion zu beginnen, nämlich die wichtigsten Sätze zu identifizieren und sie zusammenzubauen, um eine Zusammenfassung zu erstellen. Das Problem bei diesem Ansatz ist, dass die wichtigsten Sätze oft weiter verbessert werden können. In einem Artikel, der von einer Verschiebung des Präsidenten spricht, könnte der Ausdruck “Emmanuel Macron sein amerikanisches Gegenstück und die Wirtschaftswissenschaften” in “Emmanuel Macron MET Joe Biden und diskutierte Wirtschaft verbessert werden” verbessert werden. Journalisten vermeiden die Proben sorgfältig und wir werden häufig mit dieser Art von Phänomen konfrontiert.
Um diesen Defekt zu überwinden, können wir ähnliche in verschiedenen Dokumenten vorhandene Sätze identifizieren und versuchen, sie zu verschmelzen, um einen besseren Satz zu erhalten. ANSI aus den folgenden zwei Sätzen:
- Emmanuel Macron traf sein amerikanisches Amtskollegen in Washington und sprach ausführlich über Wirtschaftswissenschaften.
- Der französische Präsident traf Joe Biden und diskutierte die Wirtschaftlichkeit.
Wir können einen kurzen und informativen Satz erstellen:
- Emmanuel Macron traf Joe Biden in Washington und diskutierte die Wirtschaftlichkeit.
Es sind mehrere Schritte erforderlich, um dieses Ergebnis zu erzielen: ähnliche Sätze zu finden, die beste Fusion zu finden, zu überprüfen, ob Fusion viel besser ist als ein ursprünglicher Satz. Sie nehmen an vielen Technologien teil: Word2 mit neuronalen Netzwerken, um ähnliche Sätze zu finden, Co-CCCurence-Diagramme, um sie zusammenzuführen, ILP-Optimierung, um die besten Fusionen auszuwählen.
Wenn Sie mehr sehen möchten, ist Potara Open-Source, wurde aber für eine Weile nicht aufrechterhalten. Dieses Projekt hatte bei der Veröffentlichung insbesondere als Schaufenster dient und hatte daher Dokumentation, Tests, kontinuierliche Integration und Einsatz auf PYPI, ..
Was ist eine gute automatische Zusammenfassung ?
Wenn bestimmte Kriterien offensichtlich und relativ einfach zu beurteilen scheinen (z. B. die Grammatikalität), sind andere viel komplexer. Die Entscheidung, was die wichtigsten Informationen eines Textes für sich sind. Bewerten Sie die Fluidität, die richtige Wahl der verwendeten Wörter, kehren in die Veröffentlichungsarbeit zurück und lassen Sie uns nicht über die politische Orientierung sprechen, die eine Zusammenfassung erfüllen kann !
Die neuen generativen Modelle, die auf neuronalen Netzwerken basieren !
Die automatische Zusammenfassung bleibt daher ein sehr aktives Thema in der Forschung und kann für einen Moment sein, insbesondere in Bezug auf die Fähigkeit, das Ergebnis des Algorithmus zu leiten, genau auf ein bestimmtes Gefühl, einen bestimmten Stil, eine politische Färbung gegeben. In der Branche beginnt er gerade, sehr spezifische Führungskräfte einzugeben (zum Beispiel Zusammenfassung der Sitzungen).
Präsidentschaft 2022: zu Ihren Daten !
3 Beispiele für Datenprojekte, die für die Präsidentschaftswahlen 2022 durchgeführt werden sollen.