Methoden & Tools
Konstruktikographisches Vorgehen
Welche Arbeitsprozesse durchläuft eine Konstruktion, bevor sie im Konstruktikon einen Eintrag erhält?
Abhängig von der Datenquelle unterscheiden wir zwischen zwei Vorgehensweisen, um neue Konstruktionskandidaten für das Konstruktikon zu identifizieren und dort dokumentieren.
Variante 1: Korpusdaten aus DeReKo / DWDS
Eine Möglichkeit, neue Konstruktionen zu identifizieren, geht auf die Sichtung und Analyse Korpusdaten zurück.
(a) Voranalyse und Korpusrecherche
- In einem ersten Schritt erfolgt eine Voranalyse der zu betrachtenden Konstruktion. Erweist sich der Konstruktionskandidat als geeignet, werden Belegstellen zur ausgewählten Konstruktion aus einem der Korpora des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) oder dem Deutschen Referenzkorpus (DeReKo) erhoben.
(b) Syntaktische Annotation: Parsing-Pipeline
- Die exportierten Belegstellen werden im Anschluss geparst, das heißt automatisch syntaktisch annotiert. Hierfür benutzen wir einen Parser, der die Belegstellen nach den Richtlininen der Universal Dependencies annotiert.
(c) Einführung ins System: Anlegen einer neuen Konstruktion im Strukturindex
- Das Anlegen des Konstruktionskandidaten ermöglicht die systemweite Verarbeitung der für diese Konstruktion spezifischen Analyseergebnisse und Daten. Sobald die Konstruktion im sogenannten Strukturindex eingepflegt wurde, können z.B. Konstruktionselemente hinzugefügt, eine Struktur/Form angegeben (diese ist relevant für den Form-Index) oder KE-zu-KE-Beziehungen angelegt werden. Daten, die an dieser Stelle eingegeben werden, werden systemweit hinterlegt und sind übergreifend verwendbar und analysierbar. Es ist möglich, Konstruktionen nach den Eigenschaften, die ihnen hier zugeteilt werden, zu ordnen und zu durchsuchen.
- Ab diesem Punkt ist die Konstruktion im Konstruktikon verankert. Alle speziell für dieses Projekt entwickelten Tools (z.B. das AnnotationTool) greifen nun auf die neu angelegte Konstruktion zu und erlauben ihre Bearbeitung.
Variante 2: Korpusdaten aus dem Construction Mining-Projekt
Das Construction Mining-Projekt greift auf das Hamburg Dependency Treebank-Korpus sowie das deutsche Wikipedia-Korpus zurück.
(a) Voranalyse und Belegstellenauswahl
- Aus den durch das Construction Mining vorgeschlagenen Konstruktionskandidaten werden in einem ersten Schritt geeignete Konstruktionen für das Konstruktikon ausgewählt. Für diese Konstruktionen werden schon vor dem Einfügen ins Konstruktikon erste Kategorisierungen des Konstruktionskandidaten vorgenommen. So gibt es hier z.B. bereits Angaben zur Form und zur Bedeutung der Konstruktion. Auch wurden Konstruktionskandidaten, die zu einer gemeinsamen Konstruktion zusammengefasst werden können, im Vorhinein zusammengefügt.
- Die Konstruktionskandidaten ergeben sich beim Construction Mining aus konkreten Korpusbelegstellen. Bei der Vorannotation wird aus diesen Belegstellen eine Auswahl an relevanten Belegen getroffen.
(b) Syntaktische Annotation
- Die Belegstellen aus dem Construction Mining sind bereits morphosyntaktisch annotiert und müssen somit nicht die Parsing Pipeline durchlaufen. Schritt (b) entfällt damit.
(c) Einführung ins System: Anlegen einer neuen Konstruktion im Strukturindex
- Die Konstruktion kann inklusive der Belegstellen und der im Construction Mining angegebenen Informationen zu Form, Bedeutung, Familienzugehörigkeit usw. in den Strukturindex exportiert werden.
- Nun ist es nur noch nötig, fehlende Informationen wie KE-Namen zu ergänzen.
Nachdem die Konstruktion wie unter Variante 1 oder 2 beschrieben ins Konstruktikon eingepflegt wurde, erfolgt die Weiterverarbeitung der Daten sowie die Erstellung des finalen Konstruktionseintrags.
(d) Semantische Annotation: das AnnotationTool (AT)
- Das AT ist eine Annotationssoftware, die im Zuge dieses Projekts entwickelt wurde, um den spezifischen technischen Anforderungen bei der Annotation von Konstruktionen und Frames Rechnung zu tragen. Das AT zeichnet sich durch eine intuitive Benutzeroberfläche aus. Das folgende Beispiel veranschaulicht die AT-basierte Annotation einer Realisierung der Geschweige_denn-Konstruktion:
Die Lehrer tun sich schwer beim Teacher-Training.
[FokuskontextDie meisten von ihnen haben zuvor noch KorEnie einen Computer] {Geschweige_denn[Erstes_Konjunktgesehen], [KE-lexgeschweige denn] [Zweites_Konjunktbedient]}.
- Auf das AnnotationTool sowie auf den Annotationsoutput kann direkt von den anderen Tools aus zugegriffen werden. Alle Tools sind so miteinander vernetzt, dass Änderungen automatisch systemweit vorgenommen werden können.
- Zentrale Aspekte, die durch die Entwicklung des AT erst ermöglicht wurden, sind:
- Zeichenbasierte Annotation (morphologische Annotation, Annotation von diskontinuierlichen Einheiten): Das AT ermöglicht Annotationen unterhalb der Ebene von Worttokens. Daher ist es möglich, einzelne Zeichen wie beispielsweise Präfixe zu kennzeichnen. In der Konstruktionsfamilie Negating_connector können etwa un-Präfixe wie in ungern Korrelierende Elemente instantiieren, die durch das AT annotiert werden können.
- Annotation über Satzgrenzen hinweg (z.B. von anaphorischen Relationen und Konstruktionen, die sich über Satzgrenzen hinweg erstrecken): Das AT ermöglicht eine nicht durch Satzgrenzen limitierte Annotation. Dies ist beispielsweise nötig, wenn sich die Realisierung von Konstruktionen wie Geschweige_denn über Satzgrenzen hinaus erstreckt. Im nachstehenden Beispielsatz könnten die FE Fokuskontext und Erstes_Konjunkt bei einer auf die Satzgrenze beschränkte Annotation nicht berücksichtigt werden, da beide erst im nachfolgenden Satz realisiert werden:
[FokuskontextSie kennen [KorEaber nicht]] {Geschweige_denn[Erstes_Konjunktihren Kontostand]. KE-lexGeschweige denn] [Zweites_Konjunktdie monatlichen Ausgaben]}. Oder ihre Einnahmen. (Zeit Campus, 15.04.2009, Nr. 03)
- Annotation von Null-Instantiierungen (nicht realisierte Kern-KE): In Übereinstimmung mit FrameNet werden auch ausgelassene Kern-KE entsprechend ihrer Lizenzierungsmechanismen annotiert (Definite Nullinstantiierung, Indefinite Nullinstantiierung, Konstruktionale Nullinstantiierung). Dies ist beispielsweise für nullinstantiierte Kern-KE (Fokuskontext, Erstes_Konjunkt, Zweites_Konjunkt) der Geschweige_denn-Konstruktion relevant.
- Volltextannotation: Das AnnotationTool ermöglicht ebenfalls das Annotieren ganzer Texte. So ist es möglich, innerhalb eines Textes verschiedenste Konstruktionen ausfindig zu machen und zu annotieren.
(e) Layer-Auswahl und Belegstellen generieren
- Die annotierten Belegstellen können dann im Anschluss für den Konstruktionseintrag generiert werden. Hierfür wählen die Annotator*innen zunächst die für diese Konstruktion relevanten Layer aus (z.B. PT, POS und GF), die später im Konstruktionseintrag angezeigt werden können.
- Nachdem die Belegstellen generiert wurden, erfolgt die Auswahl der Belegstellen, die im Eintrag als Beispiele angezeigt werden sollen.
(f) Eintragsmaske und Relationenmaske
- Die Eintragsmaske wird genutzt, um Definitionen und Ausführungen, die später im Konstruktionseintrag angezeigt werden sollen (z.B. Definitionen von KE oder allgemeine Informationen zu der Konstruktion), hinzuzufügen.
- In der Relationenmaske werden sowohl Beziehungen zwischen Konstruktionen und ihren Elementen als auch Beziehungen zwischen Frames und Konstruktionen und ihren Elementen angelegt.
(g) Der Konstruktionseintrag
- Die erzielten Ergebnisse der vorangegangenen Analyseschritte werden in einem letzten Schritt in einem strukturierten Format zusammengeführt. Der Konstruktionseintrag umfasst somit alle für die Konstruktion relevanten Analyseergebnisse und Definitionen.
- Aus den annotierten Belegstellen werden automatisch folgende Daten generiert:
1. Realisierungsmuster von Konstruktionen
Realisierungsmuster zeigen die Reihenfolge, in der die Konstruktionselemente in den Belegstellen realisiert sind. Hier finden sich auch Angaben über die Frequenz der einzelnen Realisierungsmuster und die lizenzierten sequentiellen Anordnungen der Konstruktionselemente. Die ganz rechte Spalte gibt an, wie viele Belegstellen dem Realisierungsmuster entsprechen. Die syntaktischen Realisierungsmuster helfen somit bei der Identifikation von semantischen und syntaktischen Beschränkungen der einzelnen Konstruktionselemente. Auch ausgelassene Konstruktionselemente können durch die Realisierungsmuster identifiziert werden.
Für die Geschweige_denn-Konstruktion kann beispielsweise eine starke Präferenz für die sequenzielle Reihenfolge [[Fokuskontext] [Erstes_Konjunkt] [KE-lex] [Zweites_Konjunkt]] beobachtet werden.
2. Syntaktische Realisierungen der Konstruktionselemente
Diese Information bezieht sich auf einen älteren Stand. Aktuell werden im Projekt Universal Dependencies verwendet. Die Annotation und Analyse von Phrasentyp und grammatischer Funktion wird nicht länger verwendet.
Die sprachliche Realisierung von Konstruktionselementen kann im Hinblick auf Phrasentyp (PT) und, falls einbezogen, grammatische Funktion (GF) und Wortart (POS) variieren. Daher können für jede Konstruktion neben den Realisierungsmustern weitere Informationen zu den jeweiligen Realisierungen der Konstruktionselemente im Hinblick auf PT, GF und POS abgerufen werden.
Welche Arbeitsprozesse durchläuft ein Frame, bevor er im FrameNet einen Eintrag erhält?
Im FrameNet-Teilprojekt werden Framekandidaten in der Regel auf der Grundlage von Korpusdaten aus dem Digitalen Wörterbuch der Deutschen Sprache (DWDS) oder dem Deutschen Referenkorpus (DeReKo) angelegt. Dafür werden Korpusdaten zu avisierten Lexikalischen Einheiten (LE) des Frames gesichtet, analysiert und exportiert.
(a) Voranalyse, Korpusrecherche & Subkorporation
- In einem ersten Schritt erfolgt eine Voranalyse des zu betrachtenden Frames, seiner etwaigen Frame-Elemente (FE) und der LE, die ihn evozieren könnten.
- Erscheinen der Framekanditat und seine potentiellen LE geeignet, werden Belegstellen zu den LE aus einem der Korpora des DWDS oder dem DeReKo erhoben und somit Teilkorpora für jede einzelne LE des Frames angelegt. Dieser Schritt wird als Subkorporation bezeichnet.
(b) Syntaktische Annotation: Parsing-Pipeline
- Die exportierten Belegstellen werden im Anschluss direkt geparst, das heißt automatisch syntaktisch annotiert. Hierfür benutzen wir einen Parser, der die Belegstellen nach den Richtlininen der Universal Dependencies annotiert.
(c) Einführung ins System: Anlegen eines neuen Frames im Strukturindex
- Das Anlegen des Framekandidaten im sogenannten Strukturindex ermöglicht die systemweite Verarbeitung der für diesen Frame spezifischen Analyseergebnisse und Daten. Sobald der Frame im Strukturindex eingepflegt wurde, können z.B. FE hinzugefügt oder Frame-zu-Frame-Beziehungen angelegt werden. Daten, die an dieser Stelle eingegeben werden, werden systemweit hinterlegt und sind übergreifend verwendbar und analysierbar. Es ist möglich, Frames nach den Eigenschaften, die ihnen hier zugeteilt werden, zu ordnen und zu durchsuchen.
- Ab diesem Punkt ist der Frame im FrameNet verankert. Alle speziell für unser Projekt entwickelten Tools (z.B. das AnnotationTool) greifen nun auf den neu angelegten Frame zu und erlauben seine Bearbeitung.
Sobald der Frame - wie in Schritt eins beschrieben - ins FrameNet eingepflegt wurde, erfolgt die semantische Annotation der vorab geparsten Korpusdaten sowie die Erstellung des finalen Frame-Eintrags und der mit ihm verknüpften LE-Einträge.
(d) Semantische Annotation: das AnnotationTool (AT)
- Das AT ist eine Annotationssoftware, die im Zuge dieses Projekts entwickelt wurde, um den spezifischen technischen Anforderungen bei der Annotation von Konstruktionen und Frames Rechnung zu tragen. Details zur Funktionalität des AnnotationTools können im obigen Abschnitt zu Methoden und Tools des Konstruktikons nachgelesen werden.
- Im AT werden die Belegstellen, die im Zuge der Subkorporation zu den einzelnen LE eines Frames (in der Annotation als Targets bezeichnet) gesammelt wurden, mittels FE annotiert. Die Annotation erfolgt auf mehreren Ebenen (Layern), sodass sprachliche Einheiten, die mehr als ein FE instanziieren, bei Bedarf auch doppelt annotiert werden können (FE1 und FE2)). Ebenso können etwaige Verb-Konstruktionen - wie beispielsweise Funktionsverbgefüge - bei Nomen-Targets auf einem separaten Layer (V-Kxn) annotiert werden. Darüber hinaus werden im AT auch nicht instanziierte Kern-FE mittels Null-Instanziierungen markiert.
- Auf das AnnotationTool sowie auf den Annotationsoutput kann direkt von den anderen Tools aus zugegriffen werden. Alle Tools sind so miteinander vernetzt, dass Änderungen automatisch systemweit vorgenommen werden können.
Abbildung XY veranschaulicht die AT-basierte Annotation des Satzes (1), einer typischen Instanz der LE geben des Geben-Frames.
[GeberDie Äffin] gibt [Empfängerihrem Jungen] [Objekteine Banane].
(e) Layer-Auswahl und Belegstellen generieren
- Die im AT analysierten Belegstellen werden im Anschluss an die Annotation für die sogenannten Annotationsreporte der einzelnen LE, die im Frame-Eintrag integriert sind, generiert.
- Nachdem die Belegstellen generiert wurden, erfolgt die Auswahl der Belegstellen, die im Frame-Eintrag als Beispiele angezeigt werden sollen.
(f) Eintragsmasken und Relationenmaske
- Die Eintragsmasken werden genutzt, um Definitionen und Ausführungen, die später im Frame-Eintrag sowie im LE-Eintrag angezeigt werden sollen (z.B. Definitionen von Kern- und Nicht-Kern-FE), hinzuzufügen.
- In der Relationenmaske werden sowohl Beziehungen zwischen Frames, Beziehungen zwischen den Elementen der Frames als auch Beziehungen zwischen Frames und Konstruktionen sowie ihren Elementen angelegt.
(g) Der Frame-Eintrag
- Die erzielten Ergebnisse der vorangegangenen Analyseschritte werden in einem letzten Schritt in einem strukturierten Format zusammengeführt. Der Frame-Eintrag umfasst somit alle für den Frame relevanten Analyseergebnisse und Definitionen.
(h) Der LE-Eintrag
- Im LE-Eintrag werden neben einer (aus dem DWDS und andere ausgewiesene Korpora stammenden) Kurz-Definition der LE, Valenzmuster sowie syntaktische Realisierungen der einzelnen FE in Bezug auf die jeweilige LE tabellenartig aufgeführt.
- Aus den annotierten Belegstellen werden also automatisch folgende Daten generiert:
1. Valenzmuster
Valenzmuster zeigen die Reihenfolge bzw. die Kombinationsmöglichkeiten, in der die Frame-Elemente in den Belegstellen der einzelnen LE realisiert sind. Hier finden sich auch Angaben über die Frequenz der einzelnen Valenzmuster. Jedes Valenzmuster ist außerdem mit annotierten Belegstellen, die das Muster exemplifizieren, verknüpft. Die Valenzmuster helfen bei der Identifikation von semantischen und syntaktischen Beschränkungen der einzelnen FE in Bezug auf eine LE des Frames. Auch ausgelassene FE können durch die Valenzmuster identifiziert werden.
2. Syntaktische Realisierungen der Frame-Elemente
Diese Information bezieht sich auf einen älteren Stand. Aktuell werden im Projekt Universal Dependencies verwendet. Die Annotation und Analyse von Phrasentyp und grammatischer Funktion wird nicht länger verwendet.
Die sprachliche Realisierung von FE kann im Hinblick auf Phrasentyp (PT) und grammatische Funktion (GF) und Wortart (POS) variieren. Daher können für jede LE des Frames neben den Valenzmustern weitere Informationen zu den jeweiligen Realisierungen der einzelnen FE im Hinblick auf PT, GF und POS abgerufen werden. Angegeben wird auch, wie viele Belege es für Realisierungen einer FE als in einer bestimmten PT-GF-Kombination gibt. Auch Informationen über POS können einbezogen werden. Die Realisierungsvarianten sind nach fallender Frequenz sortiert.
3. KWIC-Ansicht der Frame-Elemente
Die Ansicht Belegstellen-KWIC bietet eine nach ausgewähltem Frame-Element oder Target (LE) sortierte Übersicht der Belegstellen zu einer LE, sodass im Fall der Auswahl eines FE dessen Instanziierungsvarianten direkt untereinander stehen und verglichen werden können. Je nach Betrachtungsinteresse können verschiedene Sortierungen eingestellt werden.
Tools zur Visualisierung und Analyse von Daten
Das Grammatik-Lexikon-Kontinuum-Tool ordnet Konstruktionen und lexikalische Einheiten in einem Graphen hinsichtlich ihrer Schematizität und Idiomatizität an. Die Auswahl der betrachteten Konstruktionen erfolgt durch das Setzen inkrementeller Filter, wodurch z.B. verschiedene Varietäten, Modalitäten oder morphosyntaktische Kategorien ein- oder ausgeschlossen und auch miteinander kombiniert werden können.
Das Tool erlaubt also eine überblickende Darstellung aller bedeutungsevozierender Einheiten hinsichtlich im Konstruktikon annotierter Parameter.
Die FrameMap zeigt eine 3D-Visualisierung aller im FrameNet des Deutschen angelegten Frames. Der Anordnung liegt der Frame-Familien-Algorithmus und damit die Nähe zwischen den einzelnen Frames zugrunde; der Nähe im dreidimensionalen Raum entspricht also semantische Nähe.
Dieses Tool zur Berechnung und Darstellung semantischer Ähnlichkeiten ermittelt, inwiefern semantische Gemeinsamkeiten zwischen einer ausgewählten Konstruktion und potenziell allen Konstruktionen im Konstruktikon des Deutschen vorliegen. Dies geschieht im Rückgriff auf die Frames, die von den Konstruktionen evoziert werden. Entsprechend dieser semantischen Gemeinsamkeiten und Unterschiede werden Punkte vergeben; die Punktzahl korreliert mit semantischer Ähnlichkeit: je höher die Punktzahl, desto größer die Ähnlichkeit.
Das Tool berücksichtigt bei seiner Berechnung sowohl die Evokationsart (primärer vs. nicht-primärer Frame) als auch das Mapping der Konstruktionselemente auf die entsprechenden Kern-Frame-Elemente. Auch relatierte Frames (also Frames, die zwar nicht übereinstimmen, aber aus einer gemeinsamen Frame-Familie stammen) werden bei der Berechnung der semantischen Ähnlichkeit berücksichtigt. Die Bepunktung hängt hier zusätzlich von dem Relationstypen und dem Abstand zwischen den Frames (Kantenanzahl) ab. Die verschiedenen Kriterien werden unterschiedlich stark gewichtet; da eine höhere Punktzahl eine höhere semantische Ähnlichkeit impliziert, wird die Erfüllung eines in Bezug auf Bedeutungs-/Funktionsgleichheit relevanteren Kriteriums entsprechend höher bepunktet als ein periphereres Kriterium.
Eine ausführlichere Erläuterung der Kriterien und ihrer Bepunktung erfolgt im Infotext des SimilarCxns-Tools.
Weitere Informationen stellen wir auf Anfrage gerne bereit.