Die Kollo-Profile für die einzelnen Konstruktionselemente sind über ein Language Model generiert. Die generierten Filler müssen so nicht in den Belegsätzen oder einem Korpus auftreten.
Für jeden Belegsatz werden mit der in Wada et al. (2022, https://aclanthology.org/2022.coling-1.366/) beschriebenen Methode die 20 besten Substitute für den entsprechenden Filler des Konstruktionselements erzeugt. Als Language Model kommt eine deutsche Version von BERT zum Einsatz (https://huggingface.co/dbmdz/bert-base-german-cased), das Vokabular umfasst das Vokabular des Tueba-DDP Wikipedia-Korpus (https://sfb833-a3.github.io/tueba-ddp/). Das Verfahren von Wada et al. (2022) weist jedem Wort einen Score zu. Höhere Werte bedeuten, dass das Wort ein besseres Substitut ist. Diese Werte werden für alle Belegsätze erfasst und pro Wort aufsummiert. Die Kollo-Profile sind nach diesen summierten Scores sortiert. Die verlinkten Belegsätze sind die Sätze, bei denen das entsprechende Wort als mögliches Substitut vorgeschlagen wurde. (Das Verfahren von Wada et al. wurde so angepasst, dass auch der auftretende Filler als Substitut vorgeschlagen wird.)
Das Verfahren generiert immer nur ein Wort pro Konstruktionselement als möglichen Filler. Bei Mehrworteinheiten oder phrasalen Fillern wird hier das am höchsten im Dependenzbaum (annotiert nach UD) stehende Wort zur Subsitution verwendet.
Für eine genaue Beschreibung und Evaluation des Verfahrens s. Feldmüller, Barteld & Ziem (eingereicht).