Ein Plädoyer für die Korpuslinguistik

Über eine Einführung von Lothar Lemnitzer und Heike Zinsmeister

Von Markus Tönjes

Im letzten Jahr erschienen mit Carmen Scherers Buch sowie dem von Lothar Lemnitzer und Heike Zinsmeister zwei Einführungen in die Korpuslinguistik erschienen. Dieser Teilbereich führte innerhalb der Sprachwissenschaft lange Zeit eine Randexistenz. Erst in den letzten Jahren erkannten viele Wissenschaftler, dass man mit Hilfe von korpusgestützten Untersuchungen manch interessante Dinge analysieren kann. Scherer führte das am Beispiel ihrer Dissertation in ihrer Einführung vor und auch bei Lemnitzer und Zinsmeister findet man zahlreiche Beispiele korpusgestützter Untersuchungen.
Das Buch beginnt mit einer Einleitung in den Gegenstandsbereich und der Erläuterung theoretischer Grundlagen. Die Verfasser haben ihr Werk als eine Anleitung für korpusgestützte Projekte konzipiert, weshalb der forschungshistorische Überblick funktional und kurz gehalten ist. Dabei erläutern die Autoren das Konzept des Empirismus in Abgrenzung zum Rationalismus und gehen anhand einiger Beispiele auf grundlegende Begriffe wie Deduktion und Indikation ein. Die Position der generativen Grammatik, die eher auf Sprecherurteile vertraut als auf Korpusdaten, wird von der Korpuslinguistik abgegrenzt. Für den erwünschten Zweck sind diese ersten beiden Kapitel vollkommen ausreichend. Zudem verweisen die Verfasser am Ende eines jeden Kapitels sehr ausführlich auf weiterführende Literatur. Man findet außerdem in Anschluss an jedes Kapitel Übungsaufgaben, die sehr ausführlich auf der Internetseite, die das Buch begleitet, besprochen werden. Das hat den Vorteil, dass die Lösungen leichter korrigiert und  erweitert werden können.
Im dritten Kapitel „Der Stein der Weisen? – Linguistische Korpora“ beginnen Lemnitzer und Zinsmeister mit einer Definition des Korpusbegriffs. Sie erwähnen den Zusammenhang zwischen der Größe eines Korpus und der Untersuchungsfrage und stellen einige Korpora für nichtlinguistische Zwecke vor. Die Verfasser setzen sich mit der Frage auseinander, ob es sich beim „World Wide Web“ um ein Korpus handelt. Sie wiegen die Vor- und Nachteile einer internetbasierten Korpusrecherche gegeneinander ab und kommen zu dem Schluss, dass man das Internet mit Einschränkungen durchaus als Korpus ansehen könne. Im Folgenden stellen die beiden Autoren methodische Grundbegriffe wie etwa die Unterscheidung zwischen Primär- und Metadaten vor. Zu loben ist, dass sie ausführlich auf das Kriterium der Repräsentativität eingehen. In anderen empirischen Arbeitsbüchern findet man darüber nur selten etwas. Insgesamt ist dieser Abschnitt sehr gut gelungen und bereitet gut auf methodische Probleme vor, denen man bei eigenen Untersuchungen begegnen könnte. Der folgende Teil über das „methodische [...] Vorgehen beim Aufbau eines Korpus“ fällt leider etwas kurz aus. Man hätte an dieser Stelle auf weitere Erhebungsmethoden verweisen können. Wie geht man zum Beispiel mit Daten um, die man aufgrund eines Experiments oder einer teilnehmenden Beobachtung gewonnen hat? Insgesamt ist dieses dritte Kapitel aber sehr gelungen. Bereits an dieser Stelle wird der praktische Bezug des Buches deutlich.
Das vierte Kapitel „Auf den Schultern anderer stehen – Linguistische Annotation und ihre Nutzung“ umfasst die Kennzeichnung linguistischer Informationen in Korpora, der so genannten Annotation. Bevor man auf einen so komplexen Bereich eingeht, wären sicherlich Informationen über existierende Korpora sinnvoll gewesen, was leider erst im fünften Kapitel folgt. Als erstes erläutern die Verfasser den Sinn einer Annotation. Dabei gehen sie auf praktische Vorteile wie die Wiederverwendbarkeit eines Korpus ein und stellen anschließend die einzelnen Annotationsebenen vor. Lemnitzer und Zinsmeister zeigen mit Hilfe von Beispielen die Vorgehensweise bei einer Annotation und gehen dabei auf mögliche Probleme ein. Als Muster eines Tagsets setzen sich die Verfasser recht kritisch mit dem Stuttgarter-Tübinger-Tagset auseinander. Leider erfolgt erst im Anschluss daran eine Beschreibung, worum es sich beim Tagging überhaupt handelt und das auch nur in Form eines Exkurses. Die Verfasser konzentrieren sich dabei hauptsächlich auf automatische Tagger. Ferner gehen die Autoren auf die syntaktische Annotation ein, wobei an dieser Stelle eine kurze Einführung in syntaktische Grundlagen angebracht gewesen wäre. Wer sich noch nie mit syntaktisch ausgerichteten Fragestellungen beschäftigt hat, könnte mit diesem Abschnitt seine Probleme haben. Im Folgenden beschreiben Lemnitzer und Zinsmeister die Korpusabfrage und erwähnen grundlegende Dinge wie die Konkordanz und reguläre Ausdrücke. Gerade die Syntax der Suchabfrage der Korpora stellt häufig ein Problem dar, das die Arbeit mit einem Korpus erschweren kann. Abschließend stellen die Autoren „Annotationsmaximen“ vor, in denen die Wiederverwendbarkeit eines Korpus besonders stark betont wird. Dieses Kapitel ist recht komplex, aber den beiden Verfassern gelingt es dennoch, einen guter Überblick über die verschiedenen Annotationsebenen zu geben. Durch die einzelnen Beispiele zeigen sie zudem das Potential einer korpusgestützten Untersuchung.
Das folgende fünfte Kapitel ist als eine Art „Wegweiser“ durch die deutschsprachige Korpuslandschaft konzipiert worden. Nach theoretischen Vorüberlegungen folgt ein sehr ausführlicher Überblick über deutschsprachige Korpora. Die Autoren stellen dabei acht Kriterien der Korpustypologie wie etwa Sprachenauswahl, Annotation oder die Frage, in welcher Form das Korpus vorliegt, vor. Die Verfasser haben hierbei eine sehr gute Auswahl getroffen. Neben den gängigen Korpora wie dem des Instituts für Deutsche Sprache (IDS) oder dem Korpus des Digitalen Wörterbuches der Deutschen Sprache des 20. Jahrhunderts (DWDS) verweisen sie auf Spezialkorpora wie das Kant-Korpus oder das Videokorpus zur Aphasie. In der Übersicht der einzelnen Korpora geben Lemnziter und Zinsmeister jeweils nützliche Informationen wie etwas die Verfügbarkeit oder die Größe des Korpus mit an. Die Übersicht ist auf dem aktuellsten Stand und ist für jeden, der eine korpusgestützte Unersuchung durchführen möchte, von großem Nutzen.
Das anschließende sechste Kapitel „Wie man in den Wald hineinruft – Korpuslinguistik in der Praxis“ beinhaltet einige Anregungen, welche Fragestellungen man gezielt untersuchen kann. Durch dieses Kapitel unterstreichen Lemnitzer und Zinsmeister, wie sinnvoll der Einsatz eines Korpus bei verschiedensten linguistischen Fragestellungen sein kann. Die Beispiele stammen aus allen sprachwissenschaftlichen Bereichen und werden von den Verfassern jeweils kritisch kommentiert. Hierdurch bekommt der Leser einen ebenso knappen wie anregenden Einblick in relevante Probleme der Korpuslinguistik.
Im letzten Kapitel des Buches kommen einige Sprachwissenschaftler wie etwa die Professorin für germanistische Linguistik an der Universität Tübingen Veronika Ehrich oder Anke Lüdeling, Juniorprofessorin für Korpuslinguistik an der HU Berlin, zu Wort. Anhand eines Fragenkataloges berichten die Wissenschaftler von ihrer Motivation, mit Korpora zu arbeiten sowie von den Problemen der praktischen Arbeit. Dieses Kapitel macht sehr anschaulich die Vor- und Nachteile einer korpusgestützten Untersuchung deutlich. Im Anschluss folgt ein recht übersichtliches Glossar, in dem noch einmal alle relevanten Begriffe kurz erläutert werden.
Insgesamt gesehen ist diese Einführung in die Korpuslinguistik sehr ausführlich und praxisorientiert. Einige Schwächen hat das vorliegende Buch lediglich bei der Abfolge der einzelnen Kapitel. So hätte man beispielsweise das dritte Kapitel vor das zweite setzen müssen. An ein paar Stellen hätten die Autoren einige Begriffe etwas ausführlicher erläutern müssen. Dennoch erfüllt das Buch seinen angestrebten Zweck. Man muss vor allem den guten Praxisbezug loben, der beispielsweise in Carmen Scherers Einführung zu kurz kommt. Durch die Übungsaufgaben bekommt man darüber hinaus ein Gespür für den Umgang mit linguistischen Korpora. Die Idee, andere Sprachwissenschaftler zu Wort kommen zu lassen, ist sehr originell und erfüllt ihren Zweck. Wer eine korpusbasierte Untersuchung plant oder bereits durchführt, wird dieses Buch zu schätzen wissen.   

Lothar Lemnitzer, Heike Zinsmeister: Korpuslinguistik. Eine Einführung
Gunter Narr Verlag, Tübingen 2006.
220 Seiten, 19,90 EUR.
ISBN   3-8233-6210-0