20 лет НКРЯ

Сегодня — две примечательные даты. Андрею Анатольевичу Зализняку могло бы исполниться 89 лет. А Национальный корпус русского языка отмечает сегодня двадцатилетний юбилей. За это время корпус успел стать неотъемлемым и незаменимым инструментом любого исследователя, работающего с русским языком. В честь этого события мы попросили одного из создателей корпуса, академика Владимира Александровича Плунгяна рассказать нам о том, как по его мнению изменилась лингвистика за прошедшие два десятилетия.

В. А. Плунгян:

Нас часто спрашивают, как изменилась русистика после появления Национального корпуса русского языка — и в более общем плане, как изменилась современная лингвистика после появления электронных корпусов.

Краткий ответ — изменилась радикально. Теперь попробую ответить чуть подробнее.

Начну с очевидного: корпус — это несопоставимо более эффективный инструмент поиска примеров на нужное лингвисту явление. Материал, на добывание которого прежде тратились месяцы утомительной и монотонной работы, теперь может быть получен с помощью нескольких простых манипуляций за секунды. Более того, некоторые типы запросов лингвистам даже и в голову не приходили, поскольку без корпуса получить такую информацию практически невозможно (например: как изменялось значение и аспектуальное поведение глаголов мочь и смочь по десятилетиям в течение XIX—XX веков?).

Простое следствие из этого — лингвисты стали получать больше точной информации о языке, который они изучают. Чуть менее очевидное следствие — лингвисты постепенно убедились, что стоит меньше доверять интроспекции и больше полагаться на корпусные данные. Особенно опасна интроспекция лингвиста, который выдвигает некоторое теоретическое объяснение и хочет подтвердить свою правоту примерами (естественно, придуманными им самим, а не корпусными). Авторы статей прошлых десятилетий могли спокойно писать «прогуливаются и слоняются только люди», «конструкция вида разрыдалась два раза невозможна», «сочетание целовать в глаза в русском языке запрещено» и т. д. (всё это примеры из реальных лингвистических работ). Корпусные данные показывают, что эти — и многие другие — утверждения неверны в том простом смысле, что в корпусе в большом количестве находятся опровергающие их примеры. Не стоит думать, что лингвисты встретили такие примеры с восторгом: поначалу их не хотели замечать и продолжали говорить, что эти примеры «неправильные», а их интуиция как раз правильная. Но постепенно ситуация всё-таки изменилась: насколько можно судить, сегодня исследователь, не пользующийся корпусом, — фигура редкая и парадоксальная, а корпусные данные встречаются едва ли не в каждой работе о русском языке (в том числе, что существенно, и о современном русском, относительно которого интуиция лингвистов-носителей теперь естественным образом получает гораздо меньше веса, чем раньше). На мой взгляд, это очень отрадное явление, это еще один значимый шаг лингвистики к точности и объективности.

Но и это еще не всё. Рискну сказать, что корпус может изменить — и уже меняет — повестку теории языка в целом. Что больше всего ценили теоретики середины XX века, прежде всего формальные? Недопустимые примеры «под звездочкой». Утверждалось, что изучать реально сказанное — дело нехитрое, а вот объяснять Запреты — это предназначение настоящей Теории. Ведь язык — это врожденная универсальная грамматика, а грамматика — это прежде всего система запретов. Интересоваться суждением носителей языка по поводу того, что они никогда не скажут (предъявляя им примеры типа Какую книгу Петя сказал, что ты выбросил, не прочитав? и прося оценить, «можно ли так сказать») было высоким и благородным занятием, более благородным, чем копание в реально сказанных кем-то когда-то предложениях. Лингвистика стала наукой о несуществующем, и это несуществующее называлось компетенцией, универсальной грамматикой, интериоризованной системой правил, Словом, Языком (Языком вообще, как было сказано в одной замечательной энциклопедии).

Между тем, такого Языка вообще никто никогда не видел и увидеть не мог, потому что само существование его есть крайне сомнительная гипотеза. Существует речь, существуют тексты. Их можно зафиксировать, но в докорпусную эпоху их было довольно сложно обработать. Именно корпус вернул лингвистам их подлинный объект — тексты. И оказалось, что мы очень многого о них не знаем. С появлением корпуса лингвистика получает шанс стать наконец наукой о существующем и начать изучать не то, чего в языке нет, а то, что в нем есть, причем в первую очередь то, чего в языке много: частотные явления, потом менее частотные и только потом — если это уж очень необходимо — то, чего в корпусе не встречается вовсе. Есть подозрение, что языковая компетенция говорящего — это просто огромный корпус, где частотные явления наиболее заметны.

Но если язык — это корпус, то и грамматики, скорее всего, не существует (по крайней мере в том виде, какой она представала на страницах лингвистических работ в докорпусную эпоху, а разве что в виде radical construction grammar Крофта или emergent grammar Хоппера). Вот это и есть самое радикальное изменение наших представлений о том, что и зачем мы изучаем, когда изучаем «символическую систему, соотносящую звук и значение» (как раньше любили определять язык), которое принёс корпус. Посмотрим, что будет дальше.