diglossa.js: параллельный корпус vs. многоязычный контекстный словарь

7.1.2021

тезисы доклада, посланные на конференцию The 10th St. Petersburg International Conference on Corpus Linguistics 2021

Параллельный корпус vs. многоязычный контекстный словарь

  • Не дай Бог, чтобы все словесности имели один язык, одно выражение: оно будет тогда вернейшим свидетельством, что посредственность стерла все отличительные черты. В обществе встречаешь пошлые лица, которые все на одно лицо. Образ гения может иметь черты, сходные с другим, но выражение их открывает прозорливому взору физиономию совсем отменную.
  • кн. П.Вяземский

Abstract

diglossa.js - инструмент медленного чтения. Десктопное приложение для чтения электронных книг, редактирования их структуры, авто-проверки синхронизации параграфов и генерации контекстных многоязычных словарей. В основе dgl-книг лежит собственный dgl-формат. Цель приложения – не лингвистика, но герменевтика.

ключевые возможности

diglossa.js может импортировать книги в распространенных открытых форматах, как .epub, .fb2, .pdf. И словари в открытых форматах - .stardict, .dsl. Но она построена на собственном внутреннем формате e-книг, .dgl. Он полностью аналогичен открытому формату .epub, но внутри основан не на html, а на логической разметке markdown. И потому много более эффективен.

  • dgl-пакет (e-книга) может иметь как один текст книги, так и несколько параллельных текстов.
  • любой читатель может сам добавить параллельный перевод в любое время
  • для синхронизации параллельных текстов возможно использование авто-синхронизации
  • на основе многоязычных .dgl-пакетов (параллельных книг) возможна генерация .dgl-словарей, то есть результатов полнотекстового поиска для всех слововорм текста. С возможностью контекстного поиска, то есть поиска по нескольким словоформам сразу
  • из множества .dgl-словарей возможна генерация тематических контекстных многоязычных словарей (contextual multilingual dictionaries - cmd). cmd - выборка фраз по определенной теме вместе с их параллельными переводами из всех имеющихся .dgl-словарей
  • примеры запросов к этим словарям вы можете протестировать на сайте http://diglossa.org/сказанное+слово

В приложении diglossa.js не используется никакой лингвистики, не делаются и не используются никакие предположения о т.н. "теории языка". Используется лишь честное сравнение и преобразование строк. Если вы представите себе современную тенденцию по развитию систем автоматического перевода и искусственного интеллекта, и развернете ее мысленно на полностью противоположную, в результате вы получите указание именно на diglossa.js. Целью приложения diglossa.js является не изучение языка, а понимание автора текста, т.е. беседа с автором.

Вот именно на этом я и хотел бы остановиться подробнее.

построение из слов, но не по законам языка (c)

Дело в том, что факты современной научной теории (любой) - "теоретически нагружены". Это жаргонное выражение означает, что смысл факта в научной теории определяется самой этой теорией. Например, килограмм в ньютоновской теории - просто мертвая инертная масса, а в эйштейновской физике - релятивисткая масса, которая зависит от скорости. И логически они не совместимы. Я не буду здесь ссылаться на работы Куна, Поппера, Куайна, Фейерабенда, Рейхенбаха и Э.М.Чудинова, ("Природа научной истины"). Примем это положение здесь как факт.

В физике это ничему не мешает. В физике нужно получить цифру, и сравнить с экспериментом. И если разные теории дают верные в этом смысле результаты, то выбирай любую. Но при чтении и понимании это положение имеет свой оттенок. Нам не важно, правильно-ли наша теория (грамматика) описывает факты. Нам важно, что именно думает и говорит автор. И если (наша) теория влияет на смысл высказывания автора, то это недопустимо.

Это имеет совсем не академический интерес. Меня привела в эту тему текущая дискуссия (широкоизвестная в узких кругах) об Аристотеле, как прото-феноменологе. Современные грамматики рождаются в пост-декартовском, европейском ньютоновом мире, и существительное в них - объект, а прилагательное - его свойства. Но это совсем не так в древнем мире. В древнем мире люди не знают об объектах, ни греки, ни китайцы, ни индусы, ни евреи, ни персы. Они не могут помыслить и увидеть объект, этому европейцев научил Декарт и его сподвижники. Но что они видят? Очевидный ответ - они видят событие.

Возьмем, казалось бы, простейшее слово - τράπε̂ζα, - trapedza, - см. наши трапеза, трапеция. Словарный перевод - "стол, обеденный стол". LSJ дает: "table, sg.fem - I.four-legged a table, esp. a dining-table". И.Х.Дворецкий, благодаря родству греческого с русским, дает интересующее нас значение с пометкой "перен": "2) перен. стол, питание: τραπέζῃ καὶ κοίτῃ δέκεσθαί τινα - давать кому-л. питание и помещение (досл. принимать кого-л. столом и ложем)". Это значение обычно в практике русского языка: "И под каждым ей кустом / Был готов и стол и дом" (А.Крылов), "И стол один и прадеду и внуку (А.Тарковский)". Поэтому мы не можем его не выделить в отдельное значение, как пропускают его LSJ.

Не так давно в русском существовало слово "столовая", наравне с более древним словом "трапезная". При их сопоставлении русскоязычное ухо отчетливо слышит во втором их них время. Столовая - там где стоят столы, а трапезная - там, где трапезничают. То есть во втором слове отчетливо слышен процесс, то есть слышно время. Трапеза - событие, а стол - объект. Здесь мы, благодаря исторической толще нашего языка, наблюдаем более древнее состояние именования вещи - не объекта, но события.

Кстати, отсюда напрашивается вывод, что не только Аристотель, но любой древний грек, индус, etc - пра-феноменологи. Как и в какой форме - требует исследования.

А если в современном нам языке для некоего слова соответствующей древней аналогии нет? И современная лингвистика просто покажет значение существительного и прилагательного, как в "обеденный стол". Как можно восстановить исходное значение? Оно безвозвратно убито.

Конечно, речь идет не только о древнем греческом языке. А о любом древнем или ино-культурном. Да и вообще любом. Например, в японском прилагательные могут иметь смысл времени.Yasui - дешевый, yasukatta - был дешевым. То есть yasui - именно сейчас дешевый. Что останется от этого "сейчас" при обозначении слова как прилагательного? В индоевропейских языках смысл времени передают исключительно только глаголы. Разница - принципиальна. Дешевый и был дешевым - разница в том, что во втором случае при переводе добавлен глагол "был". А в японском глагола нет. Сказали что это слово - прилагательное, как это делает лингвистика, и потеряли смысл времени.

Как можно двигаться вперед на этом очень скользком поле не лингвистики, но герменевтики? Мне кажется, что только сравнивая высказывания в живой практике перевода. Многоязычные контекстные словари, предлагаемые Диглоссой - это аналог в герменевтике того, что в лингвистике является параллельным корпусом. А затем уже, получив не искаженный теорией массив данных параллельных фраз, можно сознательно использовать любую (лингвистическую) теорию, какая кому по душе. Если будет нужно.

Для этого в diglossa.js предусмотрена система плагинов. Я надеюсь, в скором, сравнительно, времени выйдет версия v.1.1.0, с механизмом подключения плагинов и с плагином для древнего греческого языка. А также некоторым количеством параллельных текстов Платона и Аристотеля и тематическим словарем лексики Аристотеля по материалам этих текстов.

Все вышесказанное вовсе не значит, что я как-то критикую лингвистику, или имею что-то против нее. (Я не говорю тут о сравнительно-историческом языкознании. Но только о теоретической грамматике, то есть моделировании живого языка. По-моему, это вообще разные дисциплины, но это другой вопрос). Совсем напротив. Для меня важно, чтобы не получилось как в том анекдоте: - дерьмо ваш Карузо. А ты слышал? - Нет, мне Рабинович показал схему обертонов его голоса. Лингвистика тем и опасна, что, как и всякая наука, верна. И не нужно преуменьшать степень опасности. Например, зачастую судьи требуют проведения "лингвистической экспертизы". То есть верят в существование некоего "научного смысла высказывания". А это само уже преступление против здравого смысла и статуса судьи. И разума как такового. То есть глупость.

Вот именно тем, что лингвистика - наука, и - верна, тем она и опасна. На таком фоне обсуждаемые здесь проблемы кажутся мелочью. Но только такое внимательное обсуждение на микро-уровне и может помочь справиться с этой опасностью, и ничто иное.

О.А. Седакова - ... "поэзия - построение из слов, но не по законам языка". Но если такое построение возможно хотя бы где-то, в поэзии в данном случае, то следовательно, возможность его есть всегда и неизбежно, она задана нам как онтологическая возможность. При понимании любого высказывания. И предполагать свою предпочитаемую, привычную, удобную интерпретацию грамматики и вообще "теории языка" - значит отбросить эту онтологическую возможность. Впрочем, так поступает любая теория (и в физике, где угодно). Выдвинув теорию, мы в дальнейшем имеем дело уже с ее терминами. Иначе современная теория работать не может, тут лингвистика "не виновата". Но понимая автора, собеседника, мы обязаны исходить "не из законов языка", по Седаковой. Иначе можем и не понять - применив теорию, и убедившись, что она дает "правильный результат", у нас не остается зацепок для дальнейшего анализа, "истина уже обнаружена, эксперимент подтвержден, вопрос закрыт". Здесь рациональность просто опасна.

Язык не имеет законов, слово - событие, произнесение слова - поступок, а смысл слова - последствия поступка и ответственность. А теоретическая грамматика изучает рябь на воде. Это важно и нужно, но мне лично не интересно. Лингвистика - заложница своей рациональности. И может быть, diglossa.js сможет помочь с этой врожденной рациональностью лингвистики как-то справиться.

Ну, научимся мы выпускать спец-чипы, и любой утюг будет сообщать, что сочтет нужным, на любом языке. А если чипы будут сделаны в Челябинске, так и на довольно образном языке, дело нехитрое. Но это нас никак не приблизит к разгадке тайны языка, ни на йоту, ту самую. И как тогда гранты получать, а? Ведь любой утюг и так уже говорит, что хочет, и сам себя переводит. Лингвистика больше ничего не даст. Вот тогда и сами будете объяснять, что лингвистика, это еще не все, совсем не все. А точнее сказать, и ничего вовсе.

литература