Морфей для древнего Греческого: morpheus-greek

9.10.2018
P.S. 2021: Устаревшее - будет реализовано как плагин к Diglossa.js

тезисы доклада, посланные на конференцию ConCort-2018 в Нижнем Новгороде 10 октября 2018

Морфей для древнего Греческого

  • грек: Персы идут!
  • лингвист: идут - это глагол

abstract:

Морфей для древнего Греческого языка не является лингвистической программой. В том смысле, что я не использую понятие "язык", модель которого объясняла и описывала бы наблюдаемые явления. Этот подход оказался весьма плодотворен - Морфей в версии 0.8.5 разпознает около 99% словофрм, включая составные, и (почти) не нуждается в понятии исключений.

Скринкаст и подробное описание: https://github.com/mbykov/morpheus-greek

Лицензия: GNU GPL

Код и пакеты Морфея для Wndows, MacOS и Ubuntu можно загрузить по адресу: https://github.com/mbykov/morpheus-greek

проблема

Морфей предназначен для облегчения чтения древнего текста, но древние авторы не имели ни современного теоретического представления о языке, ни современного метода рассуждения. Современные лингвистические программы, применяемые для анализа древнего текста, привносят современный метод мышления в результат и тем самым его искажают.

В случае естественно-научных теорий явление влияния теории на описание фактов хорошо описано и изучено еще в середине прошлого века в работах Куайна, Рейхенбаха ("факты теоретически нагружены") и затем популяризировано и получило множество иллюстраций в работах И.Лакатоша, Т.Куна, П.Фейерабенда, К.Поппера, советского философа Э.М.Чудинова ("парадокс альтернативных онтологий"), etc. В гуманитарных науках способ античного мышления и его отличие от современного метода исследовали В.С.Библер, А.В.Ахутин, В.В.Бибихин, etc., которые опираются на работы Э.Гуссерля, М.Хайдеггера, etc

Проблема, которую решает Морфей, заключается в том, что современная теория дает, как ей и следует, правильный результат. И тем самым создает иллюзию того, что конкретная задача решена. Зачем что-то еще исследовать, если точное, правильное, окончательное решение найдено? Например, некоторая словофрма определена как прилагательное, и это действительно прилагательное. Современные прилагательные означают свойства того существительного, которое они определяют. Однако древний грамматик (и не-грамматик тоже) - не знают о прилагательных. Стол может быть круглый, деревянный, обеденный, etc. Все это прилагательные, т.е. свойства стола. Однако для древнего грека это очень разные слова. Круглый - качество, это похоже на наше прилагательное. Деревянный - вовсе не свойство, но подлежащее, субстрат, то, из чего стол сделан. Обеденный - то, как мы стол используем, то есть это свойство нас, а вообще не стола.

Современная теория не только привносит ненужное и искажающее определение словоформы как "прилагательного", но и не определяет те свойства слова, которые очевидны (и подразумеваются) древним авторам и читателям. Хуже того, она привносит современный способ рассуждения - прилагательное есть такое слово, которое согласуется по форме с существительным. То, что для нас прилагательное, для древнего грека - дополнительное имя (разного типа). Дополнительное же имя согласуется с первичным именем потому, что это имена одного и того же предмета, к которому мы обращается одинаковым образом - либо прямо, либо косвенно. Не слова согласуются, но мы обращаемся одинаково. Это должно быть отражено в программе.

Проблема не ограничивается понятием прилагательного, но относится к любому современному лингвистическому понятию, начиная со звука и слога.

принцип действия - модуль antrax

Морфей (модуль antrax - https://github.com/mbykov/antrax) делит словоформу на цепочки всех возможных сегментов. И затем выбирает наилучшие цепочки, устанавливая соответствия между сегментами. Соответствия могут быть

  • приставка - приставка - стем - окончание
  • стем - соед. гласная - стем - окончание
  • стем - суффикс (например, причастия) - окончание
  • etc, любые осмысленные сочетания

Т.о. Морфей определяет довольно сложные формы, например, προσ-δι-αιρέω, ἀμφοτερ-ο-γνώμων, etc

черный ящик

Наиболее важным соответствием является соответствие между стемом и окончанием. Для установления этого соответствия Морфей имеет специальный модуль. Этот модуль создает базу данных CouchDB по всем словоформам с ресурса https://en.wiktionary.org/wiki/Category:Ancient_Greek_lemmas - это более сотни тысяч словоформ. Эта база данных ('flex') служит фильтром, обучаемым по данным с wiktionary.org. Чем-то вроде черного ящика. То, что в нем происходит, нас не интересует, но все тесты по этим данным проходят. Тесты - процесс обратный обучению: для словоформы из обучающего массива по базе flex определяются его морфологические характеристики, которые обязаны совпасть с исходными. При работе с произвольной словоформой не из обучающего набора (при регулярной работе Морфея) база flex возвращает объект, описывающий требования к словарной статье, соответствующие данной словоформе. По этим требованиям можно найти словарные статьи в имеющихся в Морфее словарях.

Это напоминает работу простейшей обучаемой одноранговой нейросети.

В базе Flex классифицируется не привычная нам "парадигма", но отдельный падеж словоформы. Это решение позволило отказаться от неизбежного в лингвистике понятия исключения. Морфей легко и автоматически обрабатывает формы, которые обычно считаются исключениями - например, формы глагола "быть", формы подобные θρίξ-τριχός, etc. Это решение позволяет также восстанавливать все формы слова для данной словарной статьи. Если мы все же заглянем в черный ящик, мы увидим как "классические парадигмы", так и "парадигмы с неожиданными добавлениями", а во многих случаях вообще "некий ужас". Поэтому лучше туда не заглядывать, при условии, что все тесты проходят, а это более сотни тысяч тестов. Наличие "черного ящика" вместо "системы парадигм" есть следствие не использования понятия "язык" и отсутствия установки на его (языка) исследование и моделирование.

Важное следствие: antrax не имеет поэтому отдельно "парадигм существительного" и "парадигм прилагательного", способы склонения всех типов имен общие. Если словарная статья имеет параметр "род", результат получает род из словарной статьи, и если не имеет (совр. прилагательное), то из свойств окончания.

герменевтика, а не лингвистика, и процесс epohe

Вместо исследования языка появляется процесс epoche - процесс приостановки действия современного знания. (Это противоположно направленные процессы, или тот же процесс, но в другую сторону - продумывание оснований концепции "язык" и следствий - приостановка действия этих оснований и их следствий). Например, при чтении любого автора до эпохи Коперника мы обязаны забыть, что Земля - планета и вращается вокруг Солнца. Ведь автор этого не знал. Но отбросить современное знание нельзя автоматически - автор знал что-то свое из области космологии. Нужно не просто отбросить современное знание, но заменить его аутентичным. И, главное, - современный метод познания и рассуждения заменить аутентичными. Но с Альмагестом мы как-то справимся, не большая проблема. Знание же грамматики - фоновое, базовое, глубинное, оно актуально для любого текста. Это и есть идея Морфея как анализатора текста. В качестве основных источников по древней грамматике я ориентируюсь на труды Дионисия Фракийца и Аполлония Дискола.

Т.о. Морфей, видимо, можно считать примером программы из области прикладной герменевтики, а не лингвистики. Герменевтика не противоречит лингвистике, не заменяет лингвистику, и никак не связана с лингвистикой. Лингвистика - наука, и как таковая нацелена на получения объективного знания. Для лингвистики слово есть объект, а знание об объекте - объективно и истинно. Герменевтика же - вообще не наука. Это искусство беседы с автором (http://bibihin.ru/), имеющее целью дать слово не нам, но автору - и дать автору возможность воздействовать на читателей, нас, и через нас на мир. Для этого нужно задать автору вопрос (правильно-ли я понимаю то-то и то-то), - сформулировать его согласно правилам корректной постановки вопросов, принятых в эпоху автора (https://www.bibler.ru/). И при чтении иных произведений автора или иных авторов данной эпохи - рано или поздно требуемый ответ получить, также в корректной для данной эпохи, а не нашей - форме. Этот сложный процесс необходим, чтобы не подменить действие автора нашими произвольными фантазиями (в частности, современными лингвистическими результатами). Это сложный процесс, в котором использование ПО может быть полезным, как я надеюсь показать на примере Морфея.

литература