morpheus for chinese

10.10.2016
P.S. 2021: Устаревшее - будет реализовано как плагин к Diglossa.js

Морфей для Китайского языка

abstract

Принципы, применявшиеся для разработки приложения Морфей для древних языков, доказали свою эффективность и при работе над языком современным, а именно Китайским.

Скринкаст: https://youtu.be/JkLvujnKg_g

Установить: https://github.com/mbykov/morpheus-eastern/releases/latest

Морфей не ставит задачу выполнения перевода анализируемого текста. Но задачу автоматизации процесса чтения и понимания каждого читаемого слова.

Морфей:

  • позволяет читать Китайский, и упрощенный, и классический варианты

  • расширения для иных идеографических письменностей (Тибетский, Японский, etc) в работе

  • приложение основано на CouchDB, а следовательно, является распределенным, многопользовательским, и легко масштабируемым

  • в качестве локальной БД используется PouchDB, то есть для каждой платформы подключается свой, оптимизированный и рекомендованный вариант БД

  • кроссплатформенный - Windows, MacOS, Linux, мобильные будут позже

  • интерфейс основан на Electron.js, то есть это по сути, браузер Chromium

  • работает оффлайн, синхронизируется с сервером, когда доступна сеть

  • синхронизация гарантирует постоянную актуальность словарей

  • работает где угодно на десктопе, а не только в браузере

  • многопользовательский (пользователь может добавлять/редактировать записи)

  • можно на лету подключать/заменять словари, англ, нем, русский, etc, в том числе специализированные словари

  • синхронизируются только установленные словари, возможна тонкая настройка репликации (filtered replication)

  • одновременно обрабатывает большой объем (несколько абзацев) текста

  • выполняет рекурсивную сегментацию длинного слова (сегментирует сегменты)

  • преобразует упрощеннное-традиционное написание текста по желанию читателя

Из недостатков метода нужно отменить его ресурсоемкость. Несколько подключенные словарей, большой объем разом анализируемого текста - слабую машину вешают на десятки секунд.

Из позитивного нужно отметить, что работа с локальной базой данных радикально снижает нагрузку на сервер и обеспечивает очень быстрое выполнение запроса.

Благодаря CouchDB синхронизация с сервером появляется "из коробки", и не требует вообще никаких усилий по настройке.

Рекурсивная сегментация позволяет выполнять углубленный анализ слова. А также, что немаловажно, решает интерфейсную и эргономическую проблему, хорошо заметную в аналогичных приложениях. Они либо не показывают внутреннюю структуру сегмента текста, либо приводят весть набор возможных внутренних сегментов сразу, что затрудняет восприятие, и следовательно, понимание текста.

Петер Хауер (linguasoft, Vienna) создал для Морфея словарь ECBT ("Early Chinese Buddhist translations"), основанный на фундаментальной работе проф. Seishi Karashima (Soka University, Tokyo). См.http://www.dila.edu.tw

Я надеюсь на появление также иных вспомогательных словарей, например, словаря компьютерной лексики, etc

То, что Морфей не ставит задачу перевода текста, делает его нишевым продуктом. В это смысле он вне мейстрима. Но хорошо очерченная узкая задача (автоматизация понимания ино-культурного текста, а не чтение готового перевода) позволяет сделать приложение достаточно эффективным очень малыми средствами.