Наши партнеры

UnixForum





Библиотека сайта rus-linux.net

Методы ввода китайских иероглифов в системе IBus


Автор: Владимир Царьков
Дата публикации: 26.04.2012

Статья содержит рекомендации по настройке и использованию системы IBus для ввода китайских иероглифов. Отмеченные вопросы обсуждаются на примере графической среды GNOME дистрибутива Trisquel GNU/Linux. Попутно комментируются некоторые особенности поведения Trisquel 5.0 Dagda.

IBus (Intelligent Input Bus) --- распространяемая согласно GNU Lesser General Public License система, объединяющая различные методы ввода символов разных языков. Исходный код IBus написан на языках Си и Питон (Python) и, помимо прочих вариантов, доступен через интерфейс git.

В рамках электронной версии книги ``Введение в мир программирования'' мы уже обсуждали методы ввода символов Unicode (в том числе китайских иероглифов) в системе X Window. Текущая статья содержит информацию об альтернативных методах ввода (через IBus), доступных в современных дистрибутивах GNU/Linux, в частности, в Trisquel.

Настройка методов ввода китайских иероглифов в среде GNOME

Одним из значительных недостатков Trisquel, впрочем, как и многих современных GNU/Linux дистрибутивов, заключается в ущербности возможностей интерфейса командной строки в угоду работоспособности графических средств управления компьютером. В частности, в Trisquel у вас могут возникнуть проблемы с установкой дополнительных локалей (например, zh_CN.utf8) командой sudo dpkg-reconfigure locales.

Метод проб и ошибок показал, что установить новые локали в Trisquel 5.0 Dagda возможно только (?) средствами gnome-language-selector. Для этого из эмулятора терминала (в рамках X сессии) выполните команду sudo gnome-language-selector. В появившемся окне ``Язык системы'' выберите IBus в выпадающем списке ``Метод ввода с клавиатуры (Keyboard input method system)''. Далее, нажав на кнопку с надписью ``Установка/удаление языков... (Install/Remove Languages)'', выберите из списка ``Китайский (традиционный)'' (Chinese traditional) и ``Китайский (упрощённый)'' (Chinese simplified) языки; в том же окне, убедитесь, что ``Компоненты (Components)'' с именами ``Переводы (Translations)'', ``Методы ввода (Input methods)'', ``Дополнительные шрифты (Extra fonts)'' отмечены для установки.

Выполнив все перечисленные выше операции, нажмите на кнопку с надписью ``Применить изменения (Apply Changes)''. В некоторых системах GNU/Linux на данном этапе может появиться сообщение об ошибке: ``Требуется установка ненадёжных пакетов''. Для того, чтобы решить эту проблему, необходимо либо удалить (закомментировать знаком решётки, #, в начале строки) из файла /etc/apt/sources.list все добавленные вами вручную имена серверов (после этого следует выполнить sudo apt-get update), либо программой apt-key зарегистрировать ключи для аутентификации пакетов с дополнительных внешних серверов (для систем на базе Ubuntu это процесс описан в заметке ``Не работает Центр приложений Ubuntu'').

Если процесс установки новых языков прошёл без ошибок, завершите X сессию и запустите её снова. После этих действий на панели задач у вас появится картинка с буквой i (это говорит о том, что демон IBus запущен). Помимо прочего, стоит отметить, что обозначенные операции также результируются в установке дополнительных локалей, в частности, zh_CN.utf8.

Нажмите на картинке с буквой i левой кнопкой мыши и в открывшемся меню выберите вкладку ``Параметры (Parameters)'' Далее, через вполне интуитивно понятный интерфейс укажите интересующий вас метод(ы) ввода китайских иероглифов (например, это может быть ``китайский - Pinyin'').

Разумеется, активация методов ввода в системе IBus должна, помимо других, вариантов, осуществляться и средствами мыши. Увы, данная опция в Trisquel 5.0 Dagda работает ``через раз''. Комбинация клавиш <Ctrl>+<Пробел> функционирует (когда активной является часть экрана, допускающая ввод текста) более достойно, однако стабильность её работы достигается только если в окне ``Параметры'' выбран лишь один из доступных методов ввода. Также в Trisquel 5.0 Dagda бывают случаи, когда для применения новых настроек IBus требуется перезапускать сессию пользователя.

Методы ввода китайских иероглифов

Давайте теперь сделаем небольшой обзор особенностей методов ввода китайских иероглифов, доступных через систему IBus.

В дистрибутиве Trisquel 5.0 Dagda таких методов насчитывается тринадцать штук: Pinyin; Bopomofo; Chewing; bopomofo (m17n); cangjie3; cangjie5; cangjie (m17n); pinyin (m17n); pinyin-vi (m17n); py (m17n); quick (m17n); tonepy (m17n); wubi86. Рассмотрим их подробнее.

Предварительно отметим, что методы, содержащие в своём названии пометку m17n реализованы с применением библиотеки m17n (Multilingualisation) и почти полностью повторяют функциональность своих аналогов, созданных без обращения к m17n.

Pinyin

Pinyin --- метод, основанный на использовании романизированной транскрипции единиц китайского национального языка путунхуа. Выбор тона произнесения слогов, по-умолчанию, не осуществляется: пользователь вручную выбирает один из предлагаемых ему иероглифов, имеющих одинаковую транскрипцию (без учёта тона).

Bopomofo

Метод Bopomofo базируется на применении набора специальных иероглифических символов для обозначения 37 основных звуков языка путунхуа (к нему относятся диалекты севера и юго-запада Китая). Если мы постараемся записать латиницей транскрипцию первых четырёх из 37 звуков (21 согласный и 16 гласных), о которых речь шла выше, у нас получится следующая последовательность: bo, po, mo, fo. Таким образом, становится ясно откуда взялось название описываемого метода ввода --- Bopomofo.

Неподготовленному читателю для освоения Bopomofo рекомендуется обратить внимание на следующие материалы.

  1. Таблица соответствий фонетических систем Pinyin и Bopomofo (Zhuyin fuhao).
  2. Изображение с указанием соответствий раскладки QWERTY клавиатуры с Bopomofo.
  3. Описание фонетической системы Bopomofo (на английском языке).

Самым любопытным стоит прочесть статью ``PinYin and BoPoMoFo ZhuYin Equivalence''.

Chewing

Chewing --- модифицированный вариант метода Bopomofo, в частности, дающий возможность сначала полностью с клавиатуры ввести транскрипцию, записанную по правилам фонетической системы Чжуинь фухао (Bopomofo), а затем, нажав на <Пробел>, получить требуемый иероглиф.

При использовании Chewing следует помнить, что в чжуинь фухао есть отдельные символы для обозначения некоторых дифтонгов, в частности, дифтонга AO.

Уточнить тон звучания вводимого иероглифа можно указав его номер.

Итак, руководствуясь материалами, упомянутыми выше, иероглиф, обозначающий слово ``хороший'' получается, если последовательно нажать клавиши <c>, <l>; и <3>. Цифра <3> указывает на тон. Иероглифу со значением ``пожилой'' будет соответствовать последовательность <x>, <l>, <3>.

Cangjie

Метод Cangjie (ЦанЦзе) основан на использовании 24 базовых графических элементов и их 76 вариаций. Для того, чтобы представить иероглиф в виде набора Cangjie ``кирпичиков'' необходимо придерживаться специальных правил, из которых есть несколько исключений.

Имеет смысл отметить, что система IBus умеет работать как с третьей, так и с пятой версией Cangjie.

В Интернет на русском языке доступны некоторые материалы о методе Cangjie. Познавательной также является статья Ульриха Теобальда (на английском языке).

Читатели, знающие китайский язык, могут обратиться к публикации ``Метод ввода ЦанЦзе/Базовые и вспомогательные символы ЦанЦзе'', содержащей информацию, значительно облегчающую задачу декомпозиции иероглифов в набор ``кирпичиков''.

pinyin (m17n)

Данный метод позволяет вводить транскрипции (и только их!) иероглифов в формате Пиньинь с указанием тона слогов (осуществляется автоматическое преобразование номера тона в диакритический знак).

py (m17n)

py (m17n) похож на метод Pinyin, но имеет дополнительную функциональность, включающую ввод латинских символов полной ширины (fullwidth characters). Это может потребоваться, например, при написании ровных вертикальных строк на двух или нескольких языках (например, китайском и английском). Символы латиницы обычно занимают меньше места, чем иероглифы, а потому могут сбивать выравнивание текста в колонках.

Сделав активным поле ввода текста, запустите метод ввода py (m17n) нажатием <Ctrl>+<Пробел>. Затем введите два подряд знака ``больше'' (>>). Теперь вводимые вами латинские буквы будут полной ширины. Ввод двух подряд знаков ``меньше'' (<<) сделает возможным ввод иероглифов через указание их пиньинь транскрипции.

Метод tonepy (m17n) требует от пользователя указывать цифровое значение, соответствующее тону слога, вручную. Например, записи hao1 будет соответствовать иероглиф со значением ``хорошо''.

wubi86

wubi86 --- метод ориентированный на ввод иероглифов, исходя из их внешнего вида и правил каллиграфического написания (последовательности рисования черт, составляющих иероглиф).

Клавиатура с раскладкой QWERTY, при использовании wubi86, будет поделена на пять областей, каждая из которых делится на подгруппы (см. рисунок, включающий области, о которых идёт речь).

  1. QWERT - область ввода черт вида ``вниз влево'' (pi3).
  2. YUIOP - область ввода черт вида ``вниз вправо'' (na4).
  3. ASDFG - область ввода ``горизонтальных'' (heng2) черт.
  4. HJKLM - область ввода ``вертикальных'' (shu4) черт.
  5. XCVBN - область ввода черт ``с крючком'' (zhe2).

Перечисленные области ввода включают иероглифы, с трудом поддающиеся классификации по указанному основанию (одному из пяти видов черт). Комментарии по этому поводу есть в статье, опубликованной в рамках проекта Wikipedia.

После выбора символа методом wubi86 необходимо подтвердить его ввод нажатием на клавишу <Пробел>.

wubi86 полезен тем, что позволяет лучше запомнить последовательность написания черт, входящих в состав иероглифов, а потому способствует развитию каллиграфических навыков пользователя. Недостатком, в данном контексте, являются значительные временные затраты при освоении wubi86 с нуля.

Подробное описание подходов к работе с методом ввода wubi86 требует изложения большого числа тонкостей и потому заслуживает стать темой для отдельной статьи.

Напутствие читателю

Как было показано в предшествующих разделах, Trisquel 5.0 Dagda не отличается большой стабильностью. Однако, это не должно быть поводом для расстройства. Во-первых, уже вышел Trisquel 5.5 STS ``Brigantia''. Во-вторых, всегда можно попробовать более стабильный, хоть и менее современный, дистрибутив Gnewsense (если выбирать из полностью свободных дистрибутивов).

Если же продолжать разговор о методах ввода китайских иероглифов в системе GNU/Linux с помощью IBus, то стоит отметить, что лично автору данной статьи наиболее простым и удобным показался метод tonepy (m17n). Разумеется, ваше мнение может быть совершенно иным.

В завершение, хочется порекомендовать читателю обратить самое пристальное внимание на список литературы для самообразования, представленный далее.

Литература для самообразования

  1. Большой китайско-русский словарь онлайн. URL: http://bkrs.info (дата обращения: 24.04.2012).
  2. Китайская каллиграфия / Авт.-сост. Владимир Соколов. Мн.: Харвест, 2007. 240 с.
  3. Материалы по грамматике китайского языка. URL: http://www.studychinese.ru/grammar (дата обращения: 24.04.2012).
  4. Софронов М. В. Китайский язык и китайская письменность. Курс лекций. М.: АСТ: Восток-Запад, 2007. 638 с.
  5. Character amnesia. URL: http://en.wikipedia.org/wiki/Character_amnesia (дата обращения: 20.04.2012).
  6. Chinese Information Processing. URL: http://wiki.debian.org.tw/ChineseInformationProcessing (дата обращения: 20.04.2012).
  7. Chinese input methods for computers. URL: http://en.wikipedia.org/wiki/Chinese_input_methods_for_computers (дата обращения: 20.04.2012).
  8. The Radical (bu4 shou3) Systems. URL: http://chinaknowledge.de/Literature/Script/radicals.html (дата обращения: 24.04.2012).