Комп’ютеризація японською: які нинішні кордони?

Джим Брін

Університет Монаш

(jim.breen@infotech.monash.edu.au)

Посилання на оригінальну статтю: http://www.edrdg.org/~jwb/paperdir/cj_abstract.html

Вступ

Семінар з японських комп’ютерних студій дає можливість проаналізувати, що таке комп’ютеризація японською, і як вона відрізняється, якщо взагалі відрізняється, від мовної обробки мови іншими мовами. Там, де існують відмінності, доцільно розглянути, чи є вони досі актуальними сьогодні, відколи відбулися масові інвестиції в інтернаціоналізоване «єдине бінарне» програмне забезпечення та уніфіковані набори символів. Необхідно також звернути увагу на те, де комп’ютерні технології можуть мати корисний вплив на японські дослідження, а також визначити, де повинні бути визначені пріоритети.

Обчислення японською мовою

Чому ми навіть говоримо про комп’ютеризацію японською або студії з японською комп’ютеризації? Ми не говоримо про обчислювальні голландські студії або обчислювальні італійські студії. На думку автора, очевидною причиною цього є японська орфографічна система. Змішана система kanji/kana, в поєднанні з іншими аспектами орфографії, призводить до низки проблем, які відіграли значну роль у впровадженні інформаційних технологій в Японії. Серед цих проблем:

  • кодування kanji і kana у файлах
  • подання тексту (відображення, друк і т.д.)
  • введення тексту (людиною)
  • сегментація тексту на лексеми
  • канонізація прийнятих варіантів

Всі це, і зокрема перші три пункти, мали значний вплив на прийняття ІТ в Японії, і багато хто вважає, що вони призвели до більш повільного поширення ІТ, ніж в інших країнах з рівноцінним рівнем індустріалізації. Важливість перерахованих вище питань можна побачити з часу, необхідного для їх комплексного вирішення. (Як тест, розглянемо ситуацію, якщо Японія прийняла б повністю романізовану систему написання на початку 20-го століття, так само як і Туреччина і Малайзія. Жодне з вищезазначених питань не розглядалося б у впровадженні та використанні обчислювальної техніки.)

Кодування: Пройшло більше двох десятиліть від впровадження обчислювальної техніки в Японії до того, як був створений національний стандарт для кодування kana та kanji, і минуло багато років, перш ніж він був широко впроваджений.

Репрезентація: на два порядки більше символів для вирішення впливали на можливості кінцевих користувачів. Тимчасові складні рішення з низьким рівнем зберігання, такі як hankaku таkatakana, використовувалися протягом багатьох років (також існують і сьогодні). Рішення прийшли тільки з технологічними розробками, такими як НВІС, недороге зберігання та безвпливний друк.

Введення тексту: Це було серйозною проблемою протягом багатьох років, при цьому складні системи вибору одноканальників зберігалися до кінця 1980-х років і далі. Унгер у своїй книзі «П’ята генерація Fallacy» [3] 1987 року стверджував, що головною метою цього проекту, розпочатого у 1981 році, було подолання проблеми введення японського тексту через інтенсивне використання методів штучного інтелекту.

Нинішня ситуація

Всі перераховані вище питання були всебічно розглянуті на технологічному рівні протягом 1980-х і 1990-х років, і завдяки впливу інтернаціоналізації багато з рішень були вбудовані як стандартні елементи в програмне забезпечення. Наприклад, практично всі основні випуски операційних систем тепер мають в якості опцій встановлення повну підтримку японського введення, відображення та друку (разом з підтримкою багатьох інших мов і скриптів). Більшість мов високого рівня підтримують не алфавітно-цифрову обробку тексту. Японська сегментація тексту, яку в 1980-х роках багато хто вважала нерозв’язною проблемою, тепер може ефективно виконуватись кількома відкритими та комерційними системами.

Таким чином, більшість питань, пов’язаних з орфографією, які мали тенденцію домінувати на ранніх етапах обчислень на японській мові, були адекватно вирішені. Обчислювальні роботи на японській мові можна справедливо розглядати як на тій же основі, що й обчислення на мовах з використанням алфавітів, а «комп’ютеризація японською» зосереджується зараз на проблемах, пов’язаних із самою мовою.

Кордони

Хоча застосування комп’ютерних технологій в японських дослідженнях зараз знаходиться в аналогічній позиції з іншими мовами і культурами, і такі сфери, як НЛП, стоять перед тими ж проблемами, є кілька тем, які заслуговують на особливу увагу. Вирішення цих питань має стати пріоритетом у застосуванні комп’ютерних технологій. Наступне пропонується як короткий список «прикордонної» теми, яка могла б привернути увагу:

  1.  Сью Аткінс відзначила, що біль як десятиліття тому комп’ютеризація мала обмежений вплив на користувацькі аспекти словників, навіть якщо вони були доступні на CDROM, і що «під цими поверхневими модернізаціями ховається той самий старий словник» [2]. Японська, ймовірно, має найвищу щільність словників, ніж будь-яка інша мова, і, звичайно, великі номери доступні в електронному вигляді, але, незважаючи на, або, можливо, через стандарти, такі як EPWING/JIS X 4081, доступ до і представлення змісту словника все ще значною мірою є реплікацією технік паперових словників. Аткінс запропонувала ряд областей, де обчислювальні ресурси слід використовувати в словнику «нового віку», включаючи великі налаштування користувачів, використання гіпертексту і т.п. Крім того, існує нестача лексиконів, які були б легко і вільно доступні для досліджень. Потрібно докласти зусиль для розширення доступних вільних лексиконів або для вивільнення таких джерел, як колекція лексиконів EDR, які в даний час є занадто дорогими для багатьох дослідників.
  2.  Японська мова не особливо добре обслуговує сферу наявних корпусів, а особливо це помітно в області паралельних двомовних та багатомовних текстів. Незважаючи на те, що невелика кількість двомовних текстів може бути ідентифікована, вони, як правило, знаходяться під комерційними обмеженнями і, як правило, недоступні для широкої експлуатації. Створення всеохоплюючого і репрезентативного японського корпусу і, зокрема, збірки точних двомовних текстів, має бути пріоритетом.
  3.  З якоїсь причини CALL, здається, є «важкою» областю для досліджень. Є безліч систем, багато які з них комерційні, але мало які, здається, пройшли етап ще однієї флеш-картки або інструменту проникнення у словник. Існує мало реальних досліджень ефективності таких систем. Можна припустити, що проблема полягає у розриві між фахівцями з мовної освіти та розробниками програмного забезпечення. Враховуючи популярність японських досліджень у всьому світі (і навіть популярність вивчення англійської мови в Японії), існує певна можливість для належного дослідження того, де CALL має найбільший потенціал і які типи інструментів CALL є найбільш ефективними.
  4.  З пошуковими системами WWW, які відіграють важливу роль у сучасному житті, важливо, щоб японський текст оброблявся належним чином. Провідні пошукові компанії, такі як Google і Yahoo, застосовують загальні рамки для всіх мов, які часом не повністю справляються з аспектами японського орфографії, наприклад, численними письмовими формами слів [2]. Є багато можливостей для більшої роботи в цій сфері.
  5.  Багато в чому MT у або з японської мови не відрізняється від інших мов. Існує невелика кількість розумних, але дорогих комерційних систем (наприклад, ATLAS компанії Fujitsu), а також велика кількість недорогих, але неефективних систем. Більшість науково-дослідних робіт, як видається, відбувається в комерційних організаціях, і, отже, питання ІР перешкоджають значному обміну лексиконами тощо або навіть значним опублікуванням методологій. Області статистичної МТ, які, можливо, спостерігають більшу некомерційну діяльність, ніж традиційні методи, перешкоджають обмеження доступності японських та інших паралельних текстів та вільно доступних лексиконів. Ця область МТ буде мати велику користь завдяки розширенню доступних корпусів і лексиконів, як було запропоновано вище.

Список літератури

1. BTS Atkins, Bilingual Dictionaries: Past, Present and Future, Euralex’96, reprinted in Lexicography and Natural Language Processing: A Festschrift in Honour of B.T.S. Atkins, Euralex, 2002.

2. JW Breen, WWW Search Engines and Japanese Text, Sixth Symposium on Natural Language Processing 2005 (SNLP 2005), Chiang Rai, Thailand, December 2005

3. JM Unger, The Fifth Generation Fallacy: Why Japan is Betting Its Future on Artificial Intelligence, Oxford University Press, 1987