Ласкаво просимо

до електронної бібліотеки Інституту журналістики

Головна || Законодавча база || Навчально-методичні комплекси || Наукові видання
Праці викладачів || Студентські роботи || Різне


Машинна лінгвістика рідною мовою

О.В. Кудіна

студ.
УДК 811.93:81`253

 

У статті розповідається про історію та сучасний період розвитку машинної лінгвістики. Розглядаються проблеми машинного перекладу в Україні, насамперед, переважання в інформаційній галузі іноземних мов над рідною.

This article tells us about the history and modern period in machine linguist. We see the problems of machine translation in our country and first of all the advantage of foreign languages in the information field at mother tongue.

Уже давно існує проблема адаптації імпортних технологій до місцевих умов. Переважна більшість сучасної техніки розробляється в англомовних країнах, що, з одного боку, змушує користувачів хоча б поверхово орієнтуватися в англомовній термінології, а з іншого – з`являється попит на професійне створення перекладів. Тому доречним тут виявляється прагнення інформаційної галузі механізувати більшу кількість людських умінь або, інакше кажучи, створити програми машинного перекладу рідною мовою.

Досвід людства протягом тисячоліть переконливо доводить, що мова об'єднує народи у нації і зміцнює державу. Занепадає мова – зникає і нація. Коли ж мова стає авторитетною, перспективною, необхідною і вживається, насамперед, національною елітою, сильною і високорозвиненою стає як нація, так і держава. Мова без своєї держави беззахисна. Держава без своєї мови втрачає істотні ознаки суверенітету – культурного та інформаційного. Сьогодні навіть потужні англомовні держави дбають про свій мовний суверенітет. Адже зайве будувати й охороняти ворота там, де межу не визначає навіть поламаний тин.

Розширення міжнародних зв'язків, спричинене становленням самостійної держави, створює певні проблеми. Потоки новин і технологічних інновацій надходять до нас іноземними мовами, а незадовільні швидкість та якість перекладу надто часто змушують сприймати їх в оригінальному іншомовному поданні й трактуванні. Підприємливі, енергійні, освічені люди просто змушені вдаватися до набутків більш успішних націй, лишаючи вітчизняні цінності для хатнього вжитку [7].

Англійська мова утримує першість за кількістю перекладів нею, не поступаючись іспанській, за якою йде німецька. З англійської ж здійснюється ледве не кожен другий переклад у світі. Як латина залишилася міжнародною мовою медиків та біологів, так англійська мова заслужено претендує на довічне домінування у комп'ютерній галузі. Америці, Британії, Канаді, Австралії та Росії не доводиться перекладати свої тексти для України українською мовою – Україна це робить сама. Проте останнім часом дедалі більше українські матеріали перекладаються чужою мовою для англомовного світу, який свідомий своїх інтересів в Україні, але сам не потурбується перекласти для себе інформацію з або про Україну англійською. Росія теж уже майже не перекладає тексти російською – ми традиційно робимо це за неї і навіть для самих себе. Йдучи таким шляхом, ми гадаємо, що це вже саме по собі забезпечує зовнішню потребу в нас.

А взагалі, чи не краще було б звернути увагу суспільства на переклад для своєї держави, а не хизуватися перед іноземцями знанням їхньої мови. Глибоко осягнути культуру іншої держави можна тільки після фундаментального вивчення своєї мови. На першому плані в нас має бути рідна – українська мова. І тому більшу увагу слід приділяти саме українізації програм, а не, навпаки, перекладу на інші мови світу.

Системи машинного перекладу беруть свій початок від часів Чарльза Беббіджа, який першим висловив ідею про можливість машинного перекладу. У 1836–1848 рр. він розробив проект цифрової аналітичної машини – механічного прототипа електронних цифрових обчислювальних машин, що з'явилися через 100 років. Ідея Ч. Беббіджа полягала в тому, що пам'ять обсягом 1000 50-розрядних десяткових чисел можна використовувати для збереження словників. Ч. Беббідж навів цю ідею як обґрунтування у запиті до англійського уряду, де йшлося про засоби, необхідні для фізичного втілення аналітичної машини, яку йому так і не вдалося створити.

Фактично історія машинного перекладу починається з "Джорджтаунського експерименту". У січні 1954 р. відбулася перша публічна демонстрація машинного перекладу з російської мови на англійську, здійсненого на машині ІБМ-701. Повідомлення про цю подію було опубліковано у випуску № 2 журналу "Computers and Automation" за 1954 р. А реферат цього повідомлення, зроблений Д. Пановим, з'явився в журналі "Математика", (1954. – № 10) під назвою "Переклад з однієї мови на іншу за допомогою машини: звіт про перший успішний іспит".

Це повідомлення стало поштовхом для початку роботи з машинним перекладом в СРСР. Д. Панів, що був на той час директором Інституту наукової інформації, залучив до праці з машинного перекладу І. Бєльську, яка потім очолила групу машинного перекладу в АН СРСР. Перший досвід перекладу з англійської мови на російську за допомогою машини БЕСМ був отриманий уже до кінця 1955 р. Програми для БЕСМ складали Н. Трифонов і Л. Корольов.

Інший напрям діяльності виникає у Відділенні прикладної математики Математичного інституту АН СРСР (нині ІПМ ім. М. В. Келдиша РАН) з ініціативи О. Ляпунова. До праць з машинного перекладу математичних текстів з французької мови на російську він залучив О. Кулагіну, аспірантку МІАН, своїх учениць Т. Вентцель та Н. Рікко. З кінця 1955 р. у цих роботах брала участь Т. Молошна, яка потім приступила до самостійної роботи над алгоритмом англо-російського перекладу. О. Ляпунов і О. Кулагіна своє бачення використання обчислювальних машин для перекладу з однієї мови на іншу опублікували в журналі "Природа" у № 8 за 1955 р. Перші програми машинного перекладу, розроблені цим колективом, були реалізовані на машині "Стріла".

Перше покоління систем машинного перекладу базувалося на алгоритмах послідовного перекладу "слово за словом", "фраза за фразою". Можливості таких систем визначалися доступними розмірами словників, що прямо залежали від обсягу пам'яті комп'ютера. Переклад тексту здійснювався окремими реченнями, значеннєві зв'язки між якими не враховувалися. Такі системи називають системами прямого перекладу. На зміну їм згодом прийшли системи наступних поколінь, у яких переклад від мови до мови здійснювався на рівні синтаксичних структур. В алгоритмах перекладу використовувався набір операцій, що дозволяв шляхом аналізу перекладного речення побудувати його синтаксичну структуру за правилами граматики мови вхідного речення (так само, як вчать дітей мові в середній школі), а потім перетворити її в синтаксичну структуру вихідного речення і синтезувати вихідне речення, підставляючи потрібні слова зі словника. Такі системи називаються Т-системами (Т – від англійського слова "transfer – перетворення").

Найдовершенішим вважається підхід до побудови систем машинного перекладу на основі одержання деякого, незалежного від мов, значеннєвого представлення вхідного речення шляхом його семантичного аналізу. Потім виробляється синтез вихідного речення за отриманим значеннєвим результатом. Такі системи називають І-системами (І – від слова "інтерлінгва"). Вважається, що наступні покоління систем машинного перекладу будуть відноситися до класу І-систем.

Як великий вчений, якому властиво бачити всю проблему в цілому, О. Ляпунов із самого початку роботи з машинним перекладом говорив про переклад шляхом витягу змісту перекладного тексту і його представлення на іншій мові. Однак таке формулювання проблеми перекладу виявилося в той час передчасним. Більше того, питання не вирішено в загальному вигляді світовою інформатикою й у наш час, не зважаючи на зусилля, що починалися Міжнародною федерацією IFIP – світовим співтовариством учених у галузі обробки інформації. Однак багато приватних результатів, пов'язаних з семантичним аналізом текстів, були отримані та опубліковані в працях IFIP.

Перший досвід створення програм машинного перекладу показав, що необхідно вирішувати ці завдання поступово і поодинці.

Занадто багато труднощів і неточностей було в тому, як потрібно формалізувати і будувати алгоритми для роботи з текстами, які словники треба вводити в машину, які лінгвістичні закономірності варто використовувати при машинному перекладі і які взагалі ці закономірності.

З'ясувалося, що традиційна лінгвістика не має у своєму розпорядженні ні фактичного матеріалу, ні ідей та уявлень, потрібних для побудови систем машинного перекладу, що використовували б зміст перекладного тексту.

Традиційна лінгвістика не могла дати початкові уявлення не тільки в частині семантики, алі й у частині синтаксису. Для жодної мови в той час не існувало переліків синтаксичних конструкцій, не були вивчені умови їхньої сполучуваності і взаємозамінності, не були розроблені правила побудови великих одиниць синтаксичної структури з більш дрібних. По суті на жодне запитання, поставлене у зв'язку з побудовою систем машинного перекладу, традиційна лінгвістика в 50-х рр. не могла дати відповідь.

Потреба в створенні теоретичних основ машинного перекладу привела до формування нового напряму в лінгвістиці, який називався структурною, прикладною, математичною лінгвістикою. Формування цього напряму в СРСР стосується другої половини 50-х рр. Головну роль у ньому зіграли математики О. Ляпунов, В. Успенський, О. Кулагіна, лінгвісти В. Розенцвейг, П. Кузнєцов, А. Реформатський, І. Мельчук, В. Іванов.

6 травня 1960 р. була прийнята Постанова Президії АН СРСР "Про розвиток структурних і математичних методів дослідження мови", для виконання якої були створені підрозділи зі структурної лінгвістики в Інституті мовознавства, Інституті російської мови АН СРСР. У Постанові Президії АН СРСР відзначалося, що "недостатній розвиток теоретичних досліджень у галузі структурних і математичних методів у лінгвістичних установах практично гальмує важливі роботи з теорії і практики машинного перекладу, побудову інформаційних мов й інформаційних машин, логічну семантику й інші додатки мовознавства, які розроблюються у даний час у низці технічних та математичних науково-дослідних інститутів". З 1960 р. почалася підготовка кадрів у галузі автоматичної переробки текстів на філологічному факультеті МГУ, у Ленінградському та Новосибірському університетах. Під математичною лінгвістикою малося на увазі вивчення мови як абстрактної знакової системи з метою побудови теоретичної основи машинного перекладу і створення конкретних алгоритмів перекладу. У такому розумінні математична лінгвістика складала частину семіотики – загальної теорії знакових систем.

Завдання аксіоматизації лінгвістики було висунуто одним з найвизначніших лінгвістів московської школи П. Кузнєцовим як питання формалізації граматики, що сягають ідей видатного російського мовознавця Ф. Фортунатова.

Дослідженню формальної теорії граматик була присвячена дисертація О. Кулагіної, виконана під керівництвом О. Ляпунова.

Помітимо, що в ті ж роки формальна теорія граматик розвивалася в США в працях Н. Хомського, що стали класичними для галузі штучних мов, зокрема мов програмування.

Двадцятиліття 1956–1976 рр. один із засновників напряму математик В. Успенський у своїх спогадах назвав "срібним століттям" структурної, прикладної і математичної лінгвістики в СРСР (мабуть, за аналогією зі "срібним століттям" російської поезії).

У 70-х рр. розробку основ технології машинного перекладу продовжила група фахівців під керівництвом професора Г. Белоногова. У результаті в 1993 р. була створена промислова версія системи RETRANS – фразеологічного машинного перекладу з російської мови на англійську, що застосовувалася в міністерствах оборони, шляхах сполучення, науці і технологіях.

Практичне застосування принципів значеннєвого аналізу текстів знадобилося при створенні систем машинного перекладу з ієрогліфічних мов (китайської, японської тощо). Питання про створення таких систем були розроблені в дисертації В. Зелко у 80-х рр.

Перші комерційні продукти машинного перекладу, що знайшли практичне втілення, з'явилися в середині 80-х рр. Вони були реалізовані на персональних комп'ютерах і були системами прямого перекладу, можливості яких базувалися на величезних (у порівнянні з першими системами) словниках, а не на вмінні аналізувати і синтезувати тексти.

Історія машинного перекладу нараховує не більше 50 років. За цей час змінилося кілька поколінь систем машинного перекладу – від перших програм, що використовували обмежені ресурси універсальних комп'ютерів першого покоління до сучасних комерційних продуктів, що використовують могутні ресурси серверів і персональних комп'ютерів, включаючи ПК, у яких можна розміщувати кишенькові словники, а також комп'ютерні мережі.

У міру зняття технічних обмежень, що накладаються можливостями комп'ютерів по продуктивності й пам'яті, ставало очевидним, що проблема перекладу тексту з однієї природної мови на іншу принципово не зводиться тільки до перекодування слів. Для подолання основних труднощів машинного перекладу повинні бути вирішені проблеми автоматизованого представлення контексту, значеннєвого змісту перекладного тексту, знань про поняття предметної сфери, до якої відноситься перекладний текст.

Виходячи з результатів перекладання тексту та його відповідності початковому варіанту, програми машинного перекладу поділяють на три категорії:

– цілком автоматичний переклад;

– автоматизований машинний переклад за участю людини;

– переклад, здійснюваний людиною з використанням комп'ютера.

Програми машинного перекладу першої з названих категорій є справою далекого майбутнього, оскільки в загальному вигляді не вирішені проблеми автоматичного розуміння, перекладу і синтезу текстів.

Програми другої категорії розробники називають МТ-програми (від Machine translation – машинний переклад). Автоматизований (за участю людини) машинний переклад можливий тільки в умовах штучно обмеженої як за словниковим запасом, так і за граматикою, мови.

Як успішний проект МТ-програми, завжди називають німецьку систему Meteo, що виконує переклад метеопрогнозів з французької мови на англійську і навпаки.

До МТ-програм належать і продукти машинного перекладу фірми PROMT, згадані вище, у тому числі програми для перегляду вмісту Web-сторінок у мережі інтернет з метою пошуку потрібного документа.

Програми третьої категорії розробники називають ТМ-програми (від translation memory – пам'ять перекладу). Цю категорію програм застосовують професійні перекладачі, що усвідомили виграш від автоматизації їхньої роботи за допомогою комп'ютерів. Основу ТМ-програм складають спеціалізовані словники, що відповідають тематиці перекладного тексту. При перекладі використовуються конструкції та значення слів і стійких словосполучень, обрані професійним перекладачем і занесені в словникові системи, а отриманий текст піддається інтенсивному редагуванню. Словники і вже перекладені фрагменти текстів, що запам'ятовуються в ТМ-системі, можуть бути повторно використані у великих колективних проектах, ними можна обмінюватися. Тому ТМ-системи – важливий засіб автоматизації праці професійних перекладачів.

Часто ТМ-програми використовують у сполученні з МТ-програмами. Найпопулярнішим у світі ТМ-інструментарієм є Trаnslаtіоn's Workbench фірми Trados (для стислості його часто називають Trados).

Сучасні досягнення в галузі обчислювальної техніки, інформаційних технологій та технологій телекомунікацій дозволяють висувати на перспективу практичні завдання пошуку і вибору необхідної інформації, представленої на різних мовах, з різних джерел, що перебувають в корпоративній та глобальній інформаційно-телекомунікаційній мережах.

Як правило, в програмах машинного перекладу мають потребу:

– звичайні користувачі ПК, які використовують машинні словники;

– фахівці у предметних галузях (бізнесмени, адміністратори, інженери), котрі погано володіють граматикою іноземної мови, але непогано знають термінологію і бажають в оперативному автоматичному перекладі отримати просто читабельні тексти;

– оператори-перекладачі, які спеціалізуються в цій галузі.

Звичайно, безглуздо вимагати, аби програма машинного перекладу видавала повноцінний літературний текст, адже навіть після спілкування з живою людиною редакторові є над чим попрацювати. В особливих випадках приблизно 10 % оброблюваної інформації потребує заглядання в словники-довідники та консультацій з фахівцями.

Від сучасних програм машинного перекладу головним чином вимагається :

– підвищення продуктивності у кілька разів;

– мінімізація при редагуванні звернень до початкового тексту.

Досягнути цього можливо за рахунок автоматизації трудомістких ручних операцій: друкування тексту та пошуку у словниках і довідниках.

Велике значення сьогодні слід приділити проблемі створення граматичних довідників. Це є зручнішим, адже кількість слів у мові складає кілька десятків тисяч, а граматичних форм – усього декілька сотень. У цих же довідниках повинні міститися і службові частини мови, як-от: сполучники, прийменники, займенники, префікси, суфікси, закінчення, частки, артиклі тощо. Можливо, доцільним буде ще додати мінімум загальновживаних значеннєвих слів (швидше за все дієслів).

Потрібно також врахувати таку важливу категорію слів та словосполучень, як імена і назви, що перекладаються за досить своєрідними правилами.

Доцільною є така побудова словника: довідники початкової та цільової мови і таблиця відповідності, у якій пропонуються варіанти перекладу мовних конструкцій.

На сучасному українському ринку вітчизняні фірми пропонують такі комерційні продукти машинного перекладу:

– "Віста Текнолоджіз" і "Адвентіс", створені в 1991 р.;

– ПРОМТ, розроблена також в 1991 р.;

– "Медіа Лінгва".

Продукт Retrans Vista фірми "Віста текнолоджіз" призначений для автоматизованого перекладу текстів з російської мови на англійську і навпаки. У ньому використані оригінальні алгоритми стиснення словникових баз і пошуку перекладних еквівалентів, що дозволяють транслювати "на лету" не тільки фрагменти тексту, імпортовані з текстового редактора MS Word, але і Web-сторінки.

У словниках Retrans Vista зберігаються мільйони понять, до яких належать не тільки традиційні стійкі фразеологічні звороти, але, насамперед, словосполучення, використовувані в повсякденній мові. Крім того, є програма концептуального аналізу, що автоматично виділяє з тексту нові словосполучення і включає їх у словник. Основні словники системи Retrans Vista містять терміни і фразеологічні одиниці з природничих і технічних наук, економіки, бізнесу та політики. Обсяг політематичного машинного словника – близько 3,4 млн слів, причому 20 % з них є словами, а 80 % – стійкими словосполученнями.

Фірма PROMT розробила і поставляє інтернет-перекладач PROMT Internet Translation Server, що забезпечує переклад "на лету" Web-сторінок, запитів до пошукових систем чи до баз даних, представлених в інтернеті.

Для корпоративних мереж багатонаціональних корпорацій фірма PROMT пропонує аналогічний продукт PROMT Internet Server.

Модуль перекладу PROMT Internet вбудовується в браузер Microsoft Internet Explorer, утворюючи засіб для синхронного перекладу Web-сторінок Web View. При цьому можна встановлювати для перекладу різні мовні пари: англійська – російська; англійська – німецька; англійська – іспанська; французька – англійська; французька – німецька. Безкоштовний онлайновий перекладач PROMT є доступним в інтернеті. PROMT Internet Translator Server встановлений на пошуковій системі Voila, що належить оператору France Telecom.

Для систем офісної автоматизації пропонується комерційний пакет PROMT Lingvo OFFICE – результат співпраці двох лідерів російського ринку лінгвістичного програмного забезпечення – PROMT та ABBYY.

Компанія "Медіа Лінгва" випустила електронні словники серії "Мультилекс 3.5. Новий великий англо-російський словник" і "Мультилекс 3.5. Англійська. Економіка і право". Такі словники, що працюють під керівництвом операційних систем Windows CE чи PalnOS, можуть бути розміщені на кишенькових комп'ютерах.

Машинні словники мають велику трудомісткість і цінність. Чи не тому їхні творці не прагнуть стандартизувати формати даних, тому що побоюються незаконного використання конкурентами? Дуже привабливий компромісний вихід – поступове наповнення словника на конкретному текстовому матеріалі шляхом напівавтоматичного запам'ятовування незнайомих слів. Це найбільш "чисте" втілення моделі навчання під час практичної діяльності. Однак за оперативним запам'ятовуванням обов'язково повинний іти етап аналізу нових слів і оснащення їх повним граматичним апаратом [8].

Саме для інформаційної галузі характерне найбільше утворення неологізмів, і перекладачу доводиться знаходити й утворювати їм відповідники, тобто займатися словотвором. Адже часто в нашій мові відсутній відповідник, скажімо, англійському слову через те, що в українській мові відсутнє ще саме тлумачення, процес, який слід виразити якимось одним словом. Відзначимо, що в більш розвинутих країнах існують фонди національних мов і навіть закони про однаковість перекладу неологізмів, що є практичним вираженням любові до національної культури. Тобто система машинного перекладу повинна прагнути до джерел, відновлення, нарешті, до сайтів рідної мови.

Було слушно підмічено, що переклади за кордон є традицією тоталітарного суспільства. У кожної спільноти свої поняття, своє розуміння користі, своє бачення довкілля крізь призму слова і свої тлумачення. Тому на Заході заведено перекладати для себе, а не для когось, і не довіряти тим, хто перекладає нерідною мовою.

Проблема машинного прекладу й досі залишається однією з найболючіших в Україні. Здається, ніби з настанням української незалежності дошки оголошень зарясніли пропозиціями щодо українізації друкарських машинок, яка зводилася до заміни кількох молоточків та зображень на відповідних клавішах. Аналогічні роботи виконувалися також і щодо програмного забезпечення комп'ютерів. Завдяки універсальності апаратури жодних технічних змін це не потребувало. Проте за чверть століття масової появи "персоналок" на наших теренах ми так і не дочекались, що нам "німець покаже", як їх навчити української літературної мови чи бодай перекладу з так нам потрібних іноземних мов [7].

У проблемі українізації інформаційних засобів можна зайняти дві позиції: перша – не звертати уваги на нові технології, гадаючи, "що моя хата скраю...", що якось воно там само собою станеться, або ж, це другий варіант – щодня і щогодини змушувати себе і своїх близьких працювати, творячи й приживляючи нові назви понять українською мовою. Звичайно, другий варіант набагато складніший за перший, але й, можливо, цікавіший. Ми будемо в курсі нововведень, будемо причетні до творення нової технічної української мови. Задля виведення української мови, а разом з тим й української держави на новий рівень визнання в світі слід добре попрацювати всім загалом і кожному зокрема.

 

1. Анисимов В. Компьютерная лингвистика для всех: Мифы. Алгоритмы. Язык. – К.: Наукова думка, 1991. – 208 с.

2. Білецький В., Радчук В. Мова як чинник консолідації сучасного українського суспільства у націю. – .

3. Возняк Т. Тексти та переклади. – .

4. Все о языках, лингвистике, переводе. – .

5. Дериев И. OpenOffice.org 1.1: еще один шаг. – .

6. Издательство "Языки русской / славянской культуры". – .

7. Лисенко В. Праця мови // Неопубліковані джерела.

8. Лысенко В. Мечты об автоматизированном переводе // Компьютеры + Программы. – 1995. – № 8 (23).

9. Масенко Л. Мова і політика. – .

10. Мірам Г. та ін. Основи перекладу: Курс лекцій з теорії та практики перекладу для факультетів та інститутів міжнародних відносин. – К.: Ельга. Ніка–Центр, 2002. – 237 с.

11. Панчук Р. Электронные словари. – .

12. Радчук В. Глобалізація і переклад. – .

13. Тищенко К. Історія запозичення слів до українського словника. – К., 2002.

14. Федорів М. Про особливості комп'ютерного дискурсу. – .

15. Филинов Е. История машинного перевода. – .

16. Шмелева А. Переводчики делают электронный словарь // Иностранец. – 2003. – № 10

 

© О.В. Кудіна, 2006


© Інститут журналістики. Усі права застережені
Посилання на матеріали цього видання під час їх цитування обов'язкові