"Украинская компьютерная лингвистика сегодня"

13 август 2019, Вторник

11 348

Мы публикуем расшифровку лекции заведующая отделом структурно-математической лингвистики Института языкознания им. А.Потебни НАНУ, доктора филологических наук, профессора Евгении Карпиловской, прочитанной 15 декабря 2010 года в Киеве, в Доме ученых в рамках проекта «Публичные лекции «Політ.ua».

«Публичные лекции Політ.ua» — дочерний проект «Публичных лекций «Полит.ру». В рамках проекта проходят выступления ведущих ученых, экспертов, деятелей культуры России, Украины и других стран. Лекция публикуется в украинском оригинале и русском переводе.

Юлия Каденко: добрый вечер, дорогие друзья! Я предлагаю для тепла закрыть дверь, те, кто к нам еще захочет прийти, обязательно придут, а нас не сдует. Сегодня у нас очередная лекция «Публичных лекций Політ.ua», мы очень рады видеть вас сегодня в зале, несмотря на холод, мороз и всякие другие метеонеприятности, зрители наши всегда собираются, и всегда это хорошие люди. Сегодня наш лектор – Евгения Карпиловская, заведующая отделом структурно-математической лингвистики Института языкознания имени Потебни, доктор филологических наук, профессор, и будет она нам рассказывать о компьютерной лингвистике, для меня как для филолога старого образца тема очень интересная.
Вера Холмогорова: да, и с вами – ведущая, руководитель нашего проекта Юлия Каденко и я, редактор «Полит.ua» Вера Холмогорова. И заодно хочу напомнить, что в этом сезоне наши лекции проходят при поддержке Альфа-банка.
Текст лекції

Евгения Карпіловська: дякую. Вельмишановні пані та панове, вельмишановні колеги, оскільки тема лекції – «Українська комп’ютерна лінгвістика сьогодні: суспільні замовлення – здобутки – проблеми», то я виголошу лекцію українською мовою. Звичайно, великим зухвальством з мого боку було би у півгодини, навіть 40 хвилин, намагатися вібгати всю проблематику, всі завдання і всі суспільні замовлення, які сьогодні стоять перед українською комп’ютерною лінгвістикою. Я ставлю перед собою мету значно скромнішу: у межах відведеного мені сьогодні часу спробувати окреслити ті завдання сучасної української комп’ютерної лінгвістики, які на мій погляд і на погляд і глибоке переконання моїх колег-однодумців відкривають нові можливості для розв’язання не лише суспільно значущих проблем, а і для розвитку самої української лінгвістики. Отже, самий термін «комп’ютерна лінгвістика» і, очевидно, навіть коротко не сказати про це не можна, продовжує сьогодні і в українській, і взагалі у світовій лінгвістиці викликати гострі дискусії і сумніви з приводу самого права на існування такого самостійного напряму мовознавчих досліджень. Чому: тому що комп’ютерна лінгвістика – це, власне кажучи, всі ті завдання, які сучасна лінгвістика розв’язує за допомогою нового технічного засобу – комп’ютера. І, на переконання наших опонентів, навряд чи можна вважати наявність певного технічного засобу уже підставою для виділення того чи іншого напрямку як самостійного. Є структурна лінгвістика як предтеча комп’ютерної, є лінгвістика математична, є, зрештою, лінгвістика прикладна, і чи є потреба виділити у самостійний напрямок лінгвістику комп’ютерну? Ми вважаємо, що така потреба є, і розвиток цього напряму мовознавчих досліджень принаймні в Україні за останні 30 років нас переконує в тому, що комп’ютерна лінгвістика має свій особливий об’єкт дослідження, свої особливі методи, процедури і прийоми дослідження цього об’єкту, і має свою власну проблематику, яку такий об’єкт і такі прийоми, така методологія дослідження відкривають перед цією галуззю знання. І я спробую сьогодні це довести вельмишановній публіці. Отже, суспільні замовлення, які визначають особливий об’єкт комп’ютерної лінгвістики – це, передусім, подати суспільству і науковцям таку модель мови, яка давала би можливість одержувати якісно нову інформацію про саму мову і закладала би надійне підґрунтя для розв’язання, як я вже казала, суспільно значущих проблем. Що мається на увазі: сьогодні дуже гостро в Україні стоять проблеми мовної політики, вивчення мовної ситуації в нашій державі. Мовна політика передбачає спирання на надійну, показову, багатоаспектну, реальну модель функціонування мови. І саме такий технічний засіб, як комп’ютер, який дає можливість представити мову у детально структурованому вигляді, мовну систему на різних рівнях її, різні типи подати мовних одиниць, подати різні аспекти вивчення таких одиниць у зручній для опрацювання комп’ютерній формі, звичайно, що це – можливість одержання якісного нового об’єкта дослідження. І такий об’єкт сьогодні комп’ютерна лінгвістика, тобто та лінгвістика, яка працює з мовним матеріалом у комп’ютерному середовищі, подає у двох основних виглядах. Перший з них – це словник. Що нам дає словник у комп’ютерному середовищі? Я показала, це – перша сторінка комп’ютерної версії академічного тритомового «Російсько-українського словника», який вийшов протягом 1924-1932-го років за редакцією академіків Агатангела Кримського і Сергія Єфремова. Це – перша сторінка цього словника, а я можу показати і як у комп’ютерному вигляді подано тими, хто готував таку електронну версію цього словника, як виглядає самий його текст. Зразу зауважу, що в залі сьогодні присутні ті люди, які підготували електронний корпус словників періоду коренізації, словників, які вийшли в Україні під егідою Української Академії наук у 20-30-ті роки минулого століття, і серед них – не тільки словник Кримського і Єфремова, а і такі суспільно значущі словники, як «Правописний словник» Григорія Голоскевича, як «Український стилістичний словник» Івана Огієнка, як «Російсько-український словник правничої мови» за редакцією академіка Кримського. Сьогодні до них завдяки зусиллям і ентузіазму присутнього в залі пана Віктора Кубайчука долучено уже і деякі словники початку XX-го століття – кінця XIX-го століття, тобто відсунено уже вікові, часові рами цього корпусу до кінця XIX-го століття, і ми вже маємо електронну версію «Словника російсько-українського» М.Уманця і А.Спілки, маємо електронну версію «Словника української мови» Дмитра Яворницького, і зараз пан Кубайчук навіть уже пішов у початок XIX-го століття, і, наскільки мені відомо – може, це конфіденційна інформація, але я вже її подам громаді зацікавленій – він готує зараз електронну версію «Словника української мови» Павла Павловича Білецького-Носенка, а це словник, як ми знаємо, який подає стан українського лексикону першої половини XIX-го століття. Спілка Віктора Кубайчука і Олександра Телемка, а це київське видавництво «К.І.С.», яке зробило цей корпус словників, дуже корисний і дуже цікавий, сьогодні присутні в залі, і ми домовилися, що в їхньому розпорядженні буде 7-10 хвилин для того, щоби познайомити докладніше з цим корпусом, який, на моє переконання, не просто подає дуже важливий і для культурної української громади, і для мовознавців матеріал словників для роботи і для аналізу їх, але цей корпус має іще, на моє глибоке переконання, і таке історико-культурне дуже велике значення, тому що в такий спосіб у зручному сучасному вигляді до нас повертається праця людей, які у 1920-1930-ті роки своїм життям багато хто з них довів свою відданість українській науці, українській мові і українській культурі. І цей електронний корпус – це данина пам’яті і вдячності нашої цим людям. Але повертаюся до словника в комп’ютерному середовищі. В комп’ютерній лінгвістиці отакі електронні версії словників побутують у двох виглядах, спочатку в комп’ютерне середовище їх переводили у вигляді просто електронних копій, але ті зусилля, які витрачали люди, які готували такі копії, показали, що самої копії, звичайно, замало. Так, в такий спосіб словник стає доступним тим, хто працює на комп’ютері, але чи цього доста, нам хочеться далі з цього словника видобувати потрібну для нашого аналізу і для мовознавчих досліджень інформацію. І з’явилося таке поняття, як «машинна версія словника» або «електронна версія словника» або іще є такий термін «комп’ютерна версія словника». Чим комп’ютерна версія відрізняється від комп’ютерної копії? А тим, що весь текст словника ті, хто готує електронну версію, препарують за тими типами інформації про мовні одиниці, які такий словник містить. Ну, от перед нами словник пояснювального типу і словник перекладний, бо, нагадую, що це російсько-український словник, але він містить реєстрову одиницю, він містить відповідники до цієї реєстрової одиниці, ілюстративну частину, стилістичні або граматичні ремарки, пояснення до того, як вживати ту чи іншу одиницю, і от ті, хто готує електронну версію, всі ці типи інформації, вміщені в словнику, повторюю, структурують, виділяють і формалізують, тобто роблять таку розмітку за допомогою спеціальних знаків цього словникового тексту, яка стає зрозумілою комп’ютеру. Тому що комп’ютер, дозволю собі нагадати, це – технічний засіб, який не має людської пам’яті, людської інтуїції, людської мовної компетенції, і це ми знаємо, що «а» - це сполучник, а комп’ютеру це треба пояснити, і це ми бачимо, де в тексті словника ілюстративна частина, а де – ремарки, а комп’ютеру, знову ж таки, все це треба формалізувати і пояснити. І от в такій формалізованій і структурованій версії словник стає уже об’єктом, сировиною для подальших мовознавчих досліджень. Ну, тільки один приклад: якщо в нашому розпорядженні є електронна версія, скажімо, тлумачного словника, а тлумачний словник – це словник, який у найповнішому вигляді містить інформацію про слово, то ми завдяки підготовленій електронній версії цього словника дістаємо можливість з тлумачного словника за допомогою комп’ютера одержати словник синонімів, тому що ті, хто пам’ятає, скажімо, текст 11-томного тлумачного «Словника української мови», пам’ятають, що вже і в паперовому вигляді укладачі цього словника продумали ті знаки, якими можна виділити синоніми в цьому тексті. Ну, скажімо, іде якесь пояснення до слова, а потім іде крапка з комою, після якої ідуть синоніми, і цей знак уже може слугувати для комп’ютера сигналом для того, що далі можна вибирати синоніми і формувати автоматично словник синонімів. Ми можемо одержати з такої електронної версії словник фразеологічний, тому що в тексті тлумачного словника, ми пам’ятаємо, є спеціальні знаки або спеціальні шрифти, які виділяють так звані фразеологічні одиниці, тобто стійкі словосполуки, які передають те чи інше поняття, і залежно від того, наскільки ця словосполука зрощена, тобто неподільно передає те чи інше значення, з’являється знак, скажімо, ромба – це так звана ідіома, ну, скажімо, «ґав ловити» або «теревені розводити» – всі одразу пригадують, який відповідник, яка реєстрова одиниця словника може бути пояснена за допомогою такого фразеологізма. Отже, поява комп’ютера у словникарстві радикально, на наше переконання, змінила саму технологію мовознавчої, зокрема словникарської, справи, з’явилося таке поняття, як «лінгвістична» або «мовознавча технологія»: комп’ютер дає нам можливість, якщо ми відповідно підготували «сировину», об’єкт опрацювання, а це, як я вже сказала, може бути електронна версія того словника, який і, скажімо, є первісним для нашого аналізу, якщо ми продумали засоби опрацювання цієї «сировини», скажімо, працюючи з електронною версією тлумачного словника, ми продумали, в який спосіб з тієї електронної версії можна видобути матеріали для інших типів словників, ми можемо на комп’ютері, як от в цьому безперервному технологічному процесі одержати новий продукт. І перше, чим вирізняється комп’ютерна лінгвістика з кола інших дисциплін, які використовують формально-логічні, математичні методи, комп’ютерні технології – це можливість реалізації такого безперервного процесу від «сировини», вихідного об’єкта нашого опрацювання до нового продукту, який ми з цієї «сировини» одержуємо. І такі продукти ми називаємо у комп’ютерній лінгвістиці «нові лінгвістичні об’єкти». Чому вони нові – тому що вони дають нам можливість одержувати якісно нову інформацію про мову.
Але я показала зараз версії традиційних словників, тобто показала способи, за допомогою яких паперові словники, словники, укладені вручну, можна переводити у комп’ютерне середовище, і такі словники, передусім, призначені для широкого загалу, взагалі для культурної громади, яка дістає в такий спосіб можливість на комп’ютері, по-сучасному з цими словниками працювати. Але далі на екрані уже висвітилися – на жаль, я перепрошую, тут немає нашого драйвера, і замінилися наші «і», «ї» і «и» наголошені, перепрошую, ну, але це, повірте мені, «лінгвістика», «іспит» і «український», от. Те, що ви бачите, вельмишановні панове, на екрані – це реєстр українських слів, які ми у своєму відділі, у відділі структурно-математичної лінгвістики підготували як «сировину» для подальших досліджень морфемної і словотвірної будови українських слів, це – генеральний реєстр комп’ютерного морфемно-словотвірного фонду відділу структурно-математичної лінгвістики Інституту мовознавства імені О.О.Потебні Національної академії наук України. І от в залі, я рада, сьогодні присутня член-кореспондент Національної Академії наук України, Ніна Федорівна Клеменко, під рукою якої ми у 1988 році почали робити такий генеральний реєстр. Яку мету ми перед собою поставили і в який спосіб у цьому реєстрі представлена інформація традиційних паперових словників. Тобто, що це за електронна, комп’ютерна сировина і як ми її далі використовуємо. Ми поставили перед собою мету: передусім за матеріалами різнотипних, академічних, тобто нормативних, показових за своїми реєстрами словників української мови радянської доби, тобто словників, які видані були у період 1970-1989 років, подати якомога повніше якісний склад сучасного українського лексикону. Зробити надійну показову модель українського лексикону. І як такі для формування цього реєстру було дібрано спочатку три словники, а потім ми їх доповнили ще двома словниками. Першим був 11-томний тлумачний «Словник української мови». Нагадаю, обсяг його реєстру близько 137 тисяч слів. Чим для нас був цікавий цей реєстр? Це не просто нормативний склад українського лексикону, можна багато дискутувати з приводу того, що таке норма, в який спосіб вона відбита в 11-томному словнику, я думаю, що це привід для дискусії і обговорення, але словник ґрунтувався на чинних на той час нормах літературної української мови. Словник подавав не тільки загальномовну лексику, але і лексику професійну, яка була вживана у загальномовних текстах, словник подавав великою мірою лексику діалектну, яка представлена у творах майстрів української літератури XIX-XX століття і так само великий масив лексики історичної, теж тут був представлений.
Інформація 11-томного тлумачного словника була доповнена відомостями з академічного "Словника іншомовних слів", перше видання якого побачило світ 1974 році за редакцією академіка Олександра Савича Мельничука. Обсяг реєстру цього словника близько 25 тисяч слів і він великою мірою доповнив реєстр СУМу, тому що, зрозуміло, рідковживана, професійна іншомовна лексика до СУМу, так ми називаємо словник української мови, не потрапляла, а вона для нас була цікавою. Тому ми доповнили реєстр цією інформацією.
Ну і, третій основний словник на початках нашої роботи, це був двотомний «Частотний словник сучасної української художньої прози», який було укладено у нашому відділі структурно-математичної лінгвістики протягом 1970-х років, виданий він був у 1981 році за редакцією першого завідувача нашого відділу і взагалі фундатора нашої школи структурної, математичної, прикладної і комп'ютерної лінгвістики в Україні професора Валентини Сидорівни Перебийніс. Ми всі учні Валентини Сидорівни Перебийніс. Чим був для нас цікавий цей словник? В цьому словнику, оскільки це мова художньої прози, було чимало оказіоналізмів, індивідуально авторської лексики, індивідуально-авторських новотворів, які, звичайно, теж не потрапляють до нормативних академічних словників, а вони для нас були цікаві і з погляду морфемної будови українського слова, і з погляду його словотвірної структури. Скажімо такі одиниці як райгусак, райкарась, заготкачечка, доплуганитися, зебра-ковбаса і так далі, і тому подібне. Навряд чи ми з вами їх зустрінемо в 11-томному тлумачному словнику, а от в цьому словнику такої лексики чимало, як чимало і цікавої для мовознавців було лексики суржикової, бо художній твір - це не лише мова автора, але й мова персонажів. А для тих, хто вивчає так звані мовні хвороби, для тих, хто цікавиться такими небезпечними ділянками українського лексикону, тобто ділянками які передусім повинні привернути увагу і нормувальників нашої мови, і тих, хто цікавиться покручами, і тих, хто цікавиться кальками, яким не місце в лексиконі на зразок "співпадати" і "міроприємство", і "столова", і "пирожне" і так далі, і тому подібне. Для звичайного нормативного словника, ну,така лексика навряд чи туди потрапить, а для дослідника вона була дуже цікавою. І чимало такого до нашого реєстру ввійшло. Ми цю нашу сировину, цей генеральний реєстр сформували в такий спосіб. Як ви бачите, один блок від другого відокремлений комами, це так званий зонний принцип запису інформації про слово. Коли є об’єкт, до якого збирають інформацію, такий об’єкт у нас - це українське слово, та ще й слово, яке поділене на мінімальні значущі його складники, на морфеми. А такі морфеми, це у нас був корінь, ви бачите його у скісних дужках, це були флексії, вони стоять після зірочки, це були префікси, ви їх бачите після амперсанда і перед скісною. Це були суфікси, ви їх бачите після скісної перед зірочкою. Скажімо "лінгвістика", "студент". От слово в такий спосіб було структуровано і формалізовано для подальшого опрацювання в комп’ютері. Але до слова, за всіма словниками, за якими ми цей реєстр збирали, зібрана за зонами інформація. Ну, перша зона, це зона словника, яким ми доповнили оті три словники, про які я казала, це був двотомний словник Івана Тимофійовича Яценка, який називається "Морфемний аналіз". Цей словник вийшов у Києві, у видавництві "Вища школа" у 1980-81 роках, Ніна Федорівна була його відповідальним редактором, а Іван Тимофійович Яценко, на жаль, його немає вже з нами, але це відомий український мовознавець, який багато років завідував кафедрою української мови у Черкаському, тоді ще педагогічному інституті, а зараз це Черкаський національний університет імені Богдана Хмельницького. Словник дуже цікавий для нас тим, що він багато подав термінологічної лексики і звичайно він полегшив нам формування реєстру, тому що в цьому словнику, нагадаю, він називався "Морфемний аналіз" уже слова було подано поділеними на морфеми.
От перша зона, літера "М" – це перша зона словника – морфемний аналіз. Друга зона, яка відкривається літерою "Т" – це зона тлумачного 11-томного академічного словника. Цифра після літери показує, яку кількість значень в цьому словнику має це слово. Ну, скажімо, слово "комп’ютер", ми бачимо, одне значення, а слово "мова" – шість значень, а слово "іспит" – два значення, і так далі, це теж було для нас важливим для того, щоби далі вивчати розподіл однозначної, багатозначної лексики в українському лексиконі.
Зона словника іншомовних слів позначена літерою "Х" і оскільки це теж словник пояснювального типу, то цифра після цієї літери вказує теж на кількість значень в цьому словнику. І ми з вами бачимо, як по-різному словники різних типів подають навіть інформацію про кількість значень слова. От приклад слова "університет", яке прийшло до нас з латини і в словнику 11-томному воно має два значення, а в словнику іншомовних слів – три значення. А чому така розбіжність? А ті, хто працював з цими словниками, одразу зрозуміють, що оскільки настанова словника іншомовних слів податі ті прообрази в мовах-джерелах запозичення, від яких українська мова прийняла те чи інше слово, то для укладача "Словника іншомовних слів" було дуже важливо подати те первісне значення, в якому слово "університет" прийшло в українську мову, от в тому значенні "університет", як той навчальний заклад, який дає загальне уявлення, загальне знання про світ. Це не зовсім те значення університету як вищого навчального закладу, в якому це слово побутує сьогодні в українській мові.

Ну, і нарешті іще два словники, які подані в цьому реєстрі. От літерою «F» латинською позначено зону двотомного «Частотного словника сучасної української художньої прози». Чому «F»? Ну, англійське «frequency» - «частота». Так нам було зручно позначити цю зону, тому що завжди і самі оці формальні знаки, сигнали для комп’ютера ті, хто робить електронну версію словника, намагаються робити так, щоби прозорим був зміст цього знака, що він позначає: чи тип словника, чи якусь якість інформації, яку ця зона передає. Цифра після латинського «F» - це абсолютна частота вживання такого слова у півмільйонній текстовій вибірці, на основі якої укладали словник сучасної української прози. Чому п’ятсот тисяч, - спитають мене ті, хто знає, що нині корпуси оперують уже обсягами у сотні мільйонів слововживань. А тому що лінгвостатистика уже давно довела, що не треба займатися для виконання багатьох завдань гігантоманією, а цілком досить для того, щоб одержати вірогідні характеристики частоти вживання слова в тексті – достатньо вибірки не меншої в 300 тис. слововживань. І будуть надійними ті статистичні характеристики, які ми одержали. Отже, обсягу текстового у 500 тис. слововживань було цілком вдосталь, для того щоби визначити частоту вживань того чи іншого слова в нашому реєстрі.
Ну, і нарешті літера «G» латинське – це позначення зони словника, який для нас був цікавим тому, що у 1988 році, коли ми почали формувати наш реєстр, в українській лексикографії не було ще жодного словника нових слів. У нас були тільки такі додатки лексики, яка не ввійшла, скажімо, в томи одинадцятитомного тлумачного словника. Ну, от одинадцятий том вмістив такий додаток. Там була і нова лексика, просто пропущені слова на літери А-П. А спеціальних словників нової лексики, таких, які уже на той час виходили і в польській лексикографії, і в російській лексикографії, у нас іще не було. Вони з’явилися лише на початку XXI століття. І от словник Сергія Івановича Головащука, який вийшов у 1989 році, і називався цей словник «Словник-довідник з правопису та слововживання». Він у своїй першій орфографічній частині містив чимало нових слів, які не ввійшли до одинадцятитомника і були на той час новими для українського лексикону. І ми такі слова теж ввели до свого реєстру. Ну і нарешті, оскільки це слово, то для нас було важливим до кожного слова подати показник частиномовної належності. І ви бачите, що в кінці запису стоять літери «і.» - іменник, «п.» - прикметник і т.д. Зауважу, що крім показників десяти частин мови, які виділяє традиційна граматика українська, ми додали ще показники спеціальні для дієприкметника і дієприслівника, оскільки хоча це і форми дієслова, але вони мають велику специфіку і у своїй будові, і у своєму вживанні, і тому для нас було цікавим і важливим виділити їх як самостійні розряди слів. Підготували ми таку сировину і що ж далі ми з цією сировиною почали робити? А ми для нашого фонду морфемно-словотвірного зробили спеціальну систему «Морфолог», яка давала нам можливість працювати і з самою сировиною. Ви бачите, те що подане у розділі «База» - це різноманітні процедури вдосконалення самої нашої сировини: коригування, скажімо, виправлення помилок, вилучення певних записів, які ми вважали непотрібними, або навпаки додавання таких записів. Зауважу одразу, що я показую робочу версію цієї системи, а зараз ми працюємо над новою версією і, скажімо, те що стосується самої сировини, то як окремі записи, ми зараз додаємо показники різних функціональних варіантів слова. Ну скажімо, якщо ми уявімо собі одинадцятитомний «Тлумачний словник української мови» подає, скажімо, дієприкметник «трудящий» і уже в самій статті може бути така ремарка – «у значенні іменника». То ми отакі от записи, що дієприкметник може виступати і в ролі дієприкметника, у первісній своїй функції, і в ролі іменника, і в ролі дієприкметника, і в ролі прикметника, або, скажімо, прислівник може виступати в ролі прийменника і навпаки – ми всі такі речі зараз подаємо як самостійні записи. Ми готуємо свідомо зараз сировину для роботи над новою академічною граматикою української мови, створенням якої уже на засадах планової теми від початку цього року зайнятий академічний Інститут української мови.
Отже, у нас є можливості в нашій системі «Морфолог» роботи з самою сировиною, але є і можливості з цієї сировини формувати нові мовні продукти. Що це може бути? Це може бути режим Слова. Я зараз не буду це демонструвати, але тільки скажу, що в цьому режимі ми одержуємо всі слова нашого генерального реєстру не у записі, поділеному на морфеми, а у записі орфографічному без отих усіх зон інформаційних, які ви щойно бачили на екрані. Одержуємо просто реєстр українських слів, який може бути цікавим з тих чи інших міркувань для роботи дослідників. Другий режим – Слова з відповідними функціональними характеристиками – це, власне кажучи, реєстр у тому вигляді, в якому ви його зараз бачили. Тобто, ми працюємо зі словами у морфемному записі і з усім інформаційним кортежем до таких слів, з усіма зонами нашої інформації. Але в нашому морфемно-словотвірному фонді ми за допомогою комп’ютера окремо виділили словники префіксів, словники суфіксів, словники коренів, словники морфемних моделей слів і я далі їх покажу. Перш ніж до них перейти, я хочу крім такого загального інтерфейса, тобто в такому візуальному вигляді засобів доступу і ведення нашої бази даних. В такому узагальненому вигляді інтерфейс подає усі можливості роботи з нашим матеріалом. Так от, крім такого загального інтерфейсу, я хочу ще показати інтерфейс спеціальний, який може виконувати функції не лише інформаційно-довідкової системи, але і системи навчальної і системи дослідницької.
Що ми можемо робити з нашою інформацією і за якими параметрами ми можемо видобувати те, що нас цікавить і просто як користувача комп’ютера, і як дослідника-мовознавця? Ви бачите, це може бути вибір слів за їх буквеною маскою, це може бути вибір слів за маскою морфемною. Що таке морфемна маска? Ну, скажімо, йдеться вже не про окремі літери, з якими ми граємося так, як граються учасники гри «Поле Чудес», тут у нас в морфемній масці – це показники класів морфем. Тобто, ну, наприклад, ми хочемо вибрати всі слова, які містять корінь і флексію, або всі слова, які містять корінь, будь-яка морфема після кореня і флексія – і комп’ютер нам за такою морфемною маскою цю інформацію видає.
Далі ви бачите, ми можемо вибирати слова за різною довжиною і ті, хто, скажімо, сьогодні зацікавлений у завданнях суто практичних – скажімо, подивитися, а скільки в українській мові довгих слів, слів коротких, які це слова, яку семантичну навантагу в лексиконі вони мають? От ми даємо таку можливість роботи з нашим лексиконом і одержання інформації, причому, можна вибирати такі слова не лише за довжиною в літерах, але і за довжиною в складах, і за довжиною в морфемах. А морфема, ми знаємо, може містити до 7 літер. Тобто, і довжина різна може бути для дослідника залежно від того, що його цікавить.
Далі, оскільки я вже казала про те, що ми подаємо різні типи отаких мінімальних значущих одиниць слова, ми дали можливість і таку інформацію користувачам нашого фонду одержати: ми можемо вибирати слова за коренем, за суфіксом, префіксом, причому, з різною позицією, яку вони займають у слові і за різним їхнім графічним виглядом. Тобто, ми можемо набрати конкретну морфему, яка нас цікавить, скажімо, «рук» - «руч», або «гір» - «гор» і ми одержимо не тільки слово «гора», а і слово «гірка». І в такий спосіб ми дістаємо можливість формувати вже певні кореневі і словотвірні гнізда. І цю можливість, я, наприклад, використала, коли робила свій «Кореневий словник української мови», і я покажу його коротенько далі. Ну і нарешті, ми можемо вибирати слова за їхньою частиномовною належністю, ми можемо вибирати слова за їхньою наявністю в тому чи іншому словнику-джерелі нашого фонду. Ми можемо за потребою працювати з кожним з цих параметрів окремо, а можемо і задавати комп’ютеру різні комбінації тих параметрів, які нас цікавлять.
Я хочу одразу сказати, що те, що стосується навчальної функції оттакого реєстру українських слів, то цю функцію реалізували наші колеги з Київського національного університету імені Тараса Шевченка. От в залі присутня Наталія Петрівна Дарчук – керівник лабораторії комп’ютерної лінгвістики університету. Наші колеги зробили електронний підручник української мови, і він для цікавої громади виставлений на сайті на лінгвістичному порталі Київського національного університету. Адреса цього порталу, якщо не помиляюся, mova.info. Так, Наталю Петрівно? Там можна попрацювати з цим електронним підручником, який дає можливість і робити морфемний розбір слова, і розбір словотвірний, можна себе перевірити, а скажімо, і викладачеві університету, і вчителеві школи – це вже готовий сучасний матеріал для уроків з певної проблематики.
Ну, але я вже сказала, що за допомогою комп’ютера ми намагалися робити нові лінгвістичні об’єкти для нашого подальшого мовознавчого аналізу. От як, розкидавши слова на ті складники, які вони містили, ми побудували за допомогою комп’ютера окремі словники морфем. Отак виглядає словник українських префіксів. Це невеличкий його фрагмент, заабеткований, а можна подати цей словник і в іншому вигляді – у вигляді рангового списку, оскільки тут є інформація про абсолютну частоту вживання того чи іншого префіксу у словах нашого генерального реєстру, тому можна впорядкувати за спадом цих частот і виділити в такий спосіб найпродуктивніші префікси і дійти до префіксів, унікальних в українській мові. Отаких, скажімо, уламків історичних як префікс «ко», який зберігся лише в одному слові, яке викликає ще й великі сумніви щодо його правомочності в сучасному українському лексиконі – слово «закоулок». Але воно є у нашому лексиконі, у нашому генеральному реєстрі. Так само виглядають і словники суфіксів, коренів, флексій і у складних словах ми ще виділили так звані сполучні голосні на зразок «о», «е» - буревій, пароплав. Які вони можуть бути оці міжкореневі прокладки в складних словах? Ну, скажу одразу, вельмишановні колеги, оскільки наш генеральний реєстр досить показовим виявився, на сьогодні в його складі понад 171 тис. українських слів, то досить показові і надійні і самі отакі словники окремих морфем.
Ну, скажімо, наш словник префіксів містить 145 одиниць, словник суфіксів – 682 одиниці, список коренів, який ми подаємо нашим користувачам, - понад 22 тис. коренів. Це досить потужні списки. Ну, для порівняння скажу, що шкільний морфемний словник, який уклав на базі у 38 найуживаніших українських слів Левко Михайлович Полюга, містить 90 префіксів, містить 120 суфіксів, містить 200 коренів, тобто для дослідника такі списки, звичайно, становлять неабиякий інтерес.
А це дійсно принципово новий лінгвістичний об’єкт. Що це таке? А це, шановні колеги, «Словник символьних моделей морфемної структури слова». Ми за допомогою комп’ютера, от за тими знаками, сигналами того чи іншого класу морфем, перевели запис конкретного слова у запис символів, які позначали ті морфеми, які слово містить. Ну, скажімо, якщо у нас було слово «мова», то у переліку морфемних моделей воно замінилося символьною моделлю «RF», тобто корінь-флексія. Якщо це було слово «український», то воно замінилося моделлю «RSF», тобто «R» - корінь, «S» - суфікс, «F» - флексія. І так далі. І от ми одержали такий перелік моделей, за якими будуються на сьогодні слова української мови і ми, крім усього іншого, стиснули наш реєстр у понад 171 тис. слів до 495 моделей. А 495 їх тому, що тут не тільки прості, а й складні слова. А моделей, за якими будуються прості слова української мови, а прості – це ті слова, які містять лише один корінь, так от їх всього 51. 51 модель дає в нашому реєстрі понад 130 тис. різних слів. Тобто, символьна модель – це для нас був дуже зручний інструмент для вивчення законів конструювання українського слова. І це наша спільна з Ніною Федорівною Клименко робота, яка була оприлюднена у журналі «Мовознавство» в 1991 році, а після цього в 1998 році вийшов підручник Ніни Федорівни «Основи морфеміки сучасної української мови» і вийшла книжка «Як народжується слово», і вийшло ще багато чого, де ми розвивали оці ідеї законів конструювання українського слова. Які вони ці закони? Передусім – це закон простоти. В українській мові переважна більшість слів побудована за найуживанішими, найпростішими символьними моделями будови. Нам навіть вдалося вивести показник оптимальної кількості отаких елементів-складників у структурі українського слова. Ми, вивчивши особливості механізму побудови іменників, дієслів, прикметників, прислівників, тобто тих частин мови, яким властиві і різноманітні типи морфемної структури, і розгалужене словотворення, яке якраз і дає таке нанизування складників у слові, виявили, що переважна більшість таких слів містить 4 плюс-мінус 1 морфема. Тобто, ядро українського лексикону становлять слова, в яких 3 – 5 морфем. І такий висновок наш зайвий раз довів типологічні характеристики української мови як, нагадаю, мови флективної з перевагою синтетизму в її номінації. Поясню: ідеться про перевагу однослівних номінацій в нашому лексиконі.
Крім закону простоти, це був іще закон симетрії, тому що українське слово тяжіє до, складне особливо, до рівноваги – от скільки префіксів, стільки й суфіксів. А якщо слово просте, то ми бачимо тут асиметрію, яка, знову ж таки, доводить флективний тип нашої мови. А чому переважають суфікси в структурі українського слова? А тому, що всі граматичні, словотвірні значення вони передаються за допомогою наших суфіксів або флексій, які виконують роль суфіксів. Отака робота була зроблена за допомогою комп’ютера.
Що іще давав нам можливість зробити наш «Словник символьних моделей українського слова», яке завдання ще вирішити? Перед вами, вельмишановні панове, так звана морфемна сітка українських слів. Що це таке? Це змодельовано в такий спосіб самий механізм творення слів тієї чи іншої частини мови. Я взяла для прикладу іменники, тому що, по-перше, іменники – це найпотужніша частина мови в складі лексикону, в нашому реєстрі іменників понад 55 тис. А крім того іменники дають і найрозгалуженіші типи самої будови слова. Саму морфемну сітку як формальну модель запропонував свого часу, такий спосіб зображення запропонував німецький учений Поль Менцерат. Я подала це у вигляді прямокутника, а у Менцерата це було зображено у вигляді паралелограма, і ця формально-логічна модель у комп’ютерній лінгвістиці, у лінгвостатистиці відома саме під назвою «Паралелограм Поля Менцерата». Він застосував його для аналізу можливостей, тобто самого потенціалу, закладеного системою мови, для творення графемної і фонемної структури німецьких слів. Це робота його, яка була надрукована у 1953 році, а ми з Ніною Федорівною використали паралелограм Менцерата у вигляді такої сітки, для аналізу морфемної будови, механізму конструювання морфемної будови українських слів. Сама ця сітка – це, власне кажучи, орієнтований граф, точка розгортання якого – мінімальна структура морфемна, в даному разі іменника, ми її бачимо у правому верхньому кутку, це структура «R» - з самого кореня складаються слова, одна тільки морфема. Це переважно або звуконаслідування, або запозичена лексика. Для іменників – це запозичена лексика: «кашне», «бра» і т.д., невідмінювана, «плато» і т.д. Розгортання на правій і лівій осі – це збільшення такої ядерної морфемної структури за рахунок післякореневих елементів, тобто того, що підставляється до такого кореня – і це суфікси або флексії. А те, що розгортається вліво від такої ядерної структури – це докоренева частина слова, тобто це нанизувані префіксальні морфеми.
І морфемна сітка будувалася спочатку в такий спосіб: зафіксовані були (світлим кольором ви їх бачите) з показниками кількості слів, які дає в лексиконі українському, в нашому генеральному реєстрі та чи інша структура – це реальні структури українських слів. Це те, що було засвідчено нашими словниками-джерелами формування нашого реєстру. А далі сітка була доповнена, і те, що замальовано сірим кольором, – це потенційно можливі, але ще не засвідчені в джерелах, з якими ми працювали, типи морфемної будови слова. І от в такий спосіб змодельований механізм творення іменників, давав нам можливість і з’ясувати, чому так мало великих слів. От я показала, що теоретично, приклади прошу подивитися внизу, на такі унікальні структури українських слів. От ми з’ясували, що в простому українському слові, де може бути один корінь і одна флексія, може бути максимально 4 префікси (причому, це лічені слова на зразок «поназдоганяти» або такий унікальний прислівник «доневпоїду», наприклад), може бути до 6 суфіксів (наприклад, «матеріалізуватися», це слова, які легко написати, але важко вимовити).
Теоретично можлива формула простого українського слова – це 12 морфем. Але 12 морфем не засвідчило жодне слово. Максимальна кількість морфем в тих словах, які ми виявили, це 11. І це таке теж неоковирне слово, як «неоподатковуваність»: 3 префікси, корінь, 6 суфіксів і флексія. Ну не більше, слів, як ви бачите і на інші громіздкі морфемні структури. Ця морфемна сітка доводить, що таки дійсно переважна більшість українських слів містить 3 – 5 морфем. Їх легко вимовити і легко запам’ятати.

І ще один словник, і ще один новий лінгвістичний об’єкт, який можна було укласти за допомогою комп’ютера – одержати, знову ж таки, якісно нову інформацію про систему української мови – це «Кореневий гніздовий словник української мови», для якого з того реєстру кореневого, який подавав наш морфемно-словотвірний фонд, я відібрала лише корені, так звані омографи. Що таке омограф? Це корінь, який має спільну форму, але різне значення. І от перед вами, вельмишановні панове, приклади двох таких гнізд, з коренями-омографами «пол-». Перше гніздо – це корінь «пол-», реалізований у слові «пола». І ви бачите в наповненні цього гнізда все, що цей корінь дає на сьогодні у нормативних академічних словниках, тобто в тих словниках недіалектних, неісторичних, які відбивають таку загальну мовну свідомість сучасного українського мовця. Друге гніздо – це корінь «пол-», реалізований у слові «поле». І, знову ж таки, ну тут тільки фрагмент цього гнізда, ви бачите, в чому він може реалізуватися.
Яку, знову ж таки, нову і цікаву і для мовців, і для дослідника інформацію подавав цей словник? Він передусім дав можливість подивитися, як в структурі українського лексикону працює корінь-омограф, тобто, як одна форма дає можливість зібрати довкола себе різний зміст, як те, що легко запам’ятати, знову ж таки спільна форма – як вона дає можливість впорядкувати лексикон, які ці омографи, що вносить у таке впорядкування лексикону запозичена лексика. От скажімо, був неомографічний для українців корінь «кліп-» - кліпати очима, так? А з’явилося запозичення з англійської мови - слово «кліп» і у нас з’явився корінь-омограф. Тому що у нас є кліп, у нас є відеокліп, у нас уже є дієслово кліпувати, є віддієслівний іменник – кліпувальник, є конкурент кліпувальнику – кліпмейкер і похідні від нього, і формується нове таке гніздо.
І ще одне, про що я хотіла у зв’язку зі словниками сказати, це робота, якою ми зайняті сьогодні і якою, на глибоке переконання і моє, і моїх колег, ми даємо відповіді тим, хто цікавиться тенденціями розвитку сучасного українського лексикону і тенденціями розвитку сучасної української мови. Ми уже понад 10 років працюємо над вивченням нової української лексики. От в кінці цього року, і ми вже відзвітували цією роботою вченій раді нашого інституту, ми подаємо на суд громади новий тип словника української лексики – це «Словник концептуальних полів нової лексики». Тобто, вже не просто реєструвальний словник, який фіксує окремі нові слова, які з’явилися в українському лексиконі.
От я бачу в залі мою колегу з Інституту української мови Оксану Миколаївну Тищенко, спілка Оксани Миколаївни і її колег зробили словник нової лексики власне реєструвального типу, так званий «Словник-щорічник». От як щороку і якими словами прибуває український лексикон?
А ми поставили з колегами перед собою інше завдання, уже зібравши таку нову лексику, спробувати показати, а як розробляються в цілому в сучасній українській мові ті чи інші поняття, а якщо слово було відоме, то які нові аспекти цього поняття розробляють носії сучасної української мови. І от те гніздо, яке я показую вам на екрані, воно якраз і стосується тих слів, які вже були відомі українській мові, але як ці гнізда поповнюються за рахунок нової лексики і як значуще для сучасного українського мовця поняття вербалізується, тобто ословлюється в сучасному українському лексиконі.
От слово «коаліція», яке українському лексикону відоме ще з часів правописного словника Григорія Голоскевича. У цьому правописному словнику є і слово «коаліція», є і слово «коаліційний», а от жовтим кольором замальовано все те, що з’явилося буквально за останні 10 – 15 років, причому, вельмишановні колеги, ви бачите, що тут не лише лексика нейтральна, лексика яка не викликає у нас питань щодо своєї нормативності, але і лексика виразно експресивно і оцінно забарвлена. Правда? Ну, от у нас не виникає питань щодо слів «коаліційність», «коаліційно», щодо назв самих членів коаліції, хоча ми тут з вами бачимо виразне конкурування, правда? І «коаліціянт», і «коаліціонер», і «коаліціоніст». І ми сьогодні стоїмо перед проблемою – а що виживе? А що, власне кажучи, найприпустиміше для сучасного українського лексикону? Але ви бачите тут і такі слова, як «коаліцієподібний» або «коаліціада». Навряд чи ці слова потраплять до нормативних академічних словників, але для тих, хто вивчає сучасну українську мовну діяльність, я і мої колеги переконані, такі слова дуже цікаві.
Звичайно неможливо, іще раз скажу, охопити всі проблеми і всі завдання, які стоять перед комп’ютерною лінгвістикою, тому що я торкнулася тут лише того, як використання комп’ютера дає можливість нам по-новому опрацьовувати словникові матеріали, будувати словники нових типів. Я не торкнулася тут дуже драстичної для української мови проблеми створення корпусів українських, і у нас на сьогодні, на жаль, ми змушені це констатувати, немає у вільному доступі національного корпусу української мови, хоч багато ми чуємо про нього і читаємо в публікаціях розробників такого корпусу. Це наші колеги з Українського мовно-інформаційного фонду, але корпусу цього у вільному доступі, виставленого в Інтернеті на сьогодні, на жаль, немає. Є в Україні так звані дослідницькі пошуково-експериментальні корпуси, їх чимало, як чимало і електронних українських бібліотек. І, звичайно, вони дають можливість працювати не лише зі словниками як моделями мовної системи, але і з текстами як моделями функціонування цієї системи. Це і корпус поетичного мовлення, публіцистичного стилю, наукового стилю, який створили і розвивають далі колеги з лабораторії комп’ютерної лінгвістики Київського національного університету. Це і корпус творів прозових Івана Франка, який створює наша львівська колега пані Соломія Бук, до речі, і самий корпус, і частотні словники, конкорданси, тобто словники сполучуваності, які пані Соломія укладає на матеріалі цього корпусу, виставлені у вільному доступі в Інтернеті. Це дуже цікаві для дослідників авторської мови корпуси мови письменника.
Виставлений в Інтернеті і дуже цікавий конкорданс творів Григорія Сковороди, який створили наші харківські колеги з університету імені Каразіна. Це надзвичайно цінний для нас конкорданс поетичних творів Тараса Шевченка. Він називається «Конкорданція поетичних творів Тараса Шевченка». Це робота наших канадських колег з Інституту українознавчих студій університету Альберти Юрія Гавриша і Олега Ільницького, і він виставлений в Інтернеті, цей конкорданс, але він існує і в паперовому вигляді – це 4 потужних томи, які є в наших бібліотеках, і це дуже корисний і цікавий матеріал для тих, хто працює з текстами.
Я не торкнулася тут і такої дуже важливої проблеми, як використання словників і корпусів, які готує комп’ютерна лінгвістика, для розв’язання назрілої проблеми підготовки нової редакції «Українського правопису». Я вважаю, що це сьогодні одне з найбільш гострих і важливих завдань, які ставить перед мовознавцями суспільство, тому що та правописна війна, свідками якої ми є з 1999 року, після того як мої колеги оприлюднили проект нової редакції «Українського правопису», підготовлений як слово фахівців для дискусії, а довкола цього почалося чимало політиканства, абсолютно не потрібного в таких справах. Так от, і надійні словникові матеріали, і надійні текстові матеріали дають можливість поставити вироблення правописних норм на надійний грунт, довести, що це має бути так в правописі, а не інакше і не тому, що це комусь так подобається, а тому що це відбиває типологічні риси мови і відбиває саму суть української мовної діяльності. Я глибоко переконана, що комп’ютерна лінгвістика тут може сказати своє вагоме слово і надати допомогу тим, хто сьогодні, принаймні є таке завдання академічним установам підготувати нарешті до остаточного обговорення редакцію нового «Українського правопису», і ми віримо, що це таки станеться.
І останнє, про що я хотіла сказати, це, знову ж таки, дуже важливе завдання, яке перед нами ставить суспільство, підготовка академічної нової української граматики. Тому що, що гріха таїти, остання українська граматика, вийшла у світ протягом 1968–73 років. У 1979 році світ побачив том про словотворення, як додаток до цієї академічної граматики і, власне кажучи, вже майже… не майже, а вже понад 30 років Україна живе без нової граматики, а це за тих інтенсивних, стрімких, кардинальних змін, які сталися і в лексиконі, і в граматиці нашої мови. І, знову ж таки, підготовка на нових засадах академічної граматики потребує передусім і нового фактографічного підґрунтя, а його може дати саме комп’ютерна лінгвістика у тих своїх словникових і текстових моделях, про які я намагалася сьогодні коротко розповісти. І, крім того, академічна нова граматика стане надійним підґрунтям для підготовки нових практичних граматик української мови, нових підручників української мови і для школи, і для університетської освіти, а в такий спосіб, я думаю, мовознавці дадуть свою виважену і професійну відповідь тим завданням, тим замовленням, які перед ними ставить українська держава, допоможуть дійсно виробити надійну мовну компоненту дієвої мовної політики української держави.
Дякую за увагу!
(оплески)
Обговорення лекції
Каденко: дякую, Євгенія Анатоліївна. В нас такий регламент: як завжди будуть питання з залу, а перше питання від ведучих. І в мене два запитання, по-перше, як я розумію, словник це – завжди аналіз, завжди структура, завжди алгоритм. Чи не є комп’ютер тільки інструментом для обробки та зберігання даних, зберігання праці і просто він більший ніж дозволяє друкований словник? Це перше питання. Тобто, чи існує насправді комп'ютерна лінгвістика? І друге питання: хто користується напрацюваннями комп’ютерних лінгвістів окрім спеціалістів в галузі лінгвістики? Чи можуть з цими словниками працювати ну, я не кажу учні, ну, мабуть, студенти?
Карпіловська: Дякую. Є дуже гарне визначення словника. Кажуть, що словник – це відповідь на будь-яке лінгвістичне завдання. І взагалі на будь-яке завдання. Так от, словник це – просто зручна форма впорядкування, узагальнення і подання інформації. І, звичайно, як і сама діяльність наукова, є діяльність спрямована на широкий загал, є ті словники, які адресовані і учням, і будь-якому грамотному члену суспільства, так є словники, які адресовані професіоналам. Є словники, які потребують для роботи з ними спеціальних знань, зокрема, спеціальної філологічної освіти. Звичайно, ті словники, про які я говорила, це – і матеріал для тих, хто, скажімо, сьогодні готує і учнів у школах, і нових філологів у системі нашої університетської освіти, і це словники, які використовують наші колеги-мовознавці. Ну, скажу, що морфемно-словотвірний фонд, це – дослідницька система, вона не виставлена у відкритому доступі в Інтернеті, але всім нашим колегам, які цікавляться і нашим реєстром, і хочуть одержати якусь інформацію з нашого фонду, ми відкрито, ніколи не відмовляємо, цю інформацію надаємо. Але, скажімо, словником і кореневим , і нашим шкільним словотвірним словником, який вийшов у 2005 році, це наша робота з Ніною Федорівною Клименко і з присутньою тут у залі нашою молодою колегою Ларисою Павлівною Кислюк, так от шкільний словотвірний словник це – наша допомога школі. Це словник, який можуть використовувати учні навіть у початковій школі. Словник афіксальних морфем, тобто, префіксів і суфіксів, ми адресували уже нашим колегам в університетах. Будь ласка, він не просто в паперовому вигляді виданий, він виставлений у відкритому доступі в Інтернеті і колеги можуть послугуватися ним. А що стосується того, чи існує комп’ютерна лінгвістика і чи комп’ютер це – просто засіб, який дає нам можливість у більшому обсязі уявити мовну інформацію, то я хотіла би підкреслити, звичайно, ми не робимо з комп’ютера фетиш, бо як казала колись нам Валентина Сидорівна, якщо ви не знаєте, як відповісти на це питання, і думаєте, що комп’ютер за вас дасть відповідь на це питання, то і не сподівайтеся. Ні, ми комп’ютер розглядаємо і як потужний помічник у нашій роботі, і як той адресат, який змушує нас в інший спосіб моделювати мовну інформацію. А всі, хто працює з системами будь-якими, знає, що уявити собі, як побудована система, в межах самої системи дуже важко. А коли ми виходимо за межі цієї системи і от з погляду комп'ютера, який не знає, що таке іменник, що таке прикметник, що таке слово, ми дивимося на систему мови, то, це та можливість для мовознавця глибше зазирнути у структуру об'єкта свого дослідження, яка просто дорогого вартує. І багато речей, ну скажімо, в процесі створення систем машинного перекладу настільки детально було проаналізовано граматичний лад мови, вийшли на такі речі, на такі деталі, які в традиційній граматиці здавалися самі собою зрозумілими, а тут ми побачили нові грані, нові аспекти. Тому я думаю, що комп’ютер це – новий адресат, який формує і новий об’єкт, і нові засоби його опрацювання і нову проблематику. Я би його порівняла, скажімо, з поданням мови іноземцю. Ми знаємо, що от в один спосіб ми українську мову викладаємо носіям української мови і зовсім інакше ми її подаємо тим, хто цієї мови має тільки навчитися. От комп’ютер для нас такий не просто іноземець, а інопланетянин.
Каденко: дякую. І ще одне коротеньке питання: чому автоматичний переклад такий недосконалий?

Карпіловська: почну, вельмишановні панове, з того, що якщо пропонують певний засіб опрацювання якогось матеріалу, то, не хочу нікого образити, але цим засобом треба ще оволодіти, опанувати. Бо дуже часто ці анекдоти, які ми чуємо про систему Плай, а це – продукт праці моїх колег, от сидить Наталя Петрівна Дарчук у залі, це один з розробників, один з творців систем Рута і Плай, взагалі українського офісу в операційній системі Windows фірми Microsoft. Так багато таких анекдотів, ми розуміємо, пов’язані з тим, що люди просто не підключають ті опції, які пропонує для вдосконаленого машинного перекладу система Плай. Ну, скажімо, опція не перекладати власні імена і тоді академік Богомолець не перетвориться на прочанина, а залишиться академіком Богомольцем. І Франкфурт-на-Майні не буде нічого мати спільного з тим майном, а залишиться Франкфуртом-на-Майні. А щодо недосконалості, то я, вельмишановні колеги, хочу нагадати слова Еріка Ханта, це один з перших розробників систем штучного інтелекту, він казав: "З розвитком техніки і з розвитком нашого уявлення про штучний інтелект, ми кожен раз, те, що здавалося нам рутиною, робимо штучним інтелектом, для нас це стає інтелектуальним завданням. І навпаки, ми завдяки техніці, і нашим знанням просуваємося далі, і для нас те, що було інтелектуальним, і це робила людина, перетворюється на рутинне". Якщо ми сьогодні порівняємо перші системи машинного перекладу, ну, скажімо, в тому вигляді, в якому іще це робили в тридцятих роках минулого століття у тодішньому ще Ленінграді, це була система Тронського і інших дослідників, коли перекладали окремі слова на дуже обмеженому тематично і структурно тексті, порівняємо з тим, що сьогодні робить Плай або Прагма, або Промт, або інші системи машинного перекладу, то ми, може, в історичній перспективі побачимо великий крок вперед. І над системами продовжують працювати. Ми бачимо на сьогодні, Наталю Петрівно, якщо не помиляюся, четверта версія Плаю, так? Чи може, вже й п'ята є?
Наталія Петрівна Дарчук (сміється): Ні, вже на цьому зупинилися.
Карпіловська: Ну, чотири версії, від версії до версії ми бачимо вдосконалення системи. Але людину, я сподіваюся, нам би не хотілося, щоби комп’ютер замінив на сто відсотків. Все одно буде якесь постредагування.
Каденко: да, хотя наш лектор, Татьяна Черниговская, тоже лингвист сказала, что это вопрос десятилетий, когда компьютер заменит человека. Дякую.
Карпіловська: я би не хотіла, щоб він його замінив. Комп’ютер це – помічник і інструмент дослідження.
Каденко: точнее, она сказала "срастется". Вот.
Холмогорова: да, у меня тоже есть небольшой, короткий вопрос, а потом мы перейдем к вопросам из зала, вот. Вы сказали в лекции про "мовні хвороби". А вот, какие способы есть их лечить, да? И нужно ли их лечить? И как в этом конкретно может помочь компьютерная лингвистика?
Карпіловська: ну, я вжила визначення мовна хвороба, а, мені дуже сподобалося, на одному з міжнародних з’їздів славістів виступав такий дуже відомий фразеолог, до речі, петербурзький колега ваш Валерій Михайлович Мокієнко і він сказав: "Немає мовних хвороб. Є мовні явища і ми повинні їх вивчати". Але "хвороба", я сьогодні вжила це слово як можливий відступ від норми, відступ від того, що є доцільним, зручним в тому чи іншому випадку. Ну, от скажімо, суржик, ми розглядаємо і як явище, і як мовну хворобу. Тому що, ну, в будь-якому разі це – порушення мовної норми. Це – недостатня мовна компетенція, яка не дає можливості людині вжити те, що є доцільним, відповідним чинним нормам і тоді з’являється "міроприємство" або "співпадати". Лікувати – створювати показові і надійні моделі нормативної мовної системи. Допомагати мовцеві знаходити такі доцільні, зразкові варіанти. Я бачу тільки такий шлях.
Холмогорова: спасибо. Да, переходим тогда к вопросам из зала. Напоминаю, что просьба представляться и называть, откуда вы, и говорить в микрофон.
Карпіловська: я тільки перепрошую, оскільки в залі присутні представники видавництва «К.І.С.», то у нас була домовленість, що буквально на п'ять-сім хвилин вони покажуть громаді кілька тих словників, про які йшлося. Якщо ваша ласка, то дати моїм колегам таку можливість. Пан Олександр Телемко.
Олександр Телемко: я коротко розкажу про онлайнові словники. Сайт r2u.org.ua. Чесно кажучи, вже не один раз ми презентували ці словники, можливо, вже всі бачили їх, тому я дуже коротко про них буду розповідати. Стосовно того, як ведеться пошук на цьому сайті, тобто і передбачена можливість пошуку за великою кількістю різних словників російсько-українських і тепер вже й додані різні словники, зокрема і українсько-російський, і словник Грінченка є, і так далі. Дуже, ну, наприклад, використання зірочки, якщо там видно та*, *само *ся. От використання зірочки дозволяє шукати слова, які починаються на са- мо-, а закінчуються на -ся. Ну, і інші є там можливості використання. Але за рахунок такого можна дуже вдосконалити пошук. Можна робити вибір різних словників, коли видно серед усіх словниках, там набір всіх цих словників. Можна вибрати певні словники, в яких, тільки в тих словниках можна буде шукати. Серед усіх слів це можна вибирати, шукати серед , наприклад, російських слів, чи шукати серед українських слів, в цитатах і так далі. Так, загалом зараз вже близько 10 тисяч статей в цих різних словниках і на сьогодні пошук можна робити за десь вже десятком словників. Он угорі видно з лівого боку словники, за якими вже можна робити пошук і внизу, і словники, крім того, крім перекладних словників ще йдуть допоміжні словники, правопис: це словник Голоскевича, «Словар української мови» Грінченка і зараз в роботі словник Ніковського, українсько-російський словник. Плюс йдуть ще словники, за яким поки що не можна вести пошук, але ними вже можна користуватися, принаймні, можна собі скачати і користуватись ними. І ця колекція завдяки пану Віктору розширюється. Так, от врешті останні доповнені джерела, словники М.Уманця-А.Спілки, а вже буквально за останні тижні, це – Яворницький, перший том, на жаль, єдиний, і словник Грінченка за редакцією Єфремова-Ніковського. А так і вже додані ще декілька словників Білецького-Носенка. Ну, це буде буквально на днях, так що можна буде зайти і користуватись цими словниками. Дарморосів і ще когось. Вже навіть не пригадую.
Карпіловська: Пане Олександре, а можна показати, що в вас таке частотний словник. Як ви його робите за всіма словниками. Ось у вас там є частотний словник, кількість вживань того чи іншого слова.
ОлександрТелемко: ні, в нас такого немає тут.
Карпіловська: Є на сайті вашому.
Олександр Телемко: а, ми можемо зробити, ми можемо зібрати всі слова українські, які є на сайті.
Карпіловська: якщо можна, покажіть.
Олександр Телемко: якби був інтернет, то можна було б, а тут тільки те, що мені підготували, я не готувався до виступу. Мала бути, інша людина, мала бути. Ну, от, але є така.
Карпіловська: Можливо, пан Віктор розкаже.
Віктор Кубайчук: Справа в тому, що організація комп’ютерних програм, організація машини цього сайту це −Андрій Рисін. Людина відома серед тих, хто має відношення до системи Linux. Це людина, яка відома клавіатурою UkrUnicode і Spell − програма, для перевірки написання слів. Зараз в Linuxі найпотужніша. Сама машина розвивається дуже потужно. Вона зараз вміє значно більше, ніж вона вміла на початку. І я думаю, що поки що вибірка слів з частотністю зроблена, але це поки що, так би мовити, статично. Але її можна буде зробити динамічною, якщо це комусь потрібно. Замовлення на те, що вам потрібно, треба просто є контакт, і якщо людина бачить, що є щось, що хотілось би мати – пишіть розробнику Андрію Рисіну.
Карпіловська: Пане Вікторе, одразу можу сказати, що всіх зацікавило, - це можливість пошуку слова за всіма словниками, які у вас виставлені на сайті.
Віктор Кубайчук: так.
Карпіловська: от Оксана Миколаївна зараз не дасть мені збрехати, що це дуже допомогло в уточненні реєстру нових слів, які ввійшли до їхнього словника. Коли ми задаємо слово "змислóвий" і зразу бачимо, і в словнику Ніковського, і в словнику Грінченка, і в словнику Кримського і Єфремова та ще й з відповідниками та з ілюстраціями, тобто, контексту, це дуже потужна річ на вашому сайті.
Віктор Кубайчук: ну,це те, що є результат, кумулятивний результат використання комп’ютера. В принципі - це набір словників, але комп’ютер дозволяє швидко проаналізувати і отримати результат, який геть зовсім не є тривіальним.
Карпіловська: це правда.
Віктор Кубайчук: причому, ніхто про це не думав тоді, коли починали.
Карпіловська: от вам і технічний засіб, який відкриває нові можливості.
Віктор Кубайчук: знову-таки, абсолютно елементарна річ − новий формат djvu. Це формат, який був вигаданий для образів, для фотографій. Але формат djvu дозволяє мати в самому файлі текстовий шар. Розпізнаний. Тобто, він недосконалий, він не підтримує форматування тексту. Тобто, ви не побачите там ні курсиву, ні болда, нічого. Просто звичайний текстовий файл, але дозволяє виділити прямо по фотографії, скопіювати і вставити в текстовий редактор. Це знову-таки перший крок до таких словників, вже де є пошук і так далі.
Холмогорова: ну что? Переходим тогда к вопросам из зала.
Сергій Тряшін (газета “Русская мысль”): перше питання: ви закінчили словом "коаліция", а чи нема там слова "фракция"? Потому что столько сейчас новых словообразований, фракцийные мы еще.
Карпіловська: якого слова я не розчула
Тряшін: фракція. Фракція. По-перше, те питання, що задавав: чи проводився машинний аналіз “Слова о полку Ігорева” в пошуках до якої сучасної мови він ближче? Потому, что есть разные точки зрения. И уже не вопрос, а скорее замечание. Когда-то такой российский поэт Маяковский написал, что: изводишь единого слова ради тысячи тонн словесной руды. Так вот это то, о чем вы рассказывали, помогает именно в этой работе. Спасибо.
Карпіловська: дякую. Ну, зразу скажу, що неможливо було сказати про все на світі, але що стосується аналізу текстів і аналізу "Слова о полку Ігоревім", то є дуже цікаві розвідки. Ну, я скажу, що комп’ютер допоміг багато в чому з’ясувати історію і "Тихого Дону", коли доводили авторство. Комп’ютер допомагає дешифрувати давні писемності. Це роботи і Юрія Кнорозова і роботи Бориса Сухотіна. Тобто, використання комп’ютера зараз має дуже широкий спектр. Звичайно, неможливо охопити все на світі, але саме здатність комп’ютера за багатьма параметрами оперативно аналізувати великі масиви мовного матеріалу відкриває можливість побачити якісь нові грані в багатьох проблемах. А що до “фракції”, у нас не потрапило до нашого словника це слово. Чому? Тому що повторю, нас цікавили не окремі слова, а цікавили похідні, нові словосполуки, гнізда, які дають ці слова. Нема "фракції", але є "блок", який дав такі розкішні нові утворення. Тут і "мегаблок", і "мегаблокувальник", і "блокотворчий", і "блокоподібний", і "блокада" і "блокіратор" у нових значеннях. Тобто, є де працювати і заради чого зводити тони словесної руди. Дякую.
Холмогорова: еще вопросы.
Доктор филологических наук Золотухин Геннадий Алексеевич: я, все-таки, хотел вернуться к болезням языка. "Хвороби мови". Мне кажется, если продолжить вот эти медицинские аналогии, то мы можем, вправе говорить, что это даже не болезнь, а это − даже эпидемия. И вот эта некоторое снисходительное отношение филологов-профессионалов к этим болезням, я сейчас уточню, какая болезнь, мне кажется глубочайшим заблуждением. Я имею в виду болезнь, если уже эти аналогии дальше вообще продолжать, то вот эта болезнь, ну если сравнить, может быть, с венерическим заболеванием, которое нужно изучать в каком-то изолированном, тесном пространстве. Я имею в виду нецензурную лексику, бранную лексику. В советское, целомудренное время, когда, как всем известно, секса не было, известный филолог, Галкина -Федорук защищала, насколько мне известно, свою диссертацию о нецензурной лексике в сугубо закрытом помещении, изолированном. Вот вам аналогия с венерическим заболеванием.
Карпиловская: на закрытом совете в Институте русского языка.
Золотухин: вам известно это, да?
Карпиловская: да, конечно!
Золотухин: и в связи с этим возникает вопрос: энергетика слова, надеюсь, ни у кого здесь из присутствующих, страшной, действительно, может быть, уничтожающей. Не кажется ли вам, что она сыграла свою страшную роль у автора небезызвестных словарей, вот он лежит, только что я из книжного магазина "Є", "Українська мова без табу". Нецензурная лексика. Словник нецензурної лексики Леси Ставицкой. Женщина посвятила, это же не один ее словарь этой теме, да? Вы знаете, как судьба ее сложилась, да? Как вы на это на все смотрите?
Карпиловская: я просто хочу уточнить ваш вопрос. Так вы против таких исследований?
Золотухин: это однозначно "против". Они непостижимы для меня. Я наблюдал сцены в книжных магазинах, когда молодежь начинала хихикать возле этих словарей. Они и в русском языке выходят. Мат. Словарь русского мата, по-моему, я не помню. Причем, автор армянка, по-моему, если мне не изменяет память. Так вот смысл вот этой работы? И какая нам видите, мне кажется, что это не случайность, что человек вот так вот рано ушел из жизни. По-моему, ей и пятидесяти лет не было.
Карпиловская: вы знаете. Да ей было…
Золотухин: это не мистика.
Карпиловская: да, Лесе Алексеевне было сорок восемь лет. Это наша коллега из Института украинского языка. Я не хотела бы сейчас касаться, это тема очень деликатная, вы со мной согласитесь, судьба Леси Алексеевны. Я скажу по сути вашего вопроса. Я считаю, что как и в любом деле, здесь не должно быть крена. То есть, наложить запрет на такие исследования, я тоже не считаю правильным. Потому что лексика эта, знаете, как любой запретный плод, она очень соблазнительна для современных наших писателей. Она пошла в тексты и даже для того, чтобы объяснить это социальное явление, я его для себя объясняю термином "праздник непослушания". Вот все, что раньше запрещали, а сейчас нам все это можно и естественно, что вот этот праздник, он у нас буйствует уже не одно даже десятилетие. языковеды это изучать? Должны языковеды объяснить себе причины этого феномена? Я думаю, что – "да". Другое дело, что этим не надо чрезмерно увлекаться. Потому что я считаю, что у нас очень много других проблем, скажем, развитие украинского языка, более важных, чем изучение ненормативной лексики. И мы, можем быть, им должны больше внимания уделять, чем этому. Например, для меня более важной является проблема развития книжной украинской лексики, развитие такого высокоинтеллектуального пласта, стиля украинской речи, которого нам так не хватает, потому что ну, из совершенно понятных соображений нам многие десятилетия внушали, что "тільки на народно-розмовній основі українська мова виникла" і просто було абсолютно незрозуміло, а де поділася книжна українська мова? И вот этим, может быть, сейчас надо больше заниматься. Лесю Алексеевну привлекла эта лексика. Она как исследователь имела право этим заниматься. И я считаю, что она сделала своим, скажем, словарем украинского жаргона, где не только ненормативная лексика, очень много полезного для исследования современной украинской языковой деятельности. Потому что в ее Словаре украинского жаргона очень много элементов языковой игры, которые показывали интересные вещи в современном украинском языковом сознании. Не надо только негативное видеть во всем том, что она сделала и оставила нам в своих словарях. То есть, подходить к этому трезво и рассудительно. Да, а запретить, запретить легче всего. Нам очень много чего запрещали в советское время, и мы сейчас пожинаем плоды этих запретов. Но сейчас, может быть, слишком много разрешили всего. Может быть, и это плохо. Вот занимаемся сейчас наведением порядка в нашем хозяйстве. Вот надо нормы литературного языка опять пересмотреть. Может быть, тогда меньше будут интересоваться ненормативной лексикой.
Золотухин: Знаете, что больше всего меня поразило. Это пиар-акция этих словарей на телевидении и абсолютный восторг некоторых украинских прозаиков, как будто бы свершилась их давнишняя мечта, и они получили в руки руководство к написанию гениальных произведений, вот. И с другой, извините, и с другой стороны абсолютно нейтральная, я бы даже сказал, позиция невмешательства со стороны филологов-профессионалов, понимаете?
Карпиловская: ну, профессионалы тоже сказали свое слово. Потому что на эти словари вышло много рецензий и в академических журналах, и рецензий очень профессиональных и вдумчивых, и, кстати, Леся Алексеевна, очень многое, надо отдать ей должное, приняла во внимание.
Андрєєва Аліса polit.ua: в мене до вас таке питання, я вам його задам, тому що воно мене цікавить ще з дитинства, можливо ви дасте на нього відповідь. Мені завжди було цікаво, ми говорили про мелодійність мов, про те що існують різні списки, за якими українська мова посідає або третє після французької і італійської, або там, друге після французької мови, мене цікавить чи не допомагають ваші дослідження дізнаватись про те, якою є наша мова, тобто наскільки вона є мелодійною, і взагалі, чи можлива така програма, яка здійснює такі дослідження, тому що для мене було цікаво, яким чином взагалі можна дослідити таке питання, як мелодійність мови.
Карпіловська: дякую за питання, скажу одразу що звичайно, комп’ютер відкриває такі можливості. Тому що, все, що виражене у формі, а мелодійність виражена у формі, піддається комп’ютерному аналізу. Що таке мелодійність? Це переважання голосних над приголосними, і голосних певних типів. І до речі, є дуже цікаві дослідження, які уже і новітні технології і методи опрацювання мовного матеріалу беруть до уваги. Ну, от недавно вийшла дуже цікава брошура Юрія Мосенкіса, присвячена милозвучності української мови і засадам виявлення такої милозвучності. Є роботи дуже цікаві Ніни Іванівни Тоцької, яка багато зробила взагалі для вивчення такої фонемної структури українського слова. Ми в нашому колективі, оскільки охопити неохопне неможливо, не можемо займатись всім на світі, але українські дослідники цим займаються і, скажімо, навіть оці шкільні програми, які називають "розмовлялками", тобто це програми оцифровування у звуковій формі українських слів. Вони і унаочнюють школярам – а які особливості українського слова, а як це слово побудоване, а що таке неоковирне слово, яке важко вимовити, а як українська мова усуває перешкоди, коли скупчення приголосних, от, скажімо з’являються випадні приголосні і так далі, тобто це теж дія законів милозвучності, тобто і ці комп’ютерні програми дають можливість розв’язувати такі завдання. До речі, дуже ґрунтовно до цієї проблеми підходили українські кібернетики, вони сказали своє вагоме слово, це, може, знайомі вам роботи Тараса Климовича Вінцюка, це були спроби створити перший такий український комп’ютерний диктор, програми «Мова», які робив наш Інститут кібернетики. Тобто і ця проблема не обійдена увагою дослідників.
Холмогорова: еще вопросы?
Татьяна Човпун, polit.ua: Евгения Анатольевна, у меня к вам вопрос немножко другого характера. Если брать, к примеру, маленьких деток, которых только учат разговаривать. Есть ли какие-то программы развития речи для совсем маленьких? Есть ли смысл в этом? Или все-таки не стоит заменять обучение традиционное языку, речи ребенка или стоит обращаться к компьютерной лингвистике в этом плане?
Карпиловская: Спасибо вам за вопрос. Я думаю, что, как и вообще в жизни, и в этом деле должна быть разумная гармония. Потому что вряд ли голос мамы, папы и бабушки заменит компьютерный диктор. Правда? Другое дело, что сейчас появились, естественно, что и компьютерные лингвисты в этом приняли участие, появились электронные книги. Мамы и папы у нас люди занятые, не всегда могут прочитать на ночь сказку, и если это будет сказка на украинском языке в исполнении Петра Тодосовича Бойка, то я думаю, що дітки з задоволенням і казочку, і вірші Наталі Забіли… Ніно Федорівно, правда, ваш онук Васько з задоволенням і бабусю послухає, і Петра Тодосовича послухає. Поэтому да, есть такие вещи – это не программы, это уже программы, реализованные в определенных компьютерных, электронных продуктах. То есть, есть книги, которые уже сопровождаются видеофайлами, мы можем и увидеть какие-то изображения на экране, и голос диктора, который читает нам текст. Ну, если есть такие возможности, почему их не использовать? И то и другое. Но я не хочу, чтобы мы все превратились в «кібериків» и если пафос моей лекции был воспринят так, то я не за то, чтобы компьютерная лингвистика заменила самих лингвистов, потому что мы тогда останемся без работы.
Надія Міщенко: програміст, колишній.
Карпіловська: ні, пані Надіє, не колишній, а нинішній.
Міщенко:…і нинішній теж, так. У мене такі питання. Я помітила, що службові слова, зокрема прийменники і сполучники дуже часто зустрічаються. Їх частота заважає мені інколи в тексті. Я би хотіла знати приблизно, яка їх кількість, скільки прийменників: тисяча, півтори, п’ятсот? Якщо можете відповісти на це питання: сполучників і прийменників. Це одне, а друге ще – яке найдовше слово є у вашому фонді?
Карпіловська: я його передавала, неоподатковуваність –просте слово, і з тринадцяти морфем у нас антенно-приймально-передавальний прикметник.
Міщенко: а я обмежила себе двадцятьма п’ятьма буквами.
Карпіловська: А, літерами, ні, у нас більше. У нас може бути до тридцяти двох літер.
Міщенко: ой, як жаль, потрібно програму переробляти…
Карпіловська: тому ми подаємо Вам можливість з нашим фондом працювати і вибирати слова за довжиною в літерах. І Ви тоді можете задати ту довжину, яка вас цікавить, і вибрати те слово, якщо воно в нас є, яке вас цікавить.
Міщенко: ні, в мене слова є, але інколи треба знати, яке ще мені попаде, більше слово, ніж це. І ще одне питання, чи можна за допомогою вашої системи скласти словник лексики з хибною омонімією флексій.
Карпіловська: що Ви маєте на увазі під «хибною омонімією флексій»?
Міщенко: ну, коли є флексія, наприклад, слово «але». «Е» - флексія.
Карпіловська: ну, для нас «але» – це неподільне слово. Ми тут флексію не виділяємо.
Міщенко: ну, я, можливо, поганий приклад привела. Але є, скажімо…
Карпіловська: просто кінець слова, який може збігатися з іншим, так?
Міщенко: Ну, в російській мові є такий словник, його якось там використовують, я не знаю
Карпіловська: Кулагіної. Є такий словник. Ольги Сергіївни Кулагіної. От Ніна Федорівна внесе вагому лепту в нашу розмову.
Ніна Федорівна Клименко, член-кореспондент НАН України: я спочатку хотіла сказати, чому такі службові слова, як ми називаємо, прийменники, сполучники, такі частотні в текстах. Тому що ми їх називаємо традиційно кріпильним матеріалом зв’язного тексту. Без цього жодного зв’язного тексту немає. І тому в усіх мовах світу за даними частотних словників найбільше, вони потрапляють у тисячу першу найчастотніших слів будь-якого тексту, це по-перше. Тепер щодо омонімії флексій, я можу, тільки треба трошечки набратися терпцю чи терпіння, у нас, мабуть, в наступному році вийде граматичний словник словозміни української мови, величезний, де зібрано, ну, такий інтегральний словник, за найавторитетнішими словниками української мови, і там все це буде із, він інверсійний, тобто обернений, картина буде така, що можна буде користуватися і вчителям, і студентам, і учням, і робити різні дослідження і методички і все інше. Трошки терпіння – і буде вся омонімія, замість омографії, як у Калугіної чи інших, це буде справді гарний словник.
Репліка із залу: дякую, але все-таки скільки сполучників і скільки прийменників?
Ніна Федорівна: є словник прийменників української мови Загнітка, виданий окремий словник Загнітка прийменників, і є…
Карпіловська: я перепрошую, Ніно Федорівно, і Анатолій Панасович, розумієте, пані Надіє, тут іще все залежить від того…
Репліка із залу: є ще словник сполучників
Карпіловська: сполучників Катерини Григорівни Городенської. Все залежить від того, як ви визначаєте прийменник. От, скажімо, можна ґрунтуватися на тому, що прийменники – це тільки первинні, от, такі, як «на», «в», «до» і так далі. А Анатолій Панасович з своїми колегами виділив іще так звані «еквіваленти прийменників», от, скажімо, «під орудою», «під маскою», те, що словосполука, яка еквівалентна прийменнику, вони це називають «вторинними прийменниками», і у них в реєстрі словника 138 прийменників. Але традиційна граматика це розглядає ще як словосполуки, не розглядає як прийменники, тобто треба подивитися, на якій концепції стоїть автор, а потім уже рахувати кількість, розумієте.
Надія Міщенко: З цим словником можна працювати?
Карпіловська: так, але Ви можете зайти, на сайті лінгвістичного порталу Донецького університету, mova.dn.ua, виставлена база українських прийменників з усіма засобами доступу і опрацювання її Анатолія Панасовича Загнітка і його колег, і ви можете самі подивитися на цей реєстр, попрацювати з ним, повибирати з цього реєстру те, що вас цікавить, бо він у вільному доступі там поданий.
Холмогорова: еще вопросы есть, коллеги? Ага, вижу.
Наталя Петрівна Дарчук: Євгеніє Анатоліївно, я хотіла згадати одну ситуацію, яка відбувалася в цьому році на конгресі з російської мови у Москві в Московському університеті. Там виступала професор Майя Всеволодова, яка виступала останньою на пленарному засіданні і сказала, її основна думка була, вже така узагальнююча, про те, що настав час створити граматику для лінгвістів і створити словник для лінгвістів, і тоді багато питань, які виникають, і сьогодні виникали, і виникають у нас, щезли б. І тоді, коли вона сказала цю думку, ви знаєте, зал, який був, актовий зал, який був вщент заповнений лінгвістами, всі аплодували і аплодували стоячи. Це означає, що настав час, коли нам перед тим, як створити академічну граматику української мови, треба спільними зусиллями створити граматику для лінгвіста, і створити тлумачний словник не для загального користування, а тлумачний словник для лінгвіста. І багато таких словників, які сьогодні ми з вами перетворюємо у комп’ютерну форму, вимагають нашого ретельного вивчення, тому що, коли ми працювали над створенням тезауруса для Microsoft – у нас була, був контракт з Майкрософтом, щоб створити тезаурус, мається на увазі, в англійській традиції це – словник синонімів – то, уявіть собі, нам довелося весь словник синонімів, який був укладений нашими колегами з Інституту української мови, переробити. Чому? А тому, що там, наприклад, була така, такий синонімічний ряд: "горілка", "калинівка", "малинівка", "рябинівка" і так далі. Я питаю всіх, скажіть мені, будь ласка, чи це є види горілки? І, я думаю, ви мені скажете, чи це є синоніми до горілки? І я думаю, ви мені всі скажете, що це – не синоніми, а це є види горілки, бо це є настоянки. І таких, таких неоковирностей було досить багато, тобто коли ми зробили цей словник, тезаурус для Microsoft, і він тестувався в Ірландії, то, я вам мушу сказати, що це був абсолютно інший словник. Це означає, що, перед тим, як ми будемо користуватися цими електронними копіями книжкових словників, а я мушу сказати, що, для того, щоб вони були вбудовані, взагалі електронний словник був вбудований в інтелектуальну систему типу «машинний переклад», «автоматичне реферування, анотування тексту», «автоматичне здобуття смислу з тексту», там повинен бути абсолютно інший тип словника, тобто тип, який, такий тип, який формується на базі знань з певної галузі. І я думаю, що тільки тоді, коли ми всі разом об’єднаємо зусилля, я думаю, що тільки тоді, коли будуть такі словники, ми можемо говорити про майбутнє у лінгвістиці. І те, що сьогодні нам Євгенія Анатоліївна розповідала про надзвичайно ретельно зроблену морфемно-словотвірну базу сучасної української мови, можна стверджувати, що вже початки такої граматики для лінгвістів на рівні морфемному вже є. І можна тільки сподіватися на те, що так же буде пророблена морфологія, і точно так же буде пророблений синтаксис – але без корпусу текстів це зробити просто неможливо, тому що треба знати, як реалізується кожна одиниця, як реалізується кожна словоформа, і нам треба мало того, що знати, як реалізується, ну, наприклад, одноелементні, так, але ще й аналітичні форми. Тобто проблем дуже багато, і в тому ми й вбачаємо майбутнє комп’ютерної лінгвістики, тому що вона дає нам сьогодні надзвичайно великі потужності для традиційної лінгвістики, але я хочу сказати, що на сьогоднішній день традиційна лінгвістика комп’ютерній лінгвістиці дуже мало дала можливостей, наприклад, для семантики, вона дуже мало дала і для синтаксису, тому що доводиться створювати формалізовані інструменти. Тому хочу сподіватися, що Євгенія Анатоліївна, може, очолить цей напрямок, пов'язаний зі створенням лінгвістики, те, про що сказала Всеволодова, якій, мої дорогі, 86 років, це людина, яка має такий досвід лінгвістики і є таким авторитетом в московській лінгвістичній школі, а я думаю, що ми не повинні відставати. Дякую.
Холмогорова: вопросы еще?
Анонім: ще таке невеличке питання, ми його трошки вже торкнулися, це питання правопису. Я на цю тему вже читав років, може, чи два, чи три назад в «Дзеркалі тижня», в нашій такій цікавій газеті, який сучасний стан нашого правопису, так сказать? Цей правопис у нас, можна сказати, що є дві стіни, це скрипниківський і радянський, і оцей сучасний правопис, він або сюди, або туди, і отак-от. Це правильно я розумію?
Карпіловська: оскільки в залі присутня Ніна Федорівна Клименко, один з авторів нового проєкту українського правопису, я попрошу Ніну Федорівну відповісти на це питання. То сам Бог велів Вам сказати, чому ж виникла нова редакція.
Клименко: я знаю вас стільки років, але ніколи не думала, що ви така підступна жінка.
(сміх)
Клименко: я хочу сказати, що новий проєкт правопису — найкращий, той варіант — і на сьогодні мене ніхто не переконав, що може бути щось краще того, який подав Німчук, комісія попередня, національна комісія, і був затверджений він на шостому і на сьомому конгресі україністів, він намагається, цей проєкт, врахувати, так би мовити, тенденції розвитку української мови насамперед, і врахувати органіку української мови — друге, третє — всі правописи світу, які нові укладаються, вони враховують, ідуть за принципом уніфікації: чим менше правил, тим кращий правопис. І тому однозначно зараз не можна говорити, що «чи те, чи інше». Я вважаю що, наприклад, що як є правило дев’ятки, то воно повинне бути одне і для загальних назв, і для власних назв. Чому я повинна писати «Арістотель», коли я знаю, що греки його вимовляють як ми, Аристотеліс, і ми можемо писати там «и», і чому ми повинні повертатися, бо кажуть: «Ми звикли до цього, ми будемо писати «Сіцілія». Я вважаю, що за винятком деяких географічних назв, де не можна розпізнати, скажімо, який топонім лежить в основі назви, ми повинні дотримуватися і тих правил чергування, які є в українській мові, бо, наприклад, ономасти кажуть, не можна казати «лейпцизький», бо пересічний носій мови не може розпізнати слово «Лейпциг» — я думаю, що це неправильно. Ми повинні новим правописом закласти такі уніфіковані правила, які дозволять нам, ну, може, не дуже глибоко ворушити деякі там релікти, які вже усталилися у мові, але дати правила згідно з тенденціями розвитку української мови. І тому ніякі читаючі автомати і розпізнаючі пристрої… Але і сумівні автомати теж не повинні бути, в нас повинен бути правопис і норма — от я хочу сказати відповідь повну на це питання. Є комісія, яка працює, але знову ж таки, що якої спільної думки вони дійдуть, я не знаю. Ця нова комісія дотримується правила, що треба еволюційним шляхом змінювати правопис. Я не знаю, доки буде ця еволюція, але я знаю і інше: правопис потрібен. Чому правопис особливо зараз потрібен? Тому що у часи глобалізації і, будемо казати чесно, не будемо казати, якої хвилі, русифікації, у нас реально ми перебуваємо в тому стані, коли ці впливи активізуються, і є в деяких діячів від освіти намагання їх зробити нормою. То у часи глобалізації, на сьогодні доведено, виживає та мова, яка захищена стандартами норми літературної мови. Так, норма літературної мови несе якийсь компонент консервування мови, але їх треба відстоювати і на рівні правописному, і на рівні граматичному, і на рівні словотвірному, і стилістичному, і всіх рівнях. От коли в комплексі буде прийнято правопис — я думаю, що він буде розумно прийнятий і дотримуватиметься рівноваги, а не розхитування, і коли будуть переглянуті і уявні, експліцитні форми, висловлені вимоги і стилістичні, і граматичні, й інші, — от тоді у нас буде українська мова захищена з усіх боків. А допоки що ми спостерігаємо тут мовну політику, яка розриває тріаду. Мовна політика виходить непродумана і беззахисна. Є національна свідомість, є національна мова, є національна держава. Цю тріаду треба дотримувати, треба розвивати всі три компоненти і добудовувати всю мовну політику навколо них, а не перетворювати балаканину про правопис на рівні балаканини, яка вже в нас триває скільки років? Я вже не знаю, я була в двох комісіях, третьої вже…
Карпіловська: Десь понад десять років. Після виходу «Проєкту» Німчука.
Клименко: так. Я вважаю, що правопис, який був в проекті Німчука, там у нас було 19 пунктів, по яких було розходження, уніфікації. З них 13 пунктів прийняли усі, так би мовити, сторони, які там брали участь у роботі над цим правописом. Залишилося небагато, але треба воля, щоб ця комісія засідала, щоб вона його прийняла і щоб він став законом для пересічного громадянина. Але в нас один журнал пише так, інший інакше, а третій іще якось пише і каже: «А всі в нас так пишуть, в нас зараз все можна писати!» То ми допишемось так до краю.
І тому треба, я не знаю, на якомусь вже рівні суспільному ставити проблему якомога швидшого затвердження правопису — це наш кодекс правописний, і це наша норма і це наш самозахист. Така моя думка, а не «або той, або той». Повинні бути сучасні виважені правила, згідно із органікою української мови.
Карпіловська: дякую, Ніно Федорівно.
Репліки із залу: Хімія чи хемія?
Ніна Федорівна Клименко: Ну, на це питання вже краще відповість пані Ольга Кочерга.
Ольга Кочерга, кандидат фізико-математичних наук: Хемія.
Каденко: будь-ласка, всі дискусії — до мікрофону. Якщо можна.
Ольга Кочерга: є в українській мові три слова із коренем «хім». Це «хімія», «хімікат» і «хімічний». Ну, і відповідні скорочення, «Хіммаш» там, «Хімстрой». Всі решта слів мають корінь «хем». Зокрема, всі складені слова. А в останньому, що вийшов, досить повному словнику природничої термінології є порядка ста слів складених, які містять в собі оцю от морфему «хем». І тільки три слова з морфемою «хім», Навіть статистичний підхід свідчить про те, що має бути «хемія». До речі, голова хімічної термінологічної комісії Київського університету пан Корнілов свого часу сказав: «Та це питання не правописне і не термінологічне, це питання політичне».
Валерій Лисенко, комп'ютерник, викладач: у мене таке дуже приземлене, можливо, питання, але все-таки, оскільки тут дуже багато висококваліфікованих філологів, чільників української філології, я так розумію, то дуже прагматичне питання від рядової маси до наших вершин. От всі ці дуже складні питання, дуже часто конфліктні… Як би від аналізу перейти до синтезу? От ми всі синтезуємо безліч текстів, і звичайно, всі наші тексти контролювати науковим чином на такому високому рівні неможливо. Але, можливо, хоча би надати допомогу нашим виданням, от тільки що казали шановні науковці, звертали увагу на те, що навіть у чільних виданнях, столичних, дуже поважних виданнях, пишуть інколи так, що соромно читати! Так чи не постане нарешті в Інтернеті така довідкова служба, для початку хоча би вручну, хоча би по черзі люди сиділи й пошту читали, і відповідали хоча би так, хоча би в такій формі? Я не кажу про автоматизовану подібну службу, подібну до автоматизованого машинного перекладу…
Наталія Петрівна Дарчук: Ви знаєте, я чому втручаюся — справа в тім, що ми створили років сім, чи більше, сім років так, — ми створили портал, який називається mova.info, і туди надходять питання — правописні питання, і постійно у нас є колеги, які дають відповіді на ці питання. І зараз ми плануємо дуже цікавий проект… Я не буду сьогодні розповідати, ви знаєте, що треба спочатку, щоб були підстави, але правопис буде вбудований в цю систему. І я думаю, що тоді ви будете і не тільки людиною, яка одержить відповідь, але ще й одержить її таким чином, що буде зацікавлена її одержати самотужки з цієї системи. Тобто це буде дуже цікава система!
А в принципі, я думаю, що ті, майже… Щодня ми одержуємо до десяти питань . Це безкоштовна служба, і вона насправді нас багато чому вчить, тому що ми через ці питання розуміємо, що людям сьогодні незрозуміло, на що треба звернути увагу в підручниках. Так, тому що ці питання є для нас предметом аналізу.

Карпіловська: дякую, Наталіє Петрівно, перепрошую, шановні колеги, захрипла під кінець. Але я думаю, що коли буде нова редакція українського правопису, та якщо ця редакція буде прийнята так, як це належало колись, що це приймала Верховна Рада України, тобто цей правопис набував сили закону, то служба службою, а кожна грамотна і культурна людина зможе просто звернутися до правопису і виконувати його як закон. Це по-перше. А по-друге, мовна діяльність, виражена в текстах, теж розмаїта. І одна справа — дотримання норм української мови у офіційно-діловому мовленні, або, скажімо, у професійному мовленні, і зовсім інше — коли ми будемо змушувати обмежуватися тільки чинними нормами, відображеними в правописі, наших письменників. І я думаю, що це просто загальмує їхню уяву і, очевидно, там не треба… Тобто, закон законом, але треба вміти і знати, де його застосовувати. І норма теж річ динамічна, бо в розмовно-побутовому мовленні, коли в нас мовна гра, коли в нас якась цікава алюзія, ми відступаємо від норми, і це якраз, як тепер модно казати, родзинка нашого мовлення. Навіть вкраплення російські — вони дуже часто надають якогось перцю висловленню. І це робиться свідомо, а не тому, що людина має недостатню мовну компетенцію.
Тобто, треба вміти користуватися словниками і треба вміти користуватися правописом, якщо ми хочемо, щоб у нас і далі існувала літературна мова. Бо, вибачте, я вважаю, що це — ну, може, я помиляюся, але я сприймаю як вияв неповаги до фахівців, коли в Інституті української мови або в Інституті мовознавства лунає телефонний дзвінок, і нас питають: «А закінчення слова «біржа» у родовому відмінку яке?» Їм кажуть: «Вибачте, та є ж орфографічний словник!» — «Нам нема коли заглядати»… Ну, тобто сприймати науковців як «чого зволите?» теж не треба, для цього видають словники й правопис, щоби люди дотримували норми.
Репліки в залі: Та є ж служба!
Карпіловська: служба є. Я перепрошую, сьогодні є безкоштовна служба культури мови в Інституті української мови. По певних днях будь-яка людина може подзвонити і одержати професійну відповідь.
Ніна Федорівна Клименко: Є ще й погоджувальна рада.
Карпіловська: І погоджувальна рада є в Інституті мовознавства і української мови, от ми нещодавно збиралися на таке засідання, бо ми з Ніною Федорівною є членами цієї погоджувальної ради, і ми погодилися з Ніною Федорівною, що слово «а-ля фуршет» треба писати разом, як нам пропонували. Бо ми вирішували: як писати, «хакер» чи «гакер», «хіджмейкер» чи «гіджмейкер».
Ольга Кочерга: Звідки там а взялося?
Карпіловська: пані Олю, вас не було на погоджувальній комісії, це третій варіант, який би ми розглядали.
Ольга Кочерга: Це від hack – рубати, сокира, гекер – той, хто рубає сокирою програму.
Карпіловська: ну от ми на наступному засіданні комісії скажемо, що треба ще «а-е» там перевірити, в цих словах.
Коротше кажучи, мовознавці цим займаються, не стаємо ми в позу снобів, що «це не ті проблеми, які нас цікавлять, що ми зайняті тільки високою наукою», і суспільно корисними практичними справами теж займаємося.
Вельмишановні колеги, вже всі стомилися, а деякі лектори вже захрипли, і це показник, що треба, мабуть, закінчувати нашу сьогоднішню зустріч.
Каденко: дякуємо.
Карпіловська: дякую гарно всім.
Каденко: дякую, Євгеніє Анатоліївно. Спасибо нашим слушателям. И мы хотим сказать, что последняя лекция до новогодних каникул у нас будет в следующую среду, 22 числа. Будет совершенно замечательный и уникальный лектор, в своем роде, это Иван Бегтин, человек системы, человек, который занимается системами, можно назвать его и хакером, можно системным аналитиком, он ведет раздел «Гослюди» и «Открытые данные» на polit.ru, и тема лекции будет «Открытые данные в современном мире». Не могу сказать, что он — будущий создатель российского Wiki Leaks, но приближается к тому. Приглашаем вас.
Спасибо, всего доброго, до встречи.
ПЕРЕВОД ЛЕКЦИИ
Каденко: Добрый вечер, дорогие друзья! Сегодня у нас очередная лекция «Публичных лекций Полит.ua», мы рады видеть вас сегодня в зале, несмотря на холод, мороз и другие метеонеприятности. Зрители наши всегда собираются, и всегда это хорошие люди. Сегодня наш лектор – Евгения Карпиловская, заведующая отделом структурно-математической лингвистики Института языкознания имени Потебни, доктор филологических наук, профессор, и будет она нам рассказывать о компьютерной лингвистике. Для меня, как для филолога старого образца, тема очень интресная.
Холмогорова: И с вами – ведущая, руководитель нашего проекта Юлия Каденко, и я, редактор «Полит.ua», Вера Холмогорова. И заодно хочу напомнить, что в этом сезоне наши лекции проходят при поддержке Альфа-банка.
Текст лекции
Карпиловская: Спасибо. Глубокоуважаемые дамы и господа, глубокоуважаемые коллеги, поскольку тема лекции – «Украинская компьютерная лингвистика сегодня: общественные заказы – достижения – проблемы», я прочту лекцию на украинском языке. Конечно, большой нескромностью с моей стороны было бы в полчаса, даже в сорок минут, втиснуть всю проблематику все задания и все общественные заказы, стоящие сегодня перед украинской компьютерной лингвистикой. Я ставлю перед собой куда более скромную цель: в пределах отведенного мне сегодня времени попробовать очертить те задачи современной компьютерной лингвистики, которые, на мой взгляд и по мнению и глубокому убеждению моих коллег-единомышленников, открывают новые возможности для решения не только общественно значимых проблем, но и для развития самой украинской лингвистики. Итак, сам термин «компьютерная лингвистика» и, очевидно, даже вкратце не сказать об этом нельзя, продолжает сегодня и в украинской, и вообще в мировой лингвистике, вызывать острые дискуссии и сомнения по поводу самого права на существование такого самостоятельного направления языковедческих исследований. Почему? Потому что компьютерная лингвистика – это, собственно говоря, все те задачи, которые современная лингвистика решает при помощи нового технического средства – компьютера. И, по убеждению наших оппонентов, вряд ли можно считать наличие определенного технического средства уже основанием для выделения того или иного направления как самостоятельного. Есть структурная лингвистика как предтеча компьютерной, есть лингвистика математическая, есть, наконец, лингвистика прикладная, и существует ли потребность выделять в самостоятельное направление лингвистику компьютерную? Мы считаем, что такая потребность существует, и развитие этого направления языковедческих исследований, по крайней мере в Украине за последние 30 лет нас убеждает в том, что компьютерная лингвистика имеет свой особенный объект исследования, свои особые методы, процедуры и приемы исследования этого объекта, и также имеет свою особую проблематику, которую такой объект и такие приемы, такая методология исследования открывают перед этой отраслью знания. И я постараюсь сегодня это доказать глубокоуважаемой публике. Итак, общественные заказы, определяющие особый объект компьютерной лингвистики – это, прежде всего, предоставить обществу и ученым такую модель языка, которая давала бы возможность получать качественно новую информацию о самом языке и подводила бы надежную основу для решения, как я уже сказала, общественно значимых проблем. Что имеется в виду: сегодня очень остро в Украине стоят проблемы языковой политики, изучения языковой ситуации в нашем государстве. Языковая политика предусматривает возможность опереться на надежную, показательную, многоаспектную, реальную модель функционирования языка. И именно такое техническое средство как компьютер, дает возможность представить язык в детально структурированном виде, языковую систему на разных ее уровнях, подать различные типы языковых единиц, подать различные аспекты изучения таких единиц в удобной для обработки компьютерной форме, ясно, что это – возможность получения качественно нового объекта изучения. И такой объект сегодня компьютерная лингвистика, то есть та лингвистика, которая работает с языковым материалом в компьютерной среде, подает в двух основных видах. Первый из них – это словарь. Что дает нам словарь в компьютерной среде? Я показала, это – первая страница компьютерной версии академического трехтомного «Русско-украинского словаря», который в период 1924-1932-го годов вышел под редакцией академиков Агатангела Крымского и Сергея Ефремова. Это – первая страница этого словаря, а я могу показать, и как в компьютерном виде подано теми, кто готовил такую электронную версию этого словаря, как выглядит сам его текст. Сразу замечу, что в зале присутствуют те люди, которые подготовили электронный корпус словарей периода украинизации, словарей, вышедших в Украине под эгидой Украинской Академии наук в 20-30-е годы прошлого века, и среди них – не только словарь Крымского и Ефремова, а и такие общественно значимые словари, как «Словарь правописания» Григория Голоскевича, как «Украинский стилистический словарь» Ивана Огиенко, как «Русско-украинский словарь правоведческого языка» под редакцией академика Крымского. Сегодня к ним, благодаря усилиям и энтузиазму присутствующего в зале господина Виктора Кубайчука присовокуплены уже и некоторые словари начала ХХ – конца ХІХ века, то есть отодвинуты уже временные рамки этого корпуса до конца ХІХ века. И мы уже имеем электронную версию «Словаря русско-украинского» М.Уманца и А.Спилки, имеем электронную версию «Словаря украинского языка» Дмитрия Яворницкого, и сейчас господин Кубайчук даже уже пошел в начало ХІХ века, и, насколько мне известно, (может быть, это конфиденциальная информация, - но я уж предоставлю ее заинтересованному собранию) – он готовит сейчас электронную версию «Словаря украинского языка» Павла Павловича Белецкого-Носенко, а это словарь, как мы знаем, который подает состояние украинского лексикона первой половины девятнадцатого века. Союз Виктора Кубайчука и Александра Телемко, а это киевское издательство «К.И.С.», которое сделало этот корпус словарей, очень полезен и очень интересен. Он сегодня присутствует в зале, и мы договорились, что в их распоряжении будет 7-10 минут для того, чтобы познакомить подробнее с этим корпусом, который по моему убеждению, не просто подает важный и для культурного украинского общества, и для языковедов материал словарей для работы и для их анализа, но этот корпус имеет еще, по моему глубокому убеждению, и такое историко-культурное очень большое значение, потому что таким образом в удобном современном виде нам возвращается труд людей, которые в 1920-1930-е годы своей жизнью много кто из них доказал свою преданность украинской науке, украинскому языку и украинской культуре. И этот электронный корпус – это дань памяти и нашей благодарности этим людям. Но возвращаюсь к словарю в компьютерной среде. В компьютерной лингвистике такие электронные версии словарей бытуют в двух видах: сначала в компьютерную среду их переводили в виде просто электронных копий, но те усилия, которые тратили люди, готовившие эти копии, продемонстрировали, что только копии, конечно же, мало. Так, в этом виде словарь становится доступным для тех, кто работает на компьютере, но достаточно ли этого? Нам хочется дальше из этого словаря получать нужную для нашего анализа и для языковедческих исследований информацию. Появилось такое понятие, как «машинная версия словаря» или «электронная версия словаря», или есть еще такой термин «компьютерная версия словаря». Чем же компьютерная версия отличается от компьютерной копии. Да тем, что весь текст словаря те, кто готовит электронную версию, препарируют по тем типам информации о языковых единицах, которые этот словарь содержит. Ну, вот перед нами словарь пояснительного типа и словарь переводной, ибо, напоминаю, что это русско-украинский словарь, но он содержит регистрационную единицу, он содержит соответствия к этой регистрационной единице, иллюстративную часть, стилистические или грамматические ремарки, объяснения к тому, как употреблять ту либо иную единицу. И вот те, кто готовит электронную версию, все эти типы информации, помещенные в словаре, повторяю, структурируют, выделяют и формализуют, то есть делают такую разметку при помощи специальных знаков этого словарного текста, которая становится понятной компьютеру. Потому что компьютер, позволю себе напомнить, это – техническое средство, который не имеет человеческой памяти, человеческой интуиции, человеческой языковой компетенции, и это мы знаем, что «а» - это союз, п компьютеру это нужно объяснить, и это мы видим, где в тексте словаря иллюстративная часть, а где ремарки, а компбютеру, опять-таки, все это нужно формализовать и объяснить. И вот в такой формализованной и структурированной версии словарь становится уже объектом, сырьем для дальнейших языковедческих исследований. Ну, только один пример: если в нашем распоряжении есть электронная версия, скажем, толкового словаря, а толковый словарь – это словарь, который в самом полном виде содержит информацию о слове, то мы, благодаря подготовленной электронной версии этого словаря, получаем возможность из толкового словаря при помощи компьютера получить словарь синонимов. Потому что те, кто помнит, скажем, текст одиннадцатитомного толкового «Словаря украинского языка», помнят, что уже и в бумажном виде составители этого словаря продумали те знаки, которыми можно выделить синонимы в этом тексте. Ну, скажем, идет какое-то объяснение к слову, а потом идет точка с запятой, после которой идут синонимы. И этот знак уже может служить для компьютера сигналом для того, что дальше можно выбирать синонимы и автоматически формировать словарь синонимов. Мы можем получить из такой электронной версии фразеологический словарь, потому что в тектсте толкового словаря, мы помним, есть специальные знаки либо специальные шрифты, которые выделяют, так назывемые, фразеологические единицы, то есть стойкие словосочетания, которые передают то или иное понятие, и в зависимости от того, насколько это словосочетание сращено, то есть неразделимо передает то или иное значение, поясляется знак, скажем, ромба – это так называемая идиома, ну, например, «считать ворон» или «точить лясы» - все сразу вспоминают, какое соответствие, какая регистрационная единица словаря может быть объяснена при помощи такого фразеологизма. Итак, появление компьютера в словарном деле радикально, по нашему убеждению, изменила саму технологию языковедческой, в частности словарной, работы. Появилось такое понятие, как «лингвистическая» или «языковедческая технология»: компьютер дает нам возможность, если мы соответственным образом подготовили «сырье», объект обработки, а это, как я уже сказала, может быть электронная версия того словаря, который и, скажем, является первичным для нашего анализа, если мы продумали средства обработки этого «сырья». Скажем, работая с электронной версией толкового словаря, мы продумали, каким образом из этой электронной версии можно добыть материалы для других типов словарей, мы можем на компьютере, как в непрерывном технологическом процессе получить новый продукт. И первое, чем отличается компьютерная лингвистика от других дисциплин, использующих формально-логические, математические методы, компьютерные технологии – это возможностью реализации такого непрерывного процесса от «сырья», исходного объекта нашей обработки, до нового продукта, который мы из этого «сырья» получаем. И такие продукты мы называем в компьютерной лингвистике «новыми лингвистическими объектами». Почему они новые, потому что они дают возможность получать качественно новую информацию о языке.
Но я показала сейчас версии традиционных словарей, то есть продемонстрировала способы, при помощи которых бумажные словари, словари, составленные вручную, можно переводить в компьютерную среду; и такие словари, прежде всего, предназначены для широкой общественности, вообще для культурной публики, которая получает, таким образом, возможность по-современному работать с этими словарями на компьютере. Но дальше на экране уже высветились, к сожалению, я прошу прощения, здесь нет нашего драйвера, и заменились наши „і”, „ї” и „и” ударные, прошу прощения, ну, однако это, поверьте мне, «лингвистика», «экзамен» и «украинский», вот. То, что вы видите, уважаемые господа, на экране – это реестр украинских слов, которые мы в своем отделе, в отделе структурно-математической лингвистики, подготовили как «сырье» для дальнейших исследований морфемного и словообразующего строения украинских слов, это – генеральный реестр компьютерного морфемно-словообразующего фонда отдела структурно-математической лингвистики Института языковедения имени Потебни Национальной академии наук Украины. И вот в зале, я очень этому рада, присутствует член-корреспондент Национальной Академии наук Украины Нина Федоровна Клименко, под руководством которой мы в 1988 году начали делать такой генеральный реестр. Какую цель мы перед собой поставили, и каким образом в этом реестре представлена информация традиционных бумажных словарей. То есть, что это за электронное компьютерное сырье, и как мы его дальше используем. Мы поставили перед собой цель: прежде всего по материалам разнотипных, академических, то есть нормативных, показательных по своим реестрам словарей украинского языка советского времени, то есть словарей, изданных в период с 1970 по 1989 год, представить как можно полнее качественный состав украинского лексикона. Сделать надежную показательную модель украинского лексикона. И для формирования этого реестра было отобрано вначале три словаря, а потом мы их дополнили еще двумя словарями. Первым был 11-томный «Толковый словарь украинского языка». Напомню, объем его реестра около 137 000 слов. Чем для нас был интересен этот реестр? Это не просто нормативный состав украинского лексикона, можно много дискутировать по поводу того, что такое норма, каким образом она отражена в 11-томном словаре. Я думаю, что это повод для дискуссии и обсуждения, но словарь базируется на бытующих с то время нормах литературного украинского языка. Словарь подавал не только общеязыковую лексику, но и лексику профессиональную, диалектную, представленную в произведениях мастеров украинской литературы ХІХ-ХХ веков, и точно так же был представлен большой массив лексики исторической.
Информация 11-томного толкового словаря была дополнена материалами из академического «Словаря иностранных слов», первое издание которого вышло в 1974 году под редакцией академика Александра Савича Мельничука. Объем реестра этого словаря около 25 тысяч слов, и он в огромной степени дополнил реестр СУМа, так мы называем словарь украинского языка, потому что, ясное дело, редко употребляемая, профессиональная иноязычная лексика в СУМ не попадала, тем не менее, она была для нас интересной. Поэтому мы дополнили реестр этой информацией.
Ну, и третий основной словарь в начале нашей работы – это был «Частотный словарь современной украинской прозы», составленный в нашем отделе структурно-математической лингвистики в 1970-е годы. А издан он был в 1981 году под редакцией первого заведующего нашего отдела, и вообще основателя нашей школы структурной, прикладной, математической и компьютерной лингвистики а Украине, профессора Валентины Сидоровны Перебыйнис. Чем был для нас интересен этот словарь. В этом словаре, поскольку это язык художественной прозы, было немало окказионализмов, индивидуально-авторской лексики, индивидуально-авторских новообразований, которые обычно тоже не попадают в нормативные академические словари, и тем не менее они были для нас интересны и с точки зрения морфемного строения украинского слова, и с точки зрения его словообразующей структуры. Скажем, такие единицы как «райгусак», «райкарась», «заготкачечка», «доплуганитися», «зебра-ковбаса» и так деле, и тому подобное. Вряд ли мы с вами встретим их в 11-томном толковом словаре, а вот в этом словаре подобной лексики много, как много и интересной для нас суржиковой лексики, ибо художественное произведение – это не только язык автора, но и язык персонажей. А для тех, кто изучает так называемые языковые болезни, для тех, кто интересуется такими опасными участками украинского лексикона, то есть участками, которые, прежде всего, должны привлечь внимание и тех, кто занимается формированием норм нашего языка, и тех, кто интересуется перевранными словами, для тех, кто интересуется кальками, которым не место в лексиконе, например «співпадати» и «міроприємство», и «столова», м «пирожне» и так далее, и тому подобное. Для обычного нормативногот словаря, ну, такая лексика вряд ли туда попадет, а для исследователя она будет весьма интересной. И много такого в наш реестр вошло. Мы это наше сырье, этот генеральный реестр сформировали таким образом. Как видите, один блок от второго отделен запятыми, это так называемый зонный принцип записи информации о слове. Когда есть объект, о котором собирают информацию, такой объект для нас – это украинское слово, да еще и слово, которое подразделено на минимальные значимые его составные, на морфемы. А такие морфемы, это у нас был корень, вы видите его в косых скобках, это были флексии, они стоят после звездочки, это были префиксы, вы их видите после амперсанда и перед косой. Это были суффиксы, вы их видите после косой перед звездочкой. Скажем, «лингвистика» и «студент». Вот слово было таким образом структурировано и формализовано для дальнейшей обработки в компьютере. Но к слову, по всем словарям, по которым мы дополнили те три словаря, о которых я говорила, это был двухтомник Ивана Тимофеевича Яценко, который называется «Морфемный анализ». Этот словарь вышел в Киеве в издательстве «Вища школа» в 1980-1981 годах. Нина Федоровна была его ответственным редактором, а Иван Тимофеевич Яценко, к сожалению, его уже нет с нами, но это известный украинский языковед, который много лет заведовал кафедрой украинского языка в Черкасском, тогда еще педагогическом институте, а теперь это Чкркасский национальный университет имени Богдана Хмельницкого. Словарь очень интересен для нас тем, что много подал терминологической лексики и, конечно, он облегчил нам формирование реестра, потому что а этом словаре, напомню, он называется «Морфемный анализ», слова уже подавались разделенными на морфемы.
Вот первая зона, буква «М» - это первая зона словаря «Морфемный анализ». Вторая зона, которая открывается буквой «Т» - это зона толкового 11-томного академического словаря. Цифра после буквы показывает, какое количество значений в этом словаре имеет это слово. Ну, скажем, слово «компьютер», мы видим одно значение, а слово «мова» - шесть значений, а слово «іспит» - два значения, и так далее. Это тоже было для нас важно для того, чтобы далее изучать распределение однозначной, многозначной лексики в украинском лексиконе.
Зона словаря иностранных слов обозначена буквой «Х», и, поскольку это тоже словарь пояснительного типа, то цифра, после этой буквы указывает также на количество значений в этом словаре. И мы с вами видим, как по-разному словари различных типов подают даже информацию о количестве значений слова. Вот пример слова «университет», которое пришло к нам из латыни, и в 11-томном словаре оно имеет два значения, а в словаре иностранных слов – три значения. А откуда такое расхождение? Те, кто работал с этими словарями, сразу же поймут, что поскольку установка словаря иностранных слов – подать те прообразы в языках-источниках заимствования, от которых украинский язык принял то или иное слово, и для составителя Словаря иностранных слов» было важно подать первобытное значение, в котором слово «университет» пришло в украинский язык, вот в том значении «университет», как то учебное заведение, который дает общее представление, общее знание о мире. Это не совсем то значение «университета», как высшего учебного заведения, в котором это слово бытует сегодня в украинском языке.
Ну, и, наконец, еще два словаря, которые поданы в этом реестре. Вот латинской буквой «F» обозначена зона двухтомного «Частотного словаря современной украинской художественной прозы». Ну, английское «frequency» - «частота». Так нам было удобно обозначить эту зону, потому что и сами эти формальные знаки, сигналы для компьютера, те, кто создает электронную версию словаря, пытаются делать так, чтобы прозрачным было содержание этого знака, что он обозначает: то ли тип словаря, то ли какое-то качество информации, которую эта зона передает. Цифра после латинской F – это абсолютная частота употребления такого слова в полумиллионной текстовой подборке, на основании которой составляли «Словарь современной украинской прозы». Почему пятьсот тысяч? – спросят меня те, кто знает, что сейчас корпуса оперируют уже объемами в сотни миллионов словоупотреблений. Да потому, что лингвостатистика уже давно доказала, что не стоит заниматься для выполнения многих задач гигантоманией, а вполне достаточно для того, чтобы получить очевидные характеристики частоты употребления слова в тексте – достаточно выборки не менее 300 000 словоупотреблений. И будут надежными эти статистические характеристики, которые мы получили. Итак, текстового объема в 500 000 словоупотреблений было вполне достаточно для того, чтобы определить частоту употреблений того или иного слова в нашем реестре.
Ну, и наконец латинская буква «G» - это обозначение зоны словаря, который был интересен для нас потому, что в 1988 году, когда мы начали формировать наш реестр, в украинской лексикографии не было ни единого словаря новых слов. У нас были только такие дополнения лексики, которая не вошла, скажем, в тома 11-томного толкового словаря. Ну, вот одиннадцатый том поместил такое дополнение. Там была и новая лексика, и просто пропущенные слова на буквы А-П. А специальных словарей новой лексики, таких, какие в то время уже выходили в польской лексикографии, и в русской лексикографии, у нас еще не было. Они появились только в начале ХХІ века. И вот словарь Сергея Ивановича Головащука, вышедший в 1989 году, и называется этот словарь «Словарь-справочник по правописанию и словоупотреблению». Он в своей первой, орфографической, части содержал много новых слов, которые не вошли в 11-томник и были в то время новыми для украинского лексикона. И мы эти слова тоже ввели в свой реестр. Ну, и наконец, поскольку это слово, то для нас было важным к каждому слову подать указатель принадлежности к части речи. И вы видите, что в конце записи стоят буквы „і” – іменник (существительное), ”п” – прикметник (прилагательное) и т.д. Замечу, что кроме десяти частей речи, которые выделяет традиционная украинская грамматика, мы добавили еще специальные указатели для причастия и деепричастия, поскольку, хотя это и отглагольные формы, однако они имеют особенную специфику и в построении, и в употреблении, и поэтому нам было интересно и важно выделить их как самостоятельные разряды слов. Подготовили мы такое «сырье», и что же дальше мы с этим «сырьем» начали делать? А мы для нашего морфемно-словообразующего фонда сделали специальную систему «Морфолог», которая давала нам возможность работать и с самим «сырьем». Вы видите то, что подано в разделе «База» - это разнообразные процедуры усовершенствования самого нашего «сырья»: коррекция, скажем, исправление ошибок, удаление некоторых записей, которые мы считали ненужными, либо, наоборот, введение таких записей. Сразу же замечу, что я показываю рабочую версию этой системы, а сейчас мы работаем над новой версией и, скажем, то, что касается самого «сырья», то в качекстве отдельных записей, мы сейчас добавляем указатели различных фуекциональных вариантов слова. Ну, скажем, причастие «трудящийся» и уже в самой статье может быть такая ремарка – «в значении существительного». Вот мы такие вот записи, что причастие может выступать и в роли причастия, в первичной своей функции, и в роли имени существительного, и в роли прилагательного, или, скажем, наречие может выступать в роли предлога и наоборот – мы все такие вещи сейчас подаем как самостоятельные записи. Мы сознательно готовим сейчас «сырье» для работы над новой вувдемической грамматикой украинского языка, созданием которой уже как плановой темой с начала этого года занимается академический Институт украинского языка.
Итак, у нас есть возможности в нашей системе «Морфолог» работы с самим «сырьем», но есть и возможности из этого «сырья» формировать новые языковые продукты. Что это может быть. Это может быть режим Слова. Я сейчас не стану этого демонстрировать, но только скажу, что в этом режиме мы получаем все слова нашего генерального реестра не в записи, разделенной на морфемы, а в записи орфографической безо всех этих информационных зон, которые вы только что видели на экране. Получаем просто реестр украинских слов, который может быть интересен по тем или иным соображениям для работы исследователей Второй режим – Слова с соответствующими функциональными характеристиками – это, собственно говоря, реестр в том виде, в каком мы его сейчас видели. ТО есть, мы работаем со словами в морфемной записи и со всем информационным кортежем к таким словам, со всеми зонами нашей информации. Но в нашем морфемно-словообразующем фонде мы при помощи компьютера отдельно выделили словари префиксов, словари суффиксов, словари корней, словари морфемных моделей слов, и я далее их покажу. Прежде, чем к ним перейти, я хочу, кроме такого общего интерфейса, то есть в таком визуальном виде средств доступа и ведения нашей базы данных… В таком обобщенном виде интерфейс подает все возможности работы с нашим материалом. Так вот, кроме такого общего интерфейса, я хочу показать интерфейс специальный, который может выполнять функции не только информационно-справочной системы, но и системы учебной и системы исследовательской.
Что мы можем делать с нашей информацией, и по каким параметрам мы можем получать то, что нас интересует и просто как пользователя компьютера, и как исследователя-языковеда? Вы видите, это может быть выбор слов по их буквенной маске, это может быть выбор слов по маске морфемной. Что такое морфемная маска. Ну, скажем, речь идет не об отдельных буквах, с которыми играем так же, как играют участники игры «Поле чудес», здесь у нас, в морфемной маске – это показатели классов морфем. То есть, ну, например, мы хотим выбрать все слова, которые содержат корень и флексию, млм те слова, которые содержат корень, любая морфема после корня и флексии – комрьютер нам по такой морфемной маске эту информацию выдает.
Далее вы видите, мы можем выбирать слова разной длины и те, кто, скажем, сегодня заинтересован в задачах сугубо практических – скажем, посмотреть, а сколько в украинском языке длинных слов, слов коротких, какие это слова, какую семантическую нагрузку в лексике они имеют. Вот мы даем такую возможность работы с нашим лексиконом и получения информации, причем, можно выбирать такие слова не только по длине в буквах, но и по длине в слогах, и по длине в морфемах. А морфема, мы знаем, может содержать до семи букв. То есть, и длина разная может быть для исследователя, в зависимости от того, что его интересует.
Далее, поскольку я уже говорила о том, что мы подаем различные типы таких минимальных значимых единиц слова, мы дали возможность такую информацию и пользователям нашего фонда получить: мы можем выбрать слова по корню, по суффиксу, префиксу, причем с различной позицией, занимаемой ими в слове, и по различному графическому виду. То есть, мы можем набрать конкретную морфему, которая нас интересует, скажем, «рук» - «руч», или «гір» - «гор», и получим не только слово «гора», но и слово «гірка” («горка»). И таким образом мы получаем возможность формировать уже определенные корневые и словообразующие гнезда. И эту возможность, я , например, использовала, когда делала свой «Корневой словарь украинского языка», и я дальше его коротенько покажу. Ну, и наконец, мы можем по необходимости работать с каждым из этих параметров отдельно, а можем и задавать компьютеру различные комбинации этих параметров, которые нас интересуют.
Я сразу же хочу сказать, что то, что касается учебной функции такого реестра украинских слов, то эту функцию реализовали наши коллеги из Киевского национального униве6рситета имени Тараса Шевченко. Вот в зале присутствует Наталия Петровна Дарчук – руководитель лаборатории лингвистики университета. Наши коллеги сделали электронный учебник украинского языка, и он для интересующихся людей выставлен на сайте на лингвистическом портале Киевского национального университета. Адрес этого портала, если не ошибаюсь, mova.info. Да, Наталия Петровна? Там можно поработать с этим электронным учебником, который дает возможность и делать морфемный разбор слова, и разбор словообразующий, можно себя проверить, а скажем, и преподавателю университета, и учителю школы – это уже готовый, современный материал для уроков по определенной проблематике.
Ну, однако я уже сказала, что при помощи компьютера мы пытались создавать новые лингвистические объекты для нашего дальнейшего языковедческого анализа. Вот как, разбросав слова на те составные, которые они содержали, мы построили при помощи компьютера отдельные словари морфем. Вот так выглядит словарь украинских префиксов. Это небольшой его фрагмент, по алфавиту, а можно подать этот словарь и в другом виде – в виде рангового списка, поскольку здесь есть информация об абсолютной частоте употребления того или иного префикса в словах нашего генерального реестра, поэтому можно составить по спаду этих частот и выделить таким образом наиболее продуктивные префиксы и дойти до префиксов, уникальных в украинском языке. Вот таких, скажем, исторических обломков, как префикс «ко», сохранившийся только в одном слове, которое вызывает кроме всего еще и большие сомнения относительно его правомочности в современном украинском лексиконе – это слово «закоулок». Но оно есть в нашем лексиконе, в нашем генеральном реестре. Точно так же выглядят и словари суффиксов, корней, флексий и в сложных словах мы еще выделили так называемые соединительные гласные наподобие «о», «е» - буревій, пароплав. Какими могут быть эти межкорневые прокладки в сложных словах? Ну, скажу сразу, многоуважаемые коллеги, поскольку наш генеральный реестр оказался достаточно показательным, сегодня в его составе более 171 000 украинских слов, то довольно показательны и надежны и сами такие словари отдельных морфем.
Скажем, наш словарь префиксов содержит 145 единиц, словарь суффиксов – 682 единицы, список корней, который мы предоставляем нашим пользователям, - более 22 тысяч корней. Это достаточно мощные списки. Для сравнения скажу, что школьный морфемный словарь, который составил на базе тридцати восьми наиболее употребительных украинских слов Левко Михайлович Палюга, содержит 90 префиксов, содержит 120 суффиксов, содержит 200 корней, то есть для исследователя подобные списки, естественно, имеют существенное значение.
А это действительно принципиально новый лингвистический объект. Что это такое. А это, уважаемые коллеги, «Словарь символьных моделей морфемной структуры слова». Мы при помощи компьютера, вот по тем знакам, сигналам того или иного класса морфем перевели запись конкретного слова в запись символов, которые обозначали те морфемы, которые слово содержит. Ну, скажем, если у нас было слово «мова», то в перечне морфемных моделей оно заменилось символьной моделью «RF», то есть корень-флексия. Если это было слово «український», то оно заменилось модулью «RSF», то есть R – корень, S – суффикс, F – флексия. И так далее. И вот мы получили такой перечень моделей, по которым строятся сегодня слова украинского языка, и мы, кроме всего прочего, сжали наш реестр в более чем 171 тысячу слов до 495 моделей. А 495 их потому, что здесь не только простые, но и сложные слова, а моделей, по которым строятся простые слова украинского языка, а простые – это те слова, которые имеют лишь один корень, так вот их всего 51. 51 модель дает в нашем реестре более 130 тысяч различных слов. То есть , символьная модель была для нас очень удобным инструментом для изучения законов конструирования украинского слова. И эта наша общая с Ниной Федоровной Клименко работа была опубликована в журнале «Мовознавство» («Языковедение») в 1991 году, а после этого, в 1998 году, вышел учебник Нины Федоровны «Основи морфеміки сучасної української мови» («Основы морфемики современного украинского языка») и книга „Як народжується слово” («Как рождается слово»), и много чего еще вышло, где мы развивали эти идеи законов конструирования украинского слова. Каковы же они, эти законы? Прежде всего – это закон простоты. В украинском языке подавляющее большинство слов построено по наиболее употребительным, простейшим символьным моделям строения. Нам даже удалось вывести показатель оптимального количества таких элементов-составляющих в структуре украинского слова. Мы, изучив особенности механизма построения существительных, глаголов, прилагательных, то есть тех частей речи, которым присущи и различные типы морфемной структуры, и разнообразное словообразование, которое как раз и дает такое нанизывание составляющих в слове, обнаружили, что подавляющее большинство таких слов состоит из четырех плюс-минус одной морфем. То есть, ядро украинского лексикона составляют слова, в которых 3-5 морфем. И такой наш вывод лишний раз доказал типологические харатеристики украинского языка, как, напомню, языка флексивного с преимуществом синтетизма в его номинации. Поясню: речь идет о преимуществе однословных номинаций в нашем лексиконе.
Кроме закона простоты, это был еще закон симметрии, потому что украинское слово тяготеет к, сложное в особенности, к равновесию – вот сколько префиксов, столько и суффиксов. А если слово простое, то мы видим здесь асимметрию, которая, опять-таки, доказывает флексивный тип нашего языка. А почему преобладают суффиксы в структуре украинского слова. Да потому, что все грамматические, словообразующие значения передаются при помощи суффиксрв или флексий, который выполняют роль суффиксов. Вот такая работа была сделана при помощи компьютера.
Что еще давал нам возможность сделать наш «Словарь символьных моделей украинского слова», какую еще задачу помогал решить. Перед вами, глубокоуважаемые господа, так называемая морфемная сетка украинских слов. Что это такое. Это смоделирован таким образом сам механизм образования слов той или иной части речи. Я взяла для примера существительные, потому что, во-первых, существительные – это мощнейшая часть речи в составе лексикона, в нашем реестре имен существительных более 55 тысяч. А кроме того, существительные предоставляют и наиболее широкий круг типов самого строения слова. Саму морфемную сетку как формальную модель предложил в свое время, такой способ изображения предложил немецкий ученый Поль Менцерат. Я подала это в виде прямоугольника, а у Менцерата это было изображено в виде параллелограмма, и эта формально-логическая модель в компрьютерной лингвистике, в лингвостатистике известна именно под названием «Параллелограмм Поля Менцерата». Он применил его для анализа возможностей, то есть самого потенциала, заложенного системой языка, для создания графемной и фонемной структуры немецких слов. Эта его работа вышла в 1953 году, а мы с Ниной Федоровной использовали параллелограмм Менцерата в виде такой сетки для анализа морфемного строения, механизма конструирования морфемного строения украинских слов. Сама эта сетка – это, собственно говоря, ориентировочный граф, точка развертывания которого – минимальная морфемная структура, в данном случае существительного, мы ее видим в правом верхнем углу, это структура «R» - слова состоят только из корня, только одна морфема. Это по преимуществу либо звукоподражание, либо заимствованная лексика. Для существительных – это заимствованная лексика: «кашне», «бра» и т.д., неизменяемая, «плато» и т.д. Развертывание на правой и левой оси – это увеличение такой ядерной морфемной структуры за счет послекорневых элементов, то есть того, что подставляется к такому Корнею – и это суффиксы или флексии. А то, что разворачивается влево от такой ядерной структуры – это докорневая часть слова, то есть это нанизываемые префиксальные морфемы.
И морфемная сетка строилась вначале таким образом: были зафиксированы (светлым цветом вы их видите) с показателями количества слов, которые дает в украинском лексиконе, в нашем генеральном реестре та или иная структура – это реальные структуры украинских слов. Это то, что было засвидетельствовано нашими словарями-источниками формирования нашего реестра. А потом сетка была дополнена, и то, что зарисовано серым цветом, - это потенциально возможные, но еще не засвидетельствованные в источниках, с которыми мы работали, типы морфемного строения слова. И вот таким образом смоделированный механизм создания существительных, предоставлял нам возможность и выяснитьЮ почему так мало больших слов. Вот мы и выяснили, что в простом украинском слове, где может быть один корень и одна флексия, может быть максимально 4 префикса (причем, это считанные слова, наподобие «поназдоганяти» либо такое уникальное наречие, как, например, «доневпоїду»), может быть до 6 суффиксов и флексия. Ну, не больше слов, как вы видите, приходится и на другие громоздкие морфемные структуры. Эта морфемная сетка доказывает, что действительно подавляющее большинство украинских слов содержит 3-5 морфем. Их легко выговорить и легко запомнить.
И еще один словарь, и еще один лингвистический объект, который можно было составить при помощи компьютера – получить, опять-таки, качественно новую информацию о системе украинского языка – это «Корневой гнездовой словарь украинского языка», для которого из того корневого реестра, поданного нашим морфемно-словообразующим фондом, я отобрала только корни, так называемые омографы. Что такое омограф? Это корень, который имеет общую форму, но разное значение. И вот перед вами, многоуважаемые господа, примеры двух таких гнезд, с корнями-омографами «пол-». Первое гнездо – это корень «пол-», реализованный в слове «пола». И вы видите в наполнении этого гнезда все, что этот корень дает на сегодняшний день в нормативных академических словарях, то есть в тех словарях не-диалектных, не-исторических, которые отражают такое общее языковое сознание современного украинского носителя языка. Второе гнездо – это корень «пол-», реализованный в слове «поле». И, опять-таки, ну, здесь только фрагмент этого гнезда, вы видите, в чем он может реализоваться.
Какую, снова-таки, новую и интересную для и носителей, и для исследователя информацию предоставлял этот словарь? Он, прежде всего, дал возможность посмотреть, как в структуре украинского лексикона работает корень-омограф, то есть, как одна форма дает возможность собрать вокруг себя разное содержание, как то, что легко запомнить, опять-таки общая форма – как она дает возможность составить лексикон, какие эти омографы, что привносит в такое составление лексикона заимствованная лексика. Вот, например, был не-омографический для украинцев корень «клип-» - кліпати очима, да? А появилось заимствование из английского языка – слово «клип», и у нас появился корень-омограф. Потому что у нас есть «клип», у нас есть «видеоклип», у нас есть глагол «клиповать», есть отглагольное существительное «клиповальщик», ксть конкурент клиповальщику – клипмейкер и производные от него, и формируется новое такое гнездо.
И еще одно, о чем я хотела в связи со словарями сказать, это работа, которой мы заняты сегодня, и которой, по моему глубокому убеждению и мое, и моих коллег, мы даем ответы тем, кто интересуется тенденциями развития современного украинского лексикона и тенденциями развития современного украинского языка. Мы уже более 10 лет работаем над изучением новой украинской лексики. Вот в конце этого года, и мы уже отчитались этой работой ученому совету нашего института, мы выносим на суд общественности новый тип словаря украинской лексики – это «Словарь концептуальных полей новой лексики». То есть, уже не просто регистрационный словарь, фиксирующий отдельные новые слова, появившиеся в украинском лексиконе.
Вот я вижу в зале мою коллегу из Института украинского языка Оксану Николаевну Тищенко, союз Оксаны Николаевны и ее коллег создал словарь новой лексики собственно регистрационного типа, так называемый словарь «Словарь-ежегодник». Вот как ежегодно и какие слова прибывают в украинский лексикон.
А мы с коллегами поставили перед собой другую задачу, уже солбрав такую новую лексику, попробовать показать, как разрабатываются в целом в современном украинском языке те или иные понятия, а если это слово было известно, то как новые аспекты этого понятия разрабатывают носители современного украинского языка. И вот то гнездо, которое я показываю вам на экране, как раз и касается тех слов, которые уже были известны украинскому языку, но как эти гнезда пополняются за счет новой лексики, и как значимо для современного украинского говорителя понятия вербализируется, то есть ословливается в современном украинском лексиконе.
Вот слово «коалиция», которое украинскому лексикону известно еще со времен словаря правописания Григория Голоскевича. В этом словаре правописания есть и слово «коалиция», есть и слово «коалиционный», а вот желтым зарисовано все то, что за последние 10-15 лет появилось, причем, глубокоуважаемые коллеги, вы видите, что здесь не только нейтральная лексика, лексика которая не вызывает у нас вопросов относительно своей нормативности, но и лексика экспрессивно и оценочно окрашенная. Правда? Ну, вот у нас не возникает вопросов относительно слов «коалиционность», «коалиционно», относительно названий самих членов коалиции, хотя мы здесь с вами видим явную конкуренцию, правда? И «коаліціянт”, и „коаліціонер”, и „коаліціоніст”. И мы сегодня стоим перед проблемой – а что важнее? А что, собственно говоря, наиболее допустимо для современного украинского лексикона? Но вы видите здесь и такие слова как «коаліцієподібний” („коалициеобразный») или „коаліціада”. Вряд ли эти слова попадут в нормативные академические словари, но для тех, кто изучает современную украинскую языковую деятельность, я и мои коллеги убеждены, такие слова очень интересны.
Конечно же, невозможно, еще раз скажу, охватить все проблемы и все задачи, стоящие перед компьютерной лингвистикой, потому что я коснулась здесь лишь того, как использование компьютера дает возможность нам по-новому обработать словарные материалы, строить словари новых типов. Я не коснулась здесь весьма животрепещущей для украинского языка проблемы создания украинских корпусов. И у нас сегодня, к сожалению, мы должны это констатировать, нет в свободном доступе национального корпуса украинского языка, хотя мы много слышим о нем и читаем в публикациях разработчиков такого корпуса. Это наши коллеги из Украинского языково-информационного фонда, однако, корпуса этого в свободном доступе, выставленном в Интернете на сегодняшний день, к сожалению, нет. Есть в Украине так называемые исследовательские поисково-экспериментальные корпуса, их немало, как немало и электронных украинских библиотек. И, конечно, они дают возможность работать не только со словарями как моделями языковой системы языковой системы, но и с текстами как моделями функционирования этой системы. Это и корпус поэтической речи, публицистического стиля, научного стиля, который создали и развивают дальше наши коллеги из лаборатории компьютерной лингвистики Киевского национального университета. Это и корпус произведений Ивана Франко, который создает наша львовская коллега госпожа Соломия Бук. Кстати, и сам корпус, и частотные словари, конкордансы, то есть словари соединимости, которые госпожа Соломия составляет по материалам этого корпуса, выставлены в свободном доступе в Интернете. Это весьма интересные для исследователей авторского языка корпуса языка писателя.
Выставлен в Интернете и очень интересный конкорданс произведений Григория Сковороды, созданный нашими харьковскими коллегами из университета имени Каразина. Это чрезвычайно ценный для нас конкорданс поэтических произведений Тараса Шевченко. Он называется «Конкорданція поетичних творів Тараса Шевченка» («Конкорданция поэтических произведений Тараса Шевченко»). Это работа наших коллег из Института украинских исследований Альберты Юрия Гавриша и Олега Ильницкого, и он, этот конкорданс, выставлен в Интернете, но он существует и в бумажном виде – это четыре больших тома, которые есть в наших библиотеках, и это очень полезный и интересный материал для тех, кто работает с текстами.
Я не коснулась здесь и такой очень важной проблемы, как использование словарей и корпусов, которые готовит компьютерная лингвистика, для разрешения назревшей проблемы подготовки новой редакции «Украинского правописания». Считаю, что это сегодня одна из наиболее острых и важных задач, которые ставит перед языковедами общество, потому что та война в области правописания, свидетелями которой мы являемся с 1999 года, после того, как мои коллеги опубликовали проект новой редакции «Украинского правописания», подготовленный как слово специалистов для дискуссии, а вокруг этого началось много политиканства, абсолютно ненужного в подобных делах. Так вот, и надежные словарные материалы, и надежные текстовые материалы дают возможность поставить разработку норм правописания на надежную основу, доказать, что должно быть так в правописании, а не иначе, и не потому, что это кому-то так нравится, а потому, что это отражает типологические черты языка и саму суть украинской языковой деятельности. Я глубоко убеждена, что компьютерная лингвистика здесь может сказать свое весомое слово и помочь тем, кто сегодня, по крайней мере есть такое задание академическим учреждениям – подготовить, наконец, к окончательному обсуждению редакцию нового «Украинского правописания», и мы верим, что это все-таки состоится.
И последнее, о чем я хотела сказать, это, опять-таки, весьма важное задание, которое перед нами ставит общество, подготовка новой украинской грамматики. Потому что, чего греха таить, последняя украинская грамматика вышла в свет в период с 1968 по 1973 гг. В 1979 году мир увидел том о словообразовании, как дополнение к этой академической грамматике и, собственно говоря, уже почти… не почти, а более тридцати лет Украина живет без новой грамматики, а это при тех интенсивных, кардинальных переменах, которые произошли и в лексиконе, и в грамматике нашего языка. И, опять-таки, подготовка на новых принципах академической грамматики требует, прежде всего, и нового фактографического обоснования, а его может предоставить именно компьютерная лингвистика в тех своих словарных и текстовых моделях, о которых я сегодня кратко пыталась рассказать. И, кроме того, академическая новая грамматика станет надежным фундаментом для подготовки новых практических грамматик украинского языка, новых учебников украинского языка и для школы, и для университетского образования, а таким образом, я думаю, языковеды дадут новую взвешенный и профессиональный ответ тем задачас, тем заказам, которые перед нами выдвигает украинское государство, помогут действительно выработать надежную языковую компоненту действенной языковой политики украинского государства.
Спасибо за внимание!
(аплодисменты)
Обсуждение лекции
Каденко: Спасибо, Евгения Анатольевна! У нас такой регламент: как всегда будут вопросы из зала, а первый вопрос – от ведущих. И у меня два вопроса. Во-первых, как я понимаю, словарь это – всегда анализ, всегда структура, всегда алгоритм. Не является ли компьютер только инструментом для обработки и сохранения данных, сохранения труда, и он просто больше, чем позволяет печатный словарь? Это первый вопрос. То есть, существует ли на самом деле компьютерная лингвистика? И второй вопрос: кто пользуется наработками компьютерных лингвистов кроме специалистов в области лингвистики? Могут ли с этими словарями работать, ну, не говорю ученики, ну, может, студенты?
Карпиловская: Благодарю. Существует очень хорошее определение словаря. Говорят, что словарь – это ответ на любое лингвистическое задание, и вообще на любое задание. Так вот, словарь – это просто удобная форма составления, обобщения и подачи информации. И, естественно, как и сама научная деятельность, есть деятельность, направленная на широкие слои населения, существуют словари, которые адресованы и ученикам, и любому грамотному члену общества, точно так же есть словари, адресованные профессионалам. Есть словари, требующие для работы с ними специальных знаний, в частности, специального филологического образования. Конечно же, те словари, о которых я говорила, это и материал для тех, кто, скажем, сегодня готовит и учеников в школах, и новых филологов в системе нашего университетского образования, и это словари, которые используют наши коллеги-языковеды. Ну, скажу, что морфемно-словообразующий фонд это – исследовательская система, она не выставлена в открытом доступе в Интернете, но всем нашим коллегам, которые интересуются и нашим реестром, и хотят получить какую-то информацию из нашего фонда, мы открыты, никогда не отказываем, эту информацию предоставляем. Но, скажем, словарем и корневым, и нашим школьным словообразующим словарем, который вышел в 2005 году, это наша работа с Ниной Федоровной Клименко и с присутствующей здесь в зале молодой коллегой Ларисой Павловной Кислюк, так вот школьный словообразующий словарь – это наша помощь школе. Это словарь, который могут использовать ученики даже в начальной школе. Словарь аффиксальных морфем, то есть префиксов и суффиксов, мы адресовали уже нашим коллегам в университетах. Пожалуйста, он не просто в бумажном виде издан, он выставлен в свободном доступе в Интернете, и коллеги могут пользоваться им. А что касается того, существует ли компьютерная лингвистика и не просто ли средством для того, чтобы в большем объеме получить языковую информацию, является компьютер, я хотела бы подчеркнуть, конечно, мы не делаем из компьютера фетиш, поскольку, как говорила нам когда-то Валентина Сидоровна, если вы не знаете, как ответить на этот вопрос, то и не надейтесь. Нет, мы рассматриваем компьютер, как мощного помощника в нашей работе, и как тот адресат, который заставляет нас иным образом моделировать языковую информацию. А все, кто работает с какими бы то ни было системами, знают, что представить себе, как устроена система в рамках самой системы весьма трудно. А когда мы выходим за пределы этой системы, и вот с точки зрения компьютера, который не знает, что такое существительное, что такое прилагательное, что такое слово, мы смотрим на систему языка, тогда возникает та возможность дл языковеда глубже заглянуть в структуру объекта своего исследования, которая дорогого стоит, и много вещей, ну, скажем, в процессе создания систем машинного перевода настолько детально было проанализировано грамматический строй языка, вышли на такие вещи, на такие детали, которые в традиционной грамматике казались сами собой разумеющимися, а здесь мы увидели новые грани, новые аспекты. Поэтому я думаю, что компьютер – это новый адресат, формирующий и новый объект, и новые средства его обработки, и новую проблематику. Я бы сравнила его, скажем, с преподаваниям языка иностранцу. Мы знаем, что мы таким-то образом преподаем украинский язык носителям украинского языка и совсем иначе мы его подаем тем, кто только должен выучиться этому языку. Вот компьютер для нас это не просто иностранец, а инопланетянин.
Каденко: Спасибо. И еще коротенький вопрос: почему автоматический перевод такой несовершенный?
Карпиловская: Начну, многоуважаемые коллеги, с того, что если нам предлагают определенное средство для обработки какого-то материала, то, никого не хочу обидеть, этим средством нужно еще и овладеть. Поскольку очень часто эти анекдоты, которые мы слышим о системе Плай (а это продукт труда моих коллег, вот сидит Наталья Петровна Дарчук в зале, это один из разработчиков, один из творцов систем Рута и Плай, вообще украинского офиса в операционной системе Windows и Microsoft). Так много подобных анекдотов, мы понимаем, связанных с тем, что люди просто не подключают те опции, которые предлагает для усовершенствования машинного перевода система Плай. Ну, скажем, опция не переводить имена собственные, и тогда академик Богомолец не превратится в «паломника», а останется академиком Богомольцем. И Франкуфурт-на-Майне ничего общего не будет иметь с «имуществом» (по-украински «майно»), а останется Франкфуртом-на-Майне. А относительно несовершенства, то я, уважаемые коллеги, хочу напомнить слова Эрика Ханта, это один из первых разработчиков систем искусственного интеллекта, который сказал: «С развитием техники и развитием нашего представления об искусственном интеллекте, мы всякий раз то, что казалось рутиной, делаем искусственным интеллектом, для нас это становится интеллектуальным заданием. И, наоборот, мы благодаря технике, и нашим знаниям продвигаемся дальше, и для нас то, что было интеллектуальным, и это делал человек, превращается в рутину». Если мы сегодня сравним первые системы машинного перевода, ну, скажем, в том виде, в каком еще это делали в 30-е годы прошлого столетия в тогдашнем Ленинграде (это была система Тронского и других исследователей, когда переводили отдельные слова на весьма ограниченном тематически и структурно тексте), сравнительно с тем, что делает сегодня Плай или Прагма или Промт, или другие системы машинного перевода, то мы, может быть, в исторической перспективе увидим огромный шаг вперед. И над системами продолжают работать. Мы видим на сегодняшний день, Наталья Петровна, если не ошибаюсь, четвертую версию Плая, да? Или, может, уже и пятую?
Наталья Петровна Дарчук: (смеется) Нет, уже на этом остановилось.
Карпиловская: Ну, четыре версии, от версии к версии мы видим усовепшенствование системы. Однако, я думаю, нем не хотелось бы, чтобы компьютер на сто процентов заменил человека. Все равно будет какое-то постредактирование.
Каденко: Да. Хотя наш лектор, Татьяна Черниговская, тоже лингвист, сказала, что это вопрос десятилетий, когда компьютер заменит человека. Спасибо.
Карпиловская: Я бы хотела, чтобы он его заменил. Компьютер это помощник и инструмент исследования.
Каденко: Точнее, она сказала «срастется». Вот.
Холмогорова: Да. У меня тоже есть небольшой, короткий вопрос, а потом мы перейдет к вопросам из зала. Вы сказали в лекции о «языковых болезнях». Есть ли способы их излечения? И нужно ли их лечить? И как в этом деле конкретно модет помочь компьютерная лингвистика?
Карпиловская: Я употребила определение «языковая болезнь», но мне очень понравилось на одном из международных съездов славистов выступил такой очень известный фразеолог, кстати, петербургский коллега, Валерий Михайлович Мокиенко, и он сказал: «Нет языковых болезней. Есть языковые явления, и мы должны их изучать». Но «болезнь», я употребила сегодня это слово как возможное отступление от нормы, отступление от того, что целесообразно, удобно в том или ином случае. Ну, скажем, суржик, мы рассматриваем и как явление, и как болезнь. Потому что, ну, в любом случае это – нарушение языковой нормы. Это – недостаточная языковая компетенция, не дающая возможности человеку употребить то, что является целесообразным, соответствующим действующим нормам, и тогда появляется «міроприємство” или „Співпадати”. Лечить – создавать показательные и надежные модели нормативной языковой системы. Помогать говорящему находить такие целесообразные, образцовые варианты. Я вижу только такой путь.
Холмогорова: Спасибо. Да, переходим тогда к вопросам из зала. Напоминаю, что просьба представляться и называть, откуда вы, и говорить в микрофон.
Карпиловская: Я только, прошу прощения, поскольку в зале присутствуют представители издательства «К.И.С.», у нас была договоренность, что буквально на пять-семь минут они покажут публике несколько тех словарей, о которых мы говорили. Если можно, дайте моим коллегам такую возможность. Господин Александр Телемко.
Александр Телемко: Я коротко расскажу об онлайновых словарях. Сайт r2u.org.ua. Честно говоря, уже не раз мы презентовали эти словари, возможно, все их видели, поэтому я очень коротко о них буду рассказывать. Относительно того, как ведется поиск на этом сайте, то есть и предвидена возможность поиска по большому количеству разных русско-украинских словарей, и теперь еще добавлены различные словари, в частности и украинско-русский, и словарь Гринченко есть, и так далее. Очень, например, звездочки использование, если там видно *та, *са, *мо, *ся. Вот использование звездочки позволяет искать слова, которые начинаются на са- мо-, а заканчиваются на –ся. Ну, и другие есть там возможности использования. Но за счет этого можно весьма усовершенствовать поиск. Можно делать выбор разных словарей, в которых, только в этих словарях можно будет искать. Среди всех слов можно выбирать, искать, например, среди русских слов, или искать среди украинских слов, в цитатах, и так далее. Так, вообще сейчас более 10 тысяч статей в этих разных словарях и на сегодняшний день поиск можно делать где-то уже по десятку словарей. Вот вверху видно слева словари, по которым уже можно делать поиск, и внизу, и словари, кроме того, кроме переводных словарей еще идут вспомогательные словари. Правописание: это словарь Голоскевича, «Словарь украинского языка» Гринченко, и сейчас в работе словарь Никовского, украинско-русский словарь. Плюс еще идуь словари, по которым пока еще нельзя вести поиск, но ими уже можно пользоваться. По меньшей мере, можно себе скачать и пользоваться ими. И эта коллекция, благодаря господину Виктору расширяется. Вот, наконец, последние дополненные источники, словари М.Уманца-А.Спилки, а уже под редакцией Ефремова-Никовского. А уже буквально за последние недели, это – Яворницкий, первый том, к сожалению, единственный, и словарь Гринченко под редакцией Ефремова-Никовского. А так и уже добавлено несколько словарей Билецкого-Носенко. Ну, это будет буквально на днях, так что можно будет зайти и пользоваться этими словарями. Дарморосив и еще кого-то. Уже даже не припоминаю.
Карпиловская: Господин Александр, а можно показать, что у вас такое частотный словарь. Как вы его делаете по всем словарям. Вот у вас там есть частотный словарь, количество употреблений того или иного слова.
Александр Телемко: Нет, у нас такого здесь нет.
Карпиловская: Есть на вашем сайте.
Александр Телемко: А, мы можем сделать, мы можем собрать все слова украинский, которые есть на сайте.
Карпиловская: Если можно, покажите.
Александр Телемко: Если бы был Интернет, то можно было бы, а здесь только то, что мне подготовили, я не готовился к выступлению. Должен был быть другой человек. Должен был быть. Ну, вот. Но есть такой.
Карпиловская: Может господин Кубайчук расскажет.
Виктор Кубайчук: Дело в том, что организация компьютерных программ, организация машины этого сайта это – Андрей Рысин. Человек известный среди тех, кто имеет отношение к системе Linux. Это человек, известеый клавиатурой UkrUnicode и Spell – программа для проверки написания слов. Сейчас это самая мощная программа в системе Linux. Сама машина развивается очень мощно. Она сейчас умеет гораздо больше, нежели умела вначале. И я думаю, что пока что выборка слов с частотностью сделана, однако, это пока что, так сказать, статично. Но ее можно будет сделать динамичной, если это кому-то нужно. Заказы на то, что вам нужно, необходимо – просто есть контакт. И если человек видит, что есть что-то, что хотелось бы иметь – пишите разработчику, Андрею Рысину.
Карпиловская: Господин Кубайчук, сразу же могу сказать, что всех заинтересовало. Это возможность поиска слова по всем словарям, которые у вас выставлены на сайте.
Виктор Кубайчук: Да.
Карпиловская: Вот Оксана Николаевна сейчас не даст мне соврать, что это весьма помогло в уточнении реестра новых слов, которые вошли в их словарь. Когда мы задаем слово «змисловий» и сразу видим – и в словаре Никовского, и в словаре Гринченко, и в словаре Крымского и Ефремова да еще и с соответствующими иллюстрациями, то есть контекста, это очень мощная вещь на вашем сайте.
Виктор Кубайчук: Ну, это то, что является результатом, кумулятивным результатом использования компьютера. В принципе – это набор словарей, но компьютер позволяет быстро проанализировать и получить результат, который отнюдь не тривиален.
Карпиловская: Это правда.
Виктор Кубайчук: Причем никто об этом не думал тогда, когда начинали.
Карпиловская: Вот вам и техническое средство, открывающее новые возможности.
Виктор Кубайчук: Опять-таки, абсолютно элементарная вещь – новый формат djvu. Это формат, который был придуман для образов, для фотографий. Однако формат djvu позволяет иметь в самом файле текстовый слой. Опознанный. То есть, он несовершенен, он не поддерживает форматирование текста. То есть, вы не увидите там ни курсива, ни болда, ничего. Просто обыкновенный текстовой файл, но позволяет выделить прямо по фотографии, скопировать и вставить в текстовый редактор. Это опять-таки первый шаг к таким словарям, уже глее есть поиск, и так далее.
Холмогорова: Ну что? Переходим к вопросам из зала?
Сергей Тряшин («Русская мысль»): Первый вопрос. Вы закончили словом «коалиция», а нет ли там слова «фракция»? Потому что столько сейчас новых словообразований, фракционные мы еще.
Карпиловская: Какого слова? Я не расслышала.
Тряшин: Фракция. Во-первых, тот вопрос, который я задавал: проводился ли машинный анализ «Слова о полку Игореве» в поисках? К какому из современных языков «Слово» ближе? Потому что есть разные точки зрения. И уже не вопрос, а скорее замечание. Когда-то такой русский поэт Маяковский написал, что: «… изводишь единого слова ради тысячи тонн словесной руды…» Так вот это то, о чем вы рассказывали, помогает именно в этой работе. Спасибо.
Карпиловская: Спасибо. Ну, сразу скажу, что невозможно было сказать обо всем на свете, но что касается анализа текстов и анализа «Слова о полку Игореве», то есть очень интересные исследования. Ну, я скажу, что компьютер во многом помог выяснить и историю «Тихого Дона», когда доказывали авторство. Компьютер помогает расшифровать древние письменности. Это работы и Юрия Кнорозова, и работы Бориса Сухотина. То есть, использование компьютера сейчас имеет очень широкий спектр. Конечно же, невозможно охватить все на свете, но именно способность компьютера по многим параметрам оперативно анализировать большие массивы языкового материала открывает возможность увидеть какие-то новые грани во многих проблемах. А относительно «фракции», у нас не попало в наш словарь это слово. Почему? Потому, повторяю, что нас интересовали не отдельные слова, а интересные производные, новые словосочетания, гнезда, которые нам дают эти слова. Нет «фракции», но есть «блок», который дал такие роскошные новые образования. Здесь и «мегаблок», и «мегаблокувальник», и «блокотворчий», и «блокоподібний» («блокообразный»), и «блокада», и «блокиратор» в новых значениях. Стало быть, есть где работать и ради чего «изводить тонны словесной руды». Спасибо.
Холмогорова: Еще вопросы.
Геннадий Алексеевич Золотухин, доктор филологических наук: Я все-таки хотел вернуться к болезням языка. «Хвороби мови». Мне кажется, что если продолжить вот эти медицинские аналогии, то мы можем, вправе говорить, что это даже не болезнь, а это – даже эпидемия. И вот это некоторое снисходительное отношение филологов-профессионалов к этим болезням, я сейчас уточню, какая болезнь, мне кажется глубочайшим заблуждением. Я имею в виду болезнь, если уже эти аналогии дальше вообще продолжать, то вот эта болезнь, ну, если сравнить, может быть, с венерическим заболеванием, которое нужно изучать в каком-то изолированном, тесном пространстве.Я имею в виду нецензурную, бранную лексику. В советское, целомудренное время, когда, как всем известно, секса не было, известный филолог Галкина-Федорук защищала, насколько мне известно, свою диссертацию о нецензурной лексике в сугубо закрытом помещении, изолированном. Вот вам аналогия с венерическим заболеванием.
Карпиловская: На закрытом совете в Институте русского языка.
Золотухин: Вам известно это, да?
Карпиловская: Да, конечно.
Золотухин: И в связи с этим возникает вопрос: энергетика слова, надеюсь, ни у кого из присутствующих здесь… страшной, действительно, может быть уничтожающей. НЕ кажется ли вам, что она сыграла свою страшную роль у автора небезызвестных словарей, вот он лежит, только что я из книжного магазина «Є», „Українська мова без табу”. Нецензурная лексика. Словарь нецензурной лексики Леси Ставицкой. Женщина посвятила, это же не один ее словарь, этой теме, да? Вы знаете, как судьба ее сложилась, да? Как вы на это смотрите?
Карпиловская: Я просто хочу уточнить ваш вопрос. Так вы против таких исследований?
Золотухин: Однозначно «против». Они непостижимы для меня. Я наблюдал сцены в книжных магазинах, когда молодежь начинала хихикать возле этих словарей. Они и в русском языке выходят. Мат. Словарь русского мата, по-моему, я не помню. Причем, автор армянка, по-моему, если мне не изменяет память. Так вот смысл этой работы? И как нам видится, мне кажется, что это не случайность, что человек аот так рано ушел из жизни. По-моему, ей и пятидесяти лет не было.
Карпиловская: Вы знаете. Да ей было…
Золотухин: Это не мистика.
Карпиловская: Да, Лесе Алексеевне было сорок восемь лет. Это наша коллега из Института украинского языка. Я не хотела бы сейчас касаться, это тема очень деликатная, вы со мной согласитесь, судьба Леси Алексеевны. Я скажу по сути вашего вопроса. Я считаю, что как и в любом деле, здесь не должно быть крена. То есть, наложить запрет на такие исследования, я тоже не считаю правильным. Потому что лексика эта, знаете, как любой запретный плод, очень соблазнительна для современных наших писателей. Она пошла в тексты, и даже для того, чтобы объяснить это социальное явление, я его для себя объясняю термином «праздник непослушания». Вот все, что раньше запрещали, а сейчас нам все это можно и естественно, что вот этот праздник, он у нас буйствует уже не одно даже десятилетие. Должны языковеды это изучать? Должны языковеды объяснять себе причины этого феномена? Я думаю, что – «да». Другое дело, что этим не надо чрезмерно увлекаться. Потому что, я считаю, что у нас очень много других проблем, скажем развития украинского языка, более важных, чем изучение ненормативной лексики. И мы, может быть, им больше внимания уделять, чем этому. Например, для меня более важной является проблема развития книжной украинской лексики, разкитие такого высокоинтеллектуального пласта, стиля украинской речи, которого нам так не хватает, потому что, ну, из совершенно понятных соображений нам многие десятилетия внушали, что «только на народно-разговорной основе украинский язык возник», и просто было абсолютно непонятно, а куда же подевался книжный украинский язык. И вот этим, может быть, сейчас надо больше заниматься. Лесю Алексеевну привлекала эта лексика. Она, как исследователь, имела право этим заниматься. И я считаю, что она сделала своим, скажем, словарем украинского жаргона, где не только ненормативная лексика, очень много полезного для исследования современной украинской языковой деятельности. Потому что в ее Словаре украинского жаргона очень много элементов языковой игры, которые показывали интересные вещи в современном украинском языковом сознании. Не надо только негативное видеть во всем том, что она сделала и оставила нам в своих словарях. То есть, подходить к этому трезво и рассудительно. Да, а запретить, запретить легче всего. Нам очень много чего запрещали в советское время, и мы сейчас пожинаем плоды этих запретов. Но сейчас, может быть, слишком много разрешили всего. Может быть, и это плохо. Вот занимаемся сейчас наведением порядка в нашем хозяйстве. Вот надо нормы литературного языка опять пересмотреть. Может быть, тогда меньше будут интересоваться ненормативной лексикой.
Золотухин: Знаете, что больше всего меня поразило. Это пиар-акция этих словарей на телевидении и абсолютный восторг некоторых украинских прозаиков, как будто бы свершилась их давнишняя мечта, и они получили в руки руководство к написанию гениальных произведений, вот. И с другой стороны абсолютно нейтральная, я бы даже сказал, позиция невмешательства со стороны филологов-профессионалов, понимаете?
Карпиловская: Ну, профессионалы тоже сказали свое слово. Потому что на эти словари вышло много рецензий и в академических журналах, и рецензий очень профессиональных и вдумчивых, и, кстати, Леся Алексеевна, очень многое, надо отдать ей должное, приняла во внимание.
Алиса Андреева, polit.ua: У меня к вам такой вопрос. Я вам его задам, потому что оно меня интересует с детства, возможно, вы дадите на него ответ. Мне всегда было интересно, мы говорили о мелодичности языков, о том, что существуют различные списки, по которым украинский язык занимает то ли третье место – после французского и итальянского, то ли второе – после французского языка. Меня интересует, не помогают ли ваши исследования узнавать о том, каким является наш язык, то есть насколько она мелодична, и вообще возможна ли такая программа, которая осуществляет такие исследования, потому что для меня было интересно, каким образом вообще можно исследовать такой вопрос, как мелодичность языка.
Карпиловская: Спасибо за вопрос. Скажу сразу же, что компьютер открывает такие возможности. Потому что, все, что выражено в форме, а мелодичность выражена в форме, может подвергаться компьютерному анализу. Что такое мелодичность? Это преобладание гласных над согласными, и гласных определенных типов. И, кстати, есть очень интересные исследования, которые уже и новейшие технологии и методы обработки языкового материала принимают во внимание. Ну, вот недовно вышла очень интересная брошюра Юрия Мосенкиса, посвященная мелодике украинского языка и принципам выявления мелодичности. Есть очень интересные работы Нины Ивановны Тоцкой, которая вообще много сделала для изучения такой фонемной структуры украинского слова. Мы в нашем коллективе, поскольку объять необъятное невозможно, не можем заниматься всем на свете, но украинские исследователи этим занимаются, и, скажем, даже эти школьные программы, которые называют «говорилками», то есть это программы оцифровки в звуковой форме украинского слова. Они и в наглядной форме подают школьникам – а какие же особенности украинского слова, а как это слово построено, а что такое трудное слово, которое трудно произнести, а каким образом украинский язык устраняет препятствия, когда нагромождение согласных, вот, скажем, появляются выпадающие согласные, и так далее. То есть это тоже для законов благозвучия, то есть и эти компьютерные программы дают возможность решать такие задачи. Кстати, очень основательно к этой проблеме подходили украинские кибернетики. Они сказали свое весомое слово, это, возможно, известные вам работы Тараса Климовича Винцюка, это были попытки создать первый такой украинский диктор программы «Мова», которые делал наш институт кибернетики. То есть и эта проблема не обйдена вниманием исследователей.
Холмогорова: Еще вопросы?
Татьяна, polit.ua: Евгения Анатольевна, у меня у вам вопрос немножко другого характера. Если брать, к примеру, маленьких деток, которых учат разговаривать. Есть ли какие-то программы развития речи для совсем маленьких? Есть ли смысл в этом? Или все-таки не стоить заменять обучение традиционное языку, речи ребенка, исли стоит обращаться к компьютерной лингвистике в этом плане?
Карпиловская: Спасибо за вопрос. Я думаю, что как и вообще в жизни, и в этом деле должна быть разумная гармония. Потому что вряд ли голос мамы, папы и бабушки заменит компьютерный диктор. Правда? Другое дело, что сейчас появились, естественно, что и компьютерные лингвисты в этом приняли участие, появились электронные книги. Мамы и папы у нас люди занятые, не всегда могут прочитать на ночь сказку, и если это будет сказка на украинском языке в исполнении Петра Тодосовича Бойко, то, я думаю, что дети с удовольствием и сказочку, и стихи Натальи Забилы… Нина Федоровна, правда, ваш внук Васек с удовольствием и бабушку послушает, и Петра Тодосовича послушает. Поэтому, да, есть такие вещи – это не программы, это уже программы реализованные в определенных компьютерных, электронных продуктах. То есть, существуют книги, которые уже сопровождаются видеофайлами, мы можем и увидеть какие-то изображения на экране, и голос диктора, который читает нам текст. Ну, если есть такие возможности, почему их не использовать? И то, и другое. Но я не хочу, чтобы мы все превратились в «кибериков», и, если пафос моей лекции был воспринят так, то я не за то, чтобы компьютерная лингвистика заменила самих лингвистов, потому что мы тогда останемся без работы.
Надежда Мищенко: Я – бывший программист…
Карпиловская: Нет, госпожа Мищенко, не бывший, а нынешний.
Надежда Мищенко: … и нынешний тоже. Да. У меня такие вопросы. Я заметила, что служебные слова, в частности предлоги и союзы, встречаются очень часто. Их частота иногда мешает мне в тексте. Я бы хотела знать приблизительно, каково их количество, сколько предлогов: тысяча, полторы, пятьсот? Если можете ответить на этот вопрос: союзов и предлогов. Это первое, а второе еще – какое самое длинное слово в вашем фонде?
Карпиловская: Я его передавала – неоподатковуваність (то, что не подлежит налогообложению)– простое слово, и из тринадцати морфем у нас – антенно-приймально-передавальний (антенно-приемно-передаточный) – имя прилагательное.
Мищенко: А я ограничила себя двадцатью пятью буквами.
Карпиловская: А, буквами, нет, у нас больше. У нас может быть до тридцати двух букв.
Мищенко: Ой, как жалко. Нужно программу переделывать.
Карпиловская: Поэтому мы даем вам возможность работать с нашим фондом и выбирать слова по длине в буквах. И вы тогда можете задать ту длину, которая вас интересует, и выбрать то слово, если оно у нас есть, которое вас интересует.
Мищенко: Нет, у меня слова есть, но иногда нужно знать, какое еще мне попадется, длиннее, чем это. И еще один вопрос, можно лм при помощи вашей системы составить словарь лексики с неправильной омонимией флексий.
Карпиловская: Что вы имеете в виду, говоря «неправильная омонимия флексий»?
Мищенко: Ну, когда есть флексия, например, слово «Але» («Но»). «Е» - флексия.
Карпиловская: Ну, для нас «Але» - это неделимое слово. Мы здесь флексию не выделяем.
Мищенко: Возможно, я плохой пример подала. Но есть, скажем…
Карпиловская: …конец слова, который может совпадать с другим, так.
Мищенко: Ну, в русском языке есть такой словарь. Его как-то там используют, я не знаю…
Карпиловская: Кулагиной. Есть такой словарь. Ольги Сергеевны Кулагиной. Вот Нина Федоровна внесет весомую лепту в наш разговор.
Нина Федоровна Клименко, член-корреспондент НАН Украины: Я сначала хотела сказать, почему такие служебные слова, как мы их называем, предлоги, союзы, такие частотные в текстах. Потому что мы их называем традиционно крепежным материалом связного текста. Без этого никакого связного текста нет. И поэтому во всех языках мира по данным частотных словарей их больше всего, они попадают в первую тысячу самых частотных слов любого текста, это – во-первых. Теперь относительно омонимии флексий, только нужно немного набраться терпения. У нас, наверное, в следующем году выйдет грамматический словарь словоизменений украинского языка, и там все это будет. Он инверсионный, то есть обратный, картина будет такая, что можно будет пользоваться и учителям, и студентам, и ученикам, и проводить всякого рода исследования, и делать методички, и все прочее. Немного терпения – и будет вся омонимия, вместо омографии, как у Калугиной или других, это будет действительно хороший словарь.
Реплика из зала: Спасибо, но все-таки сколько союзов и сколько предлогов?
Нина Федоровна Клименко: Есть словарь предлогов украинского языка Загнитко. Издан отдельный словарь предлогов Загнитко, и есть…
Карпиловская: Прошу прощения, Нина Федоровна, и Анатолий Афанасьевич, понимаете, госпожа Мищенко, здесь все еще зависит от того…
Реплика из зала: Есть еще словарь союзов…
Карпиловская: … союзов Екатерины Григорьевны Городенской. Все зависит от того, как вы определяете предлоги. Вот, скажем, можно базироваться на том, что предлоги – это только первичные, вот такие, как «на», «в», «до», и так далее. А Анатолий Афанасьевич со своими коллегами выделил еще так называемые «эквиваленты предлогов», вот, скажем, «під орудою» («под руководством»), «під маскою», то, что словосочетание, которое эквивалентно предлогу, они это называют «вторичными предлогами», и у них в реестре словаря 138 предлогов. Но традиционная грамматика это рассматривает еще как словосочетания, не рассматривает как предлоги, то есть нужно посмотреть, на какой концепции стоит автор, а потом уже считать количество.
Надежда Мищенко: С этим словарем можно работать?
Карпиловская: Да, но вы можете зайти на сайте лингвистического портала Донецкого университета, mova.dn.ua, выставлена база украинских предлогов со всеми средствами доступа и обработать ее Анатолия Афанасьевича Загнитко и его коллег, и вы можете сами посмотреть на этот реестр, поработать с ним, выбрать из этого реестра все, что вас интересует, поскольку он в свободном доступе там подан.
Холмогорова: Еще вопросы есть, коллеги? Ага, вижу.
Наталья Петровна Дарчук: Евгения Анатольевна, я хотела вспомнить одну ситуацию, которая имела место в этом году на конгрессе по русскому языку в Москве, в МГУ. Там выступала профессор Майя Всеволодова, котрая выступала последней на пленарном заседании и сказала, ее основная мысль была, уже такая, обобщающая, о том, что настало время создать грамматику для лингвистов и создать словарь для лингвистов, и тогда много вопросов, которые возникают, и сегодня возникали, и возникают у нас, исчезли бы. И тогда, когда она высказала эту мысль, вы знаете, зал, который был, актовый зал, который был битком набит лингвистами, все аплодировали, и аплодировали стоя. Это значит, что настало время, когда нам, прежде чем создавать академическую грамматику украинского языка, нужно общими усилиями создать грамматику для лингвиста, и создать толковый словарь не для общего пользования, а толковый словарь для лингвиста. И много таких словарей, которые сегодня мы с вами переводим в компьютерную форму, требуют нашего внимательного изучения, потому что, когда мы работали над созданием тезауруса для Microsofte – у нас была, был контракт с Майкрософтом, чтоб создать тезаурус. Имеется в виду, в английской традиции это – словарь синонимов – так, представьте себе, нам пришлось весь словарь синонимов, который был составлен нашими коллегами из Института украинского языка, переделать. Почему? Да потому, что там, например, была такая, такой синонимический ряд: «горилка», «калиновка», «малиновка», «рябиновка», и так далее. Я у всех спрашиваю, является ли это видами водки? И я думаю, что вы мне скажете, что это – не синонимы, а это виды водки, потому что это настойки. И таких, непонятностей было достаточно много. То есть, когда мы сделали этот словарь, тезаурус для Microsofte, и он тестировался в Ирландии, то, я вам должна сказать, что это был абсолютно другой словарь. Это значит, что прежде чем мы будем пользоваться этими электронными копиями книжных словарей, а я должна сказать, что для того, чтобы они были встроены, вообще электронный словарь был встроен в интеллектуальную систему типа «машинный перевод», «автоматическое реферирование и аннотация текста», «автоматические извлечение смысла из текста», там должен быть абсолютно иной тип словаря, то есть, тип, который формируется на базе знаний в определенной отрасли. И я думаю, что только тогда, когда мы все вместе объединим усилия, я думаю, что только тогда, когда будут такие словари, мы можем говорить о будущем в лингвистике. И то, что сегодня нам Евгения Анатольевна рассказывала о чрезвычайно тщательно сделанной морфемно-словообразующей базе современного украинского языка, можно утверждать, что все начала такой грамматики для лингвистов на уровне морфемном уже есть. И можно только надеяться на то, что так же будет проработана морфология, и точно так же будет проработан синтаксис – но без корпуса текстов это сделать просто невозможно, потому что нужно знать, как реализуется каждая единица, как реализуется каждая словоформа, и нам нужно мало того, что знать, как реализуется, ну, например, одноэлементные, да, но еще и аналитические формы. То есть, проблем очень много, и в этом мы и видим будущее компьютерной лингвистики, потому что она предоставляет нам сегодня чрезвычайно большие мощности для традиционной лингвистики. Но я хочу сказать, что на сегодняшний день традиционная лингвистика компьютерной лингвистике очень мало дала возможностей, например, для семантики, она очень мало дала и для синтаксиса, потому что приходится создавать формализованные инструменты. Поэтому хочу надеяться, что Евгения Анатольевна может возглавить это направление, связанный с созданием лингвистики, то, о чем говорила Всеволодова, которой, дорогие мои, 86 леть, это человек, который имеет такой опыт лингвистики и является таким авторитетом в московской лингвистической школе, а я думаю, что мы не должны отставать. Спасибо.
Холмогорова: Еще вопросы?
Аноним: Еще такой небольшой вопрос, мы его уже немного касались, это вопрос правописания. Я на эту тему уже читал два или три года назад в «Зеркале недели», в нашей такой интересной газете, каково современное состояние нашего правописания, так сказать. Это правописание у нас, можно сказать, что у нас есть две стены, это скрипниковское и советское, и вот это современное правописание, оно либо сюда, либо туда, и вот так вот. Это правильно я понимаю?
Карпиловская: Поскольку в зале присутствует Нина Федоровна Клименко, один из авторов нового проекта украинского правописания, я попрошу Нину Федоровну ответить на этот вопрос. Тут сам Бог велел вам сказать, почему возникла новая редакция.
Клименко: Я знаю вас столько лет, но никогда не думала, что вы такая коварная женщина (смех в зале). Я хочу сказать, что новый проект правописания – самый лучший, тот вариант – и сегодня никто мене не переубедил, что может быть лучше того, который подал Немчук, комиссия предварительная, национальная комиссия, и юыл утвержден он на шестом и седьмом конгрессах украинистов. Этот проект пытается учесть, так сказать, тенденции развития украинского языка, прежде всего, и учесть органику украинского языка – второе, третье – все правописания мира, новые которые составляются, учитывают, идут по принципу унификации: чем меньше правил, тем лучше правописание. И поэтому однозначно сейчас нельзя говорить, что «либо то, либо другое». Я считаю, что, например, если есть правило девятки, то оно должно быть одно и для имен нарицательных, и для имен собственных. Почему я должна писать «Аристотель» (через и с точкой), когда я знаю, что греки его произносят как мы, Аристотелис, и мы можем писать там «и», и почему мы должны возвращаться, потому что говрят: «Мы привыкли к этому будем писать „Сіцілія”. Я считаю, что за исключением некоторых географических названий, где нельзя распознать, скажем, какой топоним лежит в основе названия, мы должны придерживаться и тех правил чередования, которые есть в украинском языке. Поскольку, например, ономасты говорят, нельзя говорить «лейпцизький», ибо обычный носитель языка не может распознать слово «Лейпциг» - я думаю, что это неправильно. Мы должны новым правописанием заложить такие унифицированные правила, которые позволят нам, ну, может быть, не очень глубоко шевелить некоторые реликты, которые уже устоялись в языке, но дать правила согласно с тенденциями развития украинского языка. И поэтому никаких читающих автоматов и распознающих устройств… Но и сомнительных автоматов тоже не должно быть, у нас должно быть правописание и норма – вот я хочу дать полный ответ на этот вопрос. Ксть комиссия, которая работает, но опять-таки, к какой общей мысли они придут – я не знаю. Эта новая комиссия придерживается правила, что нужно эволюционным путем менять правописание. Я не знакю, до каких пор будет эта эволюция, но я знаю и другое: правописание необходимо. Почему правописание сейчас особенно необходимо? Потому что во времена глобализации и, будем откровенны, не будем говорить, какой волны, русификации у нас, мы реально находимся в том состоянии, когда эти влияния активизируются, и есть у некоторых деятелей от образования попытки их сделать нормой. Так вот во времена глобализации, сегодня это доказано, выживает тот язык, который защищен стандартами нормы литературного языка. Да, норма литературного языка несет какой-то компонент консервации языка, но его нужно отстаивать и на уровне правописания, и на грамматическом уровне, и на уровне словообразования, и стилистическом, и на всех уровнях. Вот когда в комплексе будет принято правописание – я думаю, что оно будет разумно принято, и будет придерживаться баланса, а не расшатывания, и когда будут пересмотрены и мнимые, эксплицитные формы, высказанные требования – и стилистические, и грамматические, и другие, - вот тогда-то у нас будет украинский язык защищенный со всех сторон. А пока сто мы наблюдаем здесь языковую политику, которая разрывает триаду. Языковая политика выходит непродуманной и беззащитной. Есть национальное сознание, есть национальный язык, есть национальное государство. Эту триаду нужно поддерживать, нужно развивать все три компонента и достраивать всю языковую политику вокруг них, а не превращать говорильню в правописание на уровне говорильни, которая у нас длиться уже сколько лет? Я уж не знаю, я была в двух комиссиях, третьей уже…
Карпиловская: Где-то более десяти лет. После выхода «Проекта» Немчука.
Клименко: Да. Я считаю, что правописание, которое было в проекте Немчука, там у нас было 19 пунктов, по которым было расхождение, унификацию Из них 13 пунктов приняли все, так сказать, стороны, которые принимали участие в работе над этим правописанием. Осталось немного, но нужна воля, чтобы эта комиссия заседала, чтобы она его приняла, и чтобы оно стало законом для обыкновенного гражданина. Но у нас один журнал пишет так, другой иначе, а третий еще что-то пишет и говорит: «А все у нас так пишут, у нас сейчас все можно писать!» Так мы допишемся до ручки.
И поэтому надо, я не знаю, на каком-то уже уровне общественном выдвигать проблему скорейшего утверждения правописания – это наш кодекс, и это наша норма и это наша самозащита. Таково мое мнение, а не «либо тот, либо этот». Должны быть современные взвешенные правила, согласно с органикой украинского языка.
Карпиловская: Благодарю, Нина Федоровна.
Реплика из зала: Химия или хемия?
Нина Федоровна Клименко: На этот вопрос лучше ответит госпожа Ольга Кочерга.
Ольга Кочерга, кандидат физико-математических наук: Хемия.
Каденко: Пожалуйста, все дискуссии – к микрофону. Если можно.
Ольга Кочерга: Есть в украинском языке три слова с корнем «хим». Это «химия», «химикат» и «химический». Ну, и соответственные сокращения, «Химмаш», «Химстрой». Все остальные слова имеют корень «хем». В частности, все сложные слова. А в последнем, достаточно полном словаре естествоведческой терминологии есть порядка ста сложных слов, которые содержат в себе эту морфему «хем». И только три слова с морфемой «хим». Даже статистический подход свидетельствует о том, что должно быть «хемия». Кстати, председатель химической терминологической комиссии Киевского университета господин Корнилов в свое время сказал: «Да это вопрос не правописания и не терминологии, это вопрос политический».
Валерий Лысенко, компьютерщик, преподаватель: У меня весьма приземленный, возможно, вопрос. Но все-таки, поскольку здесь очень много высококвалифицированных филологов, командующих украинской филологии, я так понимаю, то очень прагматический вопрос от рядовой массы, обращенный к нашим вершинам. Все эти сложные вопросы зачастую конфликтны… Как бы от анализа перейти к синтезу? Мы все синтезируем огромное количество текстов, и, конечно же, все наши тексты контролировать ученым образом на таком высоком уровне невозможно. Но, может быть, хотя бы предоставить помощь нашим изданиям, вот только что сказали уважаемые ученые обращать внимание на то, что даже в ведущих изданиях, столичных, весьма уважаемых, пишут порой так, что стыдно читать! Так не возникнет ли в Интернете такая справочная служба, для начала хотя бы вручную, хотя бы по очереди люди сидели и почту читали, и отвечали хотя бы так, хотя бы в такой форме? Я не говорю об автоматизированной подобной службе, наподобие автоматизированного машинного перевода…
Наталья Петровна Дарчук: Вы знаете, я почему вмешиваюсь – дело в том, что мы создали лет семь тому назад, мы создали портал, который называется mova.info, и туда приходят вопросы – вопросы, связанные с правописанием, и постоянно у нас есть коллеги, которые дают ответы на эти вопросы. И сейчас мы планируем очень интересный проект… Я не буду сегодня рассказывать, вы знаете, что нужно вначале, чтобы были основания, но правописание будет встроен в эту систему. И я думаю, что тогда вы будете не только человеком, который получит ответ, но еще получит его таким образом, что будет заинтересован его получить самостоятельно из этой системы. То есть, это будет очень интересная система!
А в принципе, я полагаю, что те, почти… Ежедневно мы получаем до десяти вопросов. Это бесплатная служба, и она на самом деле нас многому учит, потому что мы посредством этих вопросов понимаем, что людям сегодня непонятно, на что следует обратить внимание в учебниках. Да, потому что эти вопросы являются для нас предметом анализа.
Карпиловская: Спасибо, Наталья Петровна. Простите, уважаемые коллеги, я охрипла под конец. Но я думаю, что когда будет новая редакция украинского правописания, да если эта редакция будет принята так, как это было должно когда-то, когда это принимал Верховный Совет Украины, то есть, это правописание приобретало силу закона, то служба службой, а каждый грамотный и культурный человек сможет просто обратиться к правописанию и выполнять его, как закон. Это во-первых. А во-вторых, языковая деятельность, выраженная в текстах, тоже весьма разнообразна. И одно дело – соблюдать нормы украинского языка в официально-деловом вещании, или, скажем, в профессиональном вещании, и совсем другое – когда мы будем заставлять ограничиваться действующими нормами, отраженными в правописании, наших писателей. И я думаю, что это просто затормозит их воображение и, очевидно, там не нужно… То есть, закон законом, однако нужно уметь и знать, где его применять. Да и норма тоже вещь динамичная, ибо в разговорно-бытовом вещании, когда у нас такая языковая игра, когда у нас какая-то интересная аллюзия, мы отступаем от нормы. И это, как раз, как теперь модно говорить, изюминка нашего говорения. Даже вкрапленные русские слова часто придают высказыванию какую-то перчинку. И это делается сознательно, а не потому, что человек имеет недостаточную языковую компетенцию.
То есть, нужно уметь пользоваться словарями, и нужно уметь пользоваться правописанием, если мы хотим, чтобы у нас и далее существовал литературный язык. Потому что, простите, я считаю, что это – ну, может быть, я ошибаюсь, но я считаю как проявление неуважения к специалистам, когда в Институте украинского языка или в Институте языковедения звучит телефонный звонок, и нас спрашивают: «А окончание слова «биржа» в родительном падеже какое?» Им говорят: «Простите, но ведь есть орфографический словарь!» - «Нам некогда заглядывать»… Ну, то есть, воспринимать ученых как «чего изволите?» тоже не нужно. Для этого издают словари и правописание, чтобы люди соблюдали нормы.
Реплика из зала: Так ведь есть служба!
Карпиловская: Служба есть. Я прошу прощения, сегодня существует бесплатная служба культуры языка в Институте украинского языка. В определенные дни любой человек может позвонить и получить профессиональный ответ.
Нина Федоровна Клименко: И еще согласовательный совет есть.
Карпиловская: И согласовательный совет в Институте языковедения и украинского языка, вот мы недавно собирались на такое заседание, поскольку мы с Ниной Федоровной являемся членами этого согласовательного совета, и мы согласились с Ниной Федоровной, что слово «а-ля фуршет» нужно писать вместе, как нам предлагали. Потому что мы решали: как писать – «хакер» или «гакер», «хиджмейкер» или «гиджмейкер».
Ольга Кочерга: Откуда там «а» взялась?
Карпиловская: Вас, госпожа Кочерга, не было на согласовательной комиссии, это третий вариант, который мы бы рассматривали.
Ольга Кочерга: Это от hack – рубить, топор. Геккер – тот, кто рубит топором программу.
Карпиловская: Ну, вот мы на следующем заседании комиссии скажем, что нужно еще «а-е» там проверить, в этих словах. Короче говоря, языковеды этим занимаются, мы не становимся в позу снобов, что «это не те проблемы, которые нас интересуют, что мы заняты только высокой наукой», и общественно-полезными практическими вещами мы тоже занимаемся.
Многоуважаемые коллеги, все уже устали, а некоторые лекторы уже охрипли, и это показатель того, что нужно, пожалуй, заканчивать нашу сегодняшнюю встречу.
Каденко: Спасибо.
Карпиловская: Всем огромное спасибо.
Каденко: Спасибо, Евгения Анатольевнаю Спасибо нашим слушателям. И мы хотим сказать, что последняя лекция до новогодних каникул у нас будет в следующую среду, 22 числа. Будет совершенно замечательный и уникальный лектор, в своем роде, это Иван Бегтин, человек систмы, человек, который занимается системами, можно назвать его и хакером, можно системным аналитиком. Он ведет раздел «Гослюди» и «Открытые данные» на polit.ru, и тема его лекции «Открытые данные в современном мире». Не могу сказать, что он - будущий создатель российского Wiki Leaks, но приближается к тому. Приглашаем вас.
Спасибо, всего доброго. До встречи.

Обсудить

Добавить комментарий

Комментарии (0)

« Август 2025 »
Пн	Вт	Ср	Чт	Пт	Сб	Вс
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31