Семантични ресурси и програми за обработка на езика

Проектът е насочен към създаването и разпространението на семантични езикови ресурси и програми за обработка на езика: семантични мрежи, представящи знание, програми за обработка на семантична информация и др. Българският уърднет, който организира над 120 000 понятия, представени от над 250 000 думи на български език и техните съответствия на английски и други езици, е достъпен на: http://dcl.bas.bg/bulnet/

От екипа на проекта:

Основна цел на проекта е обогатяване на семантичните мрежи – Българската лексикално-семантична мрежа БулНет и Българския ФреймНет – с нови семантични релации. Семантичните мрежи се използват за организиране на семантично лингвистично знание и предоставят ефективен и интегриран достъп до свързани данни. Структурата на семантичните мрежи позволява добавяне на нови релации (включително раздробяване на вече кодирани релации) от различен тип. Свойствата на релациите произтичат от универсалността на отношението между същности, събития и свойства, а правилното им дефиниране и пълното им и непротиворечиво представяне е предпоставка за правилно изразяване на семантиката в релационна структура, каквато е семантичната мрежа.

Основите насоки на проекта включват: съотнасяне на български лексикални единици към семантичната структура и релационната организация на семантичните мрежи УърдНет и ФреймНет; еднозначно формулиране на нови семантични релации и организирането им в единна семантична мрежа; описание на концептуални фреймове, представящи съчетаемостта между множествата от семантични класове и семантични релации, и формулиране на техните свойства и взаимозависимостите помежду им. Създаването на непротиворечив модел за комплексно представяне на семантичното знание има общо теоретично значение, а неговото приложение – голямо значение за успешното разработване на езикови ресурси и компютърни модели за обработка на естествения език на семантично равнище.

Резултатите от проекта включват както теоретични изследвания в областта на лексикалния състав и граматичната структура на българския език, така и приложение в няколко основни направления: разширено търсене и извличане на информация, съобразена с профила на потребителите; автоматично резюмиране на документи за нуждите на администрацията, медиите и библиотеките; автоматична категоризация на документи към различни тематични области и др. Работата по проекта е интердисциплинарна и съчетава научни области като анализ на семантичната и синтактичната структура на съвременния български език и разработване на компютърни програми за оптимизиране на лингвистичната работа и за реална обработка на естествения език. Проектът обединява множество разнообразни приложения с обществена и културна значимост и с практическа насоченост. Разработваните по проекта лексикално-семантични мрежи и програми за тяхната обработка се разпространяват посредством центровете META-СПОДЕЛЯНЕ, част от META-NET – мрежа за върхови постижения, в която членуват близо 70 изследователски центъра от 34 страни. Проектът се вписва в две от приоритетните за Института за български език области: „Теоретични езиковедски изследвания“ и „Електронни езикови ресурси и програми за тяхната обработка“.

Подтеми:

  • Семантични ресурси и програми за обработка на езика (БулНет и ФреймНет). Срок: 2017 – 2019. Колективен проект. Ръководител: проф. д-р Св. Коева. Участници: проф. д-р Св. Коева, гл. ас. д-р Цв. Димитрова, гл. ас. д-р Св. Лесева, гл. ас. д-р М. Тодорова, д-р Ив. Стоянова, ас. В. Стефанова, Б. Ризов, Д. Христов, М. Ялъмов.
  • Обогатени бази от знания за български и румънски. Колективен проект, договор по ЕБР с Института за изкуствен интелект към Румънската академия. Срок: 2015 – 2017 г. Ръководител от българска страна: гл. ас. д-р Св. Лесева. Участници от българска страна: гл. ас. д-р С. Лесева, гл. ас. д-р Цв. Димитрова, Б. Ризов, гл. ас. д-р М. Тодорова, ас. В. Стефанова.
  • Семантична класификация на прилагателните в Българския уърднет. Проект по Програма за подпомагане на младите учени в БАН. Срок: 20.05.2016 г. – 20.07.2017 г. Научен ръководител: гл. ас. д-р Цветана Димитрова.
    Изпълнител: ас. Валентина Стефанова.
  • Семантична мрежа с широк спектър от семантични релации. Срок: 2017 – 2019. Финансиране: договор с Фонд „Научни изследвания“. Ръководител: проф. д-р Св. Коева. Участници: проф. д-р Св. Коева, гл. ас. д-р Св. Лесева, гл. ас. д-р Цв. Димитрова, гл. ас. д-р М. Тодорова, д-р Ив. Стоянова, ас. В. Стефанова, Б. Ризов, Д. Христов, М. Ялъмов; извънщатен сътрудник: проф. д-р Тинко Тинчев (СУ „Св. Климент Охридски“).
Подобни проекти:

Период: 2017 – 2019

Цел:
Създаване и разпространение на семантични езикови ресурси и програми за обработка на езика

Финансиране:
Институционално, от бюджетната субсидия, БАН – ЕБР с РумАН, Програма за подпомагане на младите учени – БАН, Фонд „Научни изследвания“

Проект на:
Института за български език „Проф. Любомир Андрейчин“

Уебсайт:
http://ibl.bas.bg/elektronni-ezikovi-resursi-i-programi-za-tyahnata-obrabotka-bulnet-i-freymnet/

Ел. поща за контакт:
svetla@dcl.bas.bg

Телефон:
(+359) 2 979 29 12

Лице за контакт:
Светла Коева, ръководител на проекта