|
Вторая в серии фундаментальных статей, посвящённых постановке проблемы проектирования MGI-классификации. Рассматриваются показания к проектированию перспективной современной системы классификации и основные предложения по её архитектуре.  | | В интернете никто не знает, что ты — собака | Исходя из изложенного в первой статье, мы можем выработать некоторый набор требований к качественной системе управления знаниями: - Она должна быть системной. Отсутствие системности не позволит эффективно пользоваться ей как специалистам, так и людям со стороны. Причем желательно, чтобы эта система была интуитивно понятна, либо описывалась бы набором простейших правил.
- Она должна обладать гибкостью в использовании различных парадигм. Иными словами, базовая парадигма составителей классификационной схемы не должна навязываться пользователю как единственно доступная. Вполне возможно, что пользователь должен иметь возможность указания своей, по его мнению более релевантной парадигмы для классификации, которая будет учтена системой в целом, или использована в дальнейшем только при работе с этим конкретным пользователем. Система должна иметь возможность обучения и настройки.
- Она должна оперировать ограниченным контролируемым словарем. Следует полностью исключить создание бессмысленных или параллельных понятий с любыми целями. В то же время существующий словарь должен обладать достаточной гибкостью для описания множества понятий, смыслов и знаний.
- Она должна обеспечивать возможность множественного наследования. Иными словами, для обеспечения требований системности классификатор должен обладать с одной стороны некоторой иерархией. С другой стороны, иерархия не должна строиться на принципе «или-или». Одно и то же понятие должно иметь возможность наследовать произвольному числу родовых понятий.
- Она должна адаптироваться под нужды пользователя. Должен быть создан эффективный интерфейс работы с классификатором, который позволял бы пользователю передвигаться по графу классификации в любом направлении с максимальной прозрачностью. Интерфейс должен иметь широкие возможности настройки под каждого конкретного пользователя, на определенном этапе работы позволяя минимизировать ненужные перемещения.
- Для обеспечения релевантности она должна опираться на некоторую модель доверия тем, кто проводит классификацию. Нельзя допускать какого-либо диктата любой из принятых парадигм строения, каждая из которых может оказаться ошибочной на текущий момент или в перспективе. Классифицировать ресурсы должны иметь право лишь те, кто достаточно авторитетен в предметной области, или по крайней мере именно их мнение должно иметь наибольший вес.
- Желательно, чтобы работа с системой требовало минимального обучения и была интуитивной и простой. Нельзя требовать обширного специального образования только лишь для того, чтобы научиться классифицировать документы, или находить их. В противном случае система окажется плохо применимой на практике.
- Желательно обеспечение совместимости с существующими классификационными схемами. Накоплено значительное количество ресурсов, которые были классифицированы в других парадигмах. Несмотря на то, что новая система должна обеспечивать релевантность поиска информации значительно выше, чем любая из других схем, мы не можем сходу отринуть те умения, образование и вложения средств, которые были произведении для развития устаревших систем.
Пытаясь суммировать вышеприведенные требования, мы неизбежно осознаем, что они крайне противоречивы, трудно реализуемы и требуют нетривиальных подходов к организации систем управления знаниями. Может ли это противоречие быть разрешено к достижению оптимального соотношения в выполнении всех этих требований? Мы полагаем, что это возможно. Более того, предлагаемый нами подход, как мы считаем, дает некоторый комплекс дополнительных преимуществ, которые будут описаны ниже. | | | Схема принципов функционирования нейросети | Итак, мы должны выработать некоторую систему, которая обладает ограниченным набором базовых понятий, допускает описание сложных конструкций и наследуемости, проста в обучении и использовании, обладает высокой гибкостью и может подстраиваться под различные нужды и парадигмы. Как ни парадоксально это звучит, все мы уже знакомы с такой системой. Это языковая схема коммуникации. Действительно, некоторый ограниченный набор базовых понятий, выражаемых словами при соблюдении правил их комбинации позволяет предельно гибко выразить любую концепцию. Когда одним и тем же языком пользуется группа людей, их сообщество постепенно изменяет язык, создавая новые слова, описывающие новые понятия, комбинируя старые. Конкретизируя подход с учетом этого уточнения, мы приходим к решению о том, что базис классификационной схемы должен выстраиваться на небольшом наборе слов, мнемоник. Дополнительно требуются правила их комбинации между собой для образования новых понятий или уточнения существующих. И, разумеется, нужно сообщество, социальная сеть, которая, пользуясь этими мнемониками и их комбинациями позволит совершенствовать наш виртуальный язык. Сама классификация ресурса при таком подходе сводится к «виртуальной фразе», состоящей из ограниченного числа слов (лимитированного максимумом, заданным заранее из соображений требуемой точности определений). Уже одно это дает нам потрясающую гибкость использования: использование лишь 100 мнемоник при ограничении количества их в классификации пятью дает на выходе классификацию ресурса суженную по 5 параметрам, причем количество комбинаций в классификации равно 1005. А ведь мы пока еще не ввели правил «виртуального словообразования». Попробуем рассмотреть такую схему на примере. В качестве рабочей схемы предлагается поделить описывающую классификацию на 3 базовых блока: тип документа, предметную область (включающую в себя дополнительно 3 ступени конкретизации) и указатель географической привязки. В данной парадигме классификация, скажем, диссертации по политологии, описывающая процессы демократизации на Тайване будет описываться следующим образом: phd.politscience.democr.tw В качестве разделителя мнемоник выбрана точка, хотя в общем случае разделитель может быть любым. Однако выбор именно точки в качестве разделителя разрядов глубоко оправдан дополнительными соображениями, которые будут раскрыты ниже. Приведенный пример уже сужает поле выборки ресурсов до достаточно конкретной области, но все еще не обладает достаточной конкретизацией. Да, здесь однозначно выбираются именно диссертации в области политологии, посвященные демократическим процессам и связанные с Тайванем. Но в то же время такая детализация может оказаться недостаточной, выдавая на выходе довольно широкий спектр ресурсов. Дополнительную конкретизацию предметной области мы можем ввести, определив правило комбинирования мнемоник базового словаря. Комбинируясь между собой, базовые мнемоники могут порождать существенно более конкретные привязки предметной области, дополнительно уточняя ее на каждой ступени определения. В разработанной схеме классификации для политических наук такая классификация примет вид: phd.politscience.trends_democr.tw Здесь мы дополнительно конкретизируем предметную область ресурса до демократических трендов вместо общих исследований демократических процессов. Но и эта конкретизация может оказаться недостаточной, поскольку исследования области могут затрагивать историю процесса, аналитику кго текущего состояния, прогнозы и т. п. Иными словами, нам желательно иметь еще и временную привязку. Не останавливаясь на этом этапе, отметим, что в рамках решаемых задач в классификации политических процессов, которая стояла перед нами изначально, требуется отдельно выделять не только временную привязку, но и тип ресурса, делая разделение между методическими пособиями по преподаванию, теоретическими исследованиями, концепциями и идеями и даже отдельными личностями, которые также должны быть классифицированы в рамках системы управления знаниями. Для этого мы ввели в наши «правила виртуального словообразования» дополнительные базовые формы. С их использованием описание вышеприведенного ресурса будет выглядеть следующим образом: phd.modern_politscience.modern_events_trends_democr.tw …или в сокращенной форме, где временная и предметная привязка представлены ключевыми начальными буквами: phd.m_politscience.m_e_trends_democr.tw В последних примерах конкретизация предметной области доведена до очень высокой точности: здесь мы описываем ресурс, относящийся к современным исследованиям в области политологии и рассматривающий современную фактологию трендов демократизации на Тайване. В большинстве случаев такая конкретизация более чем достаточна, поскольку описывает ресурс с очень высокой точностью. Простейший математический подсчет говорит нам, что при использовании 4 элементов, образующих мнемоники и нескольких разрядов, описывающих предметную область мы оперируем количеством возможных классификаций ресурса порядка 1×1015. Этот результат достигается при использовании лишь 100 базовых мнемоник. Увеличение их количества позволяет расширить возможности классификации в 5-й степени от дельты прироста числа базовых «виртуальных словоформ». | | | Схема контролируемого словаря | В нашей конкретной разработке мы использовали правила формирования расширенных мнемоник из базовых, где последовательность использования базовых форм не имеет значения. Этот подход был избран из соображений простоты использования системы неподготовленными пользователями, с тем, чтобы даже минимально знакомый с системой человек был способен составить необходимую именно ему расширенную мнемонику. Однако правила комбинирования базовых форм могут быть и более сложными, учитывающими порядок следования базовых форм, что существенно (на порядки!) расширяет спектр возможных классификаций. Мы полагаем, что применение таких методов уже избыточно для любой из конкретных задач классификации, поиска и управления знаниями. Тем не менее, не следует исключать возникновение потребности в более точных классификациях, с чем приведенная схема справляется с легкостью. Использование методов рекомбинации базовых форм, множественного итеративного использования их в определенной позиции и многих других, известных из теорий языков позволяет оперативно расширять классифицируемую зону и степень конкретизации до любых необходимых значений по точности и ширине охвата. Отметим также один немаловажный фактор: несмотря на высокую гибкость классификаций в принятой схеме, она основывается на ограниченном словаре базовых форм, который не может разрастаться неконтролируемо. Это может показаться недостатком, поскольку даже при всей широте возможностей комбинирования базовых смыслов, мы, разработчики системы могли не учесть какое-либо из базовых понятий, потребное для описания того или иного ресурса. Может сложиться ощущение того, что мы, как и многие создатели иерархических классификаций заранее навязываем пользователю одну-единственную парадигму классификации документа. Разработка, однако, позволяет бороться и с этой проблемой. Здесь мы подходим к описанию собственно системы управления знаниями на основе мнемонического подхода. |