MGIMONICS.COM

MGI-1: Дискурс проблемы Печать E-mail
Рабочее место библиотекаря, 1960

Человек накапливает знания практически с самого момента своего появления. Часть этих знаний запрограммирована генетически, другая приобретается в процессе обучения, третья извлекается из общения с другими людьми. Какие-то знания возникают из анализа опыта предыдущих поколений, происходят открытия и изобретения, количество знаний непрерывно растет. Но общий объем знаний, накопленных одним человеком, неизбежно ограничен. Невозможно прочесть все изданные книги, ознакомиться со всеми материалами хранилищ информации, библиотек, архивов. Потому что человечество в целом накапливает знания значительно дольше одного его представителя.

В зависимости от полученного человеком образования, его опыта, он может быть прекрасным экспертом в какой-то одной области. Возможно, в двух. Едва ли больше. Но даже экспертами недостижимо полное и абсолютное владение темой с учетом все растущего числа в области их предметного поля знаний. И кроме того, время, потраченное на прекрасное овладение информацией в своей сфере – это время, которого не хватило на то, чтобы ознакомиться с другими сферами деятельности человечества. Узкая специализация оправдана только в сообществе, где недостаток знаний одного человека может быть скомпенсирован знаниями другого.

Развитие систем связи, информационных технологий, прежде всего Интернета – приводит к тому, что объем знаний, доступный человеку в современности становится большим, чем он способен адекватно воспринять. Это океан информации, и он растет лавинообразно с каждой секундой. Многое из этой информации – лишнее, ненужное, продублированное. В итоге на поиск информации зачастую начинает уходить время значительно большее, чем требуется на ее осмысление и использование в рабочем процессе, исследованиях и т. п. Складывается парадоксальная ситуация: с увеличением объема доступных человеку знаний он все менее эффективно воспринимает их, а следовательно менее эффективно создает новое знание.

Генетическая модель знаний

Мы живем в такое время, когда грань между разными науками стирается или истончается. Новые исследования и разработки требуют обращения к материалам сопредельных областей знания, «чужим» в парадигме специального образования, которое чаще всего получает современный человек. Вполне возможно, что некоторые концепции, которые необходимы для решающего прорыва в каком-либо исследовании лежат на поверхности и широко известны любому специалисту в сопредельной области, но не исследователю. В итоге эффективность исследований резко падает не потому, что информации недостаточно, а потому, что ее слишком много, и она является «скрытой», недоступной.

Очевидный вывод лежит на поверхности: знания нуждаются в системах управления. И попытки создания таких систем предпринимались с самых ранних времен. Многочисленные библиотеки, громадные архивы бумажной информации и электронные базы данных всегда имеют какие-либо средства каталогизации и классификации ресурсов. Специально подготовленные архивариусы и библиотекари всегда готовы помочь вам найти некоторую информацию… если вам известно, что искать. Просто для того, чтобы правильно задать вопрос, нужно знать большую часть ответа.

Библиотека

Проблема заключается в том, что любой библиотекарь на самом деле совершенно не образован в области, в которой вы проводите свои исследования. Он хорошо разбирается в принципах классификации литературы и материалов, он обучен работе с архивами и знает, где, на какой полке найти ту или иную книгу. Пользуясь справочными системами, он способен сказать вам о ее примерном содержании, но он понятия не имеет, это ли именно содержание вам нужно. Вполне возможно, что необходимый вам ресурс лежал на полке рядом, но он никогда не будет найден, потому что вы не спрашивали о нем, не знали, что о нем нужно спросить.

При этом библиотекарь – это разумное существо. А что же происходит, если для поиска знаний мы пытаемся воспользоваться автоматическими системами? В ответ на некоторый поисковый запрос вас может просто опрокинуть валом информации, которая вам совсем не нужна, но система поиска считает ее важной, релевантной, просто потому, что там встречается некоторое ключевое слово. Приемлемы ли такие «системы управления знаниями» для вашей работы или исследований? Думаем, что ответ очевиден: нет.

Библиотекарь — разумное существо

Давайте попытаемся разобраться подробнее в тех системах, которые используются для управления информацией и знаниями на современном этапе. В общем случае они делятся на 2 большие группы: электронные (онлайн) хранилища и бумажные архивы. Некоторые системы управления информацией используются в обеих областях, некоторые специфичны для отдельной области.

Самой древней и распространенной системой управления информации являются каталоги и классификаторы разного рода. Принцип их действия прост: каждому ресурсу присваивается некоторый уникальный код, по которому его можно обнаружить. Параллельно все ресурсы при занесении их в архив снабжается краткой аннотацией, которая дает некоторое представление о его содержимом. На этапе создания классификатора каждой из смысловых предметных областей присваивается некоторый уникальный код, идентификатор, чаще всего цифровой. Декодирование последовательности цифр дает возможность человеку, знакомому с системой кодирования составить представление о содержимом ресурса. Типичным примером классификатора является УДК — универсальный десятичный классификатор.

Каскадно-гравитационный классификатор

(изображение найдено поисковой машиной по запросу «классификатор»)

Классификационные схемы достаточно просты, удобны в использовании и умеренно адекватны поставленной задаче. Несомненна необходимость классификации информации перед занесением ее в информационное хранилище. Но адекватность классификаторов поставленной задаче определяется адекватностью парадигмы классификационной схемы выбранной предметной области.

Центробежный классификатор
(изображение найдено поисковой машиной по запросу «классификатор»)

Дело в том, что любой классификатор создается в рамках некоторой заранее избранной парадигмы. Парадигма может быть вполне релевантна задаче поиска, но далеко не всегда. Например, древнему мыслителю может показаться вполне логичным включить астрономию в подразделы философии. Покажется ли это логичным тому, кто будет искать информацию? Задачи астрофизики являются подмножеством физических или астрономических задач? В зависимости от области исследования возможно и то и другое рассмотрение. Но любая жесткая классификационная схема ВСЕГДА навязывает вам определенную кем-то другим парадигму структуризации информации. Если эта парадигма неадекватна вашим конкретным задачам, вы сталкиваетесь с необходимостью либо изучить парадигму, на которой построена классификационная схема, либо отказаться от пользования ею, либо положиться на мнение людей, знакомых с парадигмой, которой руководствовались создатели классификатора. Последнее может быть далеко не всегда лучшим решением, ибо обладая знаниями в области строения классификатора, эти люди могут быть совершенно не знакомы с вашей областью исследования.

Типичная структурная модель классификации

Примеров неверно выстроенных нелогичных парадигм классификации может быть приведено множество. Из них наиболее ярким является пример классификации в одной из российских классификационных систем, Яндекса. Несмотря на наличие в разделе «Интернет для детей» подраздела «Детские книги» наличествует дополнительно подраздел «Гарри Поттер».

Гарри Поттер в Яндексе

Подход, использованный в приведенном примере ошибочной парадигмы строения классификатора, мог быть вызван различными причинами: от чисто конъюнктурного решения до соображения о большом количестве ресурсов в разделе «Гарри Поттер», что делает его потенциальным кандидатом на вынесение уровнем выше. Вполне возможно, что за счет нарушения логической схемы строения классификации было достигнуто несколько повышенное удобство для пользователей системы. По-иному этого же результата достичь было нельзя, поскольку подавляющее большинство существующих классификаций иерархичны.

Возьмем в качестве примера политэкономию. При строении классификационной парадигмы она может быть принята разделом политической науки, либо разделом экономики. Но не того и другого одновременно. Поэтому человек, пытающийся найти ресурсы по политэкономии, может не обнаружить их в ожидаемом разделе классификатора, если парадигма, в которой оперирует он, не совпадает с парадигмой, которую использовали создатели классификатора. Подраздел может присутствовать либо в одном разделе, либо в другом, но не в двух сразу. Излишне говорить, что это затрудняет поиск информации в классификаторах иерархической схемы.

Проблему иерархичности классификаторов пытались решать различными способами. Так, например, в Yahoo используется подход помещения ссылок на подразделы классификатора в других разделах. При перемещении по виртуальному дереву от общего к частному в определенный момент пользователь просто внезапно «переносится» в совершенно другую область знаний. Да, это улучшает удобство пользования системой. Но вместо пусть мало адекватной, но все же стройной классификационной системы в итоге мы получаем ее практическое отсутствие. Хаос. Хаос не пригоден в роли системы управления знаниями.

Неиерархическая классификация

Ширки в ответ на этот челлендж была предложена система управления социальными знаниями, построенная на тегах. Общий принцип ее функционирования заключается в том, что каждый ресурс пользователь классифицирует для себя самостоятельно, прикрепляя к нему те «ярлычки», которые по его мнению соответствуют содержимому ресурса. Теги являются всего лишь словами, которые пользователи выбирают произвольно. Таким образом, при поиске по определенному ключевому тегу теоретически возможно получение релевантных результатов.

Tag gun
(изображение найдено поисковой машиной по запросу «tag»)

Но эта система на деле скорее создает больше проблем, чем решает. Для начала ее функционирования требуется некоторое сообщество, сеть, члены которой могут быть и не знакомы с проблематикой в достаточной степени. Ширки предполагает, что подобная социальная сеть при некотором обширном числе привлеченных добровольных классификаторов ресурсов может стать самоорганизующейся. На деле возможен и диаметрально противоположный результат: резкое снижение релевантности классификаций. Пользователи системы вполне могут не иметь достаточного образования в предметной области, в то время, как оценка уровня экспертизы не производится никаким образом: все пользователи равны в своих правах классификации ресурсов.

Модель социальной сети: визуализация

Второй проблемой является то, что теги – это всего лишь слова, которые выбираются произвольно, безо всякой системы. В итоге один и тот же ресурс может быть классифицирован совершенно незначащей комбинацией, вроде «это интересно» или «посмотреть потом». Один человек может пометить ресурс, относящийся, например, к велосипедам термином «велосипед», в то время как второй использует термин «байк». В итоге информация будет не найдена одним из них. Количество дублирующих и неоптимальных тегов имеет тенденцию к лавинообразному росту; виртуальный словарь классификации неприемлемо раздувается. Наконец, спектр ресурсов, которые будут классифицированы сообществом с высокой вероятностью будет относительно узок.

Вариант несинхронизированного теггинга

Проблема неверных классификаций, которую мы обозначили в описании систем, основанных на свободном теггинге, стоит заметить, характерна и для классических иерархий. Классификация ресурса в любой из общепринятых систем выполняется людьми либо знакомыми с проблематикой, описываемой в ресурсе, но плохо знакомыми с классификационными парадигмами, либо наоборот, людьми, которые плохо образованы в предметной области знаний, но хорошо умеют работать с классификаторами. В идеале человек, выполняющий классификацию должен хорошо ориентироваться и в проблеме управления информацией и в своей области знаний. Но такое сочетание встречается крайне редко. Гораздо чаще мы сталкиваемся с неадекватной классификацией ресурсов: недостаточно подробной, попросту ошибочной или нерелевантной.

Машина для теггинга. Применяется в медицине для исследований методом меченых атомов
(изображение найдено поисковой машиной по запросу «tag»)

Но нужны ли классификации вообще? В современном Интернете все давно уже привыкли к мощным поисковым системам, которые могут в короткие сроки просматривать огромные объемы информации на предмет наличия в их тексте определенного ключевого слова. Думаем, что их недостатки хорошо понятны любому, кто хоть единожды пользовался ими на практике. Огромное количество ресурсов, выдаваемых в ответ на поисковый запрос, часто слабо релевантных тематике, нуждающихся в дополнительном просмотре и оценке – таков типичный результат работы автоматизированных систем. Поиск ключевого слова мог бы быть крайне полезен, когда начальная выборка уже произведена, но поиск по всему спектру ресурсов, накопленных в некотором информационном хранилище требует больших затрат времени.

Итак, мы приходим к необходимости наличия некоторого спектра метаданных для любого ресурса, что требуется для эффективной выборки информации по тематике. Важно лишь понять, на какой схеме мы должны выстраивать этот набор метаданных: парадигма классификации, принципы ее действия.

 
« Пред.   След. »