Система Соционет как платформа для разработки
научных информационных ресурсов
и онлайновых сервисов

 

С.И. Паринов (parinov@ieie.nsc.ru)

В.М. Ляпунов (vic@ieie.nsc.ru)

Р.Л. Пузырев (prl@ieie.nsc.ru)

 

Институт экономики и организации промышленного производства СО РАН

 

 

Введение

Одна из наиболее актуальных проблем текущего состояния дел в разработке информационных ресурсов и онлайновых сервисов для научно-образовательного сообщества заключается в создании необходимых условий для перехода "количества в качество". Достигнутый высокий уровень интернетизации науки и похожее состояние в системе высшего образования уже дали определенный результат: российскими разработчиками создано достаточно большое количество сайтов для данной категории пользователей. Это стало возможным даже не столько из-за высокой активности разработчиков, сколько из-за большого количества исследовательских коллективов и ВУЗов в России.

 

В силу общей профессиональной ориентации множества данных сайтов, их можно рассматривать как эмпирически сложившуюся распределенную информационную систему, визуализирующую структуру и состояние данного профессионального сообщества, а также существующие в нем взаимосвязи. Такой взгляд вполне правомерен, т.к. частные профессиональные сайты не могут не отражать реально существующие между научно-образовательными организациями специализацию, структуру разделения труда, профессиональные связи, достижения и другие их отличительные черты в профессиональном сообществе. Однако с этих же позиций особенно отчетливо видно, что на данный момент множество научно-образовательных сайтов как система не представляют собой хорошо организованной информационной структуры. Более того, по сравнению с традиционной научной инфраструктурой, сетевые средства, имея потенциально лучшие возможности, пока плохо отражают и слабо обслуживают потребности нашего профессионального сообщества в целом.

 

Исходя из общих системных представлений, необходимость интеграции отдельных профессиональных сайтов в единую сетевую инфраструктуру становится все более очевидной. Отдельные профессиональные информационные ресурсы, а также текущая информационная активность членов профессионального сообщества в Интернете должны быть структурированы и взаимоувязаны с тем уровнем оперативности и точности, который достижим при современных Интернет технологиях.

 

Необходимость построения единой сетевой инфраструктуры также обусловлена текущими потребностями пользователей, активно применяющих Интернет технологий в своей научно-образовательной профессиональной деятельности. Наше многолетнее изучение потребностей трех основных категорий пользователей, работающих в научно-образовательной сфере, показывает следующее:

 

1. Пользователи типа "читатель", т.е. ученые, преподаватели, студенты, которые ищут научные публикации по своей тематике, или отслеживают появление всего нового в соответствии со своими интересами, хотели бы иметь:

а) единое профессиональное информационное пространство, которое аккумулировало бы в одном месте сводные данные об информационные ресурсах, созданных разными авторами, в разных форматах, расположенных на разных сайтах;

б) сетевые сервисы, которые обеспечат им постоянную, оперативную и гарантированную информированность о появлении в информационном пространстве профессионально интересных материалов;

в) помощь в решении проблемы информационной перегрузки, если она возникает. 

 

2. Пользователи типа "автор" (те же действующие лица, что и в пункте 1, но решающие проблемы ознакомления коллег со своими научными результатами) хотели бы иметь:

а) общепринятые и доступные технологии создания научных электронных публикаций, включая поддержку системы ссылок и цитирования в Интернете;

б) интегрированное в единое информационное пространство место постоянного хранения созданных личных электронных публикаций, позволяющее автору редактировать их по мере необходимости;

в) удобный и надежный механизм для распространения созданных материалов в профессиональном научном сообществе, и их оперативного доведения до заинтересованного читателя;

г) помощь в организации профессиональных взаимодействий и контактов с заинтересованными читателями, если она потребуется.

 

3. Разработчикам онлайновых сервисов для двух выше перечисленных категорий пользователей были бы полезны:

а) сведения о структуре и способах организации единого информационного пространства, открытый доступ к его содержанию и простые интерфейсы для работы с ним, возможность создавать собственные сервисы, которые будут работать с объектами информационного пространства, а также возможность свободно встраивать свои сервисы в общую сетевую инфраструктуру научного сообщества;

б) единые стандарты и техническая поддержка для создания унифицированных интерфейсов к онлайновым сервисам, позволяющие разработчикам состыковывать свои сервисы с результатами работы других разработчиков. 

 

Для того, чтобы единая сетевая инфраструктура (ЕСИ) поддержки научно-образовательной деятельности начала формироваться, необходимо наличие технической и организационной "платформы", которая определит общие правила для создания совместимых с ЕСИ "продуктов", и даст пользователям необходимый инструментарий и/или поддержку для конструирования информационных ресурсов и онлайновых сервисов, интегрированных с ЕСИ.

 

С другой стороны, чтобы пользователи могли эффективнее применять возможности, предоставляемые ЕСИ, необходимо создание типовых онлайновых "рабочих мест", интегрированных в ЕСИ. Далее, необходима разработка поведенческих схем и организационных моделей, которые зададут институциональные рамки для применения ЕСИ как в работе исследовательских и образовательных организаций, так и в индивидуальной деятельности членов данного профессионального сообщества.

 

Некоторые элементы ЕСИ уже существуют. Данная статья посвящена описанию места системы Соционет в развитии ЕСИ, включая описание разработанной в рамках Соционет платформы для создания информационных ресурсов и онлайновых сервисов.

О системе Соционет

Система Соционет представляет собой первый российский элемент международной сетевой инфраструктуры для поддержки научно-образовательной деятельности по общественным наукам. Система Соционет является полностью самостоятельной разработкой, выполненной российскими разработчиками в рамках международных инициатив RePEc [Крихель, Т., Паринов С.] и Open Archives Initiative. Она связана ссылками со всеми основными сервисами и сайтами, входящими в данную международную научную сетевую инфраструктуру. Основные подсистемы Соционет не имеют аналогов на других родственных сайтах. На ее основе формируется новая современная платформа для создания информационных ресурсов и сервисов для профессиональных сообществ. Все ресурсы и сервисы системы Соционет - бесплатны для пользователей. Ее разработка финансируется Фондом Форда.

Система Соционет для пользователей

Система Соционет предназначена для трех выше упомянутых категорий пользователей:

1) "читатели"; 2) "авторы"; и 3) "разработчики". В системе не существует ограничений (для "читателей") на доступ к ее информационным ресурсам. Все, что создается в системе ("авторами" и разработчиками") становится частью общего информационного пространства сразу, либо в некоторых случаях после утверждения администратором Соционет.

 

"Читателям" система Соционет предлагает уникальную по составу и механизму формирования/обновления географически распределенную базу данных научных публикаций по общественным наукам. Средства навигация по этой базе данных, кроме обычных оглавлений и поисков, включают, например, так называемого "персонального информационного робота", позволяющего организовать автоматический контроль новых поступлений в систему в соответствии с интересами пользователя. Наиболее полное представление о структуре и содержании базы данных можно получить на странице "Портал".

 

"Авторам" предлагаются как средства для публикации отдельных материалов в коллекциях открытого онлайнового архива, так и платформа для создания разнообразных коллекций научных материалов (см. ниже). Предлагаемые инструментальные средства для разработки коллекций рассчитаны на разные возможности пользователей, в том числе они встроены в онлайновое рабочее место пользователя Соционет.

 

"Разработчикам" система Соционет предлагает открытую платформу для создания своих ресурсов и сервисов на основе набора конструктивных элементов (см. ниже). Так, "онлайновое рабочее место" включает средства, рассчитанные для неподготовленных пользователей, позволяющие создание тематических сайтов из набора стандартных блоков. Квалифицированные разработчики могут получить доступ к набору утилит, позволяющих им напрямую обращаться к базе данных системы Соционет, в целях создания собственных онлайновых сервисов. На данный момент платформа для разработки сервисов находится на стадии активного развития.

 

Создание коллекций научных материалов на основе платформы Соционет дает ряд преимуществ. Например, когда коллекции включаются их авторами в состав системы Соционет, на них автоматически распространяется действие большого количества различных сервисов, работающих не серверах RePEc и Соционет. Это избавляет авторов коллекций от необходимости разработки собственных поисковых, навигационных и некоторых других сервисов.

 

В свою очередь, онлайновые сервисы, создаваемые разработчиками на платформе Соционет, автоматически работают со всеми информационными ресурсами, наполняющими информационное пространство Соционет. Кроме этого в системе Соционет в настоящее время создаются возможности, которые позволят отдельным онлайновым сервисам взаимодействовать друг с другом. Это даст возможность конструировать последовательности связанных сервисов для конвейерной обработки данных и т.п.

 

Данные положительные моменты порождают и более общие позитивные эффекты. Например, разработчики, создающие свои продукты на платформе Соционет, имеют лучшие возможности для извлечения выгоды от специализации и разделения труда между ними, чем при использовании обычных Интернет технологий. Это создает среди разработчиков определенную конкурентную среду, позволяя им более эффективно расходовать свои силы и ресурсы. Поддерживаемая системой Соционет платформа виртуальной интеграции информационных ресурсов и онлайновых сервисов представляет собой пример Интернет технологий 2-го поколения. Ее компоненты позволяют организовать профессиональное информационное пространство нового вида, которое, с одной стороны, предоставляет пользователям большие возможности для индивидуального вклада, но с другой обеспечивает их средствами коллективной самоорганизации и развития.

 

Используемые подходы для формирования профессионального информационного пространства нового поколения дают системе Соционет определенные преимущества перед другими аналогичными системами. При фактически сложившемся большом количестве и высоком разнообразии интегрируемых научных материалов платформа системы Соционет обладает свойством создания гарантированной информированности пользователей о появлении в информационном пространстве важной для них информации. Интегрируя большое количество информационных потоков, ежедневно распространяемых внутри данного профессионального сообщества, система Соционет вместе с тем предоставляет пользователям средства для борьбы с возможной информационной перегрузкой.

 

Система Соционет как пример реализации ЕСИ является, с одной стороны, средством профессиональной сегментации общего информационного пространства сети Интернет и позволяет соответствующим специалистам экономить время и усилия для поиска уже опубликованных материалов, а также упрощает отслеживание новых. С другой стороны, она предлагает профессиональному сообществу открытый пространственно-образующий механизм, который дает возможность всем заинтересованным организациям и индивидам присоединиться к ней. В этом своем качестве она является одним из наиболее современных способов распространения научных материалов в профессиональном сообществе специалистов по различным дисциплинам общественных наук. Данный механизм, будучи запущен, не требует больших затрат на его поддержание и предоставляет членам сообщества широкие возможности для профессиональных взаимодействий и самоорганизации.

Структура системы Соционет

Система Соционет состоит из трех основных компонент (по состоянию на начало 2003 г.):

 

1. Механизм виртуальной интеграции разнородных информационных ресурсов по общественным наукам, децентрализованных как по их расположению на серверах различных организаций, так и по форме ответственности за их содержание (принадлежащих разным владельцам). Работа этого механизма скрыта от глаз пользователей (см. ниже о пространственно-образующем механизме). Наиболее заметным для пользователей проявлением работы данного механизма является ежедневные отчеты о новых поступлениях в систему (см., например, текущий отчет "Новые поступления").

 

2. Средства навигации по информационному пространству, возникшему в результате виртуальной интеграции информационных ресурсов и поддерживаемому в актуальном состоянии ежедневной работой упомянутого выше механизма. В наиболее комплексном виде имеющиеся разнообразные средства навигации представлены в разделе "Портал".

 

3. Персональное рабочее место ученого, преподавателя и студента, интегрированное в профессиональное информационное пространство. Здесь собраны персональные средства для публикации отдельных документов, создания коллекций, для разработки личных сайтов, на основе доступных в Соционет материалов и сервисов, а также для создания и пополнения тематических подборок публикаций. Здесь также расположено меню для управления персональным информационным роботом пользователя и т.д. Подробнее о сервисах личной зоны и их возможных приложениях см. раздел системы "Личная зона".

 

Техническую информацию о работе системы Соционет можно получить из расположенного на сайте Соционет раздела "Технология".

Принципы работы системы Соционет

1. Система Соционет интегрирует информацию с множества серверов, принадлежащих разным научным и образовательным организациям как в России, так и за рубежом, которые присоединились к международным инициативам RePEc и/или Open Archives Initiative.

2. Интегрируемая информация представляет собой библиографические описания информационных ресурсов, которые автоматически добавляются в единую базу данных после каждого сбора обновлений с серверов организаций.

3. Сбор обновлений в большинстве случаев происходит ежедневно (в общем случае это может регулироваться самими организациями).

4. Полные версии ресурсов (полные тексты статей, материалов и т.п.) остаются на серверах организаций, но собираемые библиографические описания содержат ссылки на них.

5. Организации добровольно принимают решение об участии в этой системе виртуальной интеграции научных материалов, а также о включении своих электронных коллекции в базу данных RePEc/Соционет.

6. Для включения своей коллекции в эту базу данных достаточно, чтобы организация подготовила начальный вариант коллекции и сделала его доступными на любом Интернет сервере, откуда они будут автоматически забираться как системой Соционет, так и другими серверами, независимо формирующими базу данных RePEc (их список см. на сайте RePEc).

7. Организация сама определяет количество, содержание, состав и режим пополнения своих коллекций. Однако администратор Соционет имеет право исключить коллекции из информационного пространства, если они не соответствуют установленным требованиям.

8. Наличие в библиографических описаниях публикаций ссылок на полные версии/тексты материалов определяется самой организацией. Однако рекомендуется создавать коллекции включающие доступ к полным текстам. Допускается установка ограничений на доступ к полным текстам (например, некоторые коммерческие научные журналы открывают доступ к полным текстам статей только своим легальным подписчикам и т.п.).

9. База данных RePEc/Соционет является открытой для пополнения как новыми коллекциями, так и новыми публикациями в рамках существующих коллекций. Это происходит автоматически по мере их выкладывания (в требуемом формате) на серверах организаций.

10. Система Соционет позволяет расширять и модифицировать структуру информационного пространства за счет добавления новых дисциплин общественных наук и новых типов данных. Администратор Соционет выполняет такие операции по мере появления соответствующих коллекций, а также по запросам пользователей.

Особенности системы Соционет

Система Соционет, как и другие входящие в RePEc сайты (например, EconPapers и IDEAS), интегрирует разнообразные научные материалы. Вместе с тем, в ней есть достаточное количество подсистем и сервисов, которые являются ее особенностью.

 

Система Соционет интегрирует большое количество русскоязычных коллекций научных материалов (на начало 2003 г. их было около 100), которые отсутствуют на западных родственных сайтах. Кроме этого, она включает в информационное пространство все дисциплины общественных наук. Западные сайты RePEc работают (по состоянию на начало 2003 г.) только с коллекциями по экономике.

 

В нашу систему встроен Открытый Архив для публикации русскоязычных статей и других научных материалов по всем основным дисциплинам общественных наук. Список дисциплин может по просьбе пользователей пополняться. Наличие Открытого Архива позволяет сделать первый шаг к "замыканию" научного информационного кругооборота в информационном пространстве Соционет. Информационный кругооборот в этом случае выглядит следующим образом: исследователи получают из информационного пространства Соционет интересные для них материалы, создают с их помощью свои научные статьи и другие результаты, и помещают их обратно в это же информационное пространство, и т.д. и т.п.

 

Система Соционет включает личную зону, которая дает пользователю различные средства для индивидуальной работы в рамках информационного пространства. Это включает: а)создание новых коллекций; б)настройку своего персонального информационного робота, помогающего отслеживать новые поступления в систему и уменьшающего информационную перегрузку пользователя (при большом общем потоке новых поступлений); с)создание личного сайта, и др.

 

Комплекс возможностей системы Соционет, в отличие от аналогичных западных сайтов, в большей степени ориентирован на формирование единой сетевой инфраструктуры для крупного профессионального сообщества. Если западные RePEc сайты позиционируют себя в рамках концепции "электронная библиотека", то наша система предназначена для интеграции всех значимых информационных потоков, распространяемых внутри сообщества. Поэтому структура базы данных Соционет включает некоторые типы данных, которые отсутствуют на других RePEc сайтах (см. текущий список типов данных).

 

Еще одной важной особенностью нашей системы является реализация свойства гарантированной информированности пользователей о появлении в информационном пространстве важных для них материалов. Это достигается благодаря возможностям персонального информационного робота контролировать все новые поступления в систему в соответствии с заданным пользователем профилем его интересов и оповещать его, если что-то будет найдено.

 

В связи с приоритетом целей на формирование единой сетевой инфраструктуры для научно-образовательного сообщества платформа системы Соционет предлагается в качестве "отраслевого" (для академических и образовательных организаций) стандарта для создания профессиональных информационных ресурсов, включая формат описания электронных публикаций и т.п. (см. следующий раздел). Также осуществляется поддержка внедрения платформы и технологий Соционет в работу исследовательских и образовательных организаций, и создания на этой базе сетевых моделей поведения исследователей, преподавателей и студентов.

Платформа системы Соционет для создания информационных ресурсов

Основной задачей платформы для создания информационных ресурсов является задание: а)правил и инструментов, обеспечивающих разработчиков средствами для конструирования информационных ресурсов (коллекций); а также б)механизмов интеграции создаваемых коллекций в единую базу данных. С точки зрения конечных пользователей информационных ресурсов платформа должна обеспечивать формирование удобно организованного единого информационного пространства профессионального сообщества, а также его постоянную актуализацию.

 

Правила и форматы представления данных о коллекциях, которые используются в системе Соционет, заимствованы из международных инициатив RePEc и Open Archives Initiative (OAI). Это обеспечивает двухстороннюю совместимость: система Соционет "понимает" и может интегрировать в себя коллекции, созданные в рамках данных инициатив; а также наоборот - коллекции, созданные в нашей системе, открыты для включения в другие аналогичные сайты. Правда, полная совместимость на данный момент возможна только с системами на базе OAI, т.к. сайты RePEc не "понимают" некоторые расширения Соционет (включая дисциплины общественных наук, кроме "economics", и некоторые дополнительные типы коллекций).

 

Для того чтобы платформа Соционет стала полноценным опорным элементом создания информационных ресурсов (коллекций) для ЕСИ было сделано следующее:

 

а) запущен соответствующий задачам ЕСИ пространственно-образующий механизм для виртуальной интеграции создаваемых коллекций, а также в общем случае – интеграции всех значимых информационных потоков внутри профессионального сообщества (для сравнения - аналогичный механизм на сайтах RePEc ограничен рамками концепции "электронной библиотеки");

 

б) пользователям предложены инструменты для разработки собственных коллекций и информационных ресурсов других типов, дополняющие то, что уже было создано в других проектах, поскольку существующие средства не в полной мере соответствуют задачам ЕСИ, а также они рассчитаны на достаточно подготовленных пользователей (см., например, инструкцию на RePEc).

 

Общий контекст создания пространственно-образующих механизмов

История создания открытых пространственно-образующих механизмов для профессиональных сообществ занимает пока немногим более 5 лет (механизмы интеграции библиотечных каталогов на базе протокола Z39.50 мы не рассматриваем, т.к. им присущи определенные коммерческие и корпоративные черты). На данный момент известны два международных проекта, которые определили базовый формат стандартизации и принципы работы механизмов виртуальной интеграции стандартизованных информационных ресурсов в единое информационное пространство научно-образовательного сообщества. Первопроходцем является проект RePEc, начавший популяризацию и продвижение данный идей в международном масштабе с 1997 г. (только в рамках экономической науки). Начиная с 1999 г. в разработку этой проблематики на базе подходов RePEc включился проект Соционет (см. выше раздел об особенностях Соционет). В 2000 г. стартовал проект Open Archives Initiative, который, основываясь на опыте RePEc и других близких проектов, предложил универсальные и междисциплинарные решения для интеграции информационных ресурсов. Именно поэтому в 2002 году для базы данных RePEc, включая ее расширения от Соционет, Томасом Крихелем (Thomas Krichel) были созданы OAI интерфейсы (см. примеры ниже).

 

Можно выделить ряд содержательных проблем, на решение которых направлены коллективные усилия по создания пространственно-образующих механизмов.

 

Организации создают коллекции электронных научных публикаций или материалов других видов, которые, как правило, публикуются на собственных сайтах. Таких сайтов в настоящее время создано уже очень много и во многих случаях их посещают одни и те же люди, входящие в соответствующее профессиональное сообщество.

 

Большое число самостоятельных сайтов, содержание которых необходимо контролировать отдельному члену данного профессионального сообщества (чтобы поддерживать свой профессиональный уровень) создает пользователям ряд технических проблем. Например, это требует усилий, чтобы разобраться в различных системах навигации, сопровождается затратами времени на "обход" этих сайтов и т.д. Все это приводит к потерям времени и сил для того, чтобы быть в курсе профессиональных новостей. Когда количество сайтов становится слишком большим, пользователи теряют контроль над информационными потоками и не могут извлекать выгоду из публикуемой новой информации, хотя потенциально она им доступна.

 

Разработчики информационных ресурсов, в свою очередь, из-за обособленности своих сайтов и отсутствия общих правил не могут извлекать выгоду от специализации и разделения труда между ними. Это проявляется в создании на каждом сайте практически дублирующих друг друга наборов сервисов поиска, навигации и т.п. Поддержание информационной "целостности" сайтов приводит в этой ситуации к созданию дублирующих друг друга коллекций материалов и т.п.

 

Для решения данных проблем необходима реализация пространственно-образующего механизма, что предполагает наличие двух взаимосвязанных факторов:

1) разработчики электронных информационных ресурсов должны сформировать стандартизованные описания своих коллекций и создать техническую возможность для свободного доступа (на чтение) к этим данным через Интернет;

2) необходимо, чтобы хотя бы на одном Интернет сервере, была запущена программа, которая по списку Интернет адресов, где располагаются стандартизованные описания ресурсов, собирает и переносит в единую базу данных все добавления и изменения в этих коллекциях.

 

При одновременной реализации этих двух факторов в открытом доступе в сети Интернет возникает и постоянно актуализируется единая база данных стандартизованных описаний информационных ресурсов, которые фактически принадлежат разным людям или организациям и полностью управляются ими.

 

Наличие такой базы данных дает пользователям экономию времени и сил на отслеживание новых материалов, т.к. теперь все публикации и материалы данного профессионального сообщества оперативно собираются и свободно доступны на одном сервере.

 

Разработчики информационных ресурсов могут свободно использовать содержание единой базы данных описаний коллекций для создания собственных тематически специализированных ресурсов. В этих условиях нет необходимости просто дублировать информационные ресурсы на собственных сайтах. Теперь можно оперировать уже созданными коллекциями в целях получения из них нового качества.

 

Все онлайновые сервисы, которые создаются на основе базы данных стандартизованных коллекций, работают как для уже существующих коллекций, так и для тех, которые появятся в будущем. С точки зрения отдельной организации, которая планирует создание собственных информационных ресурсов, включение их в данное информационное пространство означает, что все уже созданные здесь сервисы (например, поиск, навигация и т.п.) бесплатно обслуживают коллекции данной организации.

 

В этих условиях разработчики онлайновых сервисов избавлены от необходимости создавать собственные системы поиска и т.п., если аналогичные уже действуют применительно к единой базе данных коллекций. Основываясь на этом можно вкладывать силы и средства в разработку действительно новых онлайновых сервисов. Данная ситуация позволяет разработчикам специализироваться и извлекать выгоду от разделения труда между ними.

 

Практически на начало 2003 г. в научно-образовательном сообществе действовало около 10 самостоятельных пространственно-образующих механизмов, большая часть которых связана с проектом RePEc.

 

Реализация пространственно-образующего механизма в системе Соционет начиналась под влиянием RePEc. Однако конструктивные особенности нашей системы, перечисленные выше в параграфе "Особенности системы Соционет", потребовали разработки дополнительных механизмов интеграции на уровне отдельных коллекций (в RePEc интеграция идет на уровне архивов), а также средств для обработки много дисциплинарных коллекций и разнообразных типов научных материалов. Некоторые детали работы этого механизма описаны выше в параграфе "Принципы работы системы Соционет". В настоящее время в систему Соционет включаются все необходимые средства для поддержки OAI протоколов (в том числе, инструменты для создания OAI совместимых коллекций, а также возможности виртуальной интеграции OAI коллекций в информационное пространство системы).

Пространственно-образующий механизм на базе OAI

Основным техническим отличием OAI от RePEc является использование в OAI представления данных на базе XML (в RePEc - ReDIF), а также - более сложная организация архивов/коллекций, предполагающая наличие у них минимального интерфейса СУБД с шестью базовыми командами (см. описание этих команд ниже). Для сравнения: в RePEc данные о коллекциях организованы в виде структурированной системы файлов и каталогов, что имеет определенные недостатки. По сравнению с RePEc комплексные возможности OAI лучше соответствуют основной задаче системы Соционет – поддержанию полного информационного пространства для профессионального научно-образовательного сообщества. Поэтому они могут быть положены в основу создания более совершенной ЕСИ.

 

Ниже предлагается описание основных элементов, определяющих работу пространственно-образующего механизма на основе подходов OAI (подробнее об OAI см. в инструкции на английском).

 

Пространственно-образующий механизм собирает данные об информационных ресурсах, которые подготовлены пользователями для интеграции. В терминах, принятых в OAI, информационные ресурсы, принадлежащие одному пользователю, называются "архивом". Такой архив может включать любое количество тематических коллекций, каждая из которых состоит из набора описательных данных. Данные в архиве, созданном на основе требований OAI, представляют собой файл в формате XML, состоящий из 3 обязательных частей: а)заголовок; б)метаданные; и в)блок “About” (справочная информация). Поскольку пространственно-образующий механизм может получить данные из архива OAI только через специальный интерфейс (см. ниже), то описанные требования не имеют отношение к внутреннему устройству информационного ресурса пользователя, а лишь определяют, что будет выдано в ответ на запрос.

 

Заголовок (header) – содержит информацию, общую для всех записей, входящих в архив, и не зависит от формата метаданных. Заголовки используются в процессе сбора данных, т.к. в них определяется уникальный идентификатор записи, а также поля для календарной даты создания, удаления и изменения метаданных в данной записи.

 

Метаданные – содержат описания коллекций и публикаций, выполненные в едином формате. Возможно использование разных форматов метаданных, т.к. они не "видны" внешним пользователям (включая работающие с ними пространственно-образующие механизмы). Формат метаданных закрыт от внешних пользователей стандартным интерфейсом доступа к этим данным OAI-PMH (см. об этом ниже).

 

Справочная информация ("About") – необязательный раздел для включения информации о метаданных. Предполагается, что такой раздел может быть использован, например, для хранения информации об интеллектуальных правах на метаданные, условиях их использования и т.п.

 

Данный формат может быть проиллюстрировано следующим примером:

 

<header>
    <identifier>oai:arXiv:cs/0112017</identifier>
    <datestamp>2002-02-28</datestamp>
    <setSpec>cs</setSpec>
    <setSpec>math</setSpec>
</header>
<metadata>
 <oai_dc:dc 
     xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" 
     xmlns:dc="http://purl.org/dc/elements/1.1/" 
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ 
     http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
   <dc:title>Using Structural Metadata to Localize Experience of Digital 
             Content</dc:title>
   <dc:creator>Dushay, Naomi</dc:creator>
   <dc:subject>Digital Libraries</dc:subject>
   <dc:description>With the increasing technical sophistication of both 
    information consumers and providers, there is increasing demand for 
    more meaningful experiences of digital information. 
   </dc:description>
   <dc:description>Comment: 23 pages including 2 appendices, 
                   8 figures</dc:description>
   <dc:date>2001-12-14</dc:date>
   <dc:type>e-print</dc:type>
   <dc:identifier>http://arXiv.org/abs/cs/0112017</dc:identifier>
 </oai_dc:dc>
</metadata>
<about> 
 <provenance
     xmlns="http://www.openarchives.org/OAI/2.0/provenance" 
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
     xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/provenance
     http://www.openarchives.org/OAI/2.0/provenance.xsd">
    <originDescription harvestDate="2002-02-02T14:10:02Z" altered="true">
      <baseURL>http://the.oa.org</baseURL>
      <identifier>oai:r2:klik001</identifier>
      <datestamp>2002-01-01</datestamp>
  <metadataNamespace>http://www.openarchives.org/OAI/2.0/oai_dc/</metadataNamespace>
    </originDescription>
  </provenance>
</about>

 

В OAI используется схема работы с архивами аналогичная СУБД, т.е. пользователь формирует на заданном языке запрос к архиву, а в ответ получает искомые данные в некотором выходном формате.

 

Выходной формат может быть выбран пользователем из списка, заданного разработчиками архива. Уже существующие архивы OAI предлагают в качестве выходного формата "дублинское ядро" и/или "Academic Meta Format" (AMF).

 

Ниже предлагается описание набора команд, для извлечения данных из архивов OAI, который получил название OAI-PMH (см. его полное описание на английском).

 

Пространственно-образующий механизм для сбора данных из частных OAI архивов должен послать по протоколу http запрос к заданному архиву, например, в таком виде - http://oai.repec.openlib.org/?verb=GetRecord&identifier=oai:RePEc:nos&metadataPrefix=amf. Этот запрос позволяет получить описание одного из архивов базы данных RePEc, который реально администрируется в Соционет. Параметры запроса разделены знаком "&". Необходимо учитывать специфику самого http протокола: например, для передачи значения параметра в которое входит сам символ “&” необходимо его заменять на escape-последовательность символов - %26.

 

Протокол доступа к архивам OAI предусматривает использование шести команд. При этом любой запрос начинается с параметра verb=, после которого стоит название команды. В указанном выше примере запроса verb=GetRecord, что означает запрос на получение записи (см. ниже). В общем случае в качестве значения для verb= могут быть использованы следующие команды (некоторые имеют дополнительные аргументы):

 

1. GetRecord. Команда используется для поиска индивидуальной записи (метаданных) в архиве. При этом необходимые дополнительные аргументы - identifier - задающий уникальный идентификатор (или ключ требуемой записи), и metadataPrefix - формат вывода метаданных в ответ на данный запрос. Пример данного запроса приведен выше.

 

2. Identify. Команда используется для вывода информации о заданном архиве. В качестве ответа возвращается следующая информация: а)содержательное имя архива; б)базовый URL архива; в)версия протокола OAI, поддерживаемая архивом; в)адрес электронной почты администратора архива; г)даты создания и обновления архива. Пример данного запроса - http://oai.repec.openlib.org/?verb=Identify

 

3. ListIdentifiers. Команда используется для поиска идентификаторов записей, которые представлены в архиве. При помощи этой команды можно выделить те документы, которые были созданы или изменены в последнее время. Например, найти новые поступления в архив. Дополнительные аргументы позволяют искать идентификаторы выборочно, основываясь на их принадлежности к определенной части архива (аргумент set позволяет задать коллекции архива) или по временным параметрам (аргументы from и until ограничивают выборку документов по временному промежутку, может быть указан только один из них, или ни одного). Существует также аргумент resumptionToken. Если возвращаемых на запрос данных слишком много, то этот параметр позволяет регулировать показ следующей страницы результатов запроса. Пример запроса - http://oai.repec.openlib.org/?verb=ListIdentifiers&metadataPrefix=amf

 

4. ListMetadataFormats. Команда используется для получения списка форматов метаданных, в которых могут быть представлены выходные данных. Пример запроса - http://oai.repec.openlib.org/?verb=ListMetadataFormats

 

5. ListRecords. Команда используется для получения записей, входящих в архив. Дополнительные аргументы позволяют выполнять выборочное получение записей, основываясь на принадлежности записи к конкретной коллекции в архиве, или по временным параметрам. Перечень аргументов и их значение - такие же, как у команды
ListIdentifiers и включает from, until, set и resumptionToken.

 

6. ListSets. Команда используется для получения структуры коллекций в архиве. Например, при запросе http://arXiv.org/oai2?verb=ListSets  получим в ответ перечень дисциплин архива:

 

<?xml version="1.0" encoding="UTF-8" ?> 
- <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/
http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2003-01-27T09:39:00Z</responseDate> 
  <request verb="ListSets">http://arXiv.org/oai2</request> 
- <ListSets>
- <set>
  <setSpec>nlin</setSpec> 
  <setName>Nonlinear Sciences</setName> 
  </set>
- <set>
  <setSpec>math</setSpec> 
  <setName>Mathematics</setName> 
  </set>
…и так далее.
  </ListSets>
  </OAI-PMH>

 

Практическая значимость пространственно-образующих механизмов на основе OAI зависит от двух факторов.

 

С одной стороны, пространственно-образующие механизмы должны "уметь" использовать набор из этих 6 команд для сбора обновлений с распределенных в сети Интернет архивов OAI и формирования из собранных данных полноценного информационного пространства. С другой - разработчики информационных ресурсов должны создать для своих коллекций онлайновый интерфейс, позволяющий пространственно-образующим механизмам извлекать содержимое коллекций с помощью данных команд. При реализации этих двух факторов возникнут необходимые и достаточные условия для существования искомого информационного пространства. Поскольку самостоятельное конструирование OAI-PMH интерфейса для коллекций является достаточно сложной технической задачей, то в системе Соционет разработаны средства, облегчающие разработчиками создание OAI совместимых архивов.

Средства создания стандартизованных коллекций

Пространственно-образующие механизмы могут работать только со стандартизованными коллекциями (в общем случае – массивами данных). Для системы Соционет коллекция считается стандартизованной, если она представлена в формате OAI или ReDIF. В таких случаях она полностью готова к включению в информационное пространство Соционет, а также в базу данных RePEc и другие близкие пространственно-образующие системы. Остается только сообщить администратору Соционет адрес (URL) расположения стандартизованной коллекции в Интернете, и, если она соответствует содержательным требованиям системы Соционет, то пространственно-образующий механизм начнет регулярный автоматический перенос ее содержания и всех изменений в базу данных системы Соционет.

 

Для процесса создания стандартизованных коллекций существует несколько возможных исходных случаев:

1)информационные ресурсы/коллекции уже созданы обычными средствами и открыты для пользователей на сайте организации, например, в виде набора статических или динамически создаваемых html страниц;

2)организация планирует создавать собственный сайт, который будет включать коллекции научных публикаций/материалов;

3)организация планирует создание только коллекций своих научных публикаций/материалов без ввода в действие собственного сайта.

 

В зависимости от случая стандартизованные коллекции могут быть созданы следующими способами:

 

Случай 1: Для формирования стандартизованного представления коллекции по ее html виду наиболее целесообразно использование "конвертера", который играет роль посредника между коллекцией в формате html и пространственно-образующим механизмом. Данный конвертер может работать как на сайте организации, которой принадлежат коллекции, так и на сервере Соционет. Фактически, этот случай соответствует созданию технического доступа к коллекциям организации, которым будут пользоваться пространственно-образующие сервера. При этом организация развивает и поддерживает коллекцию только в html-м формате. Операции по ее переводу в стандартизованный вид выполняются автоматически. Возможный недостаток данного способа – требуются затраты на создание конвертера, а также при добавлении новых публикаций в коллекцию необходимо строгое соблюдение html шаблона, на который настроен конвертер, иначе возможны ошибки при конвертации данных.

 

Как подвариант случая 1 возможно создание и поддержание на сайте организации параллельно обычному html представлению коллекций еще и набора файлов, содержащих описание коллекций в требуемом стандартном виде. Очевидный недостаток - необходимо поддерживать два набора файлов для одной коллекции. Здесь может быть полезен АРМ администратора коллекций, который, с одной стороны, предлагает простой интерфейс для ввода/редактирования библиографических данных коллекции, а также позволяет сохранять их не только в стандартном виде, но и в виде html страниц.

 

Случай 2: В процессе создания сайта необходимо предусмотреть в разметке его страниц возможность автоматизированного извлечения из них данных о коллекциях научных публикаций и материалов. Если это сделать на этапе проектирования сайта, то создание конвертера, переводящего данные с сайта в стандартизованные описания коллекций, значительно упростится.

 

Случай 3: Если организация хочет иметь коллекцию на своем сервере и с собственным html дизайном, то это попадает под предыдущий случай. Если организацию устраивает существование коллекции в информационном пространстве Соционет и общий дизайн, который система Соционет предлагает для навигации по ее содержанию, то целесообразно создавать коллекцию средствами личной зоны системы Соционет. В этом случае организация может сэкономить значительные силы и средства на создание и пополнение своих коллекций.

 

Самым простым вариантом создания коллекций научных материалов с "нуля" является использование для этих целей средств личной зоны Соционет. Кроме этого система Соционет предлагает некоторые другие варианты создания электронных коллекций, которые могут оказаться более удобными в зависимости от ситуации (см. АРМ администратора коллекций).

 

Процесс создания и развития коллекций пользователем может быть организован как на его собственном компьютере, так и на сервере Соционет.

 

В общем случае создание стандартизованных коллекции и их включение в информационное пространство Соционет предполагает выполнение следующих этапов:

1) сформировать стандартизованные файлы с библиографическим описанием публикаций и подготовить файлы с полными текстами соответствующих публикаций;

2) разместить все подготовленные файлы на каком-нибудь Интернет сервере, где они будут открыты на чтение по протоколу http или ftp;

3) включить автоматический перенос обновлений из созданных коллекций в базу данных RePEc/Соционет (т.е. включить синхронизацию).

 

Таблица 1.

Способы создания коллекций для включения в Соционет

 

 

1) Сформировать файлы

2) Разместить файлы

3) Включить синхронизацию

а) На компьютере пользователя

с помощью АРМа администратора

на своем сервере1 или на сервере Соционет2

в ручном режиме3
или автоматически4

б) На сервере Соционет

с помощью средств личной зоны

файлы размещаются автоматически

синхронизация происходит автоматически

в) Создаются конвертером "на лету"5

с помощью конвертера

автоматически

автоматически

 

Сноски и пояснения к таблице 1:

 

1) файлы коллекции можно разместить на своем сервере (в случае создания коллекции на компьютере пользователя), если у пользователя есть доступ на запись к любому Интернет серверу (служебный сервер организации пользователя, собственный сайт на http://narod.ru/ и т.п.). За инструкциями следует обращаться к администратору соответствующего сервера. Получив доступ на запись по ftp протоколу к Интернет серверу, необходимо внести в файлы настройки АРМа администратора (версия 5.* и выше) параметры ftp доступа. После этого размещение/обновление файлов на сервере будет выполняться командой АРМа "Сеть -- перенос выделенной коллекции на FTP...".

 

2) файлы коллекции, подготовленные с помощью АРМа на компьютере пользователя, можно перенести по ftp на сервер Соционет, для этого пользователь должен создать свою личную зону. После этого у пользователя на сервере Соционет возникнет свой личный сайт, к которому он получает доступ по ftp. Необходимо внести в файлы настройки АРМа администратора (версии 5.* и выше) параметры ftp доступа к личному сайту. Далее, размещение/обновление файлов на сервере будет выполняться командой АРМа "Сеть -- перенос выделенной коллекции на FTP...".

 

3) синхронизацию можно выполнять в ручном режиме с помощью специального сервиса (см. общее описание сервиса). Данная процедура будет доступна пользователю (администратору коллекций) только после того, как система Соционет будет "знать", где размещены файлы с описанием его коллекций. Для этого необходимо послать по электронной почте соответствующий URL (Интернет адрес) созданных коллекций администратору Соционет.

 

4) синхронизацию можно выполнять в автоматическом режиме, если направить администратору Соционет просьбу поставить "на автомат" включении синхронизации коллекций с заданной регулярностью (например, раз в неделю, раз в месяц и т.д.).

 

5) конвертер для заданного сайта может быть сделан на заказ; заказы необходимо направлять администратору.

 

Для любой коллекции, созданной в личной зоне системы Соционет, или уже включенной в информационное пространство, может быть открыт OAI доступ к ее данным.

Платформа системы Соционет для разработки
онлайновых сервисов

Базовая возможность для создания онлайновых сервисов, которые должны работать с содержанием информационного пространства RePEc/Соционет и не зависеть от платформы Соционет, заключаются в следующем:

 

1. Необходимо создать на своем компьютере собственное зеркало базы данных архивов/коллекций. Это можно сделать с помощью программы rr.pm из проекта RePEc или через OAI интерфейс. Более современный вариант - использовать доступ к уже собранной базе с OAI интерфейсом по протоколу OAI-PMH.

2. Получив доступ к содержанию базы данных (первым или вторым способом), пользователь может создать на своем сервере любые сервисы, обслуживающие запросы пользователей к данному информационному ресурсу. По такому принципу созданы все основные "зеркала" базы данных RePEc (см. их список), включая систему Соционет.

 

Недостатком этого варианта являются достаточно большой объем работы, который требуется выполнить, а также необходимость активного использования HTTP/FTP протоколов для получения доступа к базе данных на чужом сервере. Это создает достаточно высокий начальный барьер, который может быть преодолен не всеми разработчиками онлайновых сервисов.

 

Для устранения этого недостатка в системе Соционет разрабатывается платформа для создания онлайновых сервисов, интегрированных с базой данных RePEc/Соционет.

 

Существующая на начало 2003 г. платформа предлагает две возможности:

 

1. Для разработчиков без специальной подготовки. Если разработчик создает свою личную зону в системе Соционет, то он может сконструировать свой личный сайт на сервере Соционет. Такой личный сайт, кроме обычной текстовой информации, может включать сконфигурированные разработчиком стандартные сервисы, позволяющие всем пользователям его личного сайта: а)просматривать содержание созданной разработчиком тематической подборки коллекций (выбранных из базы данных RePEc/Соционет) и подписаться на уведомления о новых поступлениях в эту тематическую подборку; б)участвовать в онлайновых голосованиях, включая возможность предложить свою тему для голосования, просмотреть графики результатов предыдущего голосования, а также архив уже прошедших голосований.

 

Конфигурация сервисов личного сайта производится через меню личной зоны. Поэтому эта возможность – достаточно проста для применения, но ограничена набором имеющихся в личной зоне стандартных сервисов. Однако в системе Соционет есть и другие возможности.

 

2. Для квалифицированных разработчиков. В рамках личной зоны в системе Соционет разработчик онлайновых сервисов может получить доступ к поддерживаемой базе данных коллекций с помощью специального набора утилит. Этот доступ реализуется средствами файловой системы сервера socionet.ru. Общую информацию о способе организации базы данных и наборе утилит см. в соответствующих технических протоколах проекта Соционет. В ближайшее время будут созданы более полные инструкции и другие необходимые условия, упрощающие практическое применение данного варианта. За более полной информацией необходимо обратиться к администратору Соционет.

 

Этими двумя пунктами возможности не исчерпываются. Платформа системы Соционет использует тот факт, что на вход онлайновых сервисов поступают стандартизованные данные, собранные в единое информационное пространство пространственно-образующим механизмом. Если предусмотреть, чтобы данные на выходе сервисов также имели стандартизованный вид, то тем самым создаются условия для организации прямого обмена данными между сервисами, создаваемыми разными разработчиками.

 

Обмен данными, в форме "на вход одних сервисов подаются результаты работы других", в нашем случае выглядит следующим образом: а)одни сервисы создают на выходе стандартизованные данные, которые становятся частью информационного пространства; б)другие сервисы, настроенные на работу с исходными данными информационного пространства, будут по определению работать и с вторичными данными, созданными в результате реализации пункта "а".

 

В качестве иллюстрации полезности обмена данными между сервисами для конечных пользователей можно привести следующие простейшие примеры: а)результаты выполнения процедуры поиска публикаций по фамилии автора подаются на вход другой процедуре, которая преобразует их в список публикаций данного автора или формирует из них резюме автора; б)результаты поиска публикаций по ключевым словам передаются процедуре построения на их основе правильно оформленного списка литературы; и т.п.

 

Предполагается, что организация взаимодействий между разными сервисами и управление их работой может стать частью интерфейса персонального информационного робота, входящего в личную зону системы Соционет. Конечные результаты компоновки цепочек сервисов могут быть представлены разработчиком в виде нового сервиса. Скомпонованный сервис может быть включен в личный сайт разработчика для его применения всеми заинтересованными пользователями.

 

Описанная выше возможность обмена данными между сервисам через информационное пространство позволяет организовать: а)"конвейеризацию" сервисов; б)физическое распределение взаимосвязанных сервисов по разным Интернет серверам, а также их распределенное выполнение на разных серверах; в)реализацию модульного принципа построения композитных сервисов и т.д. Это в свою очередь создает более эффективную и конкурентную среду для конструирования онлайновых сервисов (по сравнению с тем, что существует в настоящий момент в Интернете), т.к. позволяет разработчикам в полной мере извлекать выгоды из их специализации и экономить свои локальные ресурсы за счет использования результатов труда других разработчиков.

 

Организация подобного механизма обмена данными между сервисами входит в планы развития платформы Соционет для создания онлайновых сервисов. В комплексе с другими возможностями системы Соционет разрабатываемая платформа сможет обеспечить разработчиков как средствами интеграции своих сервисов с базой данных RePEc/Соционет, так и инструментарием для конструирования отдельных модулей и сборки композитных сервисов из уже созданных модулей.

 

Для координации и коллективной реализации данных идей мы приглашаем к сотрудничеству всех заинтересованных разработчиков и проекты/организации, работающие в близких областях. Наш план практической реализации платформы с описанными возможностями предполагает детальную разработку протокола взаимодействия сервисов, а затем создание инфраструктуры, поддерживающей реализацию данного протокола. Текущее состояние работ в этом направлении характеризуется следующими пунктами:

 

1. Определены необходимые условия для взаимодействия сервисов. Для этого результаты работы каждого сервиса должны в стандартизованном виде помещаться на хранение (с заданным сроком) в информационное пространство.

 

2. Средой для взаимодействия сервисов является информационное пространство системы Соционет. Через него сервисы обмениваются данными друг с другом.

 

3. Каждый сервис должен иметь, как минимум, технический интерфейс для его запуска другим сервисом. Дополнительно у сервиса может существовать еще и пользовательский интерфейс для работы с ним в обычном режиме через веб страницы. Для каждого сервиса должна существовать спецификация его входов, выходов и функций. Данная спецификация должна иметь стандартный формат, позволяющий ее использовать автоматическим процедурам согласования сервисов, скомпонованных пользователем в одну цепочку.

 

4. Для описания правил взаимодействия цепочки сервисов необходим командный файл, содержащий три группы инструкций: а)какие данные берутся из информационного пространства для передачи на вход каждому из сервисов в цепочке; б)команды и правила работы каждого из сервисов; в)идентификаторы, с которыми данные, полученные в результаты работы каждого из сервисов, будут помещаться в информационное пространство, и/либо форма передачи результатов конечному пользователю.

 

5. Необходимо разработать программу автоматического контроля и согласования входов - выходов сервисов в случае, если разработчик объединяет их в одну цепочку.

 

Заключение

Что нужно, чтобы Единая Сетевая Инфраструктура (ЕСИ) научно-образовательного сообщества начала осознанно формироваться? В условиях, когда членам этого профессионального сообщества присуща внутренняя мотивация на создание и поддержание собственных информационных ресурсов, на наш взгляд, достаточно следующего: а)требуется наличие удобной, общепринятой и открытой платформы для создания информационных ресурсов; б)требуется доступное и демократически организованное единое профессиональное информационное пространство, интегрированное с платформой, упомянутой в предыдущем пункте; в)требуются простые и эффективные инструменты для конструирования новых средств работы с информационным пространством, т.е. требуется открытая платформа для создания онлайновых сервисов.

 

Часть из этих пунктов уже в определенной степени реализована в системе Соционет. Мы приглашаем к сотрудничеству заинтересованных лиц и организации для координации усилий и совместной работы по формированию современной ЕСИ, необходимой нашей науке и образованию.