Онлановые информационные ресурсы для исследователей по экономике:

Онлайновые информационные ресурсы для исследователей по экономике:
база данных RePEc и веб-портал RuPEc*

30 мая 1999 г.

Thomas Krichel
Department of Economics
University of Surrey
Guildford GU2 5XH
United Kingdom
T.Krichel@surrey.ac.uk
phone: +44-(0)1483-876958
fax +44-(0)1483-303775

Виктор Ляпунов
Институт экономики и ОПП СО РАН
vic@ieie.nsc.ru

Сергей Паринов
Институт экономики и ОПП СО РАН
parinov@ieie.nsc.ru

^*Работа по созданию базы данных RePEc поддержана грантом Joint Information Systems Committee of the UK Higher Education Funding Councils по программе Electronic Library Programme (WoPEc). Создание набора пользовательских сервисов RuPEc к базе данных RePEc и российского архива РАРДЭС поддержано грантом РГНФ (№ 96-02-12039в). Авторы благодарят Евгению Ступину за комментарии, которые помогли улучшить этот текст.

Абстракт

Международное сообщество исследователей по экономике реализует уникальный проект создания общей децентрализованной базы данных о всех основных видах публикаций по экономической проблематике. Современные достижения этого проекта реализованы в виде базы данных RePEc, а также в большом наборе сервисов для обслуживания запросов пользователей к этой базе, развиваемых независимо на серверах в различных странах. Среди них существует и российский сайт - RuPEc. На нем расположены локализации некоторых международных сервисов, начата разработка веб-портала публикаций по экономике и некоторых других пользовательских интерфейсов.

Online Scholarly Information for Economics:
The RePEc database and the RuPEc web portal

Thomas Krichel, Victor Lyapunov, Sergei Parinov

Abstract:

RePEc as an international network of online publications archives in economics. Its history can be traced back to 1993. By March 1999 it consists of over 70 archives holding over 13,000 downloadable papers and over 50,000 descriptions of offline papers from close to 1,000 series, as well as data about over 4,000 academic Economics department and research institutes. It includes several data types (papers, published articles, software, personal and institutional data). Its long-run aim is a relational database that covers all aspects of academic economics.

Founded in 1997, RuPEc is the oldest Russian service that contributes to RePEc and implements RePEc services. The RuPEc archive has a separate Russian language section that contains document descriptions in Russian. Russian providers of own electronic archives can include their collections into both sections of RuPEc database (English and/or Russian) using general RePEc rules. RuPEc includes full set of RePEc bibliographical data, links to all main RePEc services.

The Russian team works on creation of convenient end-user web interface for visualization of a contents of the input documents flow. This service will also offer new web tools for personalization of the web portal contents according interests profile of end-user.

By broad international scale, wide spectrum of input documents, and filtration tools the RePEc database and RuPEc web service hopes to become a leader in providing economics community with current awareness data.

1. Введение

RePEc (Research Papers in Economics) как международная сеть архивов электронных документов в экономике, история которой начинается с 1993 г. К марту 1999 г. RePEc объединяет более 70 независимых архивов, включающих более 13 тыс. загружаемых полнотекстовых файлов и более 50 тыс. описаний документов, структурированных по примерно 1000 сериям. Кроме этого сеть включает данные о более чем 4 тыс. академических организаций, проводящих исследования в экономике. Таким образом, сеть объединяет несколько типов данных (документы, опубликованные статьи, описание программного обеспечения, персональные данные и сведения об организациях). Долгосрочная цель RePEc – создание распределенной онлайновой базы данных, покрывающей все аспекты академических исследований в экономике, которая состоит из связанных между собой электронных архивов и баз данных, принадлежащих разным организациям.

В 1997 г. был введен в действие RuPEc - российский узел сети RePEc, который представляет собой российский онлайновый архив, а также предлагает российским пользователям открытый онлайновый доступ к полной базе данных RePEc и ее службам. Архив RuPEc имеет отдельный русскоязычный раздел, который содержит описание документов на русском языке. RuPEc позволяет российским исследователям и администраторам онлайновых архивов по экономике добавлять свои архивы и отдельные публикации в общую базу данных RePEc, а также в ее русскоязычный раздел.

Российская группа разработчиков создает современные онлайновые средства для визуализации содержания входных потоков документов в базу данных RePEc. Разрабатываемые как веб-портал публикаций по экономике, эти средства позволят проводить персонализацию общего интерфейса веб-портала, фильтрацию общего входного потока документов на основе профиля интересов пользователя и т.п.

Благодаря представительному международному охвату, широкому спектру входных документов, средствам персонализации и фильтрации, сайт RuPEc может стать одним из лидеров в обслуживании сообщества исследователей по экономике.

Далее в разделе 2 описывается история появления этого проекта. В разделе 3 обсуждаются наиболее важные аспекты RePEc. Раздел 4 посвящен описанию российской части этого проекта (RuPEc). Раздел 5 завершает данную статью.

2. История проекта

RePEc в существенной степени является развитием проекта NetEc, который был запущен в феврале 1993 г. по инициативе Thomas Krichel. Идея NetEc состояла в объединении ряда проектов для распространения результатов экономических исследований через Интернет. У экономистов уже давно действовала система обмена препринтами или как их чаще называли "рабочими документами" (working papers) в печатной форме. Рабочих документов в электронном виде на момент запуска проекта NetEc не существовало. На первом этапе Fethy Mill из Монреальского Университета (Universitй de Montrйal) сделал доступными онлайн библиографическую информацию о 250 сериях рабочих документов. Некоторые серии содержали данные, начиная с 1988 г. Первые гофер-сервера позволяли хранить эти данные в удобный для поиска форме. Манчестерский Компьютерный Центр (Manchester Computing Centre) предоставил дисковое пространство и процессорное время. Geoff Lane, их системный администратор, сделал интерфейс для WAIS запросов к этой базе данных, доступной через гофер. Так начинался этот проект в то время. Однако эти средства слабо использовались, поскольку доступ к данным осуществлялся на основе электронной почты и списка рассылки для академических экономистов-исследователей. Таким образом, первой составной частью NetEc стал проект BibEc, который имел дело с распространением рабочих документов в печатном виде.

В апреле 1993 появился первый рабочий документ в электронном виде. Им стала публикация "MatGlass: a Matrix Glass for C++", принадлежащая Chris Birchenhall. Эта единичная публикация была бы потеряна среди более 5 тыс. названий базы данных о печатных изданиях, если бы не был создан отдельный раздел WoPEc для загружаемых через сеть электронных публикаций. Каждая такая публикация была представлена на гофере двумя строками. Первая – авторы публикации, выбор которой означал вызов библиографической информации (название; авторы; иногда абстракт; разработанный в Journal of Economic Literature тематический классификатор JEL и т.п.). Вторая строка содержала название публикации. При ее выборе пользователь получал на свой компьютер полный текст данной публикации.

Текст публикации, обычно в формате постскрипт (PostScript), не обязательно находился на сервере в Манчестере. Он мог быть расположен на любом другом сервере в Интернете. Хотя WoPEc начинался как коллекция документов (т.к. это была первая коллекция такого вида), но его главной особенностью уже стало то, что он в большей степени превратился в коллекцию метаинформации о публикациях, чем о самих публикациях. Этот сдвиг в деятельности стал еще более заметным начиная с сентября 1993 г., когда на сервере Вашингтонского Университета, Сант Луис (Washington University, St. Louis) открылся архив "Economics Working Paper Archive" ( http://econwpa.wustl.edu/ ). Этот сайт был объявлен центральным архивом для рабочих документов по экономике. Данная идея была заимствована из сообщества исследователей по физике высоких энергий, которые имели архив XXX ( http://xxx.lanl.gov/ ) всех публикаций на этом центральном сайте. Реализовать такую же идею среди экономистов оказалось более трудным делом. На начало 1999 г. уже существует несколько сотен веб и фтп серверов с доступными онлайн рабочими документами (часть из них – домашние страницы авторов, другие организованы академическими организациями или исследовательскими центрами. В некоторых редких случаях были обнаружены общие каталоги для нескольких организаций, например, US Federal Reserve имеет каталог Fed in Print, включающий публикации всех региональных отделений). Неудача идеи центрального архива, видимо, связана с тем, что экономисты имеют меньшее доверие к монополии, чем в данном случае физики. Они лучше, чем кто-либо знают опасности связанные с монополией (в данном случае, с монопольной властью человека, контролирующего жесткий диск, на котором хранится полный "выход" исследований экономической науки). Видимо, по этой же причине система централизации не прижилась и для архивов типа WoPEc, хранящих метаинформацию о публикациях.

С самого начала реализации проекта, в него был заложен протокол распределенных баз данных. Это позволило многим организациям включать свои архивы в WoPEc без особых усилий на координацию. Каждая организация должна была при этом держать свои публикации на собственном сервере, а пользователи должны были делать запросы ко многим серверам. Такой протокол начал работать в 1994 г. на базе системы whois++. Летом 1995 база данных была конвертирована (силами Jose Manuel Barrueco Cruz и Thomas Krichel) в формат Internet Anonymous Ftp Archive (IAFA). При этом база данных была совместима с протоколом whois++, а ее записи были конвертированы в статичные веб страницы и индексировались системой WAIS. Позднее, когда под давлением необходимости отделить пользовательские сервисы от механизма управления распределенной базой данных, протокол whois++ был исключен из системы.

Весной 1995 г. в США (Washington University of St. Louis) появилось зеркало сайтов BibEc и WoPEc, а осенью этого же года открылось зеркало в Японии (Hitotsubashi University Tokyo). В 1996, проект WoPEc получил грант от Joint Information Systems Committee (JISC) of the UK Higher Education Funding Councils. Менеджером проекта стал Jose Manuel Barrueco Cruz, который прежде участвовал в проекте на общественных началах. Целями гранта JISC было: 1)увеличить общее количество документов в WoPEc (более 1000 документов к этому моменту уже хранились в архиве); 2)усилить участие университетов Великобритании. Первая цель была реализована достаточно успешно: к середине следующего года количество документов увеличилось до 4500. Однако отклик и участие в проекте других организаций Великобритании было не значительным. В 1996-97 гг. были инициированы контакты между проектом и организациями из некоторых европейских стран (Royal Library of Sweden, Dutch DEGREE working paper publishing consortium). Организациями, участвующими в проекте в это время было принято соглашение о введении общего протокола обмена данными, который упростил бы проблемы координации работы общего архива рабочих документов. Использование общего протокола имело и другую цель: отделение коллекций данных от набора процедур по обработке и использованию данных для обслуживания запросов пользователей.

К этому времени возникла потребность в программном роботе, который занимался бы регулярным обновлением общего архива, отслеживая изменения в его отдельных составляющих на различных серверах. Черновик протокола такого программного робота был предложен Т. Krichel и одобрен организациями-участниками проекта в Guildford 12 мая 1997. Этот протокол – с небольшими изменениями – используется до сих пор как основа RePEc.

3. Проект RePEc

Проект RePEc по сути является коллективной деятельностью большого числа децентрализованных участников и поэтому он не может быть абсолютно точно определен.

Его наиболее признанные направления включают следующие три:

1. Коллекция архивов, содержащих данные об экономических исследования.

2. Данные, составляющие отдельные архивы.

3. Данные об организациях и индивидах, которым принадлежат отдельные архивы или публикации.

Проект не имеет формальной управляющей структуры.

Цели проекта RePEc: 1)обеспечивать полное описание экономической дисциплины на основе материалов, доступных в Интернет ("библиотечная цель"); 2)обеспечивать свободный доступ к экономическим ресурсам Интернета ("издательская цель", необходимо учитывать, что эти цели иногда конфликтуют). Свободный доступ в данном случае означает, что оплату расходов на публикацию информации в большей степени несете ее провайдер, а не пользователь. RePEc не имеет цели рецензирования публикаций. Однако, его базы данных могут быть использованы для этого.

RePEc основывается на следующем принципе

А. Много архивов --> В. Одна база данных --> С. Много сервисов

А. Коллекции материалов в RePEc являются децентрализованными. Каждый отдельный провайдер открывает доступ к своей коллекции (архиву) на http или ftp сервере, которая как минимум содержит библиографические данные о публикациях из области экономических исследований и иногда содержит сами публикации. Структура архива подробнее описана в подразделе 3.1.

В. Программный робот соединяет различные архивы в общую базу данных. Объединение архивов, состоящих как из локальных, так и удаленных, происходит на отдельном сайте. Если этот сайт собирает все архивы, которые зарегистрированы в базе данных RePEc, то он представляет пользователям доступ к полному варианту базы данных RePEc. Содержание базы данных RePEc представляет собой самостоятельную базу данных, в которой определяется каждый компонент библиографической базы. Базовая логическая структура модели связей описывается в подразделе 3.2.

С. Различные сайты, содержащие копии базы данных RePEc, используются для построения различных наборов программных сервисов для обслуживания запросов пользователей. Официальный пользовательский интерфейс в RePEc отсутствует. Некоторые примеры рассмотрены в 3.3.

3.1 Структура архива

В основе RePEc лежит:

1. Навеянный IAFA формат шаблона, получивший название ReDIF (это сокращение может быть расшифровано как Research Documentation Information Format). ReDIF определяет некоторое количество шаблонов описания различных объектов архива (документов, серий, архивов и т.п.). Каждый из шаблонов описывает множество разрешенных полей, имена некоторых из них должны присутствовать обязательно, другие могут использоваться более свободно.

2. Протокол Guildford, который определяет правила хранения ReDIF в архиве. В принципе ReDIF может извлекаться из архива без использования протокола Guildford, но ради удобства мы будем использовать именно такое разделение между структурой и содержанием архивов в последующих примерах.

RePEc определяет каждый архив простым идентификатором (handle). Далее мы рассматриваем пример архива RePEc:sur, который размещен в каталоге ftp://www.econ.surrey.ac.uk/pub/RePEc/sur. В корневой директории архива должны быть два файла. Файл surarch.rdf содержит заполненный ReDIF шаблон на один архив.

Template-type: ReDIF-Archive 1.0
Name: University of Surrey Economics Department
Maintainer-Email: T. Krichel@surrey.ac.uk
Description: This archive provides research papers from the Department of Economics of the University of Surrey, in the U.K.
URL: ftp://www.econ.surrey.ac.uk/pub/RePEc/sur
Homepage: http://www.econ.surrey.ac.uk
Handle: RePEc:sur

В этом файле хранится базовая информация об архиве. Другой обязательный файл - surseri.rdf. Он должен содержать один или несколько заполненных шаблонов серий (архив может иметь несколько тематических серий).

Template-Type: ReDIF-Series 1.0
Name: Surrey Economics Online Papers
Publisher-Name: University of Surrey, Department of Economics
Publisher-Homepage: http://www.econ.surrey.ac.uk
Maintainer-Name: Thomas Krichel
Maintainer-Email: T.Krichel@surrey.ac.uk
Handle: RePEc:sur:surrec

Документы для серии RePEc:sur:surrec содержаться в директории surrec. Она может содержать файлы любого типа. Любой файл, заканчивающийся на .rdf считается содержащим форматы ReDIF. Возьмем один из таких файлов surrec/surrec9601.rdf (мы пропускаем поле Abstract для экономии места)

Template-Type: ReDIF-Paper 1.0
Title: Dynamic Aspect of Growth and Fiscal Policy
Author-Name: Thomas Krichel
Author-Email: T.Krichel@surrey.ac.uk
Author-Name: Paul Levine
Author-Email: P.Levine@surrey.ac.uk
Author-WorkPlace-Name: University of Surrey
Classification-JEL: C61; E21; E23; E62; O41
File-URL: ftp://www.econ.surrey.ac.uk/pub/RePEc/sur/surrec/surrec9601.pdf
File-Format: application/pdf
Creation-Date: 199603
Revision-Date: 199711
Handle: RePEc:sur:surrec:9601

Пара значений (File-URL:, File-Format:) может повторяться любое количество раз, если необходимо указать на существование нескольких видов файлов с полным текстом документа. Может быть добавлено поле File-Function: чтобы показать статус файла для данного документа. Заметим, что в данном примере полный текст документа расположен внутри структуры директорий самого архива. Поэтому он мирорится вместе с библиографическими данными. Поскольку URL документа содержит полный путь, то ссылка на полный текст будет действительна не зависимо от сервера, на который данная информация скопирована.

Существует центральный архив RePEc:all, в который копируются все ???arch.rdf и ???seri.rdf файлы из всех архивов, зарегистрированных в RePEc. Центральный архив содержит программное обеспечение, которое позволяет создавать зеркальные сайты архивов, а также процедуры чтения и проверки шаблонов вместе с общей документацией по RePEc. Центральный архив RePEc:all расположен на ftp://netec.mcc.ac.uk/pub/RePEc/all.

3.2. Структура связей

С точки зрения RePEc экономическая дисциплина предстает как множество из четырех связанных друг с другом базовых элементов. Базовая модель может быть представлена следующей таблицей:

документ -- коллекция

индивид -- организация

Здесь "документ" может быть препринтом или опубликованной статьей, книгой, программным обеспечением, массивами данных и т.п. Наиболее распространенными типами в данное время являются препринты и статьи, но уже имеются примеры программного обеспечения в базе данных RePEc.

"Коллекция" может быть множеством документов собранным в одну тематическую группу. На данный момент коллекция включает в себя серии препринтов и журналы опубликованных статей. Отметим, что каждый документ исходно является частью отдельной серии. В принципе, концепция коллекций может быть также использована для отделения отрецензированных статей (например, в отдельную коллекцию). Однако есть возможность просто добавить в шаблоны еще одно поле, отражающее рецензированный статус документа.

На момент написания этого текста персональная информация встроена в шаблон документа. Однако прилагаются усилия, чтобы выделить персональную информацию. Скоро она будет выглядеть следующим образом:

Template-Type: ReDIF-Person 1.0
Name: Thomas Krichel
Email: T.Krichel@surrey.ac.uk
Author-Paper: RePEc:sur:surrec:9404
Author-Paper: RePEc:sur:surrec:9601
Homepage: http://gretel.econ.surrey.ac.uk
Handle: RePEc:per:1965-06-05:thomas_krichel

В результате мы сможем заменить информацию об авторе (на примере первого автора из упомянутого выше шаблона документа RePEc:sur:surrec:9601) на:

Author-Name: Thomas Krichel
Author-Person: RePEc:per:1965-06-05:thomas_krichel

Преимущества этой системы очевидны. Уменьшается нагрузка на администрирование системы. Например, когда у автора меняется номер телефона, то соответствующее изменение может быть сделано только в одной точке системы. Пользователи сервиса RePEc смогут находить автора документа, даже если контактная информация на титуле этого документа уже устарела.

В заключении, "организация" может быть представлена как множество индивидов, по аналогии с понятием коллекции как множества документов. При регистрации автора, его персональная информацию будет автоматически пополняться данными о его организации, если они уже заведены в базе данных RePEc.

3.3. Сервис для обслуживания запросов пользователей

Ключевой особенностью RePEc является его внутренняя предрасположенность к большому разнообразию сервисов для обслуживания запросов пользователей. Обратной стороной этого подхода является некоторая размытость концепции RePEc по сравнению, например, с архивом типа XXX, в котором хранение данных и пользовательский сервис соединены вместе. Однако наш подход имеет еще и преимущество в том, что потенциальный провайдер понимает, что включение его данных в RePEc означает одновременное включение данных во все пользовательские сервисы, которые созданы независимо и работают на разных серверах RePEc в разных странах.

Ниже представлены наиболее важные пользовательские сервисы в порядке их исторического появления:

1. BibEc на http://netec.mcc.ac.uk/BibEc.html – статические html страницы с информацией о рабочих документах доступных только в печатном виде

2. WoPEc на http://netec.mcc.ac.uk/WoPEc.html - статические html страницы для всех рабочих документов доступных в электронном виде.

Обе эти базы данных используют общий поисковый механизм. Работает три варианта поиска: полнотекстовый WAIS поиск; поиск по полям на базе mSQL; и поиск по полям на основе системы ROADS. Обе эти базы также имеют зеркало в США и Японии как часть проекта NetEc.

3. EDIRC на http://ideas.uqam.ca/EDIRC – предлагает данные и поисковые средства по академическим организациям и исследовательским центрам во всем мире, ведущих исследования по экономике. Этот сервис также имеет зеркало на серверах проекта NetEc.

4. IDEAS на http://ideas.uqam.ca – предлагает индекс типа Excite статических html страниц, которые представлены для всех шаблонах типа "документы", "статьи" и "программное обеспечение" (Paper, Article and Software) из базы данных RePEc. Этот сайт является одним из наиболее популярных пользовательских интерфейсов к данным RePEc.

5. NEP: New Economics Papers на http://netec.wustl.edu/NEP – является набором отчетов о новых поступлениях документов в базу данных RePEc. Каждый отчет редактируется специалистом по соответствующей предметной области. В этой системе существует несколько десятков предметных областей, специалисты по которым выбирают из всего множества новых поступлений только документы относящиеся к своей теме. Такими специалистами, как правило, являются PhD студенты и молодые исследователи. Все они работают на общественных началах.

6. INOMICS на http://www.inomics.com/query/search – предлагает индекс данных RePEc, но также позволяет проводить одновременный поиск в индексах других веб-страниц, связанных с исследованиями по экономике.

Заключительное замечание: поисковый сервер формата Z39.50 для всех загружаемых документов в RePEc доступен по адресу dbiref.kub.nl:9997. База данных называется "repref". Множество атрибута - Bib-1, а синтаксис записей поддерживает USmarc, SUTR.S, GRS-I (только строковые тэги, тэг типа 3).

4. Проект RuPEc

В 1997 г. проект создания Виртуальной Российской Лаборатории для Экономистов и Социологов (РВЛЭС) получил грант РГНФ (см. http://www.ieie.nsc.ru). В состав участников проекта входили специалисты трех организаций из Новосибирска: ИЭОПП СО РАН, ГПНТБ СО РАН и ИСИ СО РАН. Одним из направлений этого проекта стало создание условий для развития электронных архивов рабочих документов среди российских исследовательских организаций в области экономики и социологии. Данный подпроект получил название RuPEc, т.к. технической основой для решения этой задачи были выбраны стандарты и протоколы RePEc. В ближайшие цели RuPEc входило:

1)запуск российского зеркала полной базы данных RePEc и ее основных сервисов;

2)разработка собственной поисковой процедуры к этой базе данных (была использована свободно распространяемая программа индексации текстов SWISH-E);

3)создание веб интерфейса для добавления новых документов в базу данных RePEc;

4)создание самостоятельной российской базы данных рабочих документов, имеющей веб интерфейс для удаленного добавления в нее новых документов.

Реализация последних двух пунктов обеспечивала российским исследователям возможность выбора между помещением своих документов в общую международную базу данных (для этого, как минимум, библиографическая информация о документе должна быть на английском языке) или только в ее российскую часть (все данные о публикации – на русском языке).

С начала 1998 г. на http://www.ieie.nsc.ru/r-archive/ была начата опытная эксплуатация всех этих четырех частей. Самостоятельная русскоязычная база получила название РАРДЭС (Российский Архив Рабочих Документов по Экономике и Социологии). Для избежания путаницы уточним, что термин RuPEc обозначает семейство сервисов для обработки запросов пользователей к базе данных RePEc на сервере РВЛЭС (http://www.ieie.nsc.ru), а название РАРДЭС относится как к русскоязычной базе данных, так и к связанным с этой базой русскоязычным пользовательским сервисам.

В задачи следующего этапа развития RuPEc входит: 1)популяризация и распространение концепции и стандартов RePEc на обмен информацией между электронными архивами российских экономических организаций в целях создания русскоязычной сети связанных между собой архивов по образу международной сети RePEc; 2)развитие различных сервисов для обслуживания запросов как российских, так и международных пользователей этих баз данных. Далее, в подразделах 4.1. и 4.2. описаны возможности как индивидуальных исследователей, так и администраторов существующих электронных архивов в добавлении данных о документах или целых коллекциях в базу данных RuPEc. В подразделе 4.3. дано описание концепции пользовательского интерфейса (по образу веб-портала), позволяющего исследователям вести на сервере RuPEc свой персональный раздел, включающий профиль интересов, выборки из базы данных, отвечающие профилю интересов, способ визуализации новых поступлений в базу данных и т.п.

4.1. Правила добавления документов в архив

Процедура добавления документов работает следующим образом. По адресу http://www.ieie.nsc.ru/r-archive/add.html находится форма, в которой необходимо указать обязательный минимум данных о помещаемом в архив документе. Эта форма имеет русскоязычную и англоязычную части. Если пользователь заполняет только русскоязычную часть формы, то сведения о документе остаются в базе данных РАРДЭС, и не попадают в RePEc. Если заполнена только англоязычная, или обе части формы, то данные о документе включаются в обе базы данных (в любом случае в RePEc попадает только англоязычное заполнение формы). См. текущее содержание РАРДЭС на http://www.ieie.nsc.ru/cgi-bin/ar-search.cgi, а часть этих документов, имеющих описание и в международной базе данных RePEc, см. на http://www.ieie.nsc.ru/RuPEc/data/noseconom.html.

Необходимо отметить, что считается допустимым включение в международную базу данных описаний документов на английском языке, при этом библиографическая информация может содержать ссылку на полный текст документа на русском языке.

При заполнении формы добавления нового документа в архив пользователь среди обычной библиографической информации должен указать директорию и имя файла документа на своем локальном компьютере, который будет автоматически скопирован на сервер РВЛЭС для помещения в базу данных. Для случая, когда полный текст документа уже опубликован на веб и, следовательно, нет необходимости размещать его на сервере, т.к. пользователь может просто указать его URL, имеется специальный вариант формы, расположенной на http://www.ieie.nsc.ru/r-archive/add-url.html.

К середине 1999 г. в данной процедуре имелись следующие особенности:

1)действует только один (упомянутый выше) способ помещения файлов с полным текстом документа на сервер, однако ограниченная пропускная способность российских каналов связи требует ввести еще и оффлайновый способ помещения файла на сервер;

2)наличие файла с полным текстом, помещаемого в архив документа, считается обязательным (для успешного включения документа в архив пользователь должен указать имя файла для загрузки с локального компьютера, либо указать URL, если документ уже размещен на веб);

3)администратор РАРДЭС имеет право удалить документ из архива, если сочтет, что нарушены тематические, или иные правила архива;

4)файл с документом и библиографические данные к нему после размещения на сервере РВЛЭС не могут быть изменены без вмешательства администратора архива РАРДЭС.

В ближайшие задачи проекта входит развитие возможностей архива по всем упомянутым выше пунктам.

4.2. Правила добавления коллекций в архив

Достаточно большое количество российских исследовательских организаций в области экономики (ЦЭМИ, ИНП и др.) имеют собственные электронные архивы рабочих документов, некоторые российские экономические журналы (ЭММ, Проблемы Прогнозирования и др.) публикуют на веб статьи или библиографические сведения о них, академические институты и издательства публикуют на веб аннонсы новых книг и т.п. В большинстве случаев в данных коллекциях (архивах) собраны описания публикаций исключительно на русском языке, что осложняет их непосредственное добавление к базе данных RePEc. Наличие достаточно большого русскоязычного сообщества и некоторые другие национальные особенности объясняют необходимость создания чисто российской сети связанных друг с другом русскоязычных электронных архивов и общей базы данных, интегрирующией метаинформацию об их содержании. В качестве методической и технической основы такой сети удобно использовать протоколы и шаблоны, уже разработанные в проекте RePEc.

Фактически, на сервере РВЛЭС уже действуют все необходимые средства для организации мета базы данных по всем экономическим электронным архивам. Для добавления новой коллекции к этой базе данных ее администратор должен выполнить следующие действия:

1. Послать на адрес rupec@ieie.nsc.ru запрос, с просьбой выделить уникальный символьный идентификатора для своего архива в составе общей мета базы данных (например, РАРДЭС имеет идентификатор nos).

2. После получения идентификатора необходимо сформировать файлы, по шаблонам, описанным выше в разделе 3.1. Единственное добавление к этим шаблонам: необходимо вставить в них поле Charset:, в котором указать тип используемой в этих файлах кодировки кириллицы. Например, Charset: Windows-1251.

3. Сделать на своем сервере директорию доступную по ftp или http. В этой директории необходимо поместить файлы ???arch.rdf, ???seri.rdf, где вместо ??? должен стоять полученный на первом шаге символьный идентификатор.

4. В файле ???arch.rdf в поле URL должен быть указан полный Интернет-адрес директории, в которой находятся остальные файлы с расширением .rdf, содержащие библиографическую информацию о публикациях архива (на каждую публикацию заводится отдельный файл с данным расширением).

5. В качестве сигнала о готовности архива к включению в мета базу данных необходимо послать сообщение по адресу rupec@ieie.nsc.ru с указанием URL директории, подготовленной на шаге 3.

Когда такое сообщение будет получено администратором RuPEc, то указанный в нем адрес будет добавлен в список, по которому программный робот ежедневно проверяет наличие изменений в архивах-источниках и переносит их в общую базу данных.

Пользовательский интерфейс к этой базе данных полностью совпадает с интерфейсом международной базы RePEc на сервере РВЛЭС.

Коды классификатора для определения тематики публикаций архива рекомендуется брать из классификатора JEL. Это позволит включать русскоязычные публикации в единую для всех баз тематическую классификацию.

Для упрощения перевода большого количества библиографической информации из формата пользователя в формат ReDIF разработан настраиваемый конвертер. Конвертер может работать в локальном и удаленном режимах связи с файлами источниками данных. По подготовленному описанию структуры формата библиографических записей на стороне пользователя (при описании используется язык, напоминающий по синтаксису PERL), конвертер, например, может с заданной регулярностью проверять опубликованное содержание коллекции на веб-сайте пользователя, конвертировать найденную библиографическую информация в формат ReDIF и посылать пользователю по электронной почте отчет о результатах конвертации. Данный сервис существенно упрощает работу администратора коллекции по поддержанию ее параллельных описаний на собственном сайте (в любом формате) и в мета базе данных (в формате ReDIF).

4.3. Веб портал публикаций по экономике и другие направления развития

Одно из направлений развития сервиса RuPEc для обслуживания запросов пользователей связано с разработкой более удобных средств визуализации содержания базы данных RePEc и особенно новых поступлений в базу. Проблема удобной визуализации новых поступлений порождена постепенным усилением входного потока документов в базу данных. Входной поток документов образуется за счет ежедневного сбора новых публикаций по большому количеству архивов (более 70 архивов на начало 1999 г.), регулярных публикаций (раз в месяц или квартал) в электронных журналах, а также за счет практически еженедельного добавления к базе данных RePEc новых архивов.

Ориентация в этом потоке новых поступлений, а также контроль за появлением публикаций по интересующим исследователя темам требуют, с одной стороны, удобных, а с другой - персонально настраиваемых средств для фильтрации входного потока документов и вывода результирующей информации на экран. Данная задача уже не нова и разработанная для ее решения концепция получила название "веб-портал" . Примерами удачной реализации концепции веб-портала считаются сайты Excite (http://www.excite.com), MyYahoo (http://my.yahoo.com), InfoArt (http://www.infoart.ru) и некоторые другие.

Проблема удобной визуализации содержания входных информационных потоков на экране компьютера, в нашем случае, имеет следующие аспекты: 1)компактное отражение на экране основных категорий информации, содержащихся в базе данных RePEc; 2)персональная настройка списка категорий, которые необходимо оставить на экране, а также задание правил фильтрации содержимого базы при ее просмотре через заданное подмножество категорий (более подробный список функций веб-портала см. в А. Левенчук. Коммунивер: от средств массовой информации к инфраструктуре массовой коммуникации, Интернет, 15, апрель 1999, http://www.inter.net.ru/).

В результате реализации этих возможностей пользователь получает индивидуальный веб-портал по публикациям в области экономики, который персонализирован под его научные интересы. По сформированному пользователем списку предпочтений программный робот с определенной регулярностью проверяет содержание входного потока данных и строит веб-страницу со ссылками на все новые поступления, отвечающие заданному профилю интересов пользователя.

Содержание базы данных RePEc позволяет выделить следующие категории данных (информационные блоки), которые могут быть полностью или частично оставлены/исключены пользователем из списка категорий информации для отображения на экране:

1. Список организаций (университеты, исследовательские центры, издательства и т.п.), чьи коллекции электронных публикаций включены в базу данных. Пользователь может оставить на экране указатели на архивы только заданных организаций из этого списка.

2. Список тематических архивов и коллекций (одна организация может иметь несколько пунктов в таком списке). Данный список может быть еще разбит по видам, хранящихся в них публикаций (рабочие документы, электронные публикации в журналах, аннотации на книги, программное обеспечение и т.п.). Пользователь может оставить в своем персональном веб-портале указатели на электронное оглавление заданных журналов, на определенные коллекции рабочих документов, страницы с аннотациями новых книг и т.п.

3. Тематические разделы классификатора JEL. Таким образом, можно, оставив на экране ссылки на публикации, помеченные их авторами определенными JEL кодами, отслеживать новые поступления по заданным направлениям исследований. В этот же информационный блок могут входить тематические разделы службы NEP (Новые Экономические Публикации), описанной выше в подразделе 3.3.

4. Публикации ведущих исследователей. В принципе, имена авторов, чьи публикации интересуют пользователя для регулярного отслеживания их новых работ, могут выбираться из всего списка авторов, содержащихся в базе данных RePEc. Отметив нужные имена, пользователь получит в своем веб-портале ссылку на их публикации, если они будут обнаружены.

5. Ключевые слова. Один раз, задав наборы ключевых слов, пользователь получит в своем веб-портале регулярно обновляемую ссылку на документы из базы данных, удовлетворяющие заданной маске поиска. Программный робот автоматически обновляет результаты поиска после каждого изменения в базе данных и позволяет фильтровать содержание других информационных блоков (персонифицированные информационные блоки, в этом случае, будут содержать только ссылки на документы, которые удовлетворяют заданным ключевым словам и маскам поиска).

Одной из наиболее популярных функций веб-портала является организация и поддержка дискуссий между его пользователями по поводу содержания экспонирующейся на веб-портале информации, включая, так называемые, "голосовательные" средства для отражения общественного мнения по актуальным темам. Применительно к базе данных публикаций по экономическим наукам RePEc такого рода дискуссии могли бы иметь, например, следующие стандартные темы: а)наиболее яркие новые идеи и результаты экономической дисциплины; б)наиболее значительные ошибки и заблуждения; с)"цитата дня", включая забавные, нелепые и т.п. фрагменты из текущего потока публикаций (NetEc уже сейчас имеет раздел JokEc - "шутки об экономистах и экономике", см. http://netec.mcc.ac.uk/JokEc.html).

Онлайновая голосовательная подсистема, основанная на простых средствах подсчета мнений пользователей "за" или "против", может иметь открытый для пополнения список вопросов, выставляемых на голосование. Таким образом, сообщество исследователей-экономистов получит простой и демократичный инструмент для выражения своего мнения о наиболее важных событиях в жизни сообщества, который позволяет осуществлять немедленную визуализацию текущих результатов голосования.

Выполняя персонализацию веб-портала, пользователь, фактически, формирует профиль своих научных интересов. Хранение в базе данных RePEc такого рода данных (множество профилей интересов разных пользователей) создает основу для нового вида сервиса: автоматические рекомендательные системы (Automated Collaborative Filtering, http://lcs.www.media.mit.edu/people/wex/rate-proposal-ACF.html). Рекомендательная система сравнивает профили интересов разных пользователей и на основе полученных результатов генерирует рекомендации пользователям, которые могут, например, включать сведения о: а)других пользователях с близкими интересами (группа по интересам); б)наличии тем и публикаций, которые хотя прямо не пересекаются с интересами данного пользователя, но могут оказаться полезными, и т.п. Структура такого рода сервиса проработана в концепции "рекомендательных систем" (см. http://www.lucifer.com/~sasha/articles/ACF.html).

Децентрализованный принцип пополнения базы данных RePEc позволяет пользователю также "персонализировать" подбор онлайновых информационных источников, на основе которых формируется входной поток документов в базу данных. Таким образом, пользователь может самостоятельно пополнять входной поток документов, расширять область выбора информационных блоков и базу для фильтрации содержания его веб-портала. Данная задача может быть решена на основе описанного выше (см. подраздел 4.2.) настраиваемого конвертера, осуществляющего регулярный контроль за обновлениями на сайтах-источниках и их конвертацию из формата пользователя в формат ReDIF.

5. Заключение

Описанный проект хорошо соответствует двум общим тенденциям современного развития онлайновых ресурсов в сети Интернет: 1)децентрализация информационных источников; и 2)персонализация пользовательский сервисов. Созданные протоколы (ReDIF и Guildford) обеспечивают нормальное функционирование распределенной базы данных RePEc. Планируемое создание средств для персонализации пользовательских сервисов и интерфейсов в жанре веб-портала упростит информационную ориентацию пользователей в нарастающем потоке данных о результатах исследований и других сторонах деятельности международного сообщества исследователей по экономике.

Благодаря представительному международному охвату, широкому спектру входных документов, средствам персонализации и фильтрации, база данных RePEc и пользовательские интерфейсы RuPEc могут стать важным инструментом в повседневной работе исследователей в областях экономики и социологии. Создаваемый онлайновый информационный ресурс RePEc/RuPEc будет полезен как для работы отдельных исследователей, так и для всего научного сообщества экономистов (в проведении масштабных исследований, координации проектов и лучшей самоорганизации самого сообщества).

Существует еще ряд нерешенных задач, которые могут определить направления дальнейшего развития этого проекта. Отметим следующие: а)разработка информационных роботов (на базе технологии активных агентов), представляющих в сети научные интересы отдельных исследователей, собирающих нужные сведения, проводящих обмен информацией с аналогичными роботами других исследователей и т.п.; б)разработка пользовательского сервиса, упрощающего цитирование и ссылки на существующие публикации в процессе подготовки исследователем текстов новых документов; в)разработка подходов для автоматического анализа содержания поступающих в базу данных публикаций в целях формирования и развития онтологии экономики как научной дисциплины и области знаний.