• Проблематика построения электронных каталогов информационных архивов (по материалам POSC)
На главную страницу
Автор: кандидат технических наук К. В. Павлов(ОАО ОЭГ ПЕТРОСЕРВИС)
Предметом настоящей статьи является обсуждение проблематики баз данных и электронных каталогов информационных фондов
компаний в сфере разведки и разработки месторождений углеводородного сырья.
Целями проводимого обсуждения являются:
- уточнение места системы каталогизации информационных фондов в информационном обеспечении деятельности компаний;
- изменение (дополнение) предлагаемой POSC классификации баз данных категорией "интеграционная база данных";
- более строгое выделение "информационной" и "операционной" составляющих во взглядах на электронные каталоги
информационных фондов.
Появление данной статьи вызвано тем обстоятельством, что в материалах специализированной группы POSC по хранению данных
(Data Store Solution Group), "POSC Data Store Solutions Special Interest Group Draft SIG Recommendations Document
(draft V0.4a, January 16, 2003)", по нашему мнению, недостаточно внимания уделено задаче формирования единого
информационного пространства, в то время как данная задача является одной из самых актуальных для каждой компании,
использующей в своей деятельности программные продукты и базы данных более чем одного производителя.
В первой части статьи проводится анализ материалов и рекомендаций POSC по вопросам хранения и доступа к данным -
в части предложений POSC по классификации баз данных и их роли в деятельности компаний, а также материалов отдельных
компаний, представленных в специализированную группу по хранению данных.
По результатам анализа делается вывод о целесообразности выделения особой категории баз данных: "интеграционная база
данных". Приводится примерный состав информации, которая должна аккумулироваться в "интеграционной" базе данных.
Определяется круг задач, информационное обеспечение которых опирается на понятие "интеграционные" базы данных.
Во второй части статьи основное внимание уделяется вопросам роли и места системы каталогизации информационных фондов в
информационном обеспечении деятельности компаний.
Подчеркивается целесообразность раздельного анализа вопросов управления и доступа к собственно данным
(базам данных и другим информационным ресурсам) и вопросов управления и доступа к информации о наличии, содержании и
местоположении данных (к информации электронных каталогов).
Место системы каталогизации информационных фондов определяется как промежуточное (среднее) между базами
собственно данных и "интеграционной" базой данных.
Архитектуру доступа к данным предлагается рассматривать как трехуровневую:
- поиск и получение из базы данных электронного каталога информации о существовании интересующих данных в том или ином источнике информации (в частности, в какой-либо базе данных);
- извлечение интересующих данных из соответствующего источника информации;
- совместный анализ данных.
При этом, как принципиально важный момент, подчеркивается, что на всех трех шагах необходимо использование информации
из "интеграционной" базы данных, задающей (устанавливающей) информацию эквивалентности между данными в различных
информационных источниках.
В третьей части статьи рассматриваются вопросы, имеющие отношение к реализации электронных каталогов информационных
фондов.
В информации о данных выделяется "информационная" составляющая, описывающая собственно данные, и "операционная"
составляющая, описывающая те или иные трансформации данных (действия над порциями данных, потоки (перемещения)
данных и т. д.).
Делается вывод о целесообразности раздельного анализа "информационных" и "операционных" вопросов каталогизации.
Материалы и рекомендации POSC по вопросам классификации баз данных
В аспекте классификации баз данных проведем выборочное рассмотрение ряда материалов POSC.
Первое. Рекомендации специализированной группы POSC по хранению данных вводят следующие классы (категории) баз данных:
- операционная база данных;
- корпоративная база данных;
- хранилище данных,
различающихся степенью обобщения и интеграции континуума информации-данных-знаний
(далее в статье будут равноправно использоваться термины "данные" и "информация" для обозначения термина
"континуум информация-данные-знания") в них содержащегося.
Приведенная классификация не вызывает возражений, однако, оставляет вне рассмотрения вопросы совместного анализа
данных одновременно из нескольких баз данных. Другими словами, оставляет в стороне вопросы формирования единого
информационного пространства.
Второе. Материалы специализированной группы по хранению данных, относящиеся к разделу построения электронных
каталогов информационных архивов, обобщаемому термином "система управления электронными документами"
(Electronic Document Management System, EDMS), ограничиваются вопросами смысловой привязки информационных единиц
(Information Items, некоторых имеющих самостоятельное значение порций информации) и также оставляют вне рассмотрения
вопросы совместного анализа данных одновременно из нескольких баз данных.
Третье. Представленные в POSC материалы, иллюстрирующие подходы компаний к вопросам каталогизации информационных
фондов (например, Paradigm Geophysical, ORACLE), показывают, что хотя компании в своей практике уделяют значительное
внимание технологиям формирования единого информационного пространства, во всяком случае - вопросам "прозрачности"
доступа из приложений к родственным (родственным на уровне модели данных, например, к каротажным диаграммам) данным,
содержащимся в информационных источниках, различающихся организацией хранения (таких источниках, как файлы операционной
системы или реляционные базы данных различной организации), вопросы совместного анализа данных одновременно из нескольких
источников также не освещаются.
Четвертое. Материалы и рекомендации POSC, относящиеся непосредственно к проблематике совместного анализа данных
одновременно из нескольких источников, можно отнести к одной из двух категорий:
- единая модель данных (POSC Epicentre), в том числе "стандартные" значения ряда сущностей (Standard Instance Values)
- стандарты (рекомендации), задающие правила формирования уникальных идентификаторов бизнес-объектов,
например, скважин, а также рекомендуемые перечни обозначений оборудования, материалов и т. д.
Эти рекомендации, безусловно, задают правильные направления решения задач интеграции данных, но вместе с тем пока еще не
охватывают всех без исключения разделов информации, относящейся к сфере разведки и разработки месторождений
углеводородного сырья.
Пятое. Следующий, стоящий несколько особняком (и более детально рассматриваемый ниже), вопрос касается места системы каталогизации в проблематике информационного обеспечения деятельности компании. В материалах специализированной группы хранения данных этот вопрос не дискутировался. Вместе с тем, он находит свое отражение в материалах, представленных компаниями.
Так, например, из рассмотрения материалов компании Paradigm Geophysical можно предположить, что между понятиями "информационные фонды" и "совокупность источников данных" проведен знак равенства, причем в качестве источников данных рассматриваются только такие информационные ресурсы, для которых в компании разработано соответствующее программное обеспечение доступа, так называемые "серверы данных".
В то же время определенная часть материалов может находиться в базах данных, непосредственно из некоторого конкретного приложения недоступных, и в таком случае может оказаться вне внимания специалиста. Для того чтобы картина была полной, целесообразно иметь информацию о наличии и местоположении и таких материалов, к которым нет программного доступа.
После этого, то есть полного описания в электронном каталоге всех информационных ресурсов, дальнейшее развитие программного обеспечения может быть направлено на то, чтобы предоставить возможность доступа и к таким материалам.
Иными словами, именно системы каталогизации данных, предоставляющие информацию о наличии, смысловом наполнении и местоположении данных, должны специально создаваться для описания информационных фондов компании. (Вопрос о целесообразности создания выделенной базы данных электронного каталога будет рассмотрен отдельно.)
Следующим логическим шагом должно стать появление средств обеспечения доступа к данным, учтенным в электронном каталоге и
физически размещенным в каких-либо информационных источниках (базах данных, файловых системах и т. д.).
Шестое. В продолжение предыдущего пункта следует отметить, что обеспечение программного доступа к собственно данным в информационных источниках выделяется, как правило, в отдельный класс программного обеспечения и осуществляется на основе пространства описаний данных, общих для "соединяемых" источника данных и приложения, использующего эти данные. Тем самым, в круг вопросов каталогизации вступает такое понятие, как "доступ к данным на основе описания источника данных".
Выводы по разделу. Итак, наряду с базами собственно данных появляется новая категория - "интеграционная" база данных, призванная служить ядром системы интеграции всех информационных источников компании; при этом каталогизация информационных фондов является первым этапом интеграции - формирования единого информационного пространства компании.
"Интеграционная" база данных имеет следующие характеристики, и роднящие, и отличающие ее от "собственно" баз данных:
- 1. Использование единой логической модели данных, охватывающей все (или необходимые) стороны производственной деятельности компании (POSC Epicentre), - той же самой модели данных, что и в объединяемых базах данных (информационных источниках).
- 2. Наличие раздела описания моделей данных и схем (и способов) физического хранения данных в отдельных базах данных (информационных источниках) различной организации.
- 3. Хранение информации, позволяющей отождествлять данные из различных баз данных (информационных источников) и тем самым обеспечить совместный анализ данных из разных баз данных. В частности, хранение правил установления эквивалентности данных - без хранения самих данных, требующих установления эквивалентности, или/и хранение самой информации эквивалентности в отношении каждого отдельного "экземпляра" данных в совместно анализируемых базах данных.
- 4. Не-хранение собственно информации в "интеграционной" базе данных.
Место "интеграционной" базы данных в задачах каталогизации информации будет рассмотрено ниже. Следует особо отметить, что вопросы каталогизации данных или доступа к данным являются только частью проблем, решение которых требует введения в рассмотрение отдельной категории "интеграционных" баз данных.
Рассмотренные вопросы формирования единого информационного пространства не новы, но только в самое последнее время становятся столь актуальными.
Во второй части статьи основное внимание уделяется вопросам роли и места системы каталогизации информационных фондов в информационном обеспечении деятельности компаний.
Место системы каталогизации информационных фондов в системе информационного обеспечения
В информационном пространстве компании, с позиций архитектурных решений по доступу к данным, можно выделить следующие области.
1. Источники информации (информационные фонды).
2. Каталог информационных фондов (описание данных в источниках данных).
3.1. Информация об источниках информации (описание источников информации).
3.2. Информация об эквивалентности данных в различных информационных источниках (общие данные в источниках данных).
Дополнительно в информационное пространство компании должны быть включены:
4. Программные средства обеспечения доступа к источникам информации.

Рис. 1.
Представленная на рис. 1 схема включает только такие связи, которые имеют отношение к вопросам каталогизации и хранения
данных. В различных реализациях систем каталогизации данных отдельные элементы системы могут распределяться по другим
элементам, пересекаться, объединяться либо вообще отсутствовать.
Например, в информационных системах предыдущих поколений достаточно характерным мог бы быть следующий вариант реализации:
- объединение (совмещение) источников информации и электронного каталога в единой базе данных,
- отсутствие слоя программных средств доступа к данным,
- включение описаний источников данных непосредственно в код приложений работы с данными,
- исключение из рассмотрения вопросов установления отношений тождества данных по причине использования единственной базы данных.
Иной вариант реализуется, например, в архитектуре программных средств компании Paradigm Geophysical:
- наличие одновременно многих различающихся информационных источников,
- отсутствие электронного каталога как такового,
- включение описаний источников данных в код программных средств доступа к данным,
- использование описаний (единой) модели данных в приложениях конечного пользователя,
- вынесение вопросов установления отношений тождества данных на уровень интерактивных действий пользователя.
Возможны (и известны) и иные архитектуры информационных систем.
В разрезе проблематики определения места систем каталогизации информационных фондов и доступа к данным в информационной системе принципиально важными представляются следующие положения.
1. Все элементы системы должны рассматриваться как допускающие самостоятельное или совместное функционирование и в каждом своем элементе информационная система может рассматриваться как распределенная. Несколько упрощенно это означает, что может быть более одного информационного источника; независимо от этого может быть более одного электронного каталога; независимо от этого может быть более одной "интеграционной" базы данных; независимо от этого может быть более одного программного средства доступа к данным, и при этом информационная система должна функционировать как целое.
2. Электронный каталог должен содержать описания данных, но не должен содержать (точнее, может не содержать) собственно данные.
3. Информационные источники должны содержать собственно данные и могут не содержать описания данных. В то же время, каждый отдельный информационный источник может дополнительно включать и информацию описания данных, в нем находящихся.
4. Электронный каталог, и только он, предназначен для хранения описаний данных, размещенных во всей совокупности информационных источников.
5. Поиск данных должен проводиться по информации, содержащейся в электронном каталоге, и с учетом информации эквивалентности экземпляров данных, содержащейся в "интеграционной" базе данных.
6. Программные средства доступа к собственно данным должны функционировать в архитектуре "доступ к данным через метаданные", то есть, через описания источников данных, содержащихся в "интеграционных" базах данных.
Отсюда следует, что
1. Вопросы управления и доступа к собственно данным (базам данных и другим информационным ресурсам) и вопросы управления и доступа к информации о наличии, содержании и местоположении данных (к информации электронных каталогов) должны рассматриваться раздельно.
2. Место системы каталогизации информационных фондов определяется как промежуточное (среднее) между базами собственно данных и "интеграционной" базой данных.
3. Архитектура доступа к данным должна рассматриваться как трехуровневая:
- поиск и получение из базы данных электронного каталога информации о существовании интересующих данных в том или ином источнике информации (в частности, в какой-либо базе данных);
- извлечение интересующих данных из соответствующих источников информации;
- совместный анализ данных.
4. При этом на всех трех шагах необходимо использование информации из "интеграционной" базы данных, задающей (устанавливающей) информацию эквивалентности между данными в различных информационных источниках.
Проблемы формирования в электронных каталогах описаний данных из нескольких информационных источников
В материалах специализированной группы POSC по хранению данных проведен глубокий и всесторонний анализ вопросов смыслового описания каталогизируемых информационных единиц, рассматриваемых (каждая информационная единица) по отдельности и вне связи одна с другой.
При этом вне рассмотрения остались вопросы согласованного ведения описаний каталогизируемых информационных единиц, в целом содержащих одни и те же данные, но с той или иной степенью различий данных между собой.
Как правило, вопросы согласованного ведения описаний каталогизируемых информационных единиц возникают при необходимости описания в электронном каталоге содержимого нескольких различных баз данных, одновременно используемых в производственной деятельности компании.
В качестве примера, иллюстрирующего описываемую ситуацию, рассмотрим следующий:
Источник 1. Электронные документы и файлы данных, размещаемые по мере их поступления на файл-сервере.
Источник 2. Некоторая производственная база данных, загрузка данных в которую производится только из поступающих электронных документов и файлов данных. При этом материалы перед загрузкой подвергаются процедурам всестороннего контроля качества.
Источник 3. Некоторая подписная информационно-справочная система, содержащая время от времени обновляемые данные.
При описании в электронном каталоге данных, содержащихся в самостоятельных информационных источниках (базах данных), необходимо удовлетворить следующим требованиям.
Требование 1. Каждый информационный источник должен быть описан как полностью самостоятельный (автономный) и существующий независимо от других информационных источников.
Требование 2. При описании данных необходимо отразить сведения о том, в каких отношениях находятся одни и те же данные в различных информационного источниках.
Эти требования являются основными, наряду с ними существуют и другие, менее значимые требования.
Первое требование, если ему следовать буквально, может привести к тому, что одни и те же данные будут описаны в электронном каталоге
несколько раз, в предельном случае - дополнительно столько раз, сколько баз данных (информационных источников) описано в электронном каталоге.
Второе требование является многоплановым.
Во-первых, оно означает, что данные в производственных базах данных должны быть охарактеризованы как имеющие свои прототипы в информационном архиве (исходные данные, отобранные для выполнения загрузки данных) и как не имеющие прототипов.
Во-вторых, становится необходимым для загруженных данных указывать, какие именно данные (например, какие именно каротажные кривые из LAS-файлов, отобранных на загрузку) загружены в конкретную базу данных.
Следует также указать дополнительные факторы, определяющие пути решения задачи включения в систему электронного каталога производственных баз данных и информационно-справочных систем.
1. В разных информационных источниках данные об одних и тех же выполненных работах и проведенных исследованиях могут
появиться в разное время. Причем появление данных в разное время может быть вызвано самыми разными причинами, например:
- приобретение (закупка) дополнительных материалов по ранее уже изученным и описанным объектам (скважинам, площадям и т. д.),
- поставка данных по подписке для информационно-справочной системы и др.
2. В разных информационных источниках данные об одних и тех же выполненных работах могут быть разной степени полноты и качества, например, от недокументированных ксерокопий каротажных диаграмм до backup-файла базы данных обрабатывающей системы, в которую были загружены данные по тем же работам.
3. В разных информационных источниках (особенно в подписных информационно-справочных системах) используются различные списки и наименования объектов (структур, залежей, блоков, скважин и др., вплоть до различающихся списков стран).
4. Включение в электронный каталог информации о прохождении информации (данных) между различными информационными ресурсами переводит электронный каталог из разряда собственно каталога в разряд некоторой специализированной операционной базы данных, предназначенной для хранения сведений не только о собственно информации и ее местонахождении, но и о ПОТОКАХ информации между различными информационными ресурсами (базами данных). И это уже - другой класс системы с совершенно другими требованиями.
5. Другие факторы.
Описанные проблемы не имеют единственного решения, и выбор пути их разрешения не является простой задачей.
Методы описания содержимого баз данных в электронном каталоге информационных фондов
В общем, существует два диаметрально противоположных пути создания единого электронного каталога геолого-геофизической информации: вести автономные журналы содержимого информационных источников (неправильный путь) либо вносить описание каждой информационной единицы в базу данных электронного каталога (правильный путь).
Первый из этих путей, по сути, означает отход от единой системы электронного каталога, но его анализ позволяет высветить все проблемы общего решения более отчетливо.
Второй путь может рассматриваться (в контексте обсуждения) как развитие первого пути до правильного.
Вариант (путь) 1. Каждую включаемую в электронный каталог базу данных следует описать в некотором электронном журнале (например, формата Excel) и этот журнал состава информации во включаемой базе данных оформить как отдельный объект учета в системе электронного каталога.
Достоинства этого варианта (основные).
1.1. Поскольку каждая база данных имеет свою собственную модель данных и свою (не всегда простую) систему описания содержащихся данных, то для каждой базы данных будут выбраны свои способы представления и атрибуты описания содержащейся в ней информации, учитывающие все необходимые факторы и нюансы.
1.2. Информация о загруженных данных будет формироваться непосредственно лицами, выполняющими загрузку данных. Они же внесут в электронный журнал информацию о том, какие файлы данных (или какие другие данные) выступали (были выбраны) в качестве исходных именно для "вот этих" загруженных данных.
1.3. Конечный пользователь, как правило, сможет довольно легко определить состав имеющихся материалов.
Недостатки этого варианта (основные).
1.4. Полностью отсутствует формализованная связь между электронным каталогом и журналами содержимого баз данных.
1.5. Исключается возможность выполнения поисковых запросов данных через общий пользовательский интерфейс.
1.6. В полный рост встанут проблемы использования (при описании содержимого подключаемых баз данных) единой системы справочных данных.
Вариант (путь) 2. Информацию о содержимом различных баз данных вносить в базу данных электронного каталога.
В этом варианте каждая база данных логически "разбивается" на ряд "виртуальных" частей (описаний). Каждая "виртуальная" часть базы данных соотносится с некоторой единицей деятельности и описывает некоторую элементарную порцию загруженной информации (например, данные одного каротажа, или данные одной сейсмической съемки, или данные добычи за некоторый квант времени (месяц, год), или одно лицензионное соглашение и т. д.).
Каждая "виртуальная" часть описываемой базы данных соотносится в электронном каталоге с одним или более "виртуальным" файлом, подменяющим собой некоторую совокупность собственно данных.
Для таких "виртуальных" файлов из одной и той же базы данных создается описание объекта-носителя информации. В данном случае носителем информации является конкретная установка рассматриваемой производственной базы данных. Носителю информации (описываемой базе данных) присваивается признак "база данных" (в дополнение к носителям твердых копий, электронным носителям (картриджам, дискетам, CD и т. д.), носителям типа "сетевой ресурс" (сетевой каталог)).
Отмеченная выше проблема дублирования описаний проведенных работ и исследований (при внесении в электронный каталог описаний содержимого баз данных) остается нерешенной. Либо описание содержимого баз данных (каждую "виртуальную" часть описываемой базы данных) нужно будет присоединять к каким-либо из уже имеющихся описаний работ или исследований. В этой ситуации приходится допускать некоторое возможное "загрубление" сведений о том, что именно загружено в конкретную базу данных (см. пример выше в отношении загрузки только части каротажных кривых из LAS-файла).
Второй стороной этой же проблемы дублирования является способ организации в электронном каталоге описаний выполненных работ и исследований применительно к базам данных.
Показательным является следующий пример: требуется описать информацию о том, какие данные о добыче содержатся в некоторой базе данных. Можно пойти, например, двумя путями: создать ЕДИНСТВЕННОЕ описание работ с видом деятельности "Добыча" и указанием интервала дат (01.01.2002 г. - 31.12.2002 г.), к которому относятся данные, а в список объектов, по которым получена информация, включить все те скважины, по которым в базу данных занесены сведения о добыче. Либо для каждой отдельной скважины создавать свое собственное описание работ с видом деятельности "Добыча" и указанием интервала дат (01.01.2002 г. - 31.12.2002 г.).
Для случая описания содержимого базы данных более естественным представляется создание единственного описания работ для ВСЕХ скважин и постепенное пополнение списка скважин, в отношении которых выполнены соответствующие работы (загружена соответствующая информация).
Для данных текущей (оперативной) отчетности, когда, например, данные добычи для каждой скважины могут поступать в своем отдельном Excel-файле, просто в силу необходимости учета (и размещения на файл-сервере) каждого отдельного файла данных, придется отдельно формировать описание работ по каждой отдельной скважине (по мере поступления файлов данных).
Существует и третий вариант (путь) описания в базе данных электронного каталога содержимого различных взаимосвязанных информационных источников.
Это - развитие системы электронного каталога в специализированную операционную базу данных (включая необходимое программное окружение), предназначенную для хранения сведений не только о собственно информации и ее местонахождении, но и о ПОТОКАХ (распространении) информации между различными информационными ресурсами (базами данных) и ДЕЙСТВИЯХ (операциях), выполненных в отношении единиц (порций) информации (как пример, ПОТОКИ: загрузка, выгрузка, передача из обрабатывающего комплекса в обрабатывающий комплекс, копирование из одной базы в другую; ДЕЙСТВИЯ: входной контроль качества, подготовка к загрузке, переформатирование и т. д.).
Детальный анализ данного варианта развития системы электронного каталога выходит за круг вопросов, рассматриваемого в данной статье.
Глоссарий
Раздел: Хранилище данных
Термин: Интеграционная база данных
База данных, предназначенная для информационного обеспечения функционирования программных средств управления данными (преимущественно, программных средств выполнения поисковых запросов) в некоторой совокупности информационных хранилищ, в том числе содержащих совместно используемую, информацию. Информационное наполнение интеграционной базы данных составляют:
- описания моделей данных, схем и способов физического хранения данных, API доступа к данным, предоставляемого информационным хранилищем, применительно к каждому отдельному описываемому информационному хранилищу;
- описания данных, рассматриваемых как общие в совместно используемых информационных хранилищах, включая, в частности, хранение правил установления эквивалентности данных - без хранения самих данных, требующих установления эквивалентности, или/и хранение самой информации эквивалентности в отношении каждого отдельного общего данного.
|