GBIF приходит в Россию. Медленно.

Неоднократно упоминавшаяся в заметках на данном сайте, но мало кому известная и почти не используемая в России информационная система «The Global Biodiversity Information Facility (GBIF: http://www.gbif.org/)» (Глобальная информационная система по биоразнообразию) постепенно внедряется в работу некоторых отечественных учреждений. В прошлом году в Московском университете состоялся первый семинар, посвященный сотрудничеству российского научного сообщества и GBIF. По сообщению координаторов такого сотрудничества, уже «целых» три российских научных института зарегистрировались в системе и начали публиковать свои «наборы данных» (datasets в терминологии системы). Безусловно, мне, тоже зарегистрированному в этой системе — также приятно оказаться в столь немногочисленной, но авторитетной компании. В октябре же этого года планируется провести еще один семинар в Институте проблем экологии и эволюции им. А.Н. Северцова. Не смотря на то, что до семинара осталось менее месяца, информацию о нем найти почти невозможно. Ее нет ни на сайте института, ни на портале GBIF. Мне довелось узнать о нем достаточно окольным путем и получить информационное письмо с не активной ссылкой на страницу регистрации. Остается только догадываться, с чем связан конспиративный характер данной встречи.

Тем не менее, видя хоть и чрезвычайно вялое, но отчетливо видное встречное движение GBIF и российского сообщества специалистов по биоразнообразию, хотелось бы высказать свою точку зрения на перспективы и практическую целесообразность такого сближения. Тем более, что в русскоязычном сегменте интернета просто отсутствуют критические обзоры данной системы — есть лишь немногие упоминания, больше похожие на рекламные объявления. С учетом этого краткий обзор функционала системы, описание возможных плюсов и минусов работы с ней — могут быть полезны тем, кто имеет желание начать сотрудничество с GBIF.

Следует сразу сделать существенную оговорку. В настоящее время размещать в системе свои данные могут только организации («Individuals wishing to publish data should work through their affiliated organizations to seek endorsement as a publisher»). Если Вы не можете или не желаете по тем или иным причинам разместить свои данные от имени научного учреждения — все написанное ниже представляет только теоретический интерес. Надо заметить, что ранее это было не так — система позволяла размещение данных от частных лиц. Возможно, в будущем такая возможность будет возвращена. Хотя это несколько сомнительно в свете соображений, высказанных в конце заметки. Поскольку я являюсь одним из тех «Individuals», которые не хотят следовать указанным GBIF путем — процесс публикации данных здесь не будет описан.

Итак, кратко о возможностях системы. Зарегистрированный пользователь GBIF может искать, просматривать и сохранять информацию о находках видов. Две первые функции доступны и без регистрации, так что необходимость таковой (если Вы не собираетесь размещать данные) немного сомнительна. Общее количество указаний впечатляет — более полумиллиарда находок более чем полутора миллионов видов. Пример информации о виде в системе: http://www.gbif.org/species/4470765. В данном случае речь идет о широко распространенном и обычном виде жужелиц (Carabus violaceus). Собственно, примерно такая же картина открывается при поиске любого аналогичного вида. Специалист может легко сразу оценить полноту и достоверность приведенных данных. Особенно замечательна «находка» указанной жужелицы в океане (sic!) между Африкой и Мадагаскаром. Источником указания является коллекционный экземпляр из Museum of Zoology, University of Navarra — без указания дополнительных подробностей. Это и есть: «The quality and completeness of data cannot be guaranteed. Users employ these data at their own risk» — из Data use agreement (http://www.gbif.org/terms/licences/data-use). Таким образом, информация, полученная из GBIF, мягко говоря, не может быть использована в непосредственном виде как научный источник. Во всяком случае, не в большей степени, чем статьи из Википедии.

Сохранение данных возможно через специальный запрос, по которому на электронный адрес пользователя приходит ссылка для скачивания. Данные сохраняются либо в виде таблицы csv («comma separated values»), либо в специальном формате Darwin Core, неоднократно упоминавшемся в заметках на этом сайте. Желающие подробнее ознакомиться с особенностями формата могут пройти по ссылке: http://rs.tdwg.org/dwc/index.htm. На мой взгляд, формат представляет собой заведомо неудачную попытку разработки универсальной структуры данных о биоразнообразии на все случаи жизни «все-в-одном». Результат оказался немного предсказуем: пугающе громоздкая структура, где большинство элементов редко востребованы, а многие необходимые в каждом из случаев — отсутствуют. Разумеется, файлы данного формата, независимо от представления — совершенно «человеконечитаемы». Готового способа преобразовать их в понятные для человека список материала, описание таксона, карту находок и т.п. — не существует в природе. За пределами веб-сервиса GBIF использовать формат невозможно почти нигде. Таким образом, смысл локального сохранения данных системы не совсем ясен.

Для работы с форматом Darwin Core в системе существуют два сервиса (полный список доступных инструментов: http://tools.gbif.org/). Darwin Core Archive Assistant (A tool to assist in the publication of biodiversity data) позволяет вручную формировать файл формата: http://tools.gbif.org/dwca-assistant/. Левая панель приложения открывает всю «простоту и очевидность» монструозной структуры данных. Второй сервис выглядит менее пугающим — Darwin Core Archive Spreadsheet Processor: http://tools.gbif.org/spreadsheet-processor/. Но это только до ознакомления с шаблонами таблиц, из которых данный сервис позволяет создать архив формата Darwin Core. Складывается впечатление, что эти таблицы пришли к нам из того же ада, что и «портянки» Microsoft Access, используемые многими как «базы данных». Так, таблица «Occurence» (список находок) содержит 45 (!) полей. Среди них перемешаны (и, естественно, многократно дублируются при заполнении) свойства таксона, коллекционного образца, коллекции, локалитета и др. Это при том, что многие важные свойства этих сущностей опущены. Так, мной уже многократно указывалось на недопустимую упрощенность пространственного описания локалитета. Для сравнения можно привести хотя бы структуру пространственных данных, используемую в СУБД MySQL: https://dev.mysql.com/doc/refman/5.0/en/spatial-datatypes.html. Легко представить, в какой кошмар превратилась бы таблица «Occurence» при попытке вписать этот стандарт в ее поля. Я отнюдь не являюсь сторонником экстремальной нормализации баз данных (высокие ее формы, как хорошо известно — могут неоправданно усложнять разработку и управление базой), но авторам стандарта, видимо, не знакомо само это понятие. Попросту говоря, структура данных, используемая в GBIF (DwC) — изначально плохо спроектирована. И исправить ее, не сломав — совершенно невозможно. «Extensions» (дополнения формата) — не решают проблемы плохой архитектуры, а лишь еще больше загромождают ее. Мне представляется, что именно формат данных будет неизбежным тормозом в развитии данной системы, если ее администрация не примет радикальных мер в этом направлении. Разумеется, оба сервиса работают на стороне сервера GBIF и способа локальной обработки данных не существует.

Таким образом, работу с данными системы я бы никак не смог назвать простой и «user friendly, human oriented», даже не смотря на наличие некоторых инструментов обработки данных. Это тоже важно помнить, рассматривая перспективы работы с GBIF: формат Darwin Core — _очень_ сложен и при этом весьма ограничен и не гибок. Я очень сомневаюсь, что затраты на его изучение могут каким-либо образом окупиться. Вся последующая работа с ним — будет сложной, долгой, и не дающей очевидного ускорения обработки данных. А это мне представляется крайне важным как раз для «Individuals wishing to publish data».

Еще одна особенность системы, о которой важно предупредить — очень туманное и противоречивое описание правил пользования системой. В первую очередь речь идет о лицензировании прав на размещаемые данные как объект интеллектуальной собственности. В http://www.gbif.org/terms/licences администрация системы уверяет нас, что все данные публикуются под одним из трех вариантов лицензии Creative Commons, и что они всячески подталкивают публикаторов данных к наиболее либеральному из них. С другой стороны, в http://www.gbif.org/terms/licences/data-use указывается, что пользователь должен соблюдать дополнительные правила и условия, установленные публикатором в метаданных «датасета». Мне представляется, что эти два положения не совсем совместимы друг с другом. Вполне понятно желание администрации сервиса угодить всем, однако местами это напоминает известный результат попытки сесть разом на два стула. Должностным лицам, планирующим зарегистрировать свою организацию как Data Publisher, я бы посоветовал обратить особое внимание на соблюдение прав на интеллектуальную собственность учреждения в процессе работы с системой в соответствии с принятым в организации их пониманием. Ну а «Individuals» — изначально помнить, что ни Publisher (публикатором), ни Owner (владельцем) даных — они в текущей версии правил пользования системой быть не могут, со всем из этого вытекающим.

Так есть ли реальные «кейсы» — практические ситуации, при которых публикация данных о биоразнообразии в The Global Biodiversity Information Facility имеет смысл? Не смотря на всю выше прозвучавшую резкую критику системы — да. Если Вы — административный работник крупной научной организации, имеющей значительный штат и большой объем данных о биоразнообразии — я бы посоветовал Вам по крайней мере рассмотреть возможность использования GBIF как сервиса для открытого хостинга таких данных. Разумеется, это актуально только в том случае, если Вы поддерживаете идеи «open science data» и имеете возможность выделить отдельного технического специалиста для работы с системой без существенного снижения эффективности Вашего учреждения или подразделения. Безусловно, открытый доступ к данным организации может активизировать Ваше международное научное сотрудничество, а участие в работе крупной открытой электронной системы хранения и обработки данных — стать совсем не лишней «галочкой в резюме». При этом важно лишь здраво оценить трудозатраты на такую работу и убедиться, что политика использования данных в GBIF не вызовет нежелательного конфликта интересов. При всех минусах системы — реального аналога не существует, и, видимо, долго еще не появится. Однако, приходится с сожалением отметить, что и описанный выше «кейс» дает больше репутационный выигрыш, чем технический (ускорение и повышение качества исследований в области биоразнообразия).

Если же Ваши ресурсы крайне ограничены (как, например, у большинства российских заповедников) или Вы вовсе тот самый «индивидуал», лично организующий, финансирующий и проводящий свои исследования — этот сервис совершенно не для Вас. По моему мнению, затраты на изучение формата данных, средств работы с ним, организацию самого взаимодействия — будут совершенно не сопоставимы с возможными выгодами. Тем более — весь процесс обработки данных будет происходить на сторонних вычислительных мощностях, и контролировать Вы его никак не сможете. Вне GBIF подготовленные данные будут почти бесполезны. Кроме того, Ваши данные будут «размазаны» среди огромного объема чаще всего низкокачественных данных. Получить отдельный каталог своих указаний, таксономический список, карту находок и т.п. — Вы, скорее всего, никогда не сможете, по крайней мере — без разработки собственного программного обеспечения.

В таких случаях гораздо более рациональным представляется использование своей собственной системы управления данными, настраиваемой и контролируемой лично Вами. К сожалению, возможные варианты здесь пока крайне не многочисленны. Одна из попыток разработки такой системы — KGBase. О другой интересной попытке — европейском проекте Scratchpads — будет подробно рассказано немного позже.

Напоследок хотелось бы высказать некоторые соображения относительно GBIF как собственно источника научных данных и его возможного будущего. Как уже отмечалось, данные системы предоставляются без какой-либо гарантии их достоверности. И часто очень далеки от истины, или даже возможности установить истину. Например, указание довольно обычного в Европе жука из семейства стафилинид: http://www.gbif.org/occurrence/1052908995. «Basis of record: Human Observation». На одну секундочку: данный вид — из группы, весьма сложной для идентификации, и надежно определяемой только по строению копулятивного аппарата самцов. Да, безусловно — в Швеции он есть и обычен. Но я не могу себе представить его достоверное определение по «наблюдению». Такие указания, безусловно, еще больше снижают и так невысокое доверие к данным системы. При этом GBIF позиционируется (в отличие от той же Википедии) именно как инструмент научных исследований. Хотя суть работы с ней сводится к тому же: анализу заведомо не достоверного и неполного источника данных в целях поиска ценных «зерен» информации для последующей их тщательной проверки и использования в случае надежного подтверждения. Мне кажется, GBIF и здесь пытается сесть на два стула разом, результат чего снова — немного предсказуем. И здесь не помогает даже ограничение публикации данных долько информацией от крупных научных учреждений. А открытый немодерируемый доступ к пополнению системы всеми желающими — приведет к массовому притоку «странных» любительских указаний (которые чаще всего невозможно проверить), путанице в таксономии и т.д. И окончательно превратит GBIF в подобие «викисклада» — огромной горы в основном бесполезных вещей, среди которой можно найти и нечто ценное. Научным же источником система просто перестанет быть навсегда. Именно поэтому расширение доступа к системе в будущем представляется мне крайне маловероятным. Однако инертность, свойственная любой большой системе, и заинтересованность в продолжении работы GBIF многих крупных научных организаций и «больших» проектов с щедрым финансированием — не оставляют сомнений, что огромный «авианосец» еще долго будет «на плаву». Хотя архитектура системы и подход к обработке данных вызывают серьезное сомнение в счастливом характере его плавания. Как к этому относится — дело убеждений, приоритетов и интересов конкретного специалиста по биоразнообразию. Лично для меня — GBIF «не нужен»: он никак не может повлиять на мою работу (как научную, так и административную) и по сути бесполезен для нее. На данный момент я не вижу никаких путей, которыми работа GBIF или сотрудничество с системой могли бы существенно повлиять на исследования биоразнообразия. В особенности — регионального или локального, в области которых лежат мои основные научные интересы. Пока я вижу лишь крайне амбициозный, но очень сложно и нерационально устроенный проект с сомнительным будущим.

И открытым я бы этот проект тоже не назвал — скорее здесь на каждом шагу приходится сталкиваться с «vendor lock» — принудительной привязкой пользователя к определенному сервису. Nodes Portal Toolkit (http://www.gbif.org/infrastructure/tools#npt) — единственная часть GBIF, распространяемая под свободной лицензией GNU GPL — также по сути не может использоваться вне связи с основной системой. По существу это веб-сайт, устанавливаемый пользователем на свой сервер, но являющийся «филиалом» GBIF, посвященным ограниченной территории или отдельной таксономической группе. Технически NPT — кастомизированная версия уже упоминавшегося Scratchpads (основанного, в свою очередь, на свободной CMS Drupal), с возможностью загрузки данных участника GBIF. Разумеется, сначала надо стать таким участником — то есть для «Individuals» этот путь опять-таки заказан.

Остается надеяться, что действительно свободные системы управления данными о биоразнообразии в будущем получат большее развитие и распространение. KGBase — одна из попыток построить такое будущее своими руками.

Update (2015-09-29):

Мне все-таки удалось найти информацию о семинаре по GBIF в ИПЭЭ РАН. Как оказалось, существует даже «целый» сайт «Российский GBIF»: http://gbif.ru/. Обилие и подробность информации о системе на этом сайте каждый может оценить самостоятельно. И как раз на главной странице можно получить информацию о семинаре, который пройдет 16 октября этого года в Москве. И даже заполнить анкету участника (почему-то — на «Документах Гугл»). Так что, не смотря на конспирацию, желающие вполне могут попасть на эту встречу и обсудить интересующие их вопросы взаимодействия с GBIF.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *