III Международная научно-практическая конференция «Орлы Палеарктики: изучение и охрана»

Пернатые хищники и их охрана. Спецвыпуск 2. Тезисы

ОТКРЫТЫЕ ИСТОЧНИКИ ДАННЫХ ДЛЯ МОДЕЛИРОВАНИЯ АРЕАЛОВ: ИНФОРМАЦИОННЫЕ СИСТЕМЫ О БИОРАЗНООБРАЗИИ И НАБОРЫ ПРОСТРАНСТВЕННЫХ ДАННЫХ УСЛОВИЙ СРЕДЫ

Шашков М.П. (Карагандинский университет им. академика Е.А. Букетова, Караганда, Казахстан)


Контакт:
Максим Шашков max.carabus@gmail.com
Рекомендуемая цитата: Шашков М.П. Открытые источники данных для моделирования ареалов: информационные системы о биоразнообразии и наборы пространственных данных условий среды. – Пернатые хищники и их охрана. 2023. Спецвып. 2. С. 358–362. DOI: 10.19074/1814-8654-2023-2-358-362 URL: http://rrrcn.ru/ru/archives/35137


Первый алгоритм для моделирования ареалов (Species Distribution Modelling – SDM), BIOCLIM, появился в 1980х. Набирать популярность данное направление популяционных и экологических исследований начало с появлением доступной компьютерной техники, развитием сети Интернет, а также с разработкой открытых ресурсов, предоставляющих доступ к данным о распространении биологических видов и условиям среды. Большинство алгоритмов построения моделей ареалов (за исключением первых методов "биоклиматической оболочки") основаны на регрессионном анализе и машинном обучении. Наиболее используемым на сегодня является метод максимальной энтропии MaxEnt. Все методы решают задачу установления количественных взаимоотношений между точками встреч целевого вида и значениями переменных среды в них с последующей экстраполяцией установленных закономерностей на всю территорию исследования. Результатом является оценка пригодности местообитаний (вероятности встречи) для целевого вида на исследуемой территории.

Методы моделирования ареалов реализованы как виде отдельных программных продуктов (MaxEnt), так и виде модулей для ГИС (smd для QGIS, SDMToolbox для ArcGIS и др.) и пакетов для среды R (dismo, biomod2, ENMTools и проч.).

Работа любого метода моделирования ареалов основана на двух типах входных данных: (1) встречи целевого вида, представленные в виде набора точек с географическими координатами, и (2) условия среды, которые могут определять распространение изучаемого вида (предикторы), в формате непрерывных растровых слоёв.

Благодаря значительным успехам в области оцифровки мировых научных коллекций и других источников данных о распространении видов у исследователей появилась возможность существенно дополнить собственные сборы для получения более точных моделей. Такие данные доступны через тематические репозитории, крупнейшим из которых является Глобальная Информационная Система о биоразнообразии GBIF, объединяющая на сегодняшний день более 2,5 млрд. находок, две трети из которых относятся к птицам. Помимо научных коллекций в GBIF широко представлены данные из систем Citizen Science. Крупнейшей из них является eBird, включающая 1277,5 млн. наблюдений. Система iNaturalist насчитывает около 20 млн. наблюдений птиц. Гораздо меньший объем данных происходит из биологических коллекций – 8,5 млн. и систем автоматического наблюдения (фотоловушек и спутниковых трекеров) – 9,5 млн. Для Казахстана в GBIF можно найти 195 тыс. находок птиц, кроме вышеупомянутых, происходящие также из систем: Raptors of the World, RUBIRDS.RU, Hatikka.fi и Observation.org.

Объем доступных данных о встречах целевого вида может исчисляться десятками тысяч записей, но для построения модели используется гораздо меньше, поэтому важным этапом является отбор данных и контроль их качества. При формировании входного набора данных о встречах целевых видов исследователю необходимо учитывать биологические особенности объектов. Для птиц важно при каких обстоятельствах была встречена данная особь: на гнезде, во время охоты на гнездовом участке, зимовке, пролёте и т.д., а также к какому возрастному состоянию она относится. Необходимо также учитывать, какая часть ареала будет включена в модель: гнездования, зимовки или круглогодичного присутствия. Точки встреч целевого вида должны быть более-менее равномерно распределены по территории интереса, не вызывать сомнения в корректности определения вида и иметь точность географической привязки, сопоставимую с разрешением используемых слоёв предикторов.

Наиболее востребованные переменные среды – это биоклиматические данные ресурса WorldClim, описывающие распределение осадков и средней многолетней температуры. Сведения о почвенных условиях предоставляет ресурс SoilGrid250. Также доступны слои, классифицирующие земную поверхность по типам местообитаний: качественные (Global Land Cover 2000) и количественные (Global 1-km Consensus Land Cover). Кроме того, в качестве предикторов часто используются данные спутниковой съемки, полученные со спутников серий Landsat и Sentinel. В анализ можно включать как отдельные каналы изображений, так и слои с характеристиками, вычисленными на их основе (например, NDVI – нормализованный относительный вегетационный индекс). Также широко используется цифровая модель поверхности SRTM (Shuttle Radar Topography Mission).

Слои предикторов важно проверять на мультиколлинеарность, так как сильно взаимосвязанные факторы будут вносить неопределенность в результат моделирования. Проверка идёт не по всей площади слоёв, а только по набору значений, пространственно соответствующих находкам вида. Из двух связанных слоёв обычно оставляют менее зависимый, либо в отношении которого проверяется рабочая гипотеза, либо позволяющий сравнить результаты с данными других исследований. Рекомендуется принимать значения коэффициента корреляции > 0,7, как критическое. Выбор предикторов должен быть обусловлен особенностями биологии и экологии целевого вида. Для каких-то видов может быть важен рельеф, причем не только высоты над уровнем моря, но и, например, крутизна склонов. Для видов, связанных с водно-болотными угодьями важно использовать гидросеть. Воздействие факторов может быть как прямым, так и опосредованным. Например, конкретный вид птиц гнездится на территории с определенным диапазоном среднегодовых температур, но на локальном уровне выбирает местообитания, богатые пригодными для него пищевыми ресурсами, которые в свою очередь могут быть связаны с определенными почвенными характеристиками или типом растительности. Поэтому, при тестовых построениях моделей, как правило, используют много слоев с характеристиками среды с целью выявления значимых факторов и характера их влияния на вероятность встречи целевого вида. В конечной модели остаётся обычно не более десяти предикторов. Для построения качественной модели необходимо, чтобы на каждый предиктор было не менее десяти точек встреч целевого вида.