III Международная научно-практическая конференция «Орлы Палеарктики: изучение и охрана»
Пернатые хищники и их охрана. Спецвыпуск 2. Тезисы
МОДЕЛИРОВАНИЕ РАСПРОСТРАНЕНИЯ, ЧИСЛЕННОСТИ И ВЫЖИВАЕМОСТИ ВИДОВ: НОВЫЕ ВОЗМОЖНОСТИ И МЕТОДЫ
Карякин И.В., Книжов К.И. (Российская сеть изучения и охраны пернатых хищников; ООО «Сибэкоцентр», Новосибирск, Россия)
Контакт:
Игорь Карякин ikar_research@mail.ru
Кирилл Книжов kirillknizhov@gmail.com
Рекомендуемая цитата: Карякин И.В., Книжов К.И. Моделирование распространения, численности и выживаемости видов: новые возможности и методы. – Пернатые хищники и их охрана. 2023. Спецвып. 2. С. 347–357. DOI: 10.19074/1814-8654-2023-2-347-357 URL: http://rrrcn.ru/ru/archives/35134
Многие виды крупных хищных птиц в настоящее время являются редкими, большая часть находится под угрозой исчезновения, поэтому детали их распространения, численности и выживаемости являются важнейшими показателями для планирования мероприятий по охране и восстановлению, для оценки воздействия на популяции этих видов антропогенного преобразования среды и/или изменений климата.
Численность и распределение в пространстве изучаемых птиц определяются в ходе полевых учётов. На выходе мы получаем плотность распределения в особях, парах, гнёздах на единицу площади (например, пар/100 км2) или дистанции между ближайшими или всеми соседями, которые можно представить как в виде математических значений (1–5, в среднем 3,5±1,1 км), так и в графическом виде (от простых линий, связывающих точки наблюдений, до триангуляции Делоне и сети полигонов, построенной по точкам наблюдений). Далее, для получения оценки численности, необходимо понимать площадь, на которую возможно экстраполировать эти данные. И с этим у многих исследователей возникают проблемы – неправильная оценка площади мест обитания учитываемого вида приводит к искажению оценки численности и нивелирует учётные усилия. Как правильно определить площадь, на которую возможно экстраполировать учётные данные? Ответ на этот вопрос может дать моделирование в среде ГИС с использованием географических слоёв экологической и пространственной информации, в современной терминологии – моделирование распространения видов (Species distribution modelling, SDM).
В ходе процесса SDM, также известного, как моделирование среды обитания или ареала вида, для географически привязанных точек присутствия вида (зависимая переменная) определяются данные об окружающей среде – климатические и пространственные переменные, такие как температура, влажность, ветровая нагрузка, рельеф, растительный покров, почвы и т.п. (предикторы или независимые переменные), и посредством компьютерных алгоритмов и математических методов прогнозируется распределение вида в географическом пространстве и/или времени.
SDM проводится в 6 этапов: (1) концептуализация идеи, (2) подготовка данных (точек присутствия и отсутствия или фоновых точек), (3) выбор метода (4) подгонка модели, (5) оценка модели и (6) построение карты местообитаний или ареала.
1. Концептуализация. На этом этапе мы формулируем основную цель исследования и принимаем решение о схеме процесса моделирования на основе наших знаний о виде и исследовании. Важным моментом на начальном этапе является выбор данных о виде и об окружающей среде. Мы принимаем решение об использовании только наших данных, или привлечении каких-то других доступных данных. Это потребует внесение каких-то корректив в дизайн выборки. Далее, нам надо проверить основные предположения, лежащие в основе SDM, например, находится ли вид в равновесии с доступными переменными окружающей среды, могут ли данные быть каким-либо образом смещены (неравномерность выборки, пространственная автокорреляция и т.п.), имеются ли изменения в окружающей среде относительно времени сбора данных, и т.д. Выбор адекватных экологических и пространственных переменных, алгоритма моделирования и сложности модели должен основываться на цели исследования и гипотезе, касающейся взаимоотношения исследуемого вида и окружающей среды на выбранной для исследования территории.
2. Подготовка данных. На этом этапе мы собираем и обрабатываем фактические данные о виде (как точки присутствия, так и точки отсутствия) и окружающей среде. Особое внимание при подготовке данных следует уделить любым несоответствиям пространственного и временного масштабирования зависимых и независимых переменных, т.е. случаям, когда имеется большая пространственная или временная разница между данными о виде и окружающей среде, либо между данными об окружающей среде (пространственными и климатическими переменными). Также особое внимание надо уделить качеству географической привязки точек присутствия и качеству видовой идентификации, что как правило, сильно страдает, если данные собираются любителями. В этих случаях нам необходимо принять решения о корректировке данных или их отбраковке. Все алгоритмы SDM требуют информации об отсутствии вида. Если таковой информации нет, она заменяется фоновыми точками или так называемыми данными о псевдоотсутствии, что естественно сказывается отрицательно на качестве моделирования, особенно в крупных масштабах. Заранее следует подумать на то, как данные о виде будут разделены для обучения и проверки модели, если в моделировании используется весь объём собранных данных и не планируется дальнейшая проверка модели на местности.
3. Выбор метода. На этом этапе мы выбираем метод моделирования или несколько методов, для объединения в ансамблевые модели.
Если на ранних этапах моделирования использовались простой факторный или кластерный анализы, интегрированные в настольные ГИС, то в настоящее время набор алгоритмов существенно расширился:
Методы, основанные на линейной регрессии:
- Обобщённая линейная модель (GLM) (Nelder, Wedderburn, 1972),
- Обобщённая аддитивная модель (GAM) (Hastie, Tibshirani, 1990);
Методы машинного обучения:
- Метод максимальной энтропии, реализованный в программе MaxEnt (Soberson, Peterson, 2005; Phillips et al., 2006; Phillips, Dudik, 2008),
- Случайный лес (Random Forest, RF) - метод ансамблевого обучения для классификации и регрессии, который работает путём построения множества деревьев решений во время обучения (Breiman, 2001),
- Усиленные деревья регрессии (BRT),
- Свёрточные нейронные сети (CNN) (LeCun et al., 1989),
- Генетический алгоритм создания набора правил (GARP) (Stockwell, 1999; Stockwell, Peters, 1999),
- Машинное обучение, поддерживающее векторные сети (Support VectorMachines, SVM) (Cortes, Vapnik, 1995; Vapnik et al., 1997)
- XGBoost (eXtreme Gradient Boosting, XGB) (Chen, Guestrin, 2016).
MaxEnt и Random Forest интегрированы в ArcGIS, имеют поддержку в среде R и доступны онлайн для пользователей Google Earth Engine (GEE). В последние годы GEE приобретает всё большую популярность в качестве ресурса для SDM (Crego et al., 2022).
4. Подгонка модели. Этот этап является ключевым в SDM. Получив данные предварительного моделирования, мы оцениваем вклад мультиколлинеарности и решаем, как с ней бороться, определяем сколько переменных необходимо включить в модель без её переобучения, оцениваем пространственную или временную автокорреляцию и решаем, как с ней бороться, определяем настройки модели или нескольких моделей и выбираем какой результат использовать, лучший или средний. На этом же этапе мы проверяем правдоподобие подобранных взаимосвязей между точками присутствия вида и переменными окружающей среды путём сравнения коэффициентов и визуального осмотра построенных кривых на графиках.
5. Оценка модели. На данном этапе мы оцениваем эффективность прогноза итоговой модели с помощью набора проверочных или тестовых данных: AUC (ROC) (Fielding, Bell, 1997; Fawcett, 2006; Hosmer, Lemeshow, 2013), TSS (Liu et al., 2005; Allouche et al., 2006); R2 и Kappa (Brownlee, 2016; Zhang et al., 2021). Обычно для этой цели используется перекрёстная проверка (пространственные блоки) (Roberts et al., 2017; Valavi et al., 2019; Crego et al., 2022). Также мы выбираем пороговые значения для бинаризации прогнозируемых вероятностей на основе перекрёстно проверенных прогнозов.
6. Построение карты местообитаний или ареала. Это заключительный этап SDM, в ходе которого мы конвертируем в растр нашу прогнозную модель и получаем классифицированное изображение с вероятностью распространения вида на исследуемой территории в процентах для каждого пикселя. Мы определяем порог вероятности присутствия вида для пикселей, которые включаем в итоговую карту ареала, и размер буфера, строящегося вокруг этих пикселей для определения площади местообитаний. Целесообразность использования буфера зависит от масштаба результирующего растра, чем меньше масштаб, тем ниже актуальность буфера. Размер буфера обычно определяется по средней дистанции между ближайшими соседями (MND) и, в зависимости от целей и задач моделирования, представляет собой половину, полную или удвоенную MND.
Всегда следует критически оценивать основные предположения в SDM и осознавать потенциальные ограничения, связанные с целым комплексом факторов: способность обнаруживать вид, неравномерность выборки, ограничения в выборе переменных окружающей среды, незнание определённых сторон биологии вида для выявления закономерностей в его биотопических и территориальных предпочтениях и пр. SDM предполагает, что виды находятся в равновесии с окружающей средой, что мы знаем и тщательно отобрали как точки присутствия вида, так и данные об окружающей среде, и что мы включили все основные факторы, определяющие пределы ареала вида. При этом надо понимать, что эти аспекты не стабильны по нескольким причинам. Во-первых, виды, особенно хищники, динамически реагируют на изменения среды, поэтому они будут демонстрировать определенную пространственную и временную динамику и необходимо её правильно учесть в моделировании. Важными факторами, определяющими реакцию вида на изменения среды обитания, являются его физиология, демография, способность к расселению, степень толерантности к урбанизации, степень адаптации к изменению экологических факторов и межвидовые взаимодействия. Все эти факторы действуют на вид постоянно во времени, в том числе здесь и сейчас, и их игнорирование может существенно исказить результаты моделирования. Поэтому идеальным вариантом SDM является проверка результатов в поле и их корректировка.
К сожалению, большинство орнитологов испытывают сложности в работе с R и в настольных ГИС, что не позволяет им обрабатывать результаты своих полевых исследований в соответствии с современными требованиями. Для лучшего внедрения в практику моделирования в работе с редкими видами, мы создали программный продукт, позволяющий специалистам по птицам с минимальными знаниями в ГИС и языках программирования, но имеющим определённое представление об алгоритмах SDM и оценке численности, решать задачи, связанные с моделированием распространения, численности и выживаемости редких видов. Программный продукт предназначен для обработки различных геоданных, содержащих наблюдения видов; получения данных с растров GEE; классификации биотопов; оценки популяции, выживаемости и т.д.
Основным интерфейсом продукта является веб-интерфейс1, который позволяет выбирать интересующий процесс, вводить необходимые данные и получать ссылку на архив с результатами обработки.
Для геоданных (точек, полигонов и т.д.) предусмотрена возможность ввода файлов csv, shp, geojson, а также ручного ввода с помощью карты. Для запуска алгоритмов, в которых необходимо добавлять данные из растров GEE, предоставлено поле выбора из списка доступных продуктов дистанционного зондирования земли (ДЗЗ): NASADEM (NASA JPL, 2020), MOD13A1.061 Terra Vegetation Indices 16-Day Global 500m (Didan, 2021), Geomorpho90m (Amatulli et al., 2020), Global Habitat Heterogeneity (Tuanmu, Jetz, 2015), Global Wind Atlas (Badger et al., 2021), World Clim (Fick, Hijmans, 2017), ERA5-Land Monthly Aggregated – ECMWF Climate Reanalysis (Muñoz Sabater, 2019), ESA WorldCover 10m v100 (Zanaga et al., 2021), Dynamic World V1 (Brown et al., 2022), неклассифицированные спутниковые данные, такие как коллекция 2 отражательной способности поверхности (SR) Landsat 8 с поправкой на атмосферу (синий, красный, зеленый, ближний инфракрасный и коротковолновый инфракрасный 1 диапазоны с пространственным разрешением 30 м) и наборы данных поляризации HH и HV ALOS с фазированной антенной решеткой L-диапазона с синтезированной апертурой (SAR), а также данные расчётов NDVI и EVI по изображениям Landsat 8 c использованием функции GEE (normalizedDifference). Для запуска алгоритмов, использующих различные сторонние библиотеки, вводятся данные в csv файлах, в форматах, требуемых соответствующими библиотеками.
На текущем этапе в продукт входят модули:
1) Получения данных из растров GEE по заданным точкам (результатом является таблица с выбранными для точек данными из растров, входящих в коллекцию GEE);
2) Получения классифицированного растра по заданной области и набору точек присутствия и отсутствия вида (тренировочных точек) с помощью классификаторов RF и MaxEnt на базе GEE (оба классификатора позволяют, по заданной области интереса, набору тренировочных точек и выбранным продуктам ДЗЗ из GEE получить классифицированный с помощью соответствующих методов GEE растр области интереса. Есть возможность провести кросс валидацию выбранных моделей и оценку их прогностической эффективности);
3) Оценка численности популяции тремя различными методами:
3.1) генерация случайных точек в регулярной сети – эвристический алгоритм, который на основании данных о точках присутствия вида и об исследованных областях генерирует случайные точки, имитируя расселение вида по общей области интереса;
3.2) Distance – метод, основанный на модели Distance Sampling (Thomas et al., 2010; Buckland et al., 2015; Miller et al., 2019), который в качестве входных данных принимает файл с необходимыми переменными для точек и областей и в качестве результата выводит детальную статистику;
3.3) простые площадочные учёты с расчетом средневзвешенного показателя плотности распределения вида (Карякин, 2004) с расчётом несимметричного доверительного интервала (Равкин, Челинцев, 1990);
4) Оценка выживаемости гнёзд на основе библиотеки RMARK (Laake, 2013). В модуль расчёта выживаемости входит обработка данных о выживаемости гнёзд с помощью метода nest библиотеки RMARK, который может учитывать различные переменные из ДДЗЗ, и выводит важность переменных для выживаемости гнезда.
В связи с тем, что программный продукт размещён на серверах организаций, признанных нежелательными в России, доступ к которым заблокирован Роскомнадзором, авторы рассматривают варианты создания клона на российском ресурсе.
Работа осуществляется при финансовой поддержке Фонда сотрудничества для сохранения экосистем, находящихся в критическом состоянии / The Critical Ecosystem Partnership Fund (CEPF)2 в рамках проекта «Сохранение угрожаемых видов пернатых хищников на Индо-Палеарктическом миграционном пути» (“Endangered Raptors Conservation on the Indo-Palearctic Migration Flyway”).
1 http://www.gis.altaiproject.org