Техническое руководство по алгоритмической обработке мультиспектральных данных для выделения слабых сигналов оруденения
1. Введение: Пределы человеческого зрения и RGB-синтеза
В современной дистанционной геологии эпоха визуального дешифрирования («посмотрел на снимок — увидел рыжее пятно — пошел бурить») завершилась. Поверхность Земли представляет собой хаотичную смесь сигналов: растительность, влажность почвы, тени от облаков, антропогенная нагрузка и, собственно, горные породы.
Проблема заключается в корреляции спектральных каналов. Данные Landsat 8/9, Sentinel-2 или ASTER в сыром виде (Raw DN) сильно коррелируют между собой. Топографические тени затемняют все каналы одновременно, а яркие обнажения засвечивают их. Стандартный композит (False Color Composite), например RGB 4-3-2, несет в себе до 90% избыточной, дублирующей информации.
Геологу не нужна «красивая картинка». Геологу нужен чистый сигнал конкретного минерала (например, каолинита или гематита), очищенный от топографического и растительного шума.
Для решения этой задачи мы в GeoJet Exploration применяем Метод Главных Компонент (Principal Component Analysis — PCA) и его специализированную модификацию — Технику Кроста (Crosta Technique). Это статистические процедуры, которые позволяют вращать систему координат спектрального пространства, чтобы разделить «смесь» на «ингредиенты».
[ВАЖНО ЗНАТЬ]
PCA — это метод снижения размерности данных без потери информации. Мы сжимаем 10 каналов спутника ASTER в 3-4 информативные компоненты, где одна отвечает за яркость (альбедо), другая — за растительность, а третья — исключительно за гидротермальные изменения.
2. Физико-математическая сущность метода PCA
Чтобы понять, как алгоритм находит золото, нужно понять математику преобразования.
Представьте многомерное пространство, где каждая ось — это яркость в одном спектральном канале (Band). Точка в этом пространстве — это пиксель снимка. Облако точек обычно вытянуто по диагонали (из-за корреляции яркости).
Алгоритм PCA выполняет следующие шаги:
- Расчет ковариационной матрицы: Мы вычисляем, насколько изменения в одном канале соответствуют изменениям в другом.
- Вычисление собственных векторов (Eigenvectors): Алгоритм ищет оси, вдоль которых дисперсия (разброс данных) максимальна.
- PC1 (Первая главная компонента): Направлена вдоль самой длинной оси облака данных. Обычно она собирает 95-98% всей информации (яркость/топография). Для геолога PC1 часто бесполезна, так как это просто «свет и тень».
- PC2, PC3, PC4…: Направлены ортогонально (перпендикулярно) предыдущим. Именно здесь, в «остаточной» дисперсии, прячутся слабые спектральные аномалии минералов, которые на исходном снимке были подавлены яркостью рельефа.
Чем PCA лучше Band Ratio (Спектральных отношений)?
Метод деления каналов (например, Band 4 / Band 2) популярен, но имеет критический недостаток: он усиливает шум. Если в знаменателе стоит низкое значение (тень), результат стремится к бесконечности. PCA же работает со всей статистикой сцены, выделяя устойчивые закономерности, а не случайные пики.
3. Техника Кроста (Crosta Technique): Feature Oriented PCA
Классический PCA — это «слепой» метод. Он просто делит информацию по дисперсии, не зная, где камни, а где лес. Бразильский геофизик Альваро Кроста (A.P. Crosta) в 1989 году предложил методику селективного PCA (Selective PCA или Directed PCA) для целенаправленного поиска минералов.
Суть метода: мы подаем на вход алгоритма не все каналы подряд, а только четыре специально отобранных канала, которые наиболее чувствительны к искомому минералу.
3.1. Механика выбора каналов (на примере ASTER)
Для поиска гидроксилов (Al-OH, глины) мы знаем физику процесса:
- Минералы (каолинит, алунит) имеют максимум отражения в канале B4 (1.65 мкм).
- И глубокий минимум поглощения в каналах B5 (2.165 мкм) или B6 (2.205 мкм).
- Каналы B1 и B3 берутся для оценки фона.
Мы запускаем PCA на наборе: Band 1, Band 3, Band 4, Band 5.
3.2. Анализ матрицы собственных векторов (Eigenvector Matrix)
Это самый сложный и важный этап интерпретации. После расчета мы получаем таблицу нагрузок (Loadings).
Пример матрицы (упрощенно):
|
Компонента |
Band 1 |
Band 3 |
Band 4 (SWIR1) |
Band 5 (SWIR2) |
Интерпретация |
|
PC1 |
0.50 |
0.52 |
0.48 |
0.49 |
Альбедо (Рельеф) |
|
PC2 |
0.30 |
0.60 |
-0.10 |
-0.15 |
Растительность |
|
PC3 |
0.10 |
-0.10 |
0.75 |
-0.65 |
Глины (H-feature) |
|
PC4 |
-0.60 |
0.20 |
0.10 |
0.10 |
Шум |
Как читать эту матрицу:
- Смотрим на PC3.
- Видим высокую положительную нагрузку на Band 4 (0.75). Это диапазон, где глина отражает свет.
- Видим высокую отрицательную нагрузку на Band 5 (-0.65). Это диапазон, где глина поглощает свет.
- Вывод: Чем ярче пиксель на изображении PC3, тем больше разница между отражением в B4 и поглощением в B5. Значит, PC3 — это карта распределения глин.
- Если бы знаки были наоборот (-0.75 и +0.65), то глины отображались бы темными пикселями. В таком случае мы инвертируем изображение (умножаем на -1).
4. Практический алгоритм GeoJet: Workflow обработки
В нашей лабораторной практике мы используем следующий стандартизированный протокол обработки (на базе ПО ENVI / Catalyst Professional):
Шаг 1: Атмосферная коррекция (Pre-processing)
Критическая ошибка новичков: запускать PCA на сырых данных (DN).
Мы обязательно переводим данные в значения коэффициента спектральной яркости (Bottom-of-Atmosphere Reflectance) с использованием алгоритма FLAASH или QUAC. Без удаления влияния водяного пара (который тоже поглощает в SWIR) поиск минералов невозможен.
Шаг 2: Маскирование (Masking)
Алгоритм PCA чувствителен к статистическим выбросам (outliers).
- Вода: Черные пиксели воды искажают ковариационную матрицу. Мы маскируем все водоемы (NDWI mask).
- Густая растительность: Если лес занимает 80% кадра, PC1 будет отвечать за лес, а не за альбедо. Мы отсекаем участки с NDVI > 0.6.
- Облака и тени: Используем канал качества (QA Band) или алгоритм Fmask.
Шаг 3: Выбор набора входных данных (Subset)
Для разных типов оруденения мы формируем разные стеки каналов:
- «Железный» Кроста (Iron Oxide Mapping): Landsat Bands 2, 4, 5, 6. Ищем разницу между поглощением в синем/зеленом и отражением в красном.
- «Глинистый» Кроста (Clay Alteration Mapping): ASTER Bands 1, 4, 6, 7. Для разделения алунита и каолинита.
- «Кремнеземный» Кроста (Silica Mapping): Используем тепловые каналы ASTER (TIR Bands 10, 11, 12, 13).
Шаг 4: Генерация и инверсия
Анализируем полученные собственные векторы. Если целевая компонента имеет нагрузки, противоположные физике спектра (минус там, где должен быть плюс), проводим инверсию PCx = PCx * (-1).
Шаг 5: Пороговая фильтрация (Thresholding)
Результат PCA — это градация серого. Чтобы получить карту целей для геологов, мы отсекаем фон.
- Обычно значимой аномалией считаются пиксели, значение которых превышает μ + 2σ (среднее плюс два стандартных отклонения).
- Все, что выше μ + 3σ, помечается как «Target Priority 1».
5. Борьба с «Ложными друзьями геолога»
Главный враг дистанционной разведки — растительность. Хлорофилл имеет спектр, который может мимикрировать под минералы или, наоборот, маскировать их.
Техника Кроста уникальна тем, что она позволяет математически изолировать фактор растительности.
В матрице нагрузок мы почти всегда увидим компоненту (обычно PC2), которая имеет гигантскую нагрузку на ближний инфракрасный канал (NIR) и отрицательную на красный.
- Это и есть «Вектор растительности».
- В других методах (Band Ratio) растительность приходится маскировать, теряя данные.
- В PCA растительность просто «уходит» в свою отдельную компоненту, оставляя компоненту минералов (PC3 или PC4) спектрально чистой. Мы можем видеть аномалии даже в условиях редкого леса (sparse vegetation), так как алгоритм «вычел» вклад деревьев.
6. Продвинутые вариации: SPCA и MTMF
Когда обычного PCA (техники Кроста) недостаточно, мы подключаем тяжелую артиллерию.
6.1. Segmented PCA (SPCA)
Если исследуемая площадь (сцена 180×180 км) геологически слишком разнородна (например, половина — базальты, половина — известняки), глобальная статистика «размывается».
Мы применяем сегментированный PCA: разбиваем снимок на кластеры (например, по литологии) и запускаем технику Кроста отдельно для каждого кластера. Это повышает чувствительность к слабым аномалиям в 2-3 раза.
6.2. Интеграция с VEDART RS
В нашей системе результаты PCA не являются финальным продуктом. Они становятся входным слоем (Feature) для нейросети Random Forest.
Мы говорим машине: «Вот карта Кроста по железу, вот карта Кроста по глинам, вот данные магнитометрии. Найди пересечения».
Именно пересечение (Coincidence) аномалий Кроста с геофизическими структурами дает те самые 15-20% вероятности успеха бурения.
7. Практический кейс: Поиск золота в выветрелой коре (Урал)
Задача: Найти зоны вторичного обогащения (лимонитизации) в пределах гранитного массива. Район частично покрыт лесом и кустарником.
Реализация:
- Взяли данные Sentinel-2.
- Применили PCA к каналам: Blue (B2), Green (B3), Red (B4), NIR (B8).
- Анализ:
- PC1: Топография (96% дисперсии).
- PC2: Растительность (3% дисперсии). Нагрузка на NIR +0.8.
- PC3: Оксиды железа (0.6% дисперсии). Нагрузка на Red +0.5, на Blue -0.6.
- Результат: PC3 показала четкие линейные структуры, не совпадающие с рельефом.
- Наложение: Наложили PC3 на ЦМР. Увидели, что «железные» аномалии приурочены к зонам тектонических нарушений.
- Итог: Полевая проверка подтвердила наличие зон интенсивного ожелезнения с содержанием Au до 0.5 г/т в элювии.
8. Заключение: Математика экономит миллионы
Использование Метода Главных Компонент и техники Кроста — это переход от качественной оценки («кажется, здесь что-то есть») к количественной («вероятность наличия гидроксилов в этом пикселе составляет 3 сигмы»).
Это не магия, это жесткая статистика. Алгоритм не может придумать руду там, где её нет. Но он может «вытащить» сигнал, который слабее фона в 10 раз, используя корреляционные связи между диапазонами спектра. Для Индустриального Партнера это означает одно: снижение риска пропустить месторождение, которое не видно глазами, но которое «светится» в математическом пространстве главных компонент.
FAQ: Ответы для технических специалистов
Вопрос 1: Почему вы используете только 4 канала для Кроста, а не все 10?
Ответ: Закон «Проклятия размерности». Если подать все каналы, полезный сигнал «размажется» между компонентами PC5, PC6, PC7, и интерпретировать их будет невозможно. Техника Кроста требует жесткого отбора каналов (Feature Selection) под конкретную задачу. Мы ищем не «всё сразу», а конкретный минерал.
Вопрос 2: Работает ли Кроста на гиперспектральных данных?
Ответ: Да, но там эффективнее использовать метод MNF (Minimum Noise Fraction). Он похож на PCA, но сначала ранжирует данные по зашумленности (Signal-to-Noise Ratio). Для мультиспектральных данных (Landsat/ASTER) Кроста остается золотым стандартом.
Вопрос 3: Можно ли автоматизировать интерпретацию матрицы нагрузок?
Ответ: Да, в VEDART RS мы используем скрипт, который автоматически анализирует знаки нагрузок и решает, нужно ли инвертировать изображение и какая компонента является целевой. Это исключает человеческий фактор при потоковой обработке сотен снимков.