info@geojetexploration.com +7 (778) 999-38-53

Метод главных компонент (pca) и техника кроста: математическая экстракция скрытых аномалий на зашумленных снимках

Техническое руководство по алгоритмической обработке мультиспектральных данных для выделения слабых сигналов оруденения

1. Введение: Пределы человеческого зрения и RGB-синтеза

В современной дистанционной геологии эпоха визуального дешифрирования («посмотрел на снимок — увидел рыжее пятно — пошел бурить») завершилась. Поверхность Земли представляет собой хаотичную смесь сигналов: растительность, влажность почвы, тени от облаков, антропогенная нагрузка и, собственно, горные породы.

Проблема заключается в корреляции спектральных каналов. Данные Landsat 8/9, Sentinel-2 или ASTER в сыром виде (Raw DN) сильно коррелируют между собой. Топографические тени затемняют все каналы одновременно, а яркие обнажения засвечивают их. Стандартный композит (False Color Composite), например RGB 4-3-2, несет в себе до 90% избыточной, дублирующей информации.

Геологу не нужна «красивая картинка». Геологу нужен чистый сигнал конкретного минерала (например, каолинита или гематита), очищенный от топографического и растительного шума.

Для решения этой задачи мы в GeoJet Exploration применяем Метод Главных Компонент (Principal Component Analysis — PCA) и его специализированную модификацию — Технику Кроста (Crosta Technique). Это статистические процедуры, которые позволяют вращать систему координат спектрального пространства, чтобы разделить «смесь» на «ингредиенты».

[ВАЖНО ЗНАТЬ]

PCA — это метод снижения размерности данных без потери информации. Мы сжимаем 10 каналов спутника ASTER в 3-4 информативные компоненты, где одна отвечает за яркость (альбедо), другая — за растительность, а третья — исключительно за гидротермальные изменения.

2. Физико-математическая сущность метода PCA

Чтобы понять, как алгоритм находит золото, нужно понять математику преобразования.

Представьте многомерное пространство, где каждая ось — это яркость в одном спектральном канале (Band). Точка в этом пространстве — это пиксель снимка. Облако точек обычно вытянуто по диагонали (из-за корреляции яркости).

Алгоритм PCA выполняет следующие шаги:

  1. Расчет ковариационной матрицы: Мы вычисляем, насколько изменения в одном канале соответствуют изменениям в другом.
  2. Вычисление собственных векторов (Eigenvectors): Алгоритм ищет оси, вдоль которых дисперсия (разброс данных) максимальна.
    • PC1 (Первая главная компонента): Направлена вдоль самой длинной оси облака данных. Обычно она собирает 95-98% всей информации (яркость/топография). Для геолога PC1 часто бесполезна, так как это просто «свет и тень».
    • PC2, PC3, PC4…: Направлены ортогонально (перпендикулярно) предыдущим. Именно здесь, в «остаточной» дисперсии, прячутся слабые спектральные аномалии минералов, которые на исходном снимке были подавлены яркостью рельефа.

Чем PCA лучше Band Ratio (Спектральных отношений)?

Метод деления каналов (например, Band 4 / Band 2) популярен, но имеет критический недостаток: он усиливает шум. Если в знаменателе стоит низкое значение (тень), результат стремится к бесконечности. PCA же работает со всей статистикой сцены, выделяя устойчивые закономерности, а не случайные пики.

3. Техника Кроста (Crosta Technique): Feature Oriented PCA

Классический PCA — это «слепой» метод. Он просто делит информацию по дисперсии, не зная, где камни, а где лес. Бразильский геофизик Альваро Кроста (A.P. Crosta) в 1989 году предложил методику селективного PCA (Selective PCA или Directed PCA) для целенаправленного поиска минералов.

Суть метода: мы подаем на вход алгоритма не все каналы подряд, а только четыре специально отобранных канала, которые наиболее чувствительны к искомому минералу.

3.1. Механика выбора каналов (на примере ASTER)

Для поиска гидроксилов (Al-OH, глины) мы знаем физику процесса:

  • Минералы (каолинит, алунит) имеют максимум отражения в канале B4 (1.65 мкм).
  • И глубокий минимум поглощения в каналах B5 (2.165 мкм) или B6 (2.205 мкм).
  • Каналы B1 и B3 берутся для оценки фона.

Мы запускаем PCA на наборе: Band 1, Band 3, Band 4, Band 5.

3.2. Анализ матрицы собственных векторов (Eigenvector Matrix)

Это самый сложный и важный этап интерпретации. После расчета мы получаем таблицу нагрузок (Loadings).

Пример матрицы (упрощенно):

Компонента

Band 1

Band 3

Band 4 (SWIR1)

Band 5 (SWIR2)

Интерпретация

PC1

0.50

0.52

0.48

0.49

Альбедо (Рельеф)

PC2

0.30

0.60

-0.10

-0.15

Растительность

PC3

0.10

-0.10

0.75

-0.65

Глины (H-feature)

PC4

-0.60

0.20

0.10

0.10

Шум

Как читать эту матрицу:

  1. Смотрим на PC3.
  2. Видим высокую положительную нагрузку на Band 4 (0.75). Это диапазон, где глина отражает свет.
  3. Видим высокую отрицательную нагрузку на Band 5 (-0.65). Это диапазон, где глина поглощает свет.
  4. Вывод: Чем ярче пиксель на изображении PC3, тем больше разница между отражением в B4 и поглощением в B5. Значит, PC3 — это карта распределения глин.
  5. Если бы знаки были наоборот (-0.75 и +0.65), то глины отображались бы темными пикселями. В таком случае мы инвертируем изображение (умножаем на -1).

4. Практический алгоритм GeoJet: Workflow обработки

В нашей лабораторной практике мы используем следующий стандартизированный протокол обработки (на базе ПО ENVI / Catalyst Professional):

Шаг 1: Атмосферная коррекция (Pre-processing)

Критическая ошибка новичков: запускать PCA на сырых данных (DN).

Мы обязательно переводим данные в значения коэффициента спектральной яркости (Bottom-of-Atmosphere Reflectance) с использованием алгоритма FLAASH или QUAC. Без удаления влияния водяного пара (который тоже поглощает в SWIR) поиск минералов невозможен.

Шаг 2: Маскирование (Masking)

Алгоритм PCA чувствителен к статистическим выбросам (outliers).

  • Вода: Черные пиксели воды искажают ковариационную матрицу. Мы маскируем все водоемы (NDWI mask).
  • Густая растительность: Если лес занимает 80% кадра, PC1 будет отвечать за лес, а не за альбедо. Мы отсекаем участки с NDVI > 0.6.
  • Облака и тени: Используем канал качества (QA Band) или алгоритм Fmask.

Шаг 3: Выбор набора входных данных (Subset)

Для разных типов оруденения мы формируем разные стеки каналов:

  • «Железный» Кроста (Iron Oxide Mapping): Landsat Bands 2, 4, 5, 6. Ищем разницу между поглощением в синем/зеленом и отражением в красном.
  • «Глинистый» Кроста (Clay Alteration Mapping): ASTER Bands 1, 4, 6, 7. Для разделения алунита и каолинита.
  • «Кремнеземный» Кроста (Silica Mapping): Используем тепловые каналы ASTER (TIR Bands 10, 11, 12, 13).

Шаг 4: Генерация и инверсия

Анализируем полученные собственные векторы. Если целевая компонента имеет нагрузки, противоположные физике спектра (минус там, где должен быть плюс), проводим инверсию PCx = PCx * (-1).

Шаг 5: Пороговая фильтрация (Thresholding)

Результат PCA — это градация серого. Чтобы получить карту целей для геологов, мы отсекаем фон.

  • Обычно значимой аномалией считаются пиксели, значение которых превышает μ + 2σ (среднее плюс два стандартных отклонения).
  • Все, что выше μ + 3σ, помечается как «Target Priority 1».

5. Борьба с «Ложными друзьями геолога»

Главный враг дистанционной разведки — растительность. Хлорофилл имеет спектр, который может мимикрировать под минералы или, наоборот, маскировать их.

Техника Кроста уникальна тем, что она позволяет математически изолировать фактор растительности.

В матрице нагрузок мы почти всегда увидим компоненту (обычно PC2), которая имеет гигантскую нагрузку на ближний инфракрасный канал (NIR) и отрицательную на красный.

  • Это и есть «Вектор растительности».
  • В других методах (Band Ratio) растительность приходится маскировать, теряя данные.
  • В PCA растительность просто «уходит» в свою отдельную компоненту, оставляя компоненту минералов (PC3 или PC4) спектрально чистой. Мы можем видеть аномалии даже в условиях редкого леса (sparse vegetation), так как алгоритм «вычел» вклад деревьев.

6. Продвинутые вариации: SPCA и MTMF

Когда обычного PCA (техники Кроста) недостаточно, мы подключаем тяжелую артиллерию.

6.1. Segmented PCA (SPCA)

Если исследуемая площадь (сцена 180×180 км) геологически слишком разнородна (например, половина — базальты, половина — известняки), глобальная статистика «размывается».

Мы применяем сегментированный PCA: разбиваем снимок на кластеры (например, по литологии) и запускаем технику Кроста отдельно для каждого кластера. Это повышает чувствительность к слабым аномалиям в 2-3 раза.

6.2. Интеграция с VEDART RS

В нашей системе результаты PCA не являются финальным продуктом. Они становятся входным слоем (Feature) для нейросети Random Forest.

Мы говорим машине: «Вот карта Кроста по железу, вот карта Кроста по глинам, вот данные магнитометрии. Найди пересечения».

Именно пересечение (Coincidence) аномалий Кроста с геофизическими структурами дает те самые 15-20% вероятности успеха бурения.

7. Практический кейс: Поиск золота в выветрелой коре (Урал)

Задача: Найти зоны вторичного обогащения (лимонитизации) в пределах гранитного массива. Район частично покрыт лесом и кустарником.

Реализация:

  1. Взяли данные Sentinel-2.
  2. Применили PCA к каналам: Blue (B2), Green (B3), Red (B4), NIR (B8).
  3. Анализ:
    • PC1: Топография (96% дисперсии).
    • PC2: Растительность (3% дисперсии). Нагрузка на NIR +0.8.
    • PC3: Оксиды железа (0.6% дисперсии). Нагрузка на Red +0.5, на Blue -0.6.
  4. Результат: PC3 показала четкие линейные структуры, не совпадающие с рельефом.
  5. Наложение: Наложили PC3 на ЦМР. Увидели, что «железные» аномалии приурочены к зонам тектонических нарушений.
  6. Итог: Полевая проверка подтвердила наличие зон интенсивного ожелезнения с содержанием Au до 0.5 г/т в элювии.

8. Заключение: Математика экономит миллионы

Использование Метода Главных Компонент и техники Кроста — это переход от качественной оценки («кажется, здесь что-то есть») к количественной («вероятность наличия гидроксилов в этом пикселе составляет 3 сигмы»).

Это не магия, это жесткая статистика. Алгоритм не может придумать руду там, где её нет. Но он может «вытащить» сигнал, который слабее фона в 10 раз, используя корреляционные связи между диапазонами спектра. Для Индустриального Партнера это означает одно: снижение риска пропустить месторождение, которое не видно глазами, но которое «светится» в математическом пространстве главных компонент.

FAQ: Ответы для технических специалистов

Вопрос 1: Почему вы используете только 4 канала для Кроста, а не все 10?

Ответ: Закон «Проклятия размерности». Если подать все каналы, полезный сигнал «размажется» между компонентами PC5, PC6, PC7, и интерпретировать их будет невозможно. Техника Кроста требует жесткого отбора каналов (Feature Selection) под конкретную задачу. Мы ищем не «всё сразу», а конкретный минерал.

Вопрос 2: Работает ли Кроста на гиперспектральных данных?

Ответ: Да, но там эффективнее использовать метод MNF (Minimum Noise Fraction). Он похож на PCA, но сначала ранжирует данные по зашумленности (Signal-to-Noise Ratio). Для мультиспектральных данных (Landsat/ASTER) Кроста остается золотым стандартом.

Вопрос 3: Можно ли автоматизировать интерпретацию матрицы нагрузок?

Ответ: Да, в VEDART RS мы используем скрипт, который автоматически анализирует знаки нагрузок и решает, нужно ли инвертировать изображение и какая компонента является целевой. Это исключает человеческий фактор при потоковой обработке сотен снимков.

ОСТАВЬТЕ ЗАЯВКУ НА КОНСУЛЬТАЦИЮ
НАШИ ЭКСПЕРТЫ СВЯЖУТСЯ С ВАМИ
В ТЕЧЕНИЕ 1 РАБОЧЕГО ДНЯ

    Заполняя данную форму вы соглашаетесь на обработку персональных данных «ГЕОДЖЕТ-ГРУПП» в соответствии с законом №152-ФЗ «О персональных данных» от 27.07.2006

    ЭТОТ РАЗДЕЛ НАХОДИТСЯ
    В РАЗРАБОТКЕ

    loading

    Спасибо за ваше терпение!

    Мы работаем над этим разделом
    и скоро он будет доступен для вас.

    Следите за новостями
    и обновлениями.

    THIS SECTION IS CURRENTLY
    UNDER DEVELOPMENT

    loading

    Thank you for your patience.

    We’re actively working on this page and will make it available shortly.

    Please stay updated for further
    announcements.