Khronos

 

Khronos: A Unified Approach for Spatio-Temporal Metric-Semantic SLAM in Dynamic Environments

Perceiving and understanding highly dynamic and changing environments is a crucial capability for robot autonomy. While large strides have been made towards developing dynamic SLAM approaches that estimate the robot pose accurately, a lesser emphasis has b

arxiv.org

 

GitHub - MIT-SPARK/Khronos: Spatio-Temporal Metric-Semantic SLAM

Spatio-Temporal Metric-Semantic SLAM. Contribute to MIT-SPARK/Khronos development by creating an account on GitHub.

github.com

 

1. Introduction

Khronos의 목적은 장단기적 변화를 추론하기 위한 통합 접근 방식이다.

 

저자는 다음과 같은 contribution을 이야기한다.

여기에서 SMS는 Spatio-temporal Metric-semantic SLAM이다.

  1. SMS 문제 공식화
    SMS 문제 공식화는 로봇이 시간의 흐름에 따른 환경의 진화에 대해서 dense metric-semantic 이해를 돕는다.
  2. SMS 문제의 새로운 인수분해 방법 제안
    이는 장단기적인 동태에 집중하는 기존 해석들에 대한 통합적인 시각을 제공한다.
  3. Khronos 제안
    이는 첫 spatio-temporal metric-semantic perception system인데, 이는 비동기 local mapping과 계속 바뀌는 전역 변화를 감지하게 해주는 새로운 알고리즘으로 구성되어 있다.

2. Related Works

평소 논문을 읽을 때 이곳을 지나치는 경우가 많은데 위에서 나온 생소한 용어인 spatio-temporal metric-semantic perception system(SMS)에 대한 힌트를 주는 섹션인 것 같아 추가했다.

2.1 Metric-semantic SLAM

Metric-semantic SLAM의 목표는 로봇이 작동중일 때, semantically annotated 된 3D map을 구축하는 것이다.

그 종류로는 아래 세 가지를 언급한다.

  1. Voxel-based method
  2. object level SLAM method
  3. Nerf, Gaussian splatting based method

2.2 Dynamic SLAM

두 가지 주요 범주로 그룹화할 수 있는 다양한 연구가 나타났다.

  1. sparse SLAM method
    state 추정 성능을 향상하는데 집중했다.
  2. simultaneous tracking and reconstruction approaches
    카메라 앞에서 움직이는 강체의 dense 한 모델 생성이 가능하지만 제한이 크다.

이러한 방법들은 정적 배경에 대한 증분 모션에 의존해서 장기적인 변화에 대해 일반화되지 않을 수 있다.

2.3 Change detection

최근에는 online long-term consistent mapping을 위한 접근 방법이 나오기 시작한다.

  1. POCD
  2. POV-SLAM

이런 연구는 객체 인식 SLAM 파이프라인을 제안해서 factor graph 형식으로 object level의 장기적인 변화를 추적하고 재구성한다.

2.4 Spatio-temporal Mapping

장단기적 통태를 결합하는 연구는 상대적으로 적다.

이전에 진행되었던 연구로는 Changing-SLAM이 있으며 이는 장단기적 동태를 고려하고 상태 추정을 강화한다.
그 이후 동적포인트는 SLAM문제에서 제거된다.

결국 동적이라는 걸림돌은 상태 추정에만 이용되고 버려진 것이다.

대조적으로, 이 논문에서 제안한 방법은 실시간으로 spatio-temporal metric-semantic map을 생성하는 첫 번째 방법이다.

이는 로봇 자세와 장면의 dense semantic 표현을 함께 최적화한다.

3. Problem Statement

이 섹션에서는 어떤 문제를 풀어나갈 것 인지 정의한다.

 

SMS를 정의하기 위해 scene이 물체 여러 개의 집합으로 구성되어 있다고 간주한다.

전체 scene의 background는 static object의 집합으로 표현된다.

각각의 물체에 대한 state는 다음과 같다.

내부 인자는 순서대로 {물체의 표면, world frame에 대한 물체의 pose, 물체의 semantic 라벨}

로봇의 pose는 다음과 같다.

로봇이 관찰하는 measurement Z는 다음과 같다.

내부 인자는 순서대로 {표면 측정값(RGBD), 로봇에 대한 물체 표면의 pose, 관측된 라벨}

여기에서 노이즈는 누락된 관측값, 노이즈가 많은 semantic관측값을 의미한다.

 

지금까지 나온 게 물체에 대한 것과 관측에 관한 것이다.

이 외에도 로봇은 odometry 측정을 수행한다.

SMS 문제의 목표는 실시간으로 scene에 대한 spatio-temporal understanding을 하는 것이다.

따라서 이전시간 t에서 현재시간 T까지의 scene의 state를 추정한다.

이것은 각 T시간에 대한 MAP 추정 문제로 나타낼 수 있다.

그림으로 나타내보면 아래와 같다.

4. Fragments and Factorization

다음과 같은 이유로 인해 위에서 설명한 MAP 추정은 계산하기 어렵다.

  1. 객체의 수, 속성이 변경
  2. 불완전한 상태 추정과 계속 변하는 장면의 결합은 모든 변수의 높은 상호 의존성을 도입한다?

따라서 모든 관측값을 메모리에 유지해야 한다.

이는 문제가 공간과 시간에 대해 불리하게 확장되는 원인이 된다.

 

이런 챌린지들을 극복하기 위해 spatio-temporal local consistency 아이디어를 기반으로 위 문제에 대한 새로운 인수분해를 제안한다.

(8)은 상태추청오차, (9)는 장면 변화이다.

위 식 (8)과 (9)는 짧은 시간간격인 δ 동안은 작지만 시간이 지날수록 크게 증가할 수 있음을 의미한다.

 

위에서 설명한 MAP문제

의 의존성을 끊어내기 위해 잠재 변수 $Y$를 도입한다.

이를 객체 조각이라고 지칭하며 $Z$와 $O$사이의 중간 매개체 역할을 한다.

각 객체 조각은 짧은 시간 간격동안 여러 지역적으로 일관된 표면 측정치를 수집하여 구성된다.

이는 객체의 부분적인 관점으로 생각할 수 있다.

 

중요한 점은 $Y$를 $O$의 관측치인 $Z$의 최소 분할로 정의하는데, 각 $Y_{k}$ 내에서 local consistancy (8), (9)가 유지되도록 한다.

실제로 이것은 각 $O_{i}$를 timestamp의 sequence로 분할하는 것으로 생각할 수 있다.

여기서 연속하는 관측치$Z$ 사이의 시간 간격이 <$\delta$이다.

$Y_{k}^{t}$의 속성을 $t$시간에서의 로봇 프레임 $R$에서 정의하며 다음과 같다.

요약하자면, 지역적 일관성에 따라 관측치 $Z$가 객체 조각 $Y$로 축적되고, 각 실제 객체 $O$는 조각 $Y$의 집합이다.

그러나 문제는 모든 관측치 $Z$가 로봇 프레임 $R$에 있지만, 목표는 $W$에서 객체 $O$를 추정하는 것이다.

이로 인해 로봇 pose $X$가 $W$와 $R$ 프레임을 관련시키므로 $Z$, $X$ 및 $O$ 간에 강력한 전역 결합이 발생한다.

여기서 조각 $Y$가 객체 $O$를 완전하게 지정한다는 것을 알 수 있으며, 따라서 $O$를 $Y$의 함수로 표현할 수 있다.

또한, 각 $Y_{k} \in Y$가 중첩되지 않는 측정치 집합에만 의존한다고 가정할 수 있다.

따라서 모든 $Y_{k} \in Y$가 조건부 독립이라고 가정할 수 있고 다음과 같다.

각 $Y_{k}$가 그 temporal window에 속하는 측정치 $\bar{Z}_{k}\subseteq Z$, 그리고 $\bar{\Phi}_{k}\subseteq \Phi$에만 의존한다는 것을 알 수 있다.

따라서 이것은 SMS 문제의 첫 번째 주요 분해를 제공하며 다음과 같다.

위 수식은 아래와 같은 (temporal window가 주어졌을 때 $Y_{k} \in Y$ 조각의 likelyhood)

센싱 노이즈의 영향을 격리시킨다. 

 

하지만 이렇게 분리했다고 하더라도 (13)식은 여전히 공간적, 시간적 불일치의 결합을 포함하고 있어서 어려운 문제이다.

이를 완화하기 위해 다시 $Y_{k}$를 시간 조각 내의 객체인 $O_{i}$의 부분 관측치로 정의한다.

$Y$가 $O$를 완전하게 지정하므로, 만약 이것들의 자세 $T_{WY_{k}} = X \dot T_{RY_{k}}$가 알려져 있다면 (13)의 전역 추정 부분을 다시 작성해 볼 수 있다.

하나의 물체 $O_{i}$에 대해, 모든 관련 정보는 각각의 segment $\bar{Y}_{i}\subseteq Y$에 캡처된다.

만약 물체 $O_{i}$에 대한 조각$Y_{k}$가 연관관계

를 안다면, 이 것은 다음과 같이 더 단순화될 수 있다.

이제 전역 추정 문제는 두 가지 하위 문제로 분해된다.

 

첫 번째는 객체가 조각으로부터 추론되는 조각 조화 부분

두 번째는 landmark-based SLAM setup 형태를 가진다.

 

마지막으로, (15)를 (13)에 대입하면 다음과 같다.

이 접근 방식은 기존 해석을 자연스럽게 제공하는 통합된 프레임워크를 제공한다.

  1. short-term and long-term dynamics는 자연스럽게 나타난다.
    모든 short-term은 연속적인 움직임의 관측치로 특징지어짐
    모든 long-term은 갑작스러운 변화의 관측치로 특징지어짐
  2. 관측치를 기반으로 모델링하는 것과 관측되지 않은 동안 무엇이 일어났는지를 추론하는 것 사이의 차이는 명확하게 나타난다.
  3. semantic consistancy를 자연스럽게 강제한다.
  4. 문제의 구조는 알고리즘적 특성을 가지고 있으며 다음장에 설명한다.

5. Khronos

어쨌든 위 (16)에서 보는 것 처럼, 하나의 문제는 세 개의 문제로 분리된다.

이는 fig. 4에서 프레임워크를 볼 수 있다.

fig. 4

A. Local Estimation via an Active Window

여기에서는 local estimation components는 active window로 지정한다.

이 목표는 (16)의 local term을 해결하는 것이며 관측값으로부터 조각 $Y_{k}$를 점진적으로 추정함으로써 local consistancy(8), (9)가 만족되도록 하는 것이다.

 

Reconstruction.

먼저 정적 배경을 재구성한다.

모델 표면 $\Omega$를 모델링 하기 위해서 mesh를 사용해 khronos를 구현한다.

이 때 TSDF fusion을 수행해서 $O_{BG}$를 추정한다.

그 다음 RGBD 이미지에서 각 프레임마다 후보 관측치 $Z$를 얻는다.

첫째, 입력 프레임에서 얻을 수 있는 sementic mask를 Z로 활용한다.

둘째, 객체를 배경에서 분리하기 위해서 기하학적으로 움직임을 감지한다.

따라서 부피적 로컬맵을 보강하여 동적인 공간에 drop되는 점을 감지한다. 

 

Tracking