Tesla의 FSD 내부: 특허가 설명하는 FSD 작동 방식


작년에 공개된 테슬라 특허 덕분에 FSD의 작동 방식과 다양한 시스템에 대해 자세히 살펴볼 수 있게 되었습니다.

특허를 조사하고 글을 쓰는 세티 박(SETI Park)도 X에서 이 특허를 집중 조명했습니다.

이 특허는 Tesla의 FSD에 사용된 핵심 기술을 세분화하여 FSD가 데이터를 처리하고 분석하는 방식을 잘 보여줍니다.

이를 쉽게 이해할 수 있도록 여러 섹션으로 나누고 각 섹션이 FSD에 미치는 영향을 세분화하겠습니다.

h2>비전 기반

첫째, 이 특허는 차량이 주변 세계를 보고, 이해하고, 상호 작용할 수 있도록 하는 Tesla의 목표처럼 비전 전용 시스템에 대해 설명합니다. 이 시스템은 여러 대의 카메라(일부는 겹치는 카메라)가 차량 주변의 360도 시야를 포착하여 사람의 시야를 모방하지만 더 나은 시야를 제공합니다.

가장 흥미로운 점은 시스템이 차량 주변의 여러 카메라의 다양한 초점 거리와 원근법에 빠르고 빠르게 적응한다는 것입니다. 그런 다음 이 모든 것을 결합하여 일관된 그림을 구축하지만 이 부분은 곧 설명하겠습니다.

분기

시스템은 두 부분으로 나뉘는데, 하나는 취약한 도로 사용자 또는 VRU를 위한 것이고 다른 하나는 해당 범주에 속하지 않는 모든 것을 위한 것입니다. VRU는 보행자, 자전거 이용자, 유모차, 스케이트보더, 동물 등 기본적으로 다칠 수 있는 모든 사람으로 정의할 수 있는 매우 간단한 구분입니다. 그 외의 모든 것, 즉 자동차, 응급 차량, 교통 콘, 파편 등에 초점을 맞추는 것이 비VRU 지점입니다.

두 가지로 나누면 FSD가 특정 대상을 찾아 분석하고 우선순위를 정할 수 있습니다. 기본적으로 VRU는 가상 카메라 시스템 전체에서 다른 오브젝트보다 우선순위를 갖습니다.

가상 카메라

테슬라는 모든 원시 이미지를 처리하여 VRU 및 비VRU 분기에 공급하고 물체 감지 및 분류에 사용되는 핵심적이고 필수적인 정보만 골라냅니다.

그런 다음 시스템은 이러한 물체를 3D 평면에 그리고 다양한 높이의 “가상 카메라” 를 생성합니다. 가상 카메라를 영화 촬영에 사용하는 실제 카메라라고 생각하면 됩니다. 이를 통해 특정 시점에서 장면을 볼 수 있습니다.

VRU 지점은 사람 높이에서 가상 카메라를 사용하므로 VRU 동작을 더 잘 이해할 수 있습니다. 이는 아마도 위나 다른 각도보다 사람 높이에서 더 많은 데이터를 얻을 수 있기 때문일 것입니다. 반면, 비VRU 지점은 그 높이 이상으로 올려서 장애물 위와 주변을 볼 수 있으므로 교통 상황을 더 넓게 볼 수 있습니다.

이렇게 하면 FSD가 보행자 수준과 주변 도로의 더 넓은 시야에서 분석하는 두 가지 형태의 입력이 효과적으로 제공됩니다.

>
3D 매핑

이제 이 모든 데이터를 결합해야 합니다. 이 두 대의 가상 카메라는 동기화되고 모든 정보와 이해가 시스템에 피드백되어 차량 주변에서 일어나는 상황을 정확하게 3D 맵으로 유지합니다.

그리고 카메라뿐만이 아닙니다. 가상 카메라 시스템과 3D 매핑은 차량의 다른 센서와 함께 작동하여 이동 데이터(속도 및 가속도)를 3D 지도의 분석 및 제작에 통합합니다.

이 시스템은 화면에 표시되는 FSD 시각화를 통해 가장 잘 이해할 수 있습니다. 이 시스템은 한 번에 많은 움직이는 차량과 보행자를 포착하고 추적하지만, 우리가 보는 것은 추적하는 모든 정보 중 일부에 불과합니다. 각 객체에는 화면에 표시되지 않는 속성 목록이 있다고 생각하면 됩니다. 예를 들어, 보행자는 시스템에서 액세스할 수 있는 속성을 통해 얼마나 멀리 있는지, 어느 방향으로 이동하는지, 얼마나 빠르게 이동하는지 등을 알 수 있습니다.

차량과 같은 다른 움직이는 물체는 폭, 높이, 속도, 방향, 예정 경로 등과 같은 추가 속성을 가질 수 있습니다. VRU가 아닌 객체라도 도로와 같은 속성을 포함하며, 도로의 폭, 제한 속도 등은 AI와 지도 데이터를 기반으로 결정됩니다.

차량 자체에는 속도, 폭, 길이, 계획 경로 등과 같은 고유한 속성 집합이 있습니다. 이 모든 것을 결합하면 주변 환경에 대한 이해와 최적의 탐색 방법을 파악할 수 있습니다.

템포럴 인덱싱

테슬라는 이 기능을 템포럴 인덱싱(Temporal Indexing)이라고 부릅니다. 쉽게 설명하자면, 비전 시스템이 시간 경과에 따라 이미지를 분석하고 추적하는 방식입니다. 즉, 하나의 시간적 스냅샷이 아니라 일련의 스냅샷을 통해 FSD가 물체가 어떻게 움직이는지 이해할 수 있습니다. 이를 통해 물체의 경로를 예측할 수 있으며, FSD는 차량이나 물체를 직접 보지 않더라도 그 위치를 파악할 수 있습니다.

이 시간적 인덱싱은 이미지의 시퀀스를 분석하고 시간에 따라 추적하여 속도와 미래 경로를 추정하는 실제 '두뇌'인 '비디오 모듈'을 통해 수행됩니다.

다시 한 번 교통 체증과 FSD 시각화로 주변 차선의 많은 차량, 심지어 직접 시야에 들어오지 않는 차량까지 추적하는 것이 좋은 예입니다.

End-to-End

마지막으로, 특허는 전방부터 후방까지 전체 시스템을 함께 훈련할 수 있으며, 실제로도 훈련하고 있다고 언급하고 있습니다. 이제 엔드투엔드 AI를 포함하는 이 훈련 방식은 각 개별 구성 요소가 시스템의 다른 구성 요소와 상호 작용하는 방법을 학습하게 함으로써 전체 시스템 성능을 최적화합니다.

Summary

본질적으로 Tesla는 FSD를 뇌로, 카메라를 눈이라고 봅니다. 카메라에는 메모리가 있고, 그 메모리를 통해 보이는 것을 분류하고 분석할 수 있습니다. 다양한 물체와 속성을 추적하여 움직임을 예측하고 주변 경로를 결정할 수 있습니다. 이는 사람이 작동하는 방식과 매우 유사하지만, FSD는 무제한의 물체를 추적하고 속도와 크기와 같은 물체의 속성을 훨씬 더 정확하게 파악할 수 있다는 점이 다릅니다. 또한 사람보다 더 빠르게 모든 방향에서 한 번에 수행할 수 있습니다.

FSD와 비전 기반 카메라 시스템은 기본적으로 도로의 3D 라이브 맵을 생성하여 지속적으로 일관되게 업데이트하고 의사 결정에 사용합니다.