Tesla가 시뮬레이션 데이터를 사용하여 FSD를 개선하는 방법
테슬라가 최근 중국에서 FSD를 출시하면서 많은 사람들이 어떻게 그렇게 빨리 성공했는지 궁금해하고 있습니다. 테슬라는 중국 외부로 훈련 데이터를 전송할 수 없기 때문에 기가 텍사스의 새로운 코텍스 슈퍼컴퓨터 클러스터의 용량을 활용할 수 없습니다.
대신 테슬라는 일반화된 모델을 합성 훈련 데이터와 함께 사용하여 중국용 FSD를 훈련하고 있습니다. 물론 Tesla는 동일한 합성 데이터를 북미용 훈련과 유럽용 훈련을 보완하는 데도 사용합니다. 유럽 FSD가 곧 출시될 예정이므로 엣지 케이스를 처리하는 확실한 수단으로 합성 훈련 데이터를 점점 더 많이 사용하게 될 것입니다.
테슬라는 공식적으로 합성 훈련 데이터를 특허의 제목은 “합성 콘텐츠를 사용한 비전 기반 시스템 교육입니다.
이 내용을 이해하기 쉽도록 세분화해 보겠습니다.
잘 아시다시피 Tesla의 자율성에 대한 접근 방식은 Tesla Vision 사용에 중점을 두고 있습니다. 즉, 시각적 데이터를 제공하는 카메라가 차량 외부에서 데이터를 수집하는 주요 수단이자 사실상 유일한 수단입니다. 더 이상 레이더를 사용하지 않으며, 훈련 중에는 비전 센서의 정확성을 보장하기 위해 LiDAR만 사용합니다.차량 주변의 모든 정보를 캡처하면 차량이 경로를 계획하고 의사 결정을 수행하는 데 사용하는 3D 환경이 구축됩니다. 이 모든 데이터를 처리하여 차량 주변에 무엇이 있는지, 그리고 앞으로 차량 주변에 무엇이 있을 것으로 예상되는지에 대한 상당히 포괄적인 시각을 구축합니다. 또한 이 모든 데이터는 태그가 지정되고 특성화되어 시스템이 다양한 의사 결정의 우선순위를 정하는 데 도움이 됩니다.
Tesla의 FSD 학습은 지도 학습 모델을 통해 이루어집니다. 즉, 학습 모델에는 사람 또는 Tesla의 고유 AI 모델에 의해 이미 레이블이 지정된 데이터가 공급됩니다. 입력되는 이미지의 물체는 식별되고 위치, 속도 및 가속도 태그도 지정됩니다. 이 정보는 AI 모델이 학습할 기준 데이터 역할을 하여 실제 주행에서 마주치는 유사한 물체와 상황을 인식하고 해석할 수 있도록 합니다.
기준 데이터 라벨 데이터는 이 지도 학습 프로세스에서 중요한 부분입니다. 레이블이 지정된 데이터는 모델에 이미지 속 물체와 그 특성에 대한 정확한 정보를 제공합니다. 이를 통해 Tesla는 주행 중 주변 환경에 대한 FSD의 강력한 이해를 개발할 수 있습니다. 이 데이터는 일반적으로 실제 주행 시나리오에서 수집되며 수동 또는 자동으로 데이터에 주석을 달게 됩니다.
이 특허의 핵심 부분인 합성 학습 데이터를 생성하기 위해 Tesla는 시뮬레이션 콘텐츠 시스템을 사용하여 실제 지상 실측 레이블 데이터를 보완합니다. 이 시스템은 위에서 레이블이 지정된 실측 데이터와 매우 유사한 합성 학습 데이터를 생성합니다.
이 시뮬레이션 콘텐츠의 생성은 Tesla가 '콘텐츠 모델 속성'이라고 부르는 것에 따라 이루어지며, 이는 본질적으로 실측 레이블 데이터에서 추출되는 주요 특성 또는 특징입니다. 여기에는 도로 가장자리, 차선, 정지된 물체 또는 차량이나 보행자와 같은 동적 물체 등이 포함될 수 있습니다.
시스템은 이러한 속성을 변경함으로써 다양한 시뮬레이션 시나리오를 생성할 수 있으며, 이는 FSD의 훈련 프로그램이 가능한 한 많은 고유하고 일반적인 상황에 노출된다는 것을 의미합니다.
시스템은 또한 속성 외에도 시뮬레이션 콘텐츠에 라벨을 추가하여 더욱 세부적으로 개선하는 문맥 라벨링을 통합하고 있습니다. 이러한 레이블에는 날씨 조건, 시간, 심지어 차량이 주행 중인 도로 또는 환경 유형 등이 포함될 수 있습니다. 이 모든 정보는 FSD가 주행 환경을 이해하는 데 도움이 되는 유용한 컨텍스트입니다.
테슬라의 시뮬레이션 콘텐츠 시스템은 콘텐츠 모델의 변형을 생성하여 방대한 양의 훈련 데이터를 생성합니다. 이러한 변형에는 일반적으로 장면에 있는 물체의 속성을 조정하여 환경 조건을 변경하거나 교통 체증이나 건설과 같은 새로운 유형의 주행 시나리오를 도입하는 것이 포함됩니다.
결론적으로, 실제 데이터와 시뮬레이션 데이터의 결합 데이터 세트는 FSD를 학습하는 데 사용됩니다. 두 가지 유형의 새로운 입력 세트를 지속적으로 제공함으로써 Tesla는 FSD를 계속 개선하고 개선할 수 있습니다.
차량에서 이미 방대한 양의 실제 주행 데이터를 수집하고 있는데, 자율주행 시스템 학습에 시뮬레이션 콘텐츠를 활용한다는 것은 직관적이지 않은 것처럼 보일 수 있습니다. Tesla의 차량은 전 세계에서 한 달에 수억 마일을 주행하며 헤아릴 수 없는 양의 고유한 데이터에 액세스할 수 있습니다. 이렇게 하는 데에는 몇 가지 이유가 있습니다.
시뮬레이션 콘텐츠 사용의 주요 이점 중 하나는 비용 절감입니다. 현실 세계에서 들어오는 데이터를 수집, 전송, 분류, 라벨링, 처리할 필요 없이 로컬에서 데이터를 생성하기만 하면 되므로 사람이든 기계든 데이터 전송, 데이터 저장, 모든 처리 및 라벨링에 드는 비용을 절감할 수 있습니다. 전 세계 차량에서 매일 Tesla 서버를 통해 전송되는 데이터의 양을 생각하면 이는 상당히 큰 금액입니다.
시뮬레이션 콘텐츠를 통해 Tesla는 실제 주행에서 지속적으로 접하기 어렵거나 위험할 수 있는 다양한 환경 조건에서 FSD를 훈련할 수 있습니다. 여기에는 폭우, 안개 또는 눈과 같은 까다로운 조건이나 이러한 조건에서의 야간 주행도 포함될 수 있습니다.
실제 차량에서 이러한 유형의 콘텐츠로 시스템을 훈련함으로써 Tesla는 현실 세계의 더 어려운 시나리오에서도 FSD가 작동 가능하고 상당히 견고한 상태를 유지할 수 있습니다.
모의 콘텐츠의 또 다른 중요한 장점은 엣지 케이스에서 FSD를 훈련할 수 있다는 점입니다. 우리는 때때로 농담 삼아 에지 케이스를 스쿨버스 정차와 같은 상황이라고 말하지만, 실제 주행 시나리오에서는 자주 발생하지는 않지만 운전자, 탑승자, 보행자 또는 기타 도로 사용자에게 실제 안전 위험을 초래할 수 있는 실제 에지 케이스가 있습니다. 운송 트레일러에서 자동차가 떨어지거나 고속도로 표지판이 쓰러지는 것과 같이 볼 수는 있지만 실제로 본 적이 없는 상황을 생각해 보세요.
따라서 Tesla는 갑작스러운 횡단보도, 도로의 예상치 못한 장애물 또는 다른 운전자의 불규칙한 행동 등 여러 가지 독특한 에지 케이스를 시뮬레이션합니다. 이러한 모든 독특한 시뮬레이션은 현실 세계에서 정기적으로 포착하기가 상당히 어렵기 때문에 안전을 보장하기 위해서는 시뮬레이션과 훈련이 필수적입니다.
마지막으로, Tesla가 필요에 따라 생성할 수 있는 방대한 양의 다양한 훈련 데이터는 실제 데이터를 기다릴 필요 없이 FSD를 빠르고 효율적으로 반복할 수 있다는 것을 의미합니다. 즉, 지속적인 학습 프로세스를 유지하여 FSD가 항상 조금씩 개선되도록 할 수 있습니다.
FSD의 작동 원리에 대해 자세히 알아보려면 Tesla의 FSD 관련 특허에 대한 전체 시리즈를 여기에서 확인하세요.
또한 주로 합성 데이터를 사용하여 기계 모델을 훈련하는 자율 주행 차량용 훈련 시스템인 Nvidia의 Cosmos에 대한 심층 분석도 추천합니다. 이는 주로 실제 데이터에 의존하는 Tesla의 FSD 훈련 주기와는 다른 방식이지만, 시뮬레이션 콘텐츠를 사용하는 이 특별한 방법과 몇 가지 유사점이 있습니다.