엘론 머스크, 테슬라 FSD 및 AI 칩 로드맵 논의


최근 X에 대한 토론에서 일론 머스크는 테슬라의 맞춤형 AI 실리콘 로드맵에 대한 몇 가지 업데이트를 제공하고, 미래 칩에 대한 제조 계획을 명확히 하며, 테슬라의 기본 원칙에 초점을 맞춘 엔지니어링 철학을 엿볼 수 있게 했습니다.

일론은 텍사스 테일러에 있는 삼성의 새로운 공장에서 곧 출시될 AI5 칩이 아닌, 차세대 AI6 칩을 생산할 것이라고 밝혔습니다. 둘째, 일론은 테슬라 내부에서 하드웨어 업계의 흥미로운 추세에 이의를 제기하는 논쟁이 진행 중이라고 밝혔습니다. 그는 테슬라의 칩 설계 엔지니어들이 AI6에 새로운 산업 표준인 고대역폭 메모리(HBM)를 사용하기로 아직 결정하지 않았다고 밝혔는데, 이는 테슬라의 특정 요구 사항을 충족하려면 더 저렴하고 전통적인 RAM이 실제로 더 효율적인 선택일 수 있음을 시사합니다.

텍사스의 AI6

삼성의 텍사스 팹에서 AI6를 생산한다는 확정은 새로운 것이 아닙니다. 최근 테슬라가 Dojo에서 AI6로 주요 교육용 칩셋을 전환하면서 이 소식이 전해졌습니다. 그러나 이는 테슬라가 직접 칩을 생산하지는 않더라도 모든 생산을 국내에서 진행하려는 의도를 보여주는 확실한 증거입니다. 삼성과 함께 설계 작업을 진행할 것입니다.

AI5라는 괴물 칩이 테슬라의 학습 및 추론 하드웨어에 있어 차기 주요 도약인 반면, 후속 제품인 AI6에 대한 계획은 이미 진행 중입니다. 이를 통해 테슬라는 학습뿐만 아니라 향후 판매될 모든 테슬라 및 옵티머스 제품에 내장될 막대한 양의 칩을 확보할 수 있게 될 것입니다.

고대역폭 메모리는 확실한 성공일까?

제조 로드맵을 넘어, 메모리 아키텍처에 대한 엘론의 의견은 가장 통찰력 있었습니다. 고성능 AI 가속기의 현재 황금 표준은 고대역폭 메모리(HBM)입니다. 이는 매우 빠른 데이터 전송 속도를 제공하는 RAM의 한 유형으로, 프로세서가 최소한의 지연으로 모델 매개변수에 액세스할 수 있도록 합니다.

엘론은 HBM이 올바른 선택일 수 있다는 점을 인정하면서도, 많은 사람이 당연하게 여기는 것처럼 완벽한 선택은 아니라고 설명했습니다. 특히 테슬라의 사용 사례에서는 더욱 그렇습니다.

이러한 추론은 테슬라가 구축하고 있는 신경망의 진화하는 특성에서 비롯됩니다. 전체 매개변수 대 활성 또는 자주 사용되는 매개변수의 비율이 증가함에 따라, 유용한 연산 단위당 비용과 와트당 연산 성능은 기존 RAM에 유리할 수 있습니다. 이 한 문장만으로는 이해하기 어려울 수 있으니, 자세히 살펴보겠습니다.

고대역폭 메모리보다 "일반" 메모리를 사용하면 보드에 더 많은 RAM을 장착할 수 있으며, 가격도 매우 저렴합니다.

고대역폭 메모리가 여전히 올바른 선택일 수도 있지만, HBM을 사용하는 것이 많은 사람이 생각하는 것처럼 완벽한 선택은 아닙니다.

첫 번째 원칙 및 AI 하드웨어

거대한 AI 모델을 수십억 권의 책(매개변수 총합)을 담고 있는 거대한 도서관이라고 생각해 보세요. 보행자 식별과 같은 특정 작업을 수행하기 위해 AI는 몇 권의 구체적이고 관련성 있는 책(활성 매개변수)에만 즉시 접근하면 됩니다.

HBM을 활용한 업계 표준 방식은 마치 엄청나게 빠른 검색 시스템을 갖춘 작은 도서관을 짓는 것과 같습니다. 많은 책이나 모든 책에 매우 빠르게 접근해야 한다는 전제 하에, 오로지 속도만을 목표로 구축된 것입니다.

일론의 주장은 다른 접근 방식을 시사합니다. 테슬라의 AI 모델이 점점 더 커짐에 따라 도서관은 천문학적으로 거대해지고 있습니다. 이는 지역 시립 도서관이 아니라 신화 속 바벨탑 크기의 도서관에 대한 이야기입니다. 여기서 중요한 점은 아무리 거대한 도서관이라 하더라도 주어진 작업을 위해 한 번에 몇 권의 핵심 도서만 꺼내게 된다는 것입니다.

이는 용량, 비용, 효율성에 초점을 맞춘 완전히 다른 우선순위로 이어집니다. 용량과 비용 측면에서 HBM 대신 일반 메모리를 사용하면 보드에 더 많은 RAM을 장착할 수 있으며, 훨씬 저렴합니다. 수조 개의 매개변수를 가진 모델의 경우, 전체 라이브러리를 저장할 수 있는 충분한 용량을 확보하는 것이 무엇보다 중요하며, 일반 RAM의 비용 효율성은 엄청난 이점입니다.

효율성 측면에서, 한 번에 활성화되는 매개변수의 작은 부분만 고려한다면 HBM의 엄청난 속도는 단순히 과도할 수 있습니다. 유용한 연산당 비용과 그 연산에 사용되는 에너지는 거대하고 저렴한 기존 RAM 풀을 사용하면 실제로 더 나을 수 있습니다.

세 번째 선택: 하이브리드

물론, 항상 세 번째 선택지가 있습니다. 매우 빠르게 접근해야 하는 책이 적당히 있고, 다른 책도 많이 있지만 그만큼 빠르게 접근해야 하는 경우에는 하이브리드 방식을 선택하는 것이 가장 좋습니다. 이는 오늘날 프로세서의 캐싱 시스템과 유사합니다.

하위 수준 캐시는 작업에 필요한 중요한 정보를 호스팅하며, 테슬라의 용어로 말하면, 소규모 HBM 메모리 세트가 바로 그 역할을 할 수 있습니다. 즉, 안전에 중요하고 정기적으로 액세스되는 정보를 HBM 메모리에 보관하고, 나머지는 모두 기존 RAM에 버립니다.

AI6에 대한 최종 결정은 아직 내려지지 않았지만, 이 토론은 테슬라를 움직이는 기본 원칙에 대한 사고방식을 엿볼 수 있는 창을 제공합니다.