AI 핵심 요약
beta- 노타가 4일 AI PC서 이기종 추론 최적화 기술을 구현했다.
- 인텔 루나 레이크 AI PC에서 입력은 GPU, 답변은 NPU에 맡겼다.
- 단일 GPU 대비 에너지 32%↓, 생성 처리량 12%↑를 기록했다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
[서울=뉴스핌] 이나영 기자= AI 경량화 및 최적화 기술 기업 노타(대표 채명수)는 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM(대규모 언어모델) 추론 최적화 기술을 구현했다고 4일 밝혔다.
회사에 따르면 이기종 컴퓨팅은 서로 다른 장점을 가진 프로세서를 함께 활용하는 방식이다. 하나의 프로세서에 모든 일을 맡기는 대신 CPU, GPU, NPU처럼 역할이 다른 장치가 각자 잘하는 일을 나눠 맡도록 설계하는 것이 핵심이다. AI PC의 실제 성능은 고성능 프로세서 하나의 사양이 아니라, 기기 안에 있는 여러 연산 장치를 시스템 전체 관점에서 얼마나 효율적으로 조합하느냐에 따라 달라진다.
노타는 인텔 루나 레이크 기반 AI PC에서 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석하고, 각 단계에 적합한 연산 장치를 배치하는 분리형 추론 방식을 적용했다. 이에 따라 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 실행되도록 구성했다.

특히 성능 평가에서 분리형 추론 방식을 적용한 결과, 단일 GPU 실행 방식 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 높였다. 또한 단일 NPU 실행 방식 대비 첫 응답 지연시간을 약 89% 단축하는 성과를 거뒀다.
이번 성과의 핵심은 GPU와 NPU를 단순히 함께 사용한 것이 아니라, AI 모델의 작업 특성을 분석해 각 연산을 가장 적합한 장치에 배치했다는 점이다. 이는 같은 AI PC에서도 하드웨어를 어떻게 활용하느냐에 따라 실제 사용자 경험이 달라질 수 있음을 보여준다.
글로벌 AI 업계에서도 이기종 컴퓨팅 흐름이 확대되고 있다. 최근 대만에서 열린 컴퓨텍스 2026에서도 인텔, 엔비디아 등 주요 기업이 CPU·GPU·NPU를 결합한 AI PC를 잇따라 선보였다. 데이터센터에서도 엔비디아와 아마존웹서비스 등이 AI 연산을 단계별로 나눠 서로 다른 장치에 맡기는 분리형 추론 방식을 도입하고 있다.
노타가 AI PC에서 구현한 분리형 추론 방식은 이러한 산업 흐름과 결을 같이한다. 노타는 모델 경량화뿐 아니라 AI 실행 과정과 하드웨어 활용 방식까지 최적화함으로써, 칩 하나의 성능이 아닌 시스템 전체의 활용 방식을 최적화하는 기술 역량을 입증했다. 이는 제한된 전력과 연산 자원 안에서 AI를 효율적으로 실행해야 하는 AI PC 환경에서 온디바이스 AI 사용자 경험을 좌우하는 핵심 기술로 평가된다.
채명수 노타 대표는 "AI PC 시대에는 AI 모델을 기기 안에 올리는 것만으로는 충분하지 않으며 GPU, NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다"며 "노타는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 시대의 온디바이스 AI 실행 효율을 높여 나가겠다"고 밝혔다.
nylee54@newspim.com












