AIHardwareGPUTPU

구글 TPU랑 엔비디아

·8 min read

먼저 엔비디아 마진부터 이야기해보자.

엔비디아 매출에 이익률이 70%가 넘는다.

땅파서 장사해도 이정도 마진율 나오기도 어려울 것 같은데,

하드웨어 팔아먹는 회사 마진율 치고는 미친거 같다.

무슨 뜻이냐면 졸라 비싸단 뜻이다.

다른 면으로는 구글 Gemini를 보자.

얼마전에 Gemini 3.0 나와서 AI 순위 뒤엎었는데,

놀라운건 이거 만드는데 TPU라고 구글이 자체 설계한 하드웨어로 학습시켰다.

즉 성능적으로 검증이 된 것이다.

성능이 나오니 구글은 "TPU 팝니다~" 무브먼트를 밟고 있는데,

AI 수요로 먹고 사는 엔비디아 입장에서는 AI에 특화된 하드웨어가 나온다 하니 쫄리는 것이다.

일단 시장 의견은

"TPU가 AI 특화로 만들어진거니 엔비디아 끝났음 ㅅㄱ"

"CUDA 생태계 버려?"

로 대립중인것 같다.

구글이 날린 선빵

일단 지금 gemini 학습하는데 TPU 7세대를 사용했는데

이미 1세대 때부터 GPU 대비 15~30배의 전력 대 성능비를 자랑하고 있었다.

지금 데이터 센터 지으면서 가장 큰 문제가 되는게 바로 전력이다.

물자는 공급하더라도, 에너지의 공급 효율은 한계가 있기 때문이다.

효율이 3~5배만 되더라도 유지비용이 달라지는데 15배나 된다니 눈이 안돌아갈까?

응 사실 안돌아간거 같다. 아직은

CUDA가 너무 든든했다.

생태계 90%를 이미 점유중인 CUDA가 있다보니깐,

좋은 인프라가 있어도 개발 인력이 모자르다.

당장 우리나라만 하더라도 자바 하나로 우려먹고있지 않은가.

시장 점유율은 너무나 탄탄하다.

물론 단순히 시장 점유율만 믿고 버티는건 아니다.

엔비디아도 한방을 장전하고 있다.

먼저 개념 설명

기존에 AI에 GPU 쓰는 방식은 학습과 추론을 하나의 강력한 칩에서 처리한다~가 기본이었다.

그렇기에 엔비디아 또한 칩 자체의 성능을 끌어올리고 있었다.

다만 시간이 지나면서 학습과 추론이 서서히 분리되기 시작했다.

예전에는 성능을 끌어올리기 위해 학습 자체에 집중했다.

데이터 그리고 더 많은 데이터에 전력과 칩을 들이 부으면 성능이 따라 왔다.

지금은 딥시크 사례도 그렇지만, 학습만으로는 이제 부족함을 느끼고 있다.

그렇기에 추론 시장이 점점 커지면서 다음 두가지 성격으로 나뉘게 되었다.

프리필(Prefill)

긴 질문을 한번에 읽고 이해하는 단계

연산 능력이 중요함(FLOPS)

디코드(Decode)

이해한 내용을 바탕으로 답변 하나씩 생성

메모리 대역폭이 중요함(HBM)

자 여기서 중요한게 바로 HBM이다.

HBM(High Bandwidth Memory, 고대역폭 메모리)

DRAM 칩을 수직으로 여러개 쌓아올린 초고성능 메모리다.

일단 칩을 매우 정밀하게 연결해야해서 만들기가 어렵고 가격이 비싸다.

문제는 아까 프리필 단계에서는 엄청난 연산이 필요하지 HBM이 필요하지는 않다.

즉 계산만 열심히 하면 되는 단계에서 비싼 HBM이 낭비되는 것이다.

그리고 여기서 엔비디아의 한방이 나오는데,

비효율적으로 계산할바에 워크로드를 분리하고, 적제적소에 맞는 메모리를 배치하자는 것이다.

그리고 그 결과물이 바로 루빈 CPX다.

HBM 대신 GDDR7

루빈 CPX는 추론의 첫 단계인 프리필만 전담한다.

연산 지충하더라도 메모리는 필요하니 비싼 HBM을 빼고,

GDDR7 메모리를 탑재했다.

대충 HBM 대비 약 5배는 싸다는 것만 이해하면 된다.

즉 구글이 "새로운 칩 가성비 개쩔어요!"하면

엔비디아도 "새로운 칩 가성비 괜찮아요! 그리고 CUDA 생태계지" 시전하는거다.

그리고 갑자기 메타가 나타났다.

아무튼 결국 가장 큰 장벽은 CUDA 생태계다.

1%가 나머지를 먹여살리듯이

1% 최상위 커널 엔지니어가 CUDA로 커널을 최적화해서 성능을 뽑아내면

나머지 99% 개발자가 파이토치로 감사합니다 하고 받아 써먹는다.

즉 TPU 쓰려면 이런 최적화 작업을 다시 해야한다는 건데,

우리 기본 프로젝트 하면서 API 사다 쓰는게 최고듯이,

개발자들도 그냥 비싸도 엔비디아 쓰자 라는 결론이 나는 것이다.

하지만 비싼 칩 어렵게 구하느라 좀 꼬우셨던 메타는 PyTorch를 마개조 하기 시작하시는데,

바로 하드웨어 추상화 전략이다.

JAVA가 JVM으로 컴파일 되서 어디서든 동작하듯이,

파이토치도 컴파일러 기술을 도입해 AI 모델 코드를 읽고,

GPU에서 돌릴지, TPU에서 돌릴지 선택할 수 있도록 만들어주는 것이다.

천하몇분지계

AI 발전속도가 미쳐 날뛰뜻이

미래 기술 패권을 차지하려고 AI를 둘러싼 환경까지 업치락 뒤치락 싸우고 있다.

참고로 메타만 이야기 했는데 AWS도 참전했다.

관심있으면 찾아보기를 바라고,

아무튼 제발 특이점이 빨리 오기를 바란다.

← Previous
프론트엔드 모던 AI 챗 인터페이스 구축 - 1부작, Vercel AI SDK
Next →
RAG 서비스 만들었는데 그래서 이제 뭐함_