GPU 완전 정복
그래픽 카드에서 AI 제국의 심장으로.
CUDA 코어, 텐서 코어, VRAM, 쉐이더까지 —
AI 시대 가장 중요한 반도체를 처음부터 끝까지 설명합니다.
GPU란 무엇인가?
수천 개의 소형 연산 코어를 이용해 대규모 병렬 연산을 처리하는 반도체. 원래 3D 그래픽 렌더링을 위해 개발됐지만, AI·딥러닝·데이터 분석 분야의 핵심 인프라로 진화했다.
CPU가 순차적으로 복잡한 명령을 처리하는 '만능 선수'라면, GPU는 단순한 연산을 동시에 수천 개 처리하는 '병렬 처리 전문가'다. 이 특성이 AI 학습에 완벽하게 들어맞는다.
- 코어 수: 수십 개 (4~128)
- 특기: 복잡한 순차 연산
- 클럭: 3~6GHz 고속
- 용도: OS, 응용 프로그램
- 비유: 전문직 베테랑 수십 명
- 코어 수: 수천~수만 개
- 특기: 단순 연산 대규모 병렬처리
- 클럭: 1~2GHz 상대적 저속
- 용도: 그래픽, AI, 과학 연산
- 비유: 단순 작업 인부 수만 명
딥러닝 학습은 결국 행렬(Matrix) 곱셈의 반복이다. 수십억 개의 단순한 수학 연산을 동시에 수행해야 한다. GPU의 수천 개 코어는 이 작업에 최적화되어 있다. 엔비디아가 AI 시대의 패권자가 된 이유다.
GPU 핵심 용어 8가지
GPU를 이해하려면 반드시 알아야 할 8가지 용어를 정리했다.
엔비디아 GPU의 기본 연산 단위. 부동소수점·정수 연산을 담당. H100에는 16,896개 탑재. 코어 수가 많을수록 병렬 처리 성능이 높아진다.
AI 딥러닝 행렬 연산에 특화된 코어. Volta 아키텍처부터 도입. 일반 CUDA 코어 대비 AI 연산 성능이 수십 배 뛰어나다. AI 시대의 핵심 구조.
GPU 전용 고속 메모리. AI 모델 파라미터·학습 데이터를 저장. H100은 HBM3 80GB 탑재. VRAM이 부족하면 대형 모델을 학습할 수 없다.
GPU와 VRAM 사이 초당 데이터 전송량. TB/s 단위. H100은 3.35TB/s. AI 추론 성능을 결정하는 핵심 지표 중 하나.
GPU에서 실행되는 소형 프로그램. 버텍스 쉐이더(꼭짓점 처리), 픽셀 쉐이더(색상 처리) 등. 3D 그래픽 표현의 핵심 개념.
GPU의 기본 실행 블록. 다수의 CUDA·텐서 코어와 캐시 메모리로 구성. H100은 132개 SM 보유. CPU의 코어와 유사한 개념.
초당 부동소수점 연산 횟수. GPU 성능 표기 단위. H100은 FP16 기준 989 TFLOPS. 숫자가 클수록 AI 연산 처리 능력이 높다.
엔비디아의 GPU 간 고속 연결 기술. PCIe보다 훨씬 빠른 데이터 전송. 대규모 AI 클러스터에서 수천 개 GPU를 하나처럼 연결.
엔비디아 GPU 아키텍처
세대별 진화
엔비디아 GPU는 과학자·수학자 이름을 딴 아키텍처로 세대 구분을 한다. AI 시대 이후 성능이 폭발적으로 증가했다.
| 세대 (년도) | 아키텍처명 | 대표 제품 | AI 핵심 특징 | FP16 성능 |
|---|---|---|---|---|
| 2017 | Volta | V100 | 텐서 코어 최초 도입 | 125 TFLOPS |
| 2020 | Ampere | A100 | 3세대 텐서 코어, TF32 | 312 TFLOPS |
| 2022 | Hopper | H100 | 트랜스포머 엔진, FP8 | 989 TFLOPS |
| 2024 | Blackwell | B200 | 5세대 텐서 코어, NVLink5 | 4.5 PFLOPS |
| 2025~ | Rubin | R100 (예정) | HBM4, 차세대 NVLink | 미공개 |
Hopper(H100)에서 Blackwell(B200)로 넘어오면서 AI 연산 성능이 무려 4.5배 향상됐다. 이것이 엔비디아 주가를 10배 이상 올린 기술적 배경이다.
현재 주요 AI GPU 비교
현재 AI 데이터센터의 실질적 표준. ChatGPT 학습에 수만 장이 투입됐다. HBM3 80GB, CUDA 코어 16,896개, 텐서 코어 528개 탑재. 가격은 장당 약 4,000만 원.
2024년 출시된 블랙웰 아키텍처의 플래그십. H100 대비 AI 추론 성능 30배, 학습 성능 4배 향상. HBM3e 192GB 탑재. 2025~2026년 AI 데이터센터 교체 수요 견인.
AMD의 대형 AI 가속기. HBM3 192GB로 엔비디아 H100 대비 메모리 용량 우위. CUDA 대신 ROCm 소프트웨어 생태계 사용이 가장 큰 진입 장벽. Microsoft·Meta가 채택.
엔비디아의 진짜 무기:
CUDA 생태계
엔비디아가 경쟁사보다 성능이 조금 뒤처져도 시장 지배력을 유지하는 이유는 바로 CUDA(Compute Unified Device Architecture) 때문이다.
엔비디아가 2006년 개발한 GPU 병렬 컴퓨팅 플랫폼. AI 개발 프레임워크(PyTorch, TensorFlow 등)가 모두 CUDA 기반으로 최적화되어 있어, 개발자들이 다른 GPU로 이동하기 어렵게 만드는 '해자(moat)' 역할을 한다.
전 세계 AI 연구자의 90% 이상이 CUDA 환경에서 개발을 시작했다. AMD의 ROCm이 기술적으로 발전해도, 수십만 개의 CUDA 최적화 라이브러리를 대체하려면 수년이 걸린다. 이것이 엔비디아의 진짜 경쟁력이다.
AI 시대, GPU의 다음 챕터
GPU는 계속 진화 중이다. 가트너에 따르면 글로벌 AI 반도체 시장은 2025년 713억 달러에서 2028년 1,590억 달러로 2배 이상 성장할 전망이다.
| 트렌드 | 내용 | 수혜자 |
|---|---|---|
| 메모리 통합 강화 | HBM4·HBM4E 채택 확대, 대역폭 급증 | SK하이닉스, 삼성 |
| 추론 특화 구조 | 학습보다 추론 최적화 아키텍처 등장 | TPU, NPU 경쟁 심화 |
| 에너지 효율 | TOPS/W 경쟁 본격화 | ASIC, 맞춤형 칩 |
| 광인터커넥트 | GPU 간 연결을 전기→광(光)으로 전환 | 루멘텀, 코히어런트 |
| Rubin 아키텍처 | HBM4 탑재 차세대 엔비디아 GPU | 엔비디아 (2025~) |
GPU = 병렬 연산 + AI의 엔진
✅ GPU는 수천 개 코어로 단순 연산을 동시에 처리하는 병렬 처리 전문 반도체
✅ 텐서 코어는 AI 행렬 연산에 특화된 핵심 구조 — Volta 이후 엔비디아의 차별점
✅ VRAM·대역폭이 AI 모델 크기와 추론 속도를 결정
✅ CUDA 소프트웨어 생태계가 엔비디아 독점의 진짜 이유
✅ Blackwell → Rubin으로 이어지는 로드맵, AI 인프라 수요는 계속 증가
'기타 > 반도체 용어 사전, Semiconductor Dictionary' 카테고리의 다른 글
| HBM explained the complete guide to High Bandwidth Memory (0) | 2026.02.18 |
|---|---|
| CPU 완전 정복 (0) | 2026.02.18 |
| HBM 완전 정복 - AI 시대의 핵심 메모리, 고대역폭 메모리란 무엇인가 (0) | 2026.02.18 |
| NAND Flash 완전 정복 - SSD는 어떻게 데이터를 저장할까? (0) | 2026.02.17 |
| DRAM 완전 정복 - DDR부터 HBM까지, 메모리의 모든것 (0) | 2026.02.16 |