기타/반도체 용어 사전, Semiconductor Dictionary

반도체 용어사전, GPU란 무엇인가? GPU 완전정복

반도체 인사이트 (Semiconductor insight) 2026. 3. 10. 08:19
반응형
GPU 완전 정복 — 반도체 용어사전 7편 | Semiconductor Insight
📚 반도체 용어사전 시리즈 — Semiconductor Insight
Series 07 · GPU

GPU 완전 정복

그래픽 카드에서 AI 제국의 심장으로.
CUDA 코어, 텐서 코어, VRAM, 쉐이더까지 —
AI 시대 가장 중요한 반도체를 처음부터 끝까지 설명합니다.

GPU란?CUDA 코어텐서 코어 VRAM쉐이더엔비디아 vs AMD AI 가속기병렬 처리
기본 개념

GPU란 무엇인가?

GPU (Graphics Processing Unit)

수천 개의 소형 연산 코어를 이용해 대규모 병렬 연산을 처리하는 반도체. 원래 3D 그래픽 렌더링을 위해 개발됐지만, AI·딥러닝·데이터 분석 분야의 핵심 인프라로 진화했다.

CPU가 순차적으로 복잡한 명령을 처리하는 '만능 선수'라면, GPU는 단순한 연산을 동시에 수천 개 처리하는 '병렬 처리 전문가'다. 이 특성이 AI 학습에 완벽하게 들어맞는다.

CPU (중앙처리장치)
  • 코어 수: 수십 개 (4~128)
  • 특기: 복잡한 순차 연산
  • 클럭: 3~6GHz 고속
  • 용도: OS, 응용 프로그램
  • 비유: 전문직 베테랑 수십 명
CPU VS GPU
GPU (그래픽처리장치)
  • 코어 수: 수천~수만 개
  • 특기: 단순 연산 대규모 병렬처리
  • 클럭: 1~2GHz 상대적 저속
  • 용도: 그래픽, AI, 과학 연산
  • 비유: 단순 작업 인부 수만 명

딥러닝 학습은 결국 행렬(Matrix) 곱셈의 반복이다. 수십억 개의 단순한 수학 연산을 동시에 수행해야 한다. GPU의 수천 개 코어는 이 작업에 최적화되어 있다. 엔비디아가 AI 시대의 패권자가 된 이유다.

핵심 용어 사전

GPU 핵심 용어 8가지

GPU를 이해하려면 반드시 알아야 할 8가지 용어를 정리했다.

⚙️
CUDA 코어
CUDA Core

엔비디아 GPU의 기본 연산 단위. 부동소수점·정수 연산을 담당. H100에는 16,896개 탑재. 코어 수가 많을수록 병렬 처리 성능이 높아진다.

🤖
텐서 코어
Tensor Core

AI 딥러닝 행렬 연산에 특화된 코어. Volta 아키텍처부터 도입. 일반 CUDA 코어 대비 AI 연산 성능이 수십 배 뛰어나다. AI 시대의 핵심 구조.

💾
VRAM
Video RAM

GPU 전용 고속 메모리. AI 모델 파라미터·학습 데이터를 저장. H100은 HBM3 80GB 탑재. VRAM이 부족하면 대형 모델을 학습할 수 없다.

🌊
메모리 대역폭
Memory Bandwidth

GPU와 VRAM 사이 초당 데이터 전송량. TB/s 단위. H100은 3.35TB/s. AI 추론 성능을 결정하는 핵심 지표 중 하나.

🎨
쉐이더
Shader

GPU에서 실행되는 소형 프로그램. 버텍스 쉐이더(꼭짓점 처리), 픽셀 쉐이더(색상 처리) 등. 3D 그래픽 표현의 핵심 개념.

🏗️
SM (스트리밍 멀티프로세서)
Streaming Multiprocessor

GPU의 기본 실행 블록. 다수의 CUDA·텐서 코어와 캐시 메모리로 구성. H100은 132개 SM 보유. CPU의 코어와 유사한 개념.

🧮
FLOPS / TFLOPS
Floating Point Operations Per Second

초당 부동소수점 연산 횟수. GPU 성능 표기 단위. H100은 FP16 기준 989 TFLOPS. 숫자가 클수록 AI 연산 처리 능력이 높다.

🔗
NVLink / NVSwitch
GPU Interconnect

엔비디아의 GPU 간 고속 연결 기술. PCIe보다 훨씬 빠른 데이터 전송. 대규모 AI 클러스터에서 수천 개 GPU를 하나처럼 연결.

아키텍처 역사

엔비디아 GPU 아키텍처
세대별 진화

엔비디아 GPU는 과학자·수학자 이름을 딴 아키텍처로 세대 구분을 한다. AI 시대 이후 성능이 폭발적으로 증가했다.

세대 (년도) 아키텍처명 대표 제품 AI 핵심 특징 FP16 성능
2017 Volta V100 텐서 코어 최초 도입 125 TFLOPS
2020 Ampere A100 3세대 텐서 코어, TF32 312 TFLOPS
2022 Hopper H100 트랜스포머 엔진, FP8 989 TFLOPS
2024 Blackwell B200 5세대 텐서 코어, NVLink5 4.5 PFLOPS
2025~ Rubin R100 (예정) HBM4, 차세대 NVLink 미공개
📌 핵심 포인트

Hopper(H100)에서 Blackwell(B200)로 넘어오면서 AI 연산 성능이 무려 4.5배 향상됐다. 이것이 엔비디아 주가를 10배 이상 올린 기술적 배경이다.

현재 라인업

현재 주요 AI GPU 비교

NVIDIA H100 SXM5
데이터센터 표준

현재 AI 데이터센터의 실질적 표준. ChatGPT 학습에 수만 장이 투입됐다. HBM3 80GB, CUDA 코어 16,896개, 텐서 코어 528개 탑재. 가격은 장당 약 4,000만 원.

HBM3 80GB989 TFLOPS (FP16)3.35TB/s 대역폭700W TDP
NVIDIA B200 (Blackwell)
최신 세대

2024년 출시된 블랙웰 아키텍처의 플래그십. H100 대비 AI 추론 성능 30배, 학습 성능 4배 향상. HBM3e 192GB 탑재. 2025~2026년 AI 데이터센터 교체 수요 견인.

HBM3e 192GB4.5 PFLOPS (FP16)8TB/s 대역폭1,000W TDP
AMD Instinct MI300X
도전자

AMD의 대형 AI 가속기. HBM3 192GB로 엔비디아 H100 대비 메모리 용량 우위. CUDA 대신 ROCm 소프트웨어 생태계 사용이 가장 큰 진입 장벽. Microsoft·Meta가 채택.

HBM3 192GB1.307 PFLOPS (FP16)5.3TB/s 대역폭750W TDP
소프트웨어 생태계

엔비디아의 진짜 무기:
CUDA 생태계

엔비디아가 경쟁사보다 성능이 조금 뒤처져도 시장 지배력을 유지하는 이유는 바로 CUDA(Compute Unified Device Architecture) 때문이다.

CUDA

엔비디아가 2006년 개발한 GPU 병렬 컴퓨팅 플랫폼. AI 개발 프레임워크(PyTorch, TensorFlow 등)가 모두 CUDA 기반으로 최적화되어 있어, 개발자들이 다른 GPU로 이동하기 어렵게 만드는 '해자(moat)' 역할을 한다.

⚠️ CUDA 종속의 현실

전 세계 AI 연구자의 90% 이상이 CUDA 환경에서 개발을 시작했다. AMD의 ROCm이 기술적으로 발전해도, 수십만 개의 CUDA 최적화 라이브러리를 대체하려면 수년이 걸린다. 이것이 엔비디아의 진짜 경쟁력이다.

미래 전망

AI 시대, GPU의 다음 챕터

GPU는 계속 진화 중이다. 가트너에 따르면 글로벌 AI 반도체 시장은 2025년 713억 달러에서 2028년 1,590억 달러로 2배 이상 성장할 전망이다.

트렌드내용수혜자
메모리 통합 강화HBM4·HBM4E 채택 확대, 대역폭 급증SK하이닉스, 삼성
추론 특화 구조학습보다 추론 최적화 아키텍처 등장TPU, NPU 경쟁 심화
에너지 효율TOPS/W 경쟁 본격화ASIC, 맞춤형 칩
광인터커넥트GPU 간 연결을 전기→광(光)으로 전환루멘텀, 코히어런트
Rubin 아키텍처HBM4 탑재 차세대 엔비디아 GPU엔비디아 (2025~)
📖 이 글의 핵심 요약

GPU = 병렬 연산 + AI의 엔진

✅ GPU는 수천 개 코어로 단순 연산을 동시에 처리하는 병렬 처리 전문 반도체

✅ 텐서 코어는 AI 행렬 연산에 특화된 핵심 구조 — Volta 이후 엔비디아의 차별점

✅ VRAM·대역폭이 AI 모델 크기와 추론 속도를 결정

✅ CUDA 소프트웨어 생태계가 엔비디아 독점의 진짜 이유

✅ Blackwell → Rubin으로 이어지는 로드맵, AI 인프라 수요는 계속 증가

#GPU#GPU란#CUDA #텐서코어#VRAM#엔비디아 #AI반도체#H100#블랙웰 #반도체용어사전#병렬처리#딥러닝 #AMD#그래픽처리장치#HBM #AI가속기#SemiconductorInsight#반도체블로그
반응형