본문 바로가기

LLM2

LLM 서비스를 위한 개념 정리 1. 모델 관련 개념1. 파라미터(Parameter) / 모델 크기모델은 입력에따른 출력을 내놓는 함수같은녀석.판단하거나 예측하거나 답변함. 뇌처럼 여러계산단계로 구성되어있는것이 신경망이라고 한다.사람처럼 자연스래 추론하도록 할면 수많은 규칙,패턴을 학습해야함. 더 많은 층, 뉴런, 파라미터!를 넣기시작함.“7B, 13B, 70B” 이런 숫자숫자 커질수록 더 똑똑함대신 GPU 메모리(VRAM) 많이 먹음모델 커질수록(레이어, 파라미터 커질수록)계산량 폭발. 100B면 천억개 가중치 전부 계산해야함.GPU여러대 필요. 더 많은 vram 필요.2. Context window (문맥 길이)LLM이 한 번에 읽을 수 있는 글자 수 제한예: 128k, 1M긴 문서 읽는 서비스 만들면 중요3. Token (토큰)L.. 2025. 12. 9.
플러터 개발자의 LLM 서비스 개발 로드맵 DGX Spark는 풀사이즈 DGX 서버(H100/H200 8GPU)와 다르게단일 GPU + 소형 메모리 기반 엣지 AI 장비이다.따라서 70B 모델 로드나 TP/PP 병렬 처리는 불가능하지만,AI 기능을 서비스에 녹이는 데에는 가능성을 갖고 있다. 1. LLM이 뭔지 정확히 이해하기DGX Spark는 단일 GPU 장비라서:NVLink 기반 멀티 GPU 병렬 처리는 지원하지 않음거대한 모델(70B, 405B) 로딩은 불가능대신 경량 LLM 또는 **양자화된 모델(1B ~ 8B급)**을 빠르게 돌릴 수 있음도입 가능한 모델 선택 기준:Llama 3.1 1B / 3BQwen 2.5 1.5B / 3B / 7B (4bit 시 가능)DeepSeek-R1 Distill 1.5B / 7B (양자화 필수)Phi-3.5.. 2025. 12. 9.