Калькулятор Памяти Контекста LLM
EN
Длина Контекста (токены)
!
Квантование K кеша
KV кеш
f32
f16
bf16
q8_0
q4_0
q4_1
iq4_nl
q5_0
q5_1
Головок KV
!
Размер Головки
!
Количество Головок
!
Количество Слов
!
Размер Модели (GB)
Параллелизм (np)
Интервал Полного Внимания
!
Config.json
Сбросить
!
Model (HuggingFace)
Fetch
!
Асимметричный Контекст
Квантование V кеша
f32
f16
bf16
q8_0
q4_0
q4_1
iq4_nl
q5_0
q5_1
Рассчитать
Пример: context=8192, layers=32, kv_heads=32, head_size=128, model_size=7 GB, parallel=1