Kimi K2.7 Code: levná open-weights odpověď na Fable 5, ale s vlastními benchmarky

Moonshot vydal 12. června 2026 Kimi K2.7 Code, tři dny po tom, co Anthropic uvedl Claude Fable 5. Časování není náhoda a více zdrojů ho čte stejně - K2.7 Code je pozicovaný jako levná odpověď na frontier coding model. Zatímco Fable 5 stojí 10 dolarů za milion vstupních a 50 za výstupní tokeny, Kimi běží za 0,95 a 4 dolary, tedy zhruba desetinu ceny. Sázka Moonshotu je jasná: většina vývojářů nepotřebuje absolutně nejlepší model, ale dobrý poměr ceny a výkonu. Projdeme, co K2.7 Code nabízí, kde je jeho reálná hodnota a proč je u jeho benchmarků namístě obezřetnost. Fakta čerpáme z oznámení Moonshotu a dostupných cenových dat.

Co K2.7 Code je

Je to první model rodiny Kimi K2 s explicitním “Code” v názvu - tedy ne obecný update, ale vědomě coding-specializované vydání. Architektura zůstává stejná jako u K2.5 a K2.6: Mixture-of-Experts s bilionem parametrů celkem, 32 miliardami aktivních na token a 384 experty. Kontextové okno je 256K. Licence je Modified MIT, která povoluje komerční použití s atribucí u velkých nasazení, váhy jsou hned dostupné na Hugging Face. Model ID na API je kimi-k2.7-code.

Že architektura zůstává shodná s předchozími generacemi má praktický důsledek - existující nasazení mohou jen vyměnit váhy bez rekonfigurace inference stacku. Kdo provozuje K2.6 přes vLLM nebo SGLang, přejde na K2.7 Code bez větší práce.

Jde o pátý velký release Moonshotu za necelý rok. K2 vyšel v červenci 2025, K2 Thinking v listopadu, K2.5 v lednu 2026, K2.6 v dubnu a teď K2.7 Code v červnu. Kadence je vysoká a konzistentní, což samo o sobě o lab něco vypovídá.

Hlavní novinka je efektivita

Nejkonkrétnější a nejpraktičtější tvrzení K2.7 Code se netýká inteligence, ale efektivity. Model má spotřebovat zhruba o třicet procent méně reasoning tokenů než K2.6 na stejných úlohách, při vyšším skóre na coding benchmarcích Moonshotu. V praxi to znamená méně “overthinkingu” - K2.6 měl podle uživatelských reakcí tendenci přemýšlet déle, než bylo nutné, a plýtvat tokeny. Pro produkční nasazení, kde se náklady počítají z tokenů, je třicetiprocentní úspora reálná hodnota.

Tohle je tvrzení, které si uživatelé ověří rychle, protože spotřebu tokenů vidí přímo na účtu. Pokud sedí, je to praktičtější přínos než marginální zlepšení na benchmarku. Méně tokenů znamená nižší náklady i nižší latenci v dlouhých agentních bězích, kde se počet kroků násobí.

Benchmarky – obezřetnost je namístě

Tady je nutná zásadní výhrada. Všechny zveřejněné benchmarky K2.7 Code jsou proprietární testy Moonshotu a většina z nich je neznámá. Moonshot navíc publikoval výsledky jako zlepšení proti K2.6, ne jako přímé srovnání s frontier modely.

Benchmark	K2.6	K2.7 Code	Typ
Kimi Code Bench v2	50,9	62,0 (+21,8 %)	vlastní benchmark
Program Bench	48,3	53,6 (+11 %)	vlastní benchmark
MLS Bench Lite	26,7	35,1 (+31,5 %)	vlastní benchmark
Kimi Claw 24/7 Bench	42,9	46,9	vlastní benchmark
MCP Atlas	69,4	76,0	semi-standardní
MCP Mark Verified	72,8	81,1	vlastní reporting

K dnešnímu dni neexistují žádná nezávislá data třetí strany na standardních suitách jako SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench nebo LiveCodeBench. To je slabší situace než u jiných čínských modelů, které jsme nedávno pokrývali - MiMo i MiniMax M3 aspoň reportovaly SWE-Bench Pro, kde je možné srovnání. K2.7 Code publikoval hlavně vlastní testy, z nichž Kimi Code Bench v2, Program Bench a MLS Bench Lite zná málokdo mimo Moonshot.

Jediný bod, kde Moonshot uvádí přímé srovnání s frontier modelem, je MCP Mark Verified - tedy test použití nástrojů přes MCP - kde K2.7 Code skóruje 81,1 procenta proti 76,4 u Claude Opus 4.8. Pokud to platí, je to silný výsledek pro tool use, protože Opus 4.8 stojí pětkrát víc. Ale i tohle číslo je Moonshotem reportované a chybí mu nezávislé ověření.

Publikování zlepšení jako delt proti vlastní předchozí verzi je marketingově chytré - plus 21,8 procenta na Kimi Code Bench v2 vypadá jako velký skok. Neříká to ale, kde model stojí absolutně proti GPT-5.5 nebo Fable 5. Podle některých srovnání se gap k GPT-5.5 na Kimi Code Bench v2 zúžil z osmnácti bodů v éře K2.6 na sedm, ale i to je srovnání na domácím benchmarku Moonshotu.

Pro kalibraci stojí za zmínku, že předchozí K2.6 měl na nezávisle ověřitelných suitách slušná čísla - SWE-Bench Verified kolem 80 procent, SWE-Bench Pro 58,6 procenta. Rodina Kimi K2 má tedy reálný track record, což dává K2.7 Code důvěryhodnost na úrovni “pravděpodobně dobrý”, i když konkrétní čísla zatím ověřená nejsou.

Strategický kontext: levná odpověď na frontier

Nejzajímavější na K2.7 Code není ani tak model, jako načasování a cenová strategie. Tři dny po tom, co Anthropic vydal nejdražší a podle vlastních slov nejschopnější veřejný model, přichází Moonshot s coding modelem za desetinu ceny, který tvrdí, že je na agentním codingu konkurenceschopný. To je přesně ta dynamika, kterou v open-weights ekosystému vidíme opakovaně - čínské laby nezávodí o absolutní špičku, ale o poměr ceny a výkonu a o open-weights dostupnost.

Na rozdíl od MiniMax M3, který sliboval váhy “do deseti dnů”, jsou váhy K2.7 Code na Hugging Face hned. Kdo chce model self-hostovat nebo testovat bez závislosti na API, může okamžitě. To je v open-weights segmentu konkurenční výhoda - dostupnost je fakt, ne slib.

Model už integrují coding nástroje jako Cline, Kilo a další. Moonshot avizuje brzký High-Speed Mode s rychlejší, ale dražší inferencí.

Co dělat teď a na co si ještě počkat

K2.7 Code dává smysl, pokud:

Děláte agentní coding a citlivost na cenu je pro vás faktor
Vadil vám overthinking a token spotřeba K2.6
Chcete open-weights model k self-hostingu hned, ne za deset dní
Pracujete s tool use přes MCP, kde Moonshot hlásí silné výsledky

Zvážit konkurenci, pokud:

Potřebujete ověřená data před nasazením – ta zatím nejsou
Děláte nejnáročnější long-horizon úlohy, kde Fable 5 a Opus 4.8 vedou
Spoléháte na standardní benchmarky pro rozhodování

Co počkat:

Nezávislé testy na SWE-Bench Verified, SWE-Bench Pro a Terminal-Bench
Ověření třicetiprocentní úspory tokenů třetí stranou
Reálné uživatelské zkušenosti z produkčních codebase
High-Speed Mode a jeho cena

Závěr

Kimi K2.7 Code je vědomě taktické vydání - levná, efektivní coding alternativa, která přichází tři dny po frontier modelu za desetinu jeho ceny. Hlavní reálná hodnota leží v třicetiprocentní úspoře reasoning tokenů, což je konkrétní a rychle ověřitelný přínos pro produkci, a v okamžité dostupnosti vah. Benchmarky jsou ale slabě doložené - výhradně vlastní testy Moonshotu, publikované jako delty proti předchozí verzi, bez nezávislého ověření na standardních suitách. To je třeba mít na paměti, než z plus 21,8 procenta uděláte závěr o kvalitě modelu.

Pro praxi platí jednoduché doporučení: pokud děláte agentní coding a hlídáte náklady, K2.7 Code stojí za test na vlastní úloze, protože váhy jsou hned a cena je zlomek frontier modelů. Ale otestujte ho sami, nespoléhejte na domácí benchmarky Moonshotu. Skutečnou hodnotu modelu ukáže až nezávislé měření a vaše vlastní zkušenost s reálným kódem. Strategicky je K2.7 Code další doklad toho, že open-weights ekosystém tlačí cenu frontier schopností dolů rychleji, než kdokoli čekal - a to je pro vývojáře dobrá zpráva bez ohledu na to, jak nakonec dopadnou nezávislé testy.