Az Anthropic félelmetes tempót diktál: 73 release 52 nap alatt. Közben a yapping-ből dictater lett, valaki vibe kódolt egy zongoratanárt a lányának, a Claude egyre mélyebbre ássa magát az amerikai hadseregben, és már írógéppel is tudunk vele kommunikálni. Egy 20 éves pekingi diák meg 24 óra alatt kapott 4 millió dollárt egy szimulációs motorra. Csak a szokásos.
x.com · @PawelHuryn
x.com · @deedydas
Az autoresearch lényege röviden: ráengedünk egy AI agentet a projektre, megmondjuk neki, mit optimalizáljon, és futni hagyjuk. Az agent kísérletezik, mér, iterál, emberi beavatkozás nélkül. Karpathy két hete nyílt forráskódúvá tette az első implementációt, és azóta a közösség mindenre ráengedte, aminek mérhető metrikája van.
A legérthetőbb példa talán az a sakkprogram, ami az autoresearch segítségével, 70 kísérlet lefuttatása után top 50 nagymesteri szintre lépett (@deedydas vibecoded Rust motorja, 2718 ELO).
@zhengyaojiang egy GitHub gyűjteménybe szedi össze az eddigi eredményeket: Shopify template engine, CUDA kernelek, peptidkutatás, klímatudomány, régészet, baseball predikció. Ahol van mérőszám és visszacsatolási kör, ott az autoresearch valószínűleg tud javítani.
Karpathy a No Priors podcastban (@saranormous interjúja) arról beszél, hogy ez a koncepció messze túlmutat az AI kutatáson, és bárhol alkalmazható, ahol mérhető eredményt akarunk elérni.
Az egyik legérdekesebb irány: valaki a Claude Code skillekre építette rá az autoresearch logikát. A skill definiál teszteket saját magához, az agent módosítja, méri, hogy javult-e, és iterál. Egyik skill 56%-ról 92%-ra ugrott 4 kör alatt. A saját skilljeimet most így fejlesztem.
x.com · @shiri_shh
A Palantir Maven rendszere és a Claude az iráni műveletben az első 24 órában több mint 1000 célpontot azonosított és priorizált. Az eredmény annyira meggyőző volt, hogy a hadsereg a művelet közepén sem hajlandó leállni: Palantir CEO Alex Karp megerősítette, hogy továbbra is használják a Claude-ot, annak ellenére, hogy a Trump-kormányzat közben supply chain kockázatnak nyilvánította az Anthropicot. Ilyen jelölést amerikai cég korábban soha nem kapott.
A háttérben komoly vita zajlik. Pete Hegseth hadügyminiszter ultimátumot adott az Anthropicnak: engedélyezze a Claude korlátlan katonai felhasználását. Dario Amodei (Anthropic CEO) két ponton nem engedett: a Claude-ot nem használhatják tömeges belföldi megfigyelésre, és nem kapcsolhatják teljesen autonóm fegyverrendszerekbe emberi felügyelet nélkül. Amodei szerint a frontier AI modellek egyszerűen nem elég megbízhatóak ehhez. A Pentagon blacklistre tette az Anthropicot, 180 napos átállási határidővel.
Az 1000+ célpont közül az egyik a minabi Shajareh Tayyebeh lányiskola volt. A légicsapásban 165-en haltak meg, köztük 7-12 éves diákok. A Pentagon vizsgálja, hogy a targeting rendszer szerepet játszott-e a tévedésben, hivatalosan "emberi hibát" állapítottak meg. Ami önmagában is félelmetesen hangzik: ha a célpontok kijelölésében részt vesz az AI, és a "human in the loop" sem vette észre a hibát, az pont azt jelenti, hogy autonóm módon használni ezt a technológiát a jelenlegi korlátaival óriási felelőtlenség lenne.
x.com · @RG_Leachman
Ryan Leachman Claude-dal egy délután alatt megépítette a Little Maestro-t: egy Guitar Hero jellegű zongoratanuló appot a lányának. USB MIDI-n csatlakozik a digitális zongorához, valós időben mutatja a kottát, és falling notes játékkal tanít, progresszíven nehezedő dalokkal. 100+ dal, teljesítményértékelés. A böngészőben fut, és bármilyen USB MIDI csatlakozóval rendelkező digitális zongorával működik. Ingyenesen letölthető.
A meglévő eszközeinket fogjuk másképp, interaktívabban használni az AI segítségével: van egy zongorád, van egy USB kábeled, és most már van egy appod is hozzá. Van otthon egy digitális zongorám, szerzek hozzá egy ilyen MIDI kábelt, és kipróbálom. "There is an app for that" helyett "make an app for that."
x.com · @aaronjmars
Mi lenne, ha bármilyen kérdésre ráengedhetnénk ezernyi virtuális embert, akik vitáznak, véleményt formálnak, és 30 percen belül visszakapnánk az eredményt? A MiroFish pontosan ezt csinálja, és a sztori mögötte legalább olyan érdekes, mint maga az eszköz.
Guo Hangjiang, egy 20 éves pekingi informatika szakos diák építette, egyedül, vibe kódolva. Az előző projektje (BettaFish, multi-agent véleményelemzés) 10 nap alatt készült és 20 000 GitHub starot kapott egy hét alatt. A MiroFish március elején érte el a GitHub globális trending első helyét, megelőzve az OpenAI, Google és Microsoft projektjeit. 33 000+ star. 24 órán belül 30 millió jüan (~4,1 millió dollár) befektetést kapott Chen Tianqiao-tól, a Shanda Group alapítójától. Egyetemi záródolgozatból befektetési célpont.
A koncepció: betáplálunk adatokat (egy deep research-ölt téma, saját anyag, nyilvános források, bármi), a rendszer kinyeri az entitásokat (személyek, országok, szervezetek), ügynököket generál különböző meggyőződésekkel, akik egy szimulált közösségi platformon posztolnak, vitáznak, véleményt formálnak. Közben bármikor beavatkozhatunk: beinjektálunk egy változót (kamatemelés, CEO lemondás), és az egész világ újrakalibrálódik.
@aaronjmars a Netanyahu/Polymarket predikciós piachoz használta: 20 agentet generált, 30 virtuális órán át futtatott szimulációt, 30 centért. Valaki egy Polymarket trading botba kötötte be, 2847 trade-ből 4266 dollár profitot jelentett. Szimulációk, amiket eddig think tankok futtattak hónapokig, most fillérekből futtathatóak. Formális benchmark még nincs, a predikciós pontosságot nem validálták, de a koncepció és az ár együtt figyelemre méltó.
x.com · @mvanhorn
@every
A voice pilled és a yapping után új név érkezett: mindenki lehet dictater. Az Every találta ki, és a szójáték tökéletes: diktálsz az AI-nak, közben kicsit diktátor is vagy. Különösen most. A Monologue (az Every diktáló appja) kontextusra figyel: látja a képernyődet, olvassa, mit csinálsz, és formázva írja le azt, amit elhümmögsz.
Rengeteget diktálok, pont a Monologue-ot használom. Könnyebben ugrálok a feladatok között, és nyugodtabban tudom átadni a kontextust, mint amikor le kellene gépelnem mindent. Ehhez a hírlevélhez is diktálva adom az utasításokat. Nehéz átállni arról a szokásról, hogy írásban interaktálunk a számítógéppel, de egyre jobban ráéreztem az ízére. Próbáljátok ki ti is!
Matt Van Horn cikke egyébként az egyik legjobb Claude Code összefoglaló, amit a héten olvastam, rengeteg praktikus tipp van benne a voice-on túl is.
x.com · @danshipper
Dan Shipper (Every CEO) szerint 2026-ban a termékcsapat két ember: egy kalóz (pirate) és egy architect. A kalóz vibe kódol, gyorsan szállít, a terméket end-to-end felelősséggel építi. Az architect a kalóz által felfedezett felületből skálázható, megbízható rendszert rak össze: szintén vibe kódolva, de lassabban, átgondoltabban. Egy architect több kódbázison is dolgozhat párhuzamosan, szóval nem kell minden termékhez full-time.
A 1337 csapaton belül is így dolgozunk sokszor. Megy elöl valaki, töri az utat, keresi az izgalmas megoldásokat. A társ megy utána rendbe tenni, ha érdemes. Szerintem sokat fogjuk még látni ezt a felosztást.
x.com · @karpathy
Annyira gyors a tempó az AI fejlesztésben, hogy a problémák nem onnan érkeznek, ahonnan várjuk. Ezen a héten pár szinttel mélyebbről jött a baj, ahová kevesen figyelnek.
A litellm egy Python csomag, amit havonta 97 millióan töltenek le, és rengeteg AI projekt függ tőle. Valaki kompromittálta a legfrissebb verzióját a PyPI-n (a Python csomagok központi boltjában). Egy mezei pip install litellm elég volt ahhoz, hogy a háttérben SSH kulcsokat, cloud hitelesítőket, adatbázis jelszavakat, API kulcsokat és kriptopénztárcákat lopjon bárki gépéről. Egyetlen csomag, amire a fél AI világ épít, és egyetlen fertőzött verzióval bárki gépéről mindent el lehetett volna lopni.
A mérgezett verzió kb. 1 órán át volt fent. Azért bukott le, mert egy fejlesztőnél a támadás kód elfogyasztotta a RAM-ot és összeomlott a gépe. Karpathy megjegyzése: ha a támadó nem vibe kódolta volna a támadást, napokig vagy hetekig észrevétlen maradhatott volna. Az, hogy véletlenül bukott le, ijesztőbb, mint maga a támadás. Karpathy ezért kezd inkább LLM-mel "yoinkolni" (kimásolni) a szükséges kódrészleteket, mint vakon telepíteni csomagokat.
every.to · @every
Holnap (március 26) nyílik az Every Plus One waitlistje: az Every csapat tagjainak saját ügynökeihez, skilljeikhez lehet hozzáférést kapni. (Nézzétek meg a képet, az Every brandje mindig zseniális.)
Az első bemutatás Austin Tedesco-é, az Every growth leadjéé. Részletes cikket írt a Montaigne nevű ügynökéről, ami Stripe-ot, PostHog-ot, Slack-et, Notion-t, Figma-t olvas párhuzamosan, 80+ skillel. Az agent azért nélkülözhetetlen, mert energiát szabadít fel a nehéz döntésekhez. Mire összeszeded az információt, amit egy döntéshez kell, addigra nincs erőd dönteni.
Tedesco behozott egy fontos szempontot is, ami a saját tapasztalatommal nagyon rezonált: "A rendszered fejlesztése csábító, mert haladásnak érződik. De 5 óra múlva nincs semmi kézzelfogható, és a rendszer is csak 5%-kal lett jobb." Ismerős?
x.com · @signulll
A de Young múzeumban San Franciscóban, a Monet és Velence kiállítás mellett az Anthropic felállított egy írógépet. Begépeljük a gondolatunkat, a Claude válaszol, papíron. A név egybeesés (Claude Monet, Claude AI) adta az ötletet, de ami igazán érdekes, az az élmény maga.
@signulll fogalmazta meg a legjobban: itt az érzés volt a lényeg, és ez érződik minden porcikájában. Más szög, más interakció.
Jövő héten folytatjuk.
@PawelHuryn végigkövette az Anthropic összes kiadását február 1-től március 23-ig: 73 release 52 nap alatt. Februárban még voltak szünetek a kiadások között. Március 9-től szinte minden nap szállítanak: Code Review, Channels, Dispatch, Computer Use, egymás után.
Néhány kiemelés a hétből:
Cowork Dispatch (@felixrieseberg): üzenj a telefonodról a Claude-nak, gyere vissza kész munkához. Egy háttérben futó, állandó asszisztens a gépeden, amihez a telefonod a távirányító.
Claude Code auto mode (@claudeai): új üzemmód, kevesebb kézi jóváhagyás, gyorsabb iteráció.
Computer Use: a Claude képernyőfelismeréssel navigálja és használja az asztali alkalmazásainkat. Megmutatjuk, mit kell csinálni, és csinálja.
Skills blog + Skilljar kurzusok: az Anthropic hivatalos útmutatója skillek teszteléséhez, méréséhez, finomításához. A skillek lesznek a Claude Code legfontosabb építőkövei.
Magam is próbálom folyamatosan kipróbálni az újdonságokat, azon dolgozom, hogy jelezzen a pipeline, ha valami érdekes jön. De rengeteg idő tud elmenni azzal, hogy folyamatosan új funkciókat tesztelgetsz, és közben a meglévőeket nem használod ki rendesen a munkádra. Ez is egyfajta dopamin csapda. Félelmetes tempó, majdnem lekövethetetlen. Nem lennék az OpenAI helyében.