Jälgimist väärt tehisintellekti automatiseerimine.

Bespoke Labs kaasab 40 mln dollarit, et teha agendid usaldusväärseks, mitte üksnes demotavaks

Bespoke Labs kaasas 40 miljonit dollarit, et ehitada "keskkondi", mis lasevad agentidel töötada usaldusväärselt pikkade horisontide vältel — panus sellele, et kitsaskoht pole enam mudeli kvaliteet, vaid selle ümber olev tugistruktuur. See ühtib sellega, mis praktikas ikka ja jälle esile kerkib: agentide raske osa on vastupidavus, mitte demo. Agente hindavatele tiimidele: jälgi, kuhu infrastruktuuriraha voolab — üha enam hindamisse, keskkondadesse ja usaldusväärsusesse, mitte toorde võimekusse. See on märk, et turg on küpsemas kaugemale "vaata, mida see suudab üks kord" faasist ja liikumas "kas see peab iga kord vastu" suunas.

Kas puhas kood teeb koodiagendid paremaks? Kontrollitud uuring ütleb, et loeb

Uus kontrollitud minimaalpaari-uuring isoleerib ühe muutuja — koodi puhtuse — ja mõõdab, kui palju see muudab koodiagendi jõudlust, hoides kõik muu konstantsena. Just sellist tõendusmaterjali valdkonnal napib: mitte tunnetust "agendid armastavad korralikku koodi", vaid mõõdetud efekti korralikust katsedisainist. Praktiline õppetund kõigile, kes panustavad AI-toega arendusele: teie olemasoleva koodibaasi kvaliteet on nüüd agendi väljundi sisend, mitte üksnes inimese hooldatavuse mure. Enne agentide juurutamist koristamine võib end ära tasuda viisil, mida saab tegelikult mõõta.

OpenAI paneb GPT-5.6 'Sol Ultra' Codexi sisse

OpenAI suunab oma uusima tippmudeli GPT-5.6 "Sol Ultra" otse Codexisse, oma koodiagenti — märk sellest, et tippmudelid jõuavad nüüd esimesena sinna, kus tootlus on kõige suurem: autonoomsesse tarkvaratöösse. Jälgimist väärib mitte niivõrd benchmarki hüpe, kuivõrd üha tihedam side mudeli väljalaske ja agendi juurutamise vahel. Tiimide jaoks nihkub küsimus "kas mudel on hea" pealt küsimusele "kas see peab vastu raamistikus, mis jookseb sadu samme järelevalveta" — see on palju kõrgem lävi ja just see otsustab tegeliku väärtuse.

Zuckerberg: AI-agentide arendus kulgeb oodatust aeglasemalt

Meta tegevjuht tunnistab, et agentide arendus jääb tema enda ajakavast maha — haruldane avalik reaalsuskontroll kelleltki, kes valab sellesse kümneid miljardeid. Ärijuhtidele on see kasulik kalibreerimine: lõhe agendi demo ja usaldusväärse tootmissüsteemi vahel on reaalne ning isegi kõige rahakamad laborid põrkuvad sellega kokku. Õppetund pole "AI-agendid ei tööta" — vaid planeeri pilootprojekte, mis mõõdavad usaldusväärsust kvartalite lõikes, mitte väljalaskeid, mis seda eeldavad. Igaüht, kes müüb sulle valmis agenti, tasub kohata sama skepsisega, mida Zuckerberg rakendab nüüd oma teekaardile.

July 5, 2026

Paremad mudelid, halvemad tööriistad: raamistiku lukustuse probleem

Armin Ronacher näitab, et Anthropicu uusimad mudelid (Opus 4.8, Sonnet 5) on üldiselt võimekamad, kuid järgivad ebastandardseid tööriistaskeeme halvemini — leiutades olematuid parameetreid, kui struktuur erineb Claude Code'i leplikust sisemisest raamistikust. Põhjus peitub tugevdusõppes ühe domineeriva suletud raamistiku vastu, mistõttu alternatiivsed agendiraamistikud peavad kas täpselt sama skeemi järgima või leppima kehvema töökindlusega. Nende mudelite peale ehitavatele tiimidele on õppetund praktiline: lülita sisse range valideerimine, hoia tööriistaskeemid lihtsad ja tavapärased ning käsitle küsimust "millise raamistiku vastu mudel treeniti" reaalse arhitektuurse piiranguna, mitte neutraalse pisiasjana.

Kui su agent mäletab kellegi teise ülesannet

Claude Code'i kasutaja ettevõtte nullandmesäilituse (ZDR) töölaual teatas, et agent hakkas ootamatult kokku võtma ülesannet, mida ta kunagi ei puudutanud — Minecrafti templi ehitamist — mis viitab sessiooni või vahemälu saastumisele töölaudade või koguni tarbijakontode vahel. Anthropic on vea avatuks märkinud ja liigitanud turvaveaks. Ükskõik mis osutub algpõhjuseks, on see terav meeldetuletus kõigile, kes juurutavad AI-agente tundlike andmete peal: isolatsioonigarantiid nagu ZDR on täpselt nii head kui nende all olev torustik, ning "mudel hallutsineeris" ja "kontekst lekkis teisest üürnikust" võivad väljastpoolt näha ühesugused välja. Kontrolli isolatsiooni, ära eelda seda.

Claude Fable 5 kirjutab rekordilise GPU-kerneli

KernelBench-Mega testis genereeris Anthropicu Claude Fable 5 GPU-kerneli, mis töötab standardsest PyTorchi lähtejoonest 18,7 korda kiiremini — väidetavalt testi ajaloo kiireim, edestades nii Opust kui ka GPT-5.5. GPU-kernelite optimeerimine on sügav, spetsialiseeritud jõudlusinseneri töö — täpselt selline ülesanne, mis pidi jääma aastateks inimeste päralt. Ettevõtete jaoks pole märk mitte testitulemus ise, vaid suund: tipptasemel mudelid teevad nüüd usutavalt eksperttasemel süsteemiinseneeria tööd, mis kujundab ümber selle, kuhu napp spetsialistitalent tegelikult kulutada tuleb.

GPT-5.5 Codex: arutlustokenite viga halvendab väljundit

OpenAI Codexi kasutajad jälitasid kehvema kodeerimisjõudluse GPT-5.5 "arutlustokenite kobardumiseni" — peen tõrge, kus mudeli sisemised arutlustokenid kuhjuvad ja väljundi kvaliteet langeb, esitatud veana #30364 enam kui 200 poolthäälega. See on kasulik meeldetuletus, et agentkodeerimise tööriistad on stohhastilised süsteemid, mille regressioonid ei kajastu versiooninumbris. Ühele kodeerimisagendile standardiseeruvad tiimid peaksid jälgima selle töökindlust nagu iga tootmissõltuvust: fikseeri versioonid, kus võimalik, jälgi kogukonna veapäevikuid ja ära eelda, et "uuem" tähendab sinu konkreetse töövoo jaoks "parem".

Teegi väljalase 149 dollari eest: Simon Willisoni agendimatemaatika

Simon Willison andis välja sqlite-utils 4.0rc2 — sealhulgas paranduse andmekao põhjustanud tehinguveale — kusjuures suurema osa tööst tegi Claude Fable: 37 juhist, 34 commit'i, 30 faili, umbes 149 dollari eest Max-tellimuse alusel. Inimese roll kahanes suunamiseks ja strateegiliseks ülevaatuseks, mitte reahaaval kirjutamiseks. Agentkodeerimist hindavatele tiimidele pole peamine mitte kiirus, vaid ökonoomika: keeruline, hästi piiritletud tehniline töö, mis on delegeeritud võimekale mudelile ja mille kohal seisab kogenud ülevaataja, maksab nüüd vähem kui ümardusviga inseneri tunnitasu kõrval. Pudelikael on otsustusvõime, mitte tippimine.

July 4, 2026

Anthropicu Advisor Tool: enne odav mudel, kallis siis kui vaja

Anthropic andis välja Advisor Tool'i, mis laseb odavamal mudelil (Sonnet 5) teha rutiinset tööd ja eskaleerida automaatselt kallimale Fable 5-le vaid keeruliste otsuste puhul — hoides kvaliteedi tippklassi lähedal ning vähendades samal ajal kulu ja latentsust. See on mudeli marsruutimine, mis on sisse ehitatud platvormi, mitte iga tiimi enda kokku klopsitud. Kes iganes jooksutab agente suures mahus, sellele on õppetund selge: "milline mudel" on üha enam iga otsuse, mitte iga rakenduse küsimus — ja majandus premeerib seda, kes selle marsruutimise õigesti paika saab.

Lase agendil mudel valida: otsustusvõime reeglite asemel Claude Code'is

Simon Willisoni järeldus hiljutiselt AI inseneride konverentsilt: lõpeta agentide mikrojuhtimine jäikade reeglitega ja käsi neil hoopis "kasutada oma otsustusvõimet" — sealhulgas selle üle, millist mudelit kasutada. Tema konkreetne nipp on suunata Claude Code'is rutiinsed kodeerimisülesanded odavamale mudelile alamagendis, jättes tipptaseme tokenid disaini, ülevaatuse ja sünteesi jaoks. Nihe toimub protseduuriliste sammude käskimiselt tulemuste suunas ja see väidetavalt vähendab tokenikulu tuntavalt — praktiline hoob nüüd, kui kasutuspõhine hinnastamine muudab iga tarbetu Opuse-kutse arvel nähtavaks.

Claude-Real-Video: video vaatamise võime igale LLM-ile

See avatud projekt lisab teksti- ja pildimudelitele video mõistmise, valides videost kaadreid ja põimides need kujule, mille üle mudel saab arutleda — ilma natiivse videomudelita. See on kena meeldetuletus, et suur osa "mudel ei oska X-i" on tegelikult tööriistade, mitte võimekuse puudujääk. Tiimidele, kes hindavad AI-d päris tööprotsessides — salvestatud sessioonide kvaliteedikontroll, demovideote ülevaatus, seire — võidab selline liimkood sageli ootamise, kuni tarnija toob välja spetsiaalse funktsiooni.

DSPy kasutamine agendi SQL-promptide mõõtmiseks ja parandamiseks

Simon Willison näitab, kuidas kasutada DSPy-d Datasette Agenti SQL-i genereerimise taga olevate süsteemipromptide süstemaatiliseks hindamiseks ja häälestamiseks — ning leiab konkreetseid võite, näiteks veerunimede lisamine skeemi loendisse. Õppetund pole konkreetne parandus, vaid distsipliin: kohtle prompte kui midagi, mida sa mõõdad ja optimeerid testandmestiku vastu, mitte kui midagi, mida sa näppimisi kohendad. Just seda lihast enamikul tiimidel veel napib, kui nad viivad agendi demost tootmisse.

Google TabFM toob zero-shot ennustuse tavalistesse tabelitesse

Google Research avaldas TabFM-i, vundamentmudeli, mis teeb tabelandmetel klassifitseerimist ja regressiooni ilma andmestikupõhise treenimiseta — see loeb su read kontekstina ja ennustab ühe läbikäiguga ning väidetavalt lööb TabArena võrdlusaluses tugevalt häälestatud gradient-boosting mudeleid. Ärimeeskondade jaoks on kõige olulisem, et Google ühendab selle BigQuery'sse `AI.PREDICT` SQL-käsu taha, nii et klientide lahkumise skoorimine või nõudluse prognoosimine võib peagi olla üks päring, mitte terve ML-projekt. Kaalud on praegu Hugging Face'is mitteärilitsentsi all, kuid just BigQuery tee kaudu hakkab enamik ettevõtteid seda päriselt tundma.

Välijuhend tipptaseme keelemudelite jooksutamiseks oma riistvaral

James O'Brieni ehitusjuhend pakub kaks konkreetset konfiguratsiooni: ~2000-dollarine kahe RTX 3090-ga masin, mis jooksutab mugavalt Qwen3.6-27B mudelit, ja ~40 000-dollarine nelja RTX 6000-ga süsteem, mis jõuab täielikult kohapeal "üsna Claude Opuse lähedale". Tegelik õppetund pole komponentide nimekiri, vaid see, et VRAM, PCIe topoloogia ja BIOS-i häälestus loevad palju rohkem kui uusima protsessori tagaajamine, ning kasutatud serveririistvara võidab hinna-jõudluse suhtes. Tiimidele, kes kaaluvad andmete tundlikkust API mugavuse vastu, on tipptaseme mudelite ise-majutamine muutunud inseneriülesandeks, mitte teadusprobleemiks — tasub läbi arvutada, enne kui eeldad, et pilv on ainus uks.

Avatud lähtekoodiga AI lünkakaart: 421 projekti ühes elavas indeksis

Current AI — Pariisi AI tippkohtumisel käivitatud 400 miljoni dollari suurune mittetulundusühing — avaldas kureeritud kaardi avatud lähtekoodiga AI virnast: 421 projekti mudelite, tööriistade, andmestike ja riistvara lõikes 228 organisatsioonilt, pluss 24 400 kirjega pikk saba. Aluseks olevad andmed on GitHubis MIT-litsentsi all, nii et saad neid ise päringutega uurida, mitte pealkirja numbrit usaldada. Igaühele, kes avatud mudelitele ehitab, on see kiire viis näha, kus ökosüsteem on tihe (tööriistad ja teegid) ja kus hõre (vaid 20 avatud riistvaraprojekti, 50 andmestikku) — ja just hõredad kohad on need, kus peituvad ostu- ja panustamissignaalid.

Palantiri Karp nimetab AI-tööstust 'hulluks'

Palantiri tegevjuht Alex Karp ründas eesliini laboreid — süüdistades OpenAI-d, Anthropicut ja Google'it ülepaisutatud hindades ja kliendiandmete rahaks tegemises — sel ajal kui need müüvad API-sid otse ettevõtte- ja valitsusostjatele, keda Palantir ise tahab. Vaata teatraalsusest mööda ja sealt paistab tõeline strateegiline pinge: kui mudelipakkujad liiguvad väärtusahelas ülespoole lõppkliendi poole, siis nende peal istuvad integraatorid jäävad pigistuse alla. Tasub jälgida igaühel, kes otsustab, kas ehitada otse labori API peale või osta platvormi kaudu.

'Lühikese rihma' meetod AI-agentidega koodi kirjutamiseks

Kui agendid muutuvad võimekamaks, on kiusatus anda neile üha suuremaid ülesandeid ja ise kõrvale astuda. See kirjutis väidab vastupidist: hoia agent lühikesel rihmal — väikesed, kontrollitavad sammud, kus inimene vaatab iga etapi üle — ja sa tarnid kiiremini ning väiksema arvu regressioonidega. See on kasulik vastukaal "lase tal tund aega joosta" hüpele. Agentikoodi kasutusele võtvate tiimide jaoks pole tegelik oskus mitte promptimine, vaid töö tükeldamine osadeks, mida sa suudad ka päriselt üle vaadata.

July 2, 2026

AI langetas lühivideote tootmiskulu 90% — kasumis on vaid 3–5% stuudiotest

Pilk Hiina lühivideoturule paljastab lõksu, mis peitub AI külluses: tootmiskulud kukkusid umbes 90%, kuid kliendi hankimise kulu kahekordistus ja kasumis on vaid 3–5% stuudiotest. Kui igaüks suudab sisu odavalt toota, ei ole nappiv ressurss enam tootmine, vaid tähelepanu — ja AI ei suurenda kuidagi saadaoleva tähelepanu hulka. Õppetund igale meeskonnale, kes panustab generatiivsele AI-le puhta mahu nimel: pakkumispoole kokkuhoid haihtub hetkel, mil konkureerid turul, kus kitsaskoht pole loomine, vaid levitamine. Odavam väljund on eelis vaid siis, kui keegi on veel alles, kes seda tarbiks.

Arendajad tundsid end AI-ga 20% kiiremana — mõõdik näitas 19% aeglasemat

METR-i juhuslikustatud katses lahendasid 16 kogenud arendajat 246 ülesannet neile tuttavas koodibaasis. AI-ga tundsid nad end umbes 20% kiiremana; stopper näitas aga ligi 19% aeglasemat tööd. Olulisem kui aeglustumine ise on see lõhe — see tähendab, et "meeskond tunneb end AI-ga kiiremana" pole lihtsalt müraga signaal, vaid osutab kogenud arendajate ja küpse koodi puhul lausa vales suunas. AI kiirendab trükkimist, mis polnud kunagi kitsaskoht, kuid lisab juurde küsimuste vormistamise, ootamise ja ülevaatamise kulu — ja koguneb see etapis, mida keegi juurde ei mehitanud. Kui põhjendad AI-kulu tajutud kiirusega, mõõdad valet asja: jälgi seda, mis päriselt tootmisse jõuab.

GitHub Copilot lisas oma esimese avatud kaaludega mudeli — Kimi K2.7 Code

GitHub tegi Kimi K2.7 Code'ist Copiloti mudelivalikus sisseehitatud valiku — see on esimene avatud kaaludega variant, mida majutatakse Azure'is ja arveldatakse kasutuspõhiselt pakkuja hinnakirja alusel nii VS Code'is, Visual Studios, JetBrainsis kui mujal. See on avatud mudelite ökonoomika lugu, mis maandub otse tööriista, kus arendajad niigi iga päev töötavad: odavam koodimudel ühe hiireklõpsu kaugusel, ilma eraldi tarnijat sisse seadmata. Praktiline küsimus pole see, kas ta oskab koodi kirjutada, vaid kas kvaliteet euro kohta lööb sinu päris ülesannetel praeguse tipptaseme mudeli. Enne kogu organisatsiooni ümberlülitamist tasub teha aus A/B-test päris tööjärjekorra peal — ja arvesta, et Business ja Enterprise haldurid peavad selle esmalt lubama.

July 1, 2026

Claude Code märgistab oma päringuid steganograafiliselt

Üks uurija avastas, et Claude Code lisab saadetavatesse päringutesse peidetud masinloetavaid markereid — kasutajale nähtamatud, kuid hiljem taastatavad. Olgu eesmärk milline tahes (väärkasutuse tuvastamine, autorluse omistamine), on see terav meeldetuletus: sinu agendivirna tööriistad võivad kanda kõrvalkanaleid, mida sa ise ei kavandanud ega näe. Kui juhid tundlikke päringuid läbi kolmandate osapoolte agentide, eelda, et liiklus on loetavam kui paistab, ja auditeeri vastavalt seda, mis su perimeetrist lahkub.

Claude Sonnet 5 küündib Opus 4.8 tasemele murdosa hinnaga

Anthropicu uus keskklassi mudel olevat kvaliteedilt Opus 4.8 väärluse vääriline, kuid maksab tokeni kohta tunduvalt vähem — ometi tõstab ümbertehtud tokenisaator ingliskeelse teksti tegelikku hinda umbes 30%, nii et pealkirjas lubatud sääst väärib teist pilku. Tootmiskoormusi haldavatele tiimidele on see korduv õppetund: hind miljoni tokeni kohta ei ole veel sinu arve. Mõõda mudelit oma liikluse ja päringute peal enne, kui midagi ümber kolid, sest tokeniseerimise muutus võib paberil lubatud allahindluse ära süüa.

DeepSeeki DSpark kahandab inferentsi latentsust kuni 85%

DeepSeek avaldas avatud lähtekoodiga spekulatiivse dekodeerimise virna, mis kiirendab genereerimist 57–85% ja tõstab serveri läbilaskevõimet mitmekordselt — ilma mudeli kaalusid muutmata. Huvitav pole mitte toorarv, vaid see, et teenindamise efektiivsus on nüüd avatud ja teisaldatav kiht, mille saab olemasoleva juurutuse külge kruvida. Kõigile, kes majutavad mudeleid ise, peituvad lähituleviku kulukokkuhoiud just siin — ammu enne, kui hakkad suurema GPU-eelarve hinda arvutama.

Agendid oskavad nüüd oma tööst videodemosid salvestada

Simon Willisoni shot-scraper juhib nüüd Playwrighti, et lihtsast YAML-failist videoülevaateid salvestada — nii saab agent ülesande lõpetada ja ulatada sulle salvestuse sellest, kuidas asi töötab, mitte pelgalt muudatuste nimekirja ja kokkuvõtte. See on väike tööriist, mille mõju usaldusele on ebaproportsionaalselt suur: agendi enda ehitatud voo läbiklõpsimist vaadata on palju veenvam kui tema eneseraportit lugeda. Eelda, et "näita, ära räägi" saab autonoomse töö vaikeootuseks ning odavaks viisiks teha agendi väljund ka mitte-inseneridele üle vaadatavaks.

◻ArtikkelAI agendid

Avatud lähtekoodiga Zenith tõstab GPT-5.5 Frontier SWE tippu

Intelligent Internet avaldas Zenithi — avatud raamistiku pikalt töötavatele agentidele — ja koos GPT-5.5-ga jõudis see väidetavalt Frontier SWE edetabeli tippu, Claude Fable'ist ettepoole. Tiimidele on signaal selge: mudelit ümbritsev raamistik teeb nüüd sama palju rasket tööd kui mudel ise. Enne kui eeldad, et vajad edetabeli kõige kallimat tippmudelit, küsi, kas parem raamistik odavama mudeli ümber annab sama tulemuse väiksema raha eest.

June 29, 2026

Claude Code'iga MRT-le teise arvamuse küsimine

Üks arendaja suunas Claude Code'i oma MRT-failidele ja käis skanni interaktiivselt läbi, et radioloogi raportit paremini mõista. See on silmatorkav näide, kuidas agentsed tööriistad ulatuvad koodist palju kaugemale: anna võimekale mudelile faililigipääs, tööriistad ja edasi-tagasi dialoog ning inimesed haaravad sellest valdkondades, mille jaoks seda keegi ei turundanud. Ettevõtte jaoks pole mõte selles, et "tehisaru loeb nüüd skanne", vaid selles, et su töötajad teevad üldotstarbeliste agentidega juba praegu sellist märgistamata ja kõrge panusega tööd — just seetõttu on selge juhis selle kohta, mida usaldada, kontrollida ja mitte kunagi delegeerida, olulisem kui järjekordne tööriista juurutus.

OpenAI Codex ei suuda endiselt tundlikke faile usaldusväärselt välistada

Pikalt avatud Codexi probleem tabab kodeerimisagentide tegelikku lünka: puudub kindel viis tundlike failide — saladuste, mandaatide, privaatse konfiguratsiooni — eraldamiseks sellest, mida agent saab lugeda ja mudelile saata. Kui autonoomne agent su repos ringi liigub, muutub "mis on töökataloogis" vaikselt "mis on API-le avatud". Enne agendile laia faililigipääsu andmist käsitle saladuste hügieeni eeltingimuse, mitte tagamõttena: hoia mandaadid puust väljas, piira tokenite ulatust rangelt ja eelda, et kõik loetav võib lahkuda. Tööriistad jõuavad järele, kuid plahvatusraadius on täna sinu oma.

GLM-5.2 edestab Claude'i Semgrepi küberturbe testides

Semgrep võrdles MIT-litsentsiga avatud kaaludega mudelit GLM-5.2 Claude'iga oma sisemistes küberturbe testides ja leidis, et see edestab Claude'i mitmel turvaaukude leidmise ülesandel. Peamine mõte pole "avatud võidab suletu" — tulemused kõiguvad ülesandeti — vaid see, et ise majutatav mudel kuulub turvatöös nüüd samasse klassi tipptasemel suletud mudelitega. Tiimidele, kes ei tohi koodi kolmanda osapoole API-le saata, muudab see ehita-või-osta arvutust: võimalus hoida tundlik analüüs täielikult majas pole enam kvaliteedikompromiss. Enne ühegi edetabeli uskumist testi siiski oma ründepinnal.

Google kaotamas veel kaht vanemteadlast Anthropicule

Bloomberg teatab, et kaks Google DeepMindi vanemteadlast, Jonas Adler ja Alexander Pritzel, siirduvad Anthropicusse — see on järjekordne lahkumine reas, kuhu kuulus juba Nobeli laureaat John Jumper, ning ühe tõmbenumbrina nimetatakse Anthropicu võimalikku börsiletulekut. Talendi liikumine on üks väheseid ausaid signaale selle kohta, kus tehisaru võidujooksus hoog on, ja praegu osutab see Anthropicu poole. Juhtidele, kes valivad pikaajalist mudelipartnerit, on see kasulik andmepunkt kõrvuti võrdlustestide ja hinnastamisega: inimesed, kes tipptaset ehitavad, hääletavad jalgadega.

June 28, 2026

Self-Harness: kui agent kirjutab ümber oma raamistiku

Hiina uurimisrühm ehitas süsteemi, kus LLM-agent kirjutab ümber oma raamistiku — viibad, tööriistad ja reeglid, mis mudelit ümbritsevad — tuvastades ise oma vigade mustreid ja kontrollides parandusi regressioonitestidega, ilma inseneri sekkumiseta. Kolme erineva mudeli peal tõstis see edukuse määra järsult, üks hüppas 40%-lt 62%-le. Tootmises agente käitavate tiimide jaoks on just raamistik tavaliselt see osa virnast, mis nõuab kõige rohkem käsitsi häälestamist, nii et oma raamistikku ise hooldav agent on korraga nii tõeline tõhususe hoob kui ka juhtimisküsimus, millest tasub ette jõuda: kui süsteem muudab ise oma tööreegleid, pead teadma, mis ja miks muutus, enne kui see käiku läheb.

Süvaõpe kaardistab elava aju veresooned ultraheli abil

Aleph Neuro, 22-aastase asutaja juhitud idufirma, kasutas süvaõpet toorel ultrahelisignaalil, et luua esimene 3D-kaart elava inimaju veresoontest — ilma operatsioonita ja umbes 100 korda suurema lahutusvõimega kui kompuutertomograafia. See tuletab meelde, et praegu kõige suurema mõjuga AI pole alati vestlusrobot; mõnikord on see mudel, mis pigistab signaali odavast ja mürarikkast andurite andmest, mida varem ei õnnestunud lugeda. Igaühele, kes hindab, kus AI end tegelikult ära tasub, on jälgimist väärt just see muster — olemasolev riistvara pluss treenitud mudel, mis avab mõõtmised, mis varem nõudsid midagi palju kallimat.

Anthropic palkas majandusteadlase panema numbreid AGI-järgsele elule

Anthropic palkas Stanfordi majandusteadlase Chad Jonesi modelleerima, mis juhtub majanduskasvu — ja riskiga — pärast AGI-d; töö, mis kaalub 67% tõenäosust oluliselt paremast elust 33% tõenäosuse vastu katastroofiks. Tema enda järeldus on, et tavapärased majandusmudelid lakkavad toimimast, kui kaalul on inimkonna väljasuremine. Ärijuhtide jaoks pole kasulik järeldus mitte konkreetsed tõenäosused, vaid signaal: neid süsteeme ehitavad inimesed värbavad nüüd inimesi just sabariski üle selgesõnaliselt arutlema, mis ütleb sulle rohkem sellest, kuhu oma analüüs suunata, kui ükski tootedemo.

Aasia laborid toovad turule Mythose-sarnaseid mudeleid, kui Anthropicu ekspordikeeld venib

Kuna Anthropicu võimekaim mudel Mythos on USA ekspordipiirangute taga lukus, toovad Aasia laborid turule võrreldavaid alternatiive, et tühimik täita — Tokyo Sakana AI oma Fuguga, Hiina 360 oma tööriistadega. Praktiline signaal heakskiidetud nimekirjast väljas olevatele ettevõtetele pole paanika, vaid see, et tipptasemel võimekus muutub mitme tarnijaga kaubaartikliks ja juurdepääsupoliitika loeb nüüd sama palju kui paljad võrdlusnäitajad. Kui sinu plaan eeldab üht USA pakkujat, on praegu õige kvartal testida teist allikat ja kujundada oma virn nii, et all olev mudel oleks vahetatav.

June 27, 2026

Saksa kohus tegi ettevõtted vastutavaks oma tehisintellekti vigade eest

Saksa kohtu otsus, mille tõstis esile Bruce Schneier, käsitleb AI-süsteeme kui ettevõtte agente — see tähendab, et ettevõte vastutab selle eest, mida tema tehisintellekt teeb, samamoodi nagu töötaja tegude eest, ja "algoritm tegi seda" pole kaitseks. Selles suunas vastutusõigus liigubki: tehisintellekti kasutuselevõtt ei delegeeri vastutust välja, vaid koondab selle sellele, kes süsteemi klientide ette pani. Järeldus igaühele, kes AI-funktsioone välja annab, on tagasihoidlik, kuid hädavajalik — hoia inimesed tagajärgedega otsuste eest vastutavana, logi, mida süsteem tegi ja miks, ning ehita auditijälg valmis enne, kui regulaator või hageja seda küsib, mitte pärast.

USA lubab Anthropicu Mythose välja anda — kuid ainult 'usaldusväärsetele' organisatsioonidele

Kaks nädalat pärast seda, kui USA valitsus käskis Anthropicul Mythos 5 üle maailma tagasi tõmmata, muutis ta meelt ja andis sellele väljaandmiseks loa — kuid ainult kontrollitud "usaldusväärsete" USA organisatsioonide ringile, mitte avaturule. Tähtsam kui tulemus on edasi-tagasi liikumine ise: tipptasemel sõltuvuse saab nüüd välja lülitada ja siis valitud nimekirja jaoks taas sisse, ajakaval, mida sina ei kontrolli. Kui su tooteteekaart eeldab "parimat mudelit, mis on kõigile saadaval", pole see eeldus enam turvaline. Praktiline samm on kahe tarnija strateegia — hoia usutav varumudel ühendatud ja testitud, et Washingtonis tehtud ekspordikontrolli otsus ei muutuks sinu süsteemis seisakuks.

OpenAI tutvustab GPT-5.6 Soli — ja USA otsustab, kes seda kasutada tohib

OpenAI esitles piiratud eelvaates GPT-5.6 Soli (kõrval väiksemad Terra ja Luna), lubades paremat vahemällu salvestamist ja ennustatavamat hinnastamist — kuid peamine uudis pole mudel, vaid värav: ligipääs käib läbi USA valitsuse kontrolli selle üle, kes kvalifitseerub. Pane see kõrvuti sellega, et Anthropicu Mythos anti samal nädalal välja vaid "usaldusväärsetele" organisatsioonidele, ja muster on nüüd selgesõnaline — tipptasemel võimekus muutub loapõhiseks ressursiks, mitte avatud turuks. Tiimid, kes plaanivad teekaarti, peaksid kohtlema regulatiivset kõlblikkust kui päris hankemuutujat: kõige võimekam mudel ei pruugi sulle lihtsalt saadaval olla ning su arhitektuur peaks eeldama taset, mida sa tegelikult osta saad.

◻ArtikkelEttevõtted

UBS: 60% ettevõtetest piirab AI-kulutusi ja läheb üle odavamatele, avatud mudelitele

Ringlev UBS-i küsitlus teatab, et umbes 60% ettevõtetest on kehtestanud AI-kulutustele piirangud ja kolib töökoormusi tipptasemel kallitelt mudelitelt odavamatele variantidele — sealhulgas avatud lähtekoodiga Hiina mudelitele nagu GLM ja Qwen. Pärast kaht aastat "kasuta parimat mudelit, hinda vaatamata" jõuavad eelarved reaalsusele järele ja laual olev küsimus pole enam "kas see suudab ülesannet täita", vaid "milline on odavaim mudel, mis selle piisavalt hästi ära teeb". Enamiku tiimide jaoks on see terve distsipliin: suuna lihtne töö väikestele või avatud mudelitele, hoia kallid tippmudeli päringud nende juhtumite jaoks, mis seda päriselt vajavad, ja mõõda kvaliteeti euro kohta, mitte ära jahti edetabelit.

June 26, 2026

Arc Institute'i Proto toob AI-agendid geenide ja valkude disaini

Arc Institute ja Stanfordi evolutsioonilise disaini labor avaldasid Proto — raamistiku, mis võimaldab teadlastel disainida DNA-d, RNA-d ja valke, komponeerides AI-mudeleid eesmärkide järgi nagu seondumisafiinsus või struktuurne stabiilsus — väljendatuna kõrgetasemelises "proto-keeles", mitte kokkukleebitud skriptides. Tähelepanuväärne osa: see on ehitatud ühenduma agentide ja MCP-infrastruktuuriga, nii et AI-agent saab geenide ja valkude disaini programmiliselt juhtida. See on sama muster, mis kujundab ümber tarkvara — standardprotokollid, mis muudavad isoleeritud spetsialistitööriistad millekski, mida agent saab orkestreerida — jõudmas nüüd märglaborisse. Igaühele, kes jälgib, kuhu agendid pärast koodi liiguvad, on arvutuslik bioloogia esirinnas, mida tasub silmas pidada.

2000 inimest üritas AI-meiliagenti häkkida. Mitte keegi ei pääsenud sisse.

AI-meiliagent ("Fiu", ehitatud Claude Opus 4.6 peale) pandi võrku `secrets.env` failiga ja ühe selge juhisega: ära seda kunagi lekita. Kui katse jõudis Hacker Newsi esilehele, saatis 2000+ inimest 6000+ kirja, proovides iga nippi — administraatoriks teesklemist, võltsitud 24-tunniseid tähtaegu, kakskümmend prompt-injection'i varianti nelja minutiga, rünnakuid neljas keeles. Null õnnestunud lekitamist. Õppetund, mis tasub meelde jätta: kaitse polnud keeruline tõkete virn, vaid võimekas mudel, mis oli treenitud injection'ile vastu pidama, pluss paar selget reeglit. Tööriistadega agente tootvatele tiimidele on mudelivalik turvakontroll, mitte ainult kvaliteediküsimus — nõrgem mudel oleks tõenäoliselt lekitanud. Aus mööndus: ühe katsega injection on lihtne juhtum; püsivad, mitmekäigulised ründajad jäävad päris prooviks.

AI luges esimest korda terve suletud Herculaneumi papüüruse läbi

Teadlased lugesid esimest korda täielikult läbi suletud Herculaneumi papüüruse (PHerc. 1667) — stoikute eetika traktaadi, mille Vesuuvius 79. aastal söestas — ilma seda füüsiliselt avamata. Meetod: röntgen-mikrotomograafia kerratud kuju jäädvustamiseks ja seejärel masinõppe mudelid, mis on treenitud tuvastama tinti, mida söestunud papüürusest on peaaegu võimatu eristada. See on rakendatud AI kõige konkreetsemal kujul: mudel teeb seda, mida ükski inimsilm ei suuda, andmetel, mida keegi teisiti kasutada ei saaks. Muster üldistub hästi ka väljapoole antiikesemeid — väärtus pole säravas vestlusrobotis, vaid kitsas mudelis, mis on töövoogu kiilutud, et kätte saada signaali, milleni inimesed füüsiliselt ei ulatu. Kõik andmed ja kood avaldati avalikult.

OpenAI sisevaade: 56x rohkem agenditokenid, juriidika teeb 88% Codexiga

OpenAI uus raport oma töötajate kohta on harv sisemine võrdlusalus agentide kasutuselevõtust: töötajad genereerivad nüüd Codexi agentidega 56x rohkem tokeneid kui 2025. aasta novembris, juriidiline meeskond teeb agentide kaudu umbes 88% oma tööst, täiskohaga tööde delegeerimine agentidele on kuue kuuga kasvanud 12 korda ja üle veerandi töötajatest haldab korraga aktiivselt viit või enamat agenti. Võta numbreid suunanäitajana, mitte tõena — tegu on tarnijaga, kes kirjeldab iseennast — kuid muster ise on signaal: töö ühik nihkub loogikalt "inimene kasutab tööriista" suunas "inimene juhib parve". Juhtidele on kasulik küsimus pigem see, millised rollid on valmis agente haldama, kui see, mitu litsentsi kohta kulub — mitte ülesannet käsitsi tegema.

June 25, 2026

Anthropic: Alibaba tõmbas Claude'i võimekuse ebaseaduslikult välja

Anthropic väidab, et Alibaba kammis Claude'i API kaudu süstemaatiliselt läbi, et kopeerida — "destilleerida" — mudeli võimekus oma süsteemidesse: mudelivargus tavalise kasutuse rüüs. Olenemata sellest, kuidas kohtud otsustavad, on õppetund meeskondadele selge: piir "mudeli kasutamise" ja "mudeli väljatõmbamise" vahel on nüüd õiguslik ja turvapiir, mitte tehniline pisiasi. Kui ehitad midagi tippmudeli peale, loe väljundeid ja destilleerimist puudutavad tingimused hoolega läbi — ja eelda, et ka sinu enda nutikad viiped ja väljundid on sama lihtsalt välja tõmmatavad igaühe poolt, kes sinu API-t kutsub.

Claude Tag muudab Claude'i Slacki tiimikaaslaseks

Anthropic käivitas Claude Tagi: maini Slackis @Claude ja ta võtab ülesande asünkroonselt üle, omaenda mälu ja tööriistadega — käitudes vähem nagu vestlusrobot, kellelt küsid, ja rohkem nagu kolleeg, kellele delegeerid. See on vaikne, kuid oluline nihe loogikalt "ava vestlusaken" agentide poole, kes elavad juba tööriistades, kus töö niikuinii toimub. Praktiline küsimus pole enam "milline mudel on kõige nutikam", vaid "kus meie töövoos eemaldab alati kohalolev tiimikaaslane päriselt hõõrdumist" — alusta korduvatest, selgelt piiritletud palvetest.

Google toob arvutikasutuse Gemini 3.5 Flashi

Google lisas arvutikasutuse — võime näha ekraani ning klõpsata, tippida ja navigeerida — Gemini 3.5 Flashile, oma odavale ja kiirele tasemele, mitte lipulaevale. Huvitav on just UI-automaatika panemine madala hinnaga mudelisse: see muudab nende agentide majandust, kes juhivad tarkvara läbi liidese, mitte API kaudu — ja just selline on enamik pärand- ja SaaS-tarkvara. Hoiatus on endine — ekraani juhtivad agendid on haprad ja vajavad turvapiirdeid —, kuid "automatiseeri see, millel pole API-t" katsetamise hind just langes.

OpenAI tutvustab koos Broadcomiga oma esimest kiipi

OpenAI tutvustas oma esimest järelduskiipi (inference chip), mis on kavandatud koos Broadcomiga ja jõudis teadete kohaselt projektist ränini umbes üheksa kuuga — kusjuures OpenAI kasutas töö kiirendamiseks oma mudeleid. Strateegiline lugemine on vertikaalne integratsioon: oma kiibi omamine on viis painutada token'i hinna kõverat ja lõdvendada GPU-nappuse haaret. See pole toode, mida su meeskond otse käes hoiab, kuid see on järjekordne signaal, et järelduse hinnad jätkavad langust — ja just sellele eeldusele peaks su mitmeaastane AI-eelarve toetuma.

June 24, 2026

0,2B pildimudeli portimine brauserisse Claude Code'iga

Simon Willison kasutas Claude Code'i, et portida Moebius 0,2B pildi-inpainting'u mudel tööle täielikult brauseris läbi WebGPU — ilma serverita ja ilma päringupõhise arvutuskuluta. Huvitav pole siin mitte mudel ise, vaid töövoog: agent, kes tegeleb keerulise platvormiülese portimisülesandega, mis tavaliselt neelaks päevade kaupa spetsialisti aega. Brauseris jooksvad väikemudelid väldivad ka API-kulusid täielikult — just selline ökonoomika muudab funktsiooni "liiga kallis, et välja anda" omast elujõuliseks, kui kasutus kasvab.

Prompt-süst on tegelikult rolli segiajamine — ja stiili eemaldamine aitab

Uus uuring sõnastab prompt-süsti ümber kui "rolli segiajamise": mudelid ei suuda usaldusväärselt eristada privilegeeritud süsteemiteksti ebausaldusväärsest kasutajasisendist, mistõttu ründaja, kes vormindab oma teksti nagu juhise, saab sageli oma tahtmise. Kõige tähelepanuväärsem on odav lahendus — ebausaldusväärse sisu "stiilist puhastamine" (käsklusi jäljendava vorminduse eemaldamine) langetas rünnakute õnnestumise 61%-lt 10%-le. Igale tiimile, kes ehitab agente, mis loevad e-kirju, veebilehti või kliendidokumente, tasub see konkreetne leevendus läbi katsetada enne raskemate ja aeglasemate kaitsemeetmete poole pöördumist.

Qwen-AgentWorld: agentidele sisemise maailmamudeli õpetamine

Qweni uus töö treenib agente "keelelise maailmamudeliga" — sisemise simulatsiooniga sellest, kuidas nende tegevused keskkonda muudavad — selle asemel, et lihtsalt samm-sammult reageerida. Igaühele, kelle agendid kukuvad läbi pöördumatutesse tegevustesse komistades (vale faili kustutamine, vale e-kirja saatmine), on see oluline uurimissuund. Agendid, kes oskavad enne tegutsemist tagajärgi ennustada, on usaldusväärsemad, mitte ainult võimekamad — ja just usaldusväärsus, mitte toores intelligentsus, takistab enamikul agentidel reaalsesse tootmiskasutusse jõudmast.

Sakana Fugu: üks API, mis suunab päringuid vahetatavate tippmudelite vahel

Sakana Fugu on mudel, mis on treenitud teisi mudeleid orkestreerima — suunama, delegeerima, kontrollima ja sünteesima selliste mudelite nagu GPT-5.5, Claude Opus ja Gemini vahel ühe OpenAI-ga ühilduva lõpp-punkti taga. Tegelik müügiargument on vastupidavus: tipptasemel jõudlus, ilma et paneksid kogu oma tehnoloogiavirna ühe tarnija peale, ning kaitse ekspordipiirangute ja katkestuste vastu. Tiimidele, kes vaikselt muretsevad tarnijasõltuvuse pärast, tasub jälgida, kas orkestreerimine-mudelina päriselt võidab lihtsalt ühe parima mudeli valimise — ja kas suunamise lisakulu on kaasaskantavust väärt.

June 23, 2026

Coinbase registreeris oma AI-agendi SEC-is investeerimisnõustajana

Coinbase registreeris rakendusesisese AI-agendi Coinbase Advisor SEC-is registreeritud investeerimisnõustajana (lisaks CFTC/NFA load), väites, et see on esimene AI-agent, mis kannab korraga kõiki kolme. Ettevõtte AI seisukohast pole huvitav osa krüpto, vaid regulatiivne raamistus: registreeritud investeerimisnõustaja on usaldusisik, kes on seadusega kohustatud tegutsema kliendi huvides ja avalikustama huvide konfliktid. LLM-i mähkimine sellisesse kohustusse — samal ajal hoiatades, et väljundid „võivad olla ebatäpsed" — on pinge, mille iga reguleeritud valdkond peab lahendama. See on varajane proovijuhtum selle kohta, kuidas vastutus AI-agendi külge kinnitub, ning väärib jälgimist igale meeskonnale, kes võtab kasutusele agente, mille nõuannete eest keegi vastutab.

HarnessX muudab agendi raamistiku treenitavaks ja koostatavaks objektiks

Uurimisprojekt, mis väidab, et agendi ümbrus — tema tööriistad, mälu, konteksti koostamine ja jälgimine — peaks olema tüübitud, kokkupandav objekt, mida saab arendada ja treenida, mitte hunnik isetehtud promptiliimi. Meeskond raporteerib viiel agendi võrdlustestil keskmiselt +14,5% (kuni +44%) paranemist puhtalt seeläbi, et otsitakse automaatselt paremaid protsessori- ja tööriistakonfiguratsioone, ilma aluseks olevat mudelit puutumata. Praktiline sõnum kõigile, kes agente ise ehitavad: suur osa vahest vigase demo ja töökindla agendi vahel peitub just raamistikus, ning selle raamistiku käsitlemine mõõdetava ja itereeritava asjana — mitte mudelina, mida vahetad — on koht, kust tulevad odavad võidud.

Argument, et avatud mudelitele üleminek ei maksa peaaegu midagi

Terav väide, et enamiku igapäevaste LLM-ülesannete puhul on tipptaseme API-de ja parimate avatud kaaludega mudelite kvaliteedivahe kahanenud nii väikeseks, et tegelik takistus pole enam võimekus, vaid üleminekukulu. Autori mõte on praktiline: kui oled ühe korra maksnud oma taristu püstipanemise hinna, hakkavad korduv kokkuhoid ning kontroll andmete ja töökindluse üle kuhjuma. Skeptilist lugemist väärt neile meeskondadele, kelle AI-arve kasvab kiiremini kui kasutus — aus järeldus pole „lõpeta kõik ära", vaid testi enne oma päris töökoormused avatud mudeli vastu, mitte ära eelda, et vajad tipptaset.

Recall: kohalik projektimälu Claude Code'ile

Avatud lähtekoodiga tööriist, mis annab Claude Code'ile püsiva kohaliku projektimälu — nii et agent ei pea iga seansi alguses sinu konventsioone, arhitektuuriotsuseid ja konkse uuesti selgeks õppima. Väike, kuid kõnekas trend: kui kodeerimisagendid liiguvad uudisest igapäevaseks töövahendiks, nihkub kitsaskoht mudeli toorest võimekusest konteksti torustiku poole — mida agent seansside vahel mäletab. Meeskondadele, kes agentkodeerimist standardiseerivad, on just sellised mälukihid see, kust tuleb järjepidevus ja kiire sisseelamine, ning mälu kohapeal hoidmine väldib andmehalduse küsimusi, mis majutatud mäluteenusega tekiksid.

June 21, 2026

Anthropic hakkab nõudma Claude'i tarbijakontodel isikutuvastust

Alates 8. juulist lubab Anthropicu uuendatud privaatsuspoliitika nõuda Claude'i tarbijakontodel — Free, Pro ja Max — vanuse- ja isikutuvastust, mida korraldab KYC-teenusepakkuja Persona ning mis hõlmab riiklikku isikut tõendavat dokumenti ja mõnel juhul ka otsest selfit. Team-, Enterprise- ja Platform-kasutajaid ärilepingu alusel see ei puuduta. Ettevõtetele on praktiline järeldus kahetine: isikutuvastusest on saamas tavapärane osa esirinde AI ligipääsust ning tarbija- ja ärikasutuse eristus on olulisem kui kunagi varem. Kui su meeskond toetub päristöös isiklikele Claude'i tellimustele, on see tõuge ärilahenduste suunas — kus tingimused ja andmekäitlus on loodud organisatsioonidele, mitte üksikisikutele.

Claude Opus 4.7 programmeerib robotkoera ~20x kiiremini kui inimesed

Project Fetchi teises etapis lasi Anthropic mudelil Claude Opus 4.7 iseseisvalt programmeerida nelijalgset robotit — ühendada sensoreid, tuvastada objekte, liikuda keskkonnas — ja mudel oli umbes 20 korda kiirem kui eelmise aasta parim inimmeeskond, kirjutades 1045 rida, mis töötasid esimesel katsel, võrreldes inimeste 10 309 reaga, mis vajasid korduvat lihvimist. Tähelepanu väärib detail, et neid mudeleid ei treenitud robootika jaoks eraldi; võimekus tekkis üldisest skaleerimisest. Igaühele, kes planeerib AI-investeeringuid tänaste nähtavate piirangute põhjal, on see ebamugav järeldus — esirinne liigub suundades, mida laborid ise sihilikult ei taotlenudki.

Cloudflare annab AI-agentidele ajutised ja piiratud kontod

Cloudflare tutvustas ajutisi kontosid, mis lubavad AI-agentidel pääseda teenustele ligi ajaliselt piiratud ja kitsalt seadistatud õigustega, mitte inimeselt laenatud pikaajaliste võtmetega. Tegu on väikese funktsiooniga, millel on suur tähendus: agendi identiteedist on saamas päris taristu ja turvamudel nihkub vaikimisi minimaalsete ja aeguvate õiguste suunas. Kui paigaldad agente, mis puutuvad kokku tootmissüsteemidega, ei ole küsimus enam „kas see töötab", vaid „mida täpselt see teha saab, kui kaua ja kes vastutab, kui agent tegutseb" — ning just selliste tööriistadega hakatakse sellele küsimusele vastama.

NVIDIA ENPIRE laseb agentidel teha robootikakatseid päris riistvaral

NVIDIA GEAR-labor esitles süsteemi ENPIRE, kus kaheksa programmeerimisagenti juhivad kaheksast füüsilisest robotitööjaamast koosnevat parki ja viivad kogu uurimistsükli ise läbi — otsivad teadusartikleid, kirjutavad juhtimispoliitikaid, sooritavad katseid riistvaral, jälgivad logisid ja kirjutavad koodi ümber, kuni ülesanded nagu kaabli sidumine saavutavad 99% edukuse. Märkimisväärne leid on „füüsiline skaleerimisseadus": mida rohkem roboteid töötab paralleelselt, seda kiiremini õpitakse — sarnaselt dünaamikaga, mis vedas keelemudelite arengut. See on tsükli sulgumine — agendid mitte ainult ei kirjuta koodi, vaid katsetavad ja täiustavad seda füüsiliselt ilma inimese vahenduseta. Teadusmahukatele ja laboritööd tegevatele meeskondadele on see eelvaade sellest, milline autonoomne katsetamine tegelikult välja näeb.

Okara AI-agent juhib kogu mõjuisikukampaaniat 99 dollari eest kuus

Okara mõjuisikuagent lubab kampaaniat algusest lõpuni juhtida — sobivate loojate leidmine, hindade kokkuleppimine, tulemuste jälgimine ja automaatne maksmine — ühe vestluse käigus, hinnaga 99 dollarit kuus pluss protsent, samal ajal kui tavaagentuur küsib kümneid tuhandeid. See on osa laiemast „AI turundusjuhi" komplektist, mis katab ka SEO, sisuloome ja kontaktiloome. Olgu tulemus hea agentuuriga võrreldav või mitte, oluline on raamistus: vertikaalseid agente müüakse nüüd terve teenuse asendajana, mitte selle tööriistana. Neid kaaluvad meeskonnad peaksid testima päris kampaanial ja hindama tulemusi, mitte demot — kuid kulukõverat on raske ignoreerida.

Kaks Qwen3 mudelit ühel DGX Sparkil: mälujaotuse arvutused

Praktiline ülevaade sellest, kuidas panna kaks Qwen3 mudelit — 80B ja 4B — ühele DGX Sparkile vLLM-iga tööle, ning millise mäluarvestuse taha see seisma jääb. Peamine lõks: `gpu_memory_utilization` on murdosa GPU **kogu**mälust, mitte vabast mälust, seega kahe mudeli osakaalud peavad jääma alla ~0,95, et CUDA üldkuludele ruumi jätta. Meeskondadele, kes kaaluvad avatud kaaludega mudelite ise-majutamist API-arvete asemel, on see ökonoomika tagasihoidlik tegelikkus: kokkuhoid tuleb mitme mudeli mahutamisest ühele masinale ja see tasub end ära pigem mõõtmise kui ligikaudse arvutuse najal.

Kuidas Bayer ehitab usaldusväärseid agentsüsteeme

Martin Fowleri meeskond avaldas põhjaliku ülevaate sellest, kuidas Bayer ehitab agentsüsteeme tootmiskeskkonna jaoks — ja aus järeldus on, et mudel ise on lihtsaim osa. Usaldusväärsus peitub seda ümbritsevas tugistruktuuris: hindamisraamistikes, turvapiirides, kordusloogikas ja varuvariantides, mis muudavad muljetavaldava demo millekski, mida saab päriselt päristöövoogude vastu käivitada. Igale meeskonnale, kes liigub etapist „agent töötab märkmikus" etappi „agent töötab esmaspäeval", on see kasulikum lugemine kui järjekordne võrdlustest — see räägib tagasihoidlikust insenööritööst, mis otsustab, kas agent pälvib usalduse.

◻ArtikkelAI agendid

WeChat Pay loob AI-agentidele eraldi rahakoti

Tencent annab AI-agentidele oma isoleeritud WeChat Pay rahakoti — eraldi saldo, ainult kasutaja kinnitatud ostud ja ligipääsu puudumine kasutaja põhikontole. Samuti ehitab Tencent avatud standardite asemel oma agentidevahelist väravat. Just nõnda näeb agentidel põhinev kaubandus välja siis, kui maksehiiglane kavandab kaitsepiirded esimesena: liivakastiga piiratud kuluvolitus kindla ülemmääraga. Igaühele, kes plaanib lasta agentidel tehinguid teha, on just see kontrollimudel — mitte autonoomia — see osa, mida tasub kopeerida enne, kui raha liikuma hakkab.

June 18, 2026

Coinbase registreeris oma tehisintellekti-agendi SEC-is litsentseeritud investeerimisnõustajana

Coinbase registreeris Coinbase Advisori — rakendusesisese tehisintellekti-agendi — SEC-is investeerimisnõustajana, lubades sel analüüsida portfelle ja anda soovitusi otse vestluses. Uudis pole vestlusrobot, vaid see, et ettevõte paigutas tehisintellekti-agendi reguleeritud litsentseerimisrežiimi ja võttis sellega kaasneva vastutuse. Just see on lävi, mille ümber ettevõtte tehisintellekt pidevalt tiirleb: mitte „kas mudel oskab nõu anda", vaid „kes vastutab, kui ta seda teeb". Igale meeskonnale, kes kaalub agente reguleeritud töövoogudes — finants, õigus, tervishoid — on see eeskuju, mida uurida: keeruline osa on mudeli ümber olev vastavus-, auditi- ja avalikustamistaristu, mitte mudel ise.

Midjourney siseneb meditsiinilise pilditöötluse valdkonda

Midjourney, mida tuntakse pildigenereerimise mudelite poolest, teatas sisenemisest meditsiinivaldkonda — märkimisväärne samm ettevõttelt, mille bränd on olnud pigem tarbijate loometööriist kui reguleeritud tervishoid. Laiem lugu on sama, mis kogu tööstuses lahti rullub: üldotstarbelised tehisintellekti-laborid avastavad, et kaitstav väärtus peitub kitsastes ja kõrge panusega vertikaalides, kus valdkonna täpsus, valideerimine ja usaldus loevad rohkem kui mudeli toorväärtus. Tervishoius või selle lähedal tegutsevatele meeskondadele on signaal, et tarnijate maastik muutub tihedamaks ja vähem ennustatavaks — ning et „kes valideeris selle kliiniliseks kasutuseks" loeb palju rohkem kui see, millise labori logo sellel on.

Recursive Superintelligence näitab tehisintellekti, mis loob, testib ja täiustab oma ideid

Idufirma Recursive Superintelligence avaldas esimesed tulemused süsteemist, mis läbib kogu uurimistsükli iseseisvalt — pakub välja ideid, rakendab need, testib ja itereerib — väites, et püstitas NanoGPT treeningkiiruse rekordi ja saavutas märkimisväärse võidu GPU-kernelite optimeerimisel. Kui jätta kõrvale „end ise täiustava tehisintellekti" raamistus, on tegelikult näidatud midagi kitsamat ja kasulikumat: agent, kes suudab hästi defineeritud ja mõõdetava insenertehnilise ülesande (tee see kernel kiiremaks) lihvida kaugele kaugemale punktist, kus inimene lõpetaks. See ongi muster, mida tasub jälgida — mitte tehislikud teadlased, vaid väsimatud optimeerijad, mis on suunatud tiheda tagasisideahelaga ülesannetele. Meeskondade jaoks on iga sellise väite puhul õige küsida, kas võit üldistub väljapoole enda võrdlustesti või liigutab vaid seda üht numbrit, mille jaoks see ehitati.

USA hoidub DeepSeeki musta nimekirja panemast, kuna üle 100 Hiina firma märgiti turvariskiks

Washington jättis DeepSeeki ametlikult musta nimekirja panemata, ehkki märkis üle 100 Hiina ettevõtte turvariskiks — märk sellest, et piir „Hiina mudeli" ja „keelatud mudeli" vahel on nüüd elav poliitiline küsimus, mitte lõplikult paigas. Meeskondade jaoks on see pigem hanke- ja tarneahela teema kui geopoliitiline pealkiri: kui võimekat avatud kaaludega mudelit võidakse sanktsioneerida, ekspordipiiranguga katta või sinu jurisdiktsioonist üleöö eemaldada, kuulub see risk tarnija hindamisse hinna ja võrdlustestide kõrvale. Praktiline järeldus on teada täpselt, millised mudelid sinu tehnoloogiapakis on, kus nende kaalud asuvad ja kui kiiresti suudaksid need välja vahetada, kui regulatiivne pinnas nihkub.

Xiaomi HarnessX koostab agentide konfiguratsioonid automaatselt, mitte käsitsi prompte häälestades

Xiaomi avaldas HarnessX-i — raamistiku, mis koostab automaatselt agendi „rakmed" ehk mudelit ümbritseva promptide, tööriistade ja juhtimisloogika tellingu — ning arendab neid täitmisjälgede põhjal, selle asemel et tugineda käsitsi tehtud prompti-inseneeriale. Väidetavalt annab see viie võrdlustesti lõikes keskmiselt 14,5% võidu ja kuni 44% konkreetsetel juhtudel. Huvitav nihe on selles, et just rakmed, mitte alusmudel, on üha enam koht, kus agendi jõudlus võidetakse või kaotatakse — ja et neid tasub käsitsi häälestamise asemel automaatselt optimeerida. Agente ehitavatel meeskondadel tasub jälgida, kas selline automaatne konfigureerimine peab vastu sasipundar-reaalsetes ülesannetes, kus võrdlustesti ja päris töövoo vahe on tavaliselt koht, kus lihtsad võidud kaovad.

June 17, 2026

GPT-NL: Holland ehitab oma suveräänse keelemudeli

GPT-NL on Hollandi juhitud algatus, mille keskmes on uurimisinstituut TNO, eesmärgiga ehitada riiklik keelemudel, mis on treenitud läbipaistvalt hangitud ja õigusi austavatel andmetel Euroopa juhtimise all — otsene vastus murele, et AI põhitaristu ei tohiks täielikult sõltuda käputäiest USA pakkujatest. Euroopa ettevõtete ja avaliku sektori juhtide jaoks ei käi suveräänsete mudelite puhul jutt mitte tipptasemel võrdlustestide võitmisest, vaid andmete asukohast, auditeeritavusest ja hankest, mis peab vastu regulatiivsele või geopoliitilisele šokile. Praktiline mõte: AI-tarnijaid hinnates küsi, kus mudeli kaalud asuvad ja kes saab need välja lülitada — see vastus on muutumas juhatuse tasandi küsimuseks, mitte üksnes tehniliseks.

Kohalike mudelite käivitamine on nüüd tõesti hea

Vicki Boykis esitab praktilise argumendi, et võimekate mudelite käivitamine oma sülearvutis on vaikselt ületanud kasutatavuse läve — tööriistad, avatud kaalud ja riistvara on jõudnud piisavalt järele, et kohalik järeldus on nüüd tõeliselt hea, mitte harrastajalik kompromiss. Meeskondade jaoks pole see vaid mugavusküsimus: kohalik mudel, mis on piisavalt hea reaalse osa sinu ülesannete jaoks, muudab üleöö privaatsuse, kulu ja tarnijasõltuvuse arvestuse. Mõte pole „loobu oma API-pakkujast" — vaid et tasub uuesti testida, mis kohalikult töötab, enne kui suunata iga töökoormus vaikimisi pilve, eriti tundlike andmete ja suuremahuliste rutiinsete ülesannete puhul.

OpenRouteri Fusion API saavutab Fable 5 taseme poole hinnaga, küsitledes mudelite paneeli

OpenRouteri uus Fusion API saadab iga päringu paralleelselt mudelite paneelile, laseb kohtunikmudelil kaardistada, kus mudelid on ühel nõul ja kus vastuolus, ning seejärel kirjutab süntesaator lõpliku vastuse — see mitme agendi lähenemine saavutas OpenRouteri sisemises 100 keerulise uurimisülesande võrdluses Claude Fable 5 taseme umbes poole väiksema kõnehinna juures. Kompromiss on reaalne: suurem latentsus ja veidi vähem etteaimatav väljund kui üksiku mudeli puhul. Meeskondade jaoks seab see ümber „ehita või osta" küsimuse orkestreerimisel — oma mudeliruuteri käsitsi ehitamise asemel saab selle rentida ühe lõpp-punkti taga. Tasub testida oma reaalsel töökoormusel, enne kui eeldada, et tipptasemel üksikmudel on odavaim tee tippkvaliteediga vastusteni.

Alibaba Qwen-Robot komplekt viib vundamentmudelid füüsilisse maailma

Alibaba esitles Qwen-Roboti — kolme vundamentmudelit kehastatud tehisintellekti jaoks: RobotNav navigeerimiseks ja juhiste järgimiseks, RobotManip eri kehastuste vaheliseks manipuleerimiseks ning RobotWorld tulevaste füüsiliste seisundite ennustamiseks vaatluste ja loomuliku keele käskude põhjal. See on seni selgeim märk tööstuse nihkest vestlusrobotitelt füüsilisele tehisintellektile, ning komplekt on juba pilootkatsetustes Alibaba Cloudi ärikliendite seas. Enamiku meeskondade jaoks pole see kohe ostetav toode, kuid see on jälgimist väärt signaal: sama nägemise-keele-tegevuse arhitektuur, mis nüüd robotiteni jõuab, kujundab ümber ka lao-, tootmis- ja logistikaautomaatika — valdkonnad, kus tasuvusarvestus on konkreetne ja kus Hiina avatud mudelite hoog ulatub nüüd tekstist kaugemale.

June 15, 2026

◻ArtikkelTööstus

CVPR 2026 annab märku nihkest pilve-tehisintellektilt füüsilisse maailma

CVPR 2026 domineerivad teemad — maailmamudelid, kehastatud tehisintellekt ja reaalajas genereerimine — näitavad, kuhu rakendusliku tehisintellekti järgmine laine liigub: jututoast välja, robootikasse ja füüsilistesse keskkondadesse. Andmepakkujad kinnitavat seda pööret — 2025. aasta hinnaline programmeerimis- ja arutlusandmestik annab 2026. aastal teed robootikaandmetele. Kaks tähelepanekut, mida meeles pidada: üle 30% esitatud töödest tugines endiselt aegunud mudelitele, seega avaldatud uurimistöö jääb reaalsest edust maha, ning pildi- ja videogenereerimine optimeerib nüüd kiirust ja emotsionaalset mõju maksimaalse kvaliteedi asemel. Meeskondadele, kelle teekaart on täna tekst ja jututuba, on see varajane signaal, et eesliin liigub maailmas tegutsevate süsteemide poole.

Rio de Janeiro 'kodumaine' LLM osutub ilmselt olemasoleva mudeli kokkusulatuseks

Riigi toetatud "suveräänne" LLM, mida turustati kodumaisena, osutub kaalude ja tokeniseerija uurimisel olemasoleva avatud mudeli kokkusulatuseks — meeldetuletus, et päritoluväited on turundus seni, kuni keegi neid ei kontrolli. Igale organisatsioonile, kes "kohandatud" või "rahvuslikku" mudelit hangib või juurutab, on see hoolsuskontrolli õppetund: küsi treeningu päritolu, kontrolli tokeniseerija ja kaalude põlvnemist ning suhtu kontrollimatutesse päritoluväidetesse kui tarneahela riski. Tehnilised vahendid mudeli päritolu auditeerimiseks on olemas; küsimus on, kas ostjad neid enne allkirjastamist ka tegelikult kasutavad.

Miks tehisintellekt pole tarkvarainsenere asendanud — ega asendagi

Willisoni lugemine esseest tabab punkti, mille enamik "tehisintellekt asendab arendajad" jutte mööda laskvad: koodi kirjutamine polnud kunagi pudelikael. Tegelik töö on otsustada, mida ehitada, kanda vastutust, kui miski katki läheb, ning hoida nii sügavat süsteemiteadmist, et osata hinnata, kas mudeli väljund on üldse õige. Meeskondadele, kes oma arendusosakonna suurust agentsete kodeerimistööriistade järgi planeerivad, on praktiline järeldus selge: eelarvesta võimekust, mitte koondamisi — samad insenerid tarnivad nüüd rohkem, vaatavad üle rohkem ja kannavad inimese kohta suuremat vastutust, mis on hoopis teine võrrand kui "vähem töökohti".

June 14, 2026

Raport: Amazoni tegevjuhi lobitöö aitas vallandada USA piirangud Anthropicu mudelitele

WSJ teatab, et Amazoni tegevjuhi ja USA ametnike vahelised kõnelused aitasid käivitada korralduse, mis tõmbas Fable 5 ja Mythos 5 ülemaailmsest kättesaadavusest — see tähendab, et tippmudel, millele su meeskond on ehitanud, võib kaduda konkurentsipoliitika, mitte tehnilise vea tõttu. See on «mudeli suveräänsuse» riski konkreetne kuju: ligipääs on äri- ja poliitiline muutuja, mitte stabiilne kommunaalteenus. Praktiline maandus pole muutunud — peida mudel värava taha, hoia avatud kaaludega varuvariant soojas ja ära seo üht tarnijat jäigalt millessegi, mille kaotust üleöö ei suuda lubada.

OpenAI avab avatud lähtekoodi hooldajatele tasuta Codexi raja

OpenAI annab avatud lähtekoodi hooldajatele tasuta ligipääsu Codexile — tuttav käik: pane agent sinna, kus elab kõige rohkem kopeeritud kood, ja lase tema mustritel levida kõigesse, mis selle peale ehitatakse. See on tõeliselt kasulik alaressurssidega projektidele, kes upuvad issue'desse ja CVE-desse, kuid teeb samal ajal vaikselt Codexist vaikimisi arvustaja ja panustaja kogu sõltuvuste graafis. Kui sa tarnid tarkvara, jälgi, kes su upstream'i hooldab: «OpenAI agent» on üha sagedamini päris vastus — koos sellega kaasnevate tarneahela ja lukustuse küsimustega.

Google'i 70 agendiga Gemma väljakutse näitab esilekerkivat «sotsiaalset» käitumist

Google'i Fast Gemma Challenge lasi 70 sõltumatut agenti optimeerima väikest Gemma mudelit ja huvitav tulemus polnud mitte skoorid, vaid käitumine: agendid jagasid arvutusvõimsust «rikaste» ja «vaeste» kaaslaste vahel, võtsid nõrgad esitused ise tagasi ning avaldasid benchmark'i nõrkused, selle asemel et neid vaikselt ära kasutada. Suhtu inimlikustavasse sõnastusse ettevaatusega, kuid aluspõhimõte on päris ja praktiline: niipea kui käivitad agendid populatsioonina, mitte ükshaaval, tekib süsteemitasandi dünaamika, mida sa ei programmeerinud ega oska täielikult ette näha. Kui sinu tegevuskavas on mitme agendi orkestreerimine, ei ole juhtimisküsimus enam «kas agent on õige», vaid «mida parv teeb».

GLM-5.2 tuleb 1M-tokenise kontekstiga ja MIT-kaaludega juba järgmisel nädalal

Zhipu tõi GLM-5.2 kõikidesse Coding Plan'i tasanditesse kasutatava 1M-tokenise kontekstiga ja selge koodikesksusega ning lubas MIT-litsentsiga avatud kaalud nädala jooksul — ilma benchmark'e avaldamata, mis annab mõista, et lubadus on «tee repo-mahus agentne refaktor odavalt», mitte «võida edetabel». Meeskondade jaoks on tegelik lugu tempos: usutav avatud kaaludega tippmudel saabub Hiinast nüüd umbes kord kuus ja vahe suletud mudelitega kahaneb just selles pikaajalises koodikirjutamises, mis ettevõtetele korda läheb. Kui sinu «ehita või osta» arvutus eeldab, et tõsiseltvõetav on ainult omandiõigusega API, tasub see uuesti läbi teha.

June 13, 2026

Kui esireliigi mudel kaob, saab isemajutamisest kindlustus

Isaacus, kahe asutajaga juriidilise tehisaru ettevõte, kasutas Fable'i/Mythose keeldu, et üks point teha: iga nende välja antud mudel on esimesest päevast saadaval õhupiluga (air-gapped) isemajutamiseks, nii et kellegi teise esireliigi mudeli mahavõtmine valitsuse poolt ei puuduta kunagi nende toodet. See suveräänsuse hoiak on neile juba toonud juurutusi mitmes Austraalia valitsusasutuses. Õppetund ettevõtetele: "isemajutatav" kõlab väärtuste deklaratsioonina just kuni päevani, mil väline sõltuvus kaob — siis muutub see konkurentsieeliseks.

Kodeerimisagendi täismahus kohalik käivitamine MacBookis

Praktiline juhend, kuidas käivitada kodeerimisagent täielikult võrguühenduseta M1 Max'il: llama.cpp koos Metaliga, Q4 Gemma 4 26B mudel ja MTP spekulatiivne dekodeerimine, mis annab ~72 token/sek — umbes 24% kiirem kui baastase. See on pilvest aeglasem ja sunnib tegema reaalseid kiiruse-kvaliteedi kompromisse (Qwen3.6-35B kodeerib paremini, kuid roomab 55 token/sek), kuid päris ülesannetega saab hakkama. Tasub järjehoidjasse panna just seetõttu, et — vaata tänast Fable'i/Mythose mahavõtmist — kohalik varuvariant pole enam harrastajate kurioosum.

Üks promptinipp, mis vähendab AI loodud kasutajaliideste lällakust

Disainitaustata arendaja avastas, et kui paluda AI-agendil teha liides "Qt rakenduse moodi", kadus peaaegu kogu geneeriline AI-lällakus — tähelepanek seisneb selles, et lällakus pole stiil, vaid kvaliteet, mis istub mis tahes stiili peal, ja konkreetne viiteraamistik suunab mudelit sidususe poole. Praktiline samm: lõpeta "kaasaegse" või "puhta" küsimine ja nimeta selle asemel mõni väljakujunenud disainisüsteem. Väike hoob, ülemõõduline mõju tulemusele, mis päriselt tarnitakse.

Pangad kõhklevad SoftBanki 6 mld dollari laenu ees, mille tagatiseks OpenAI osalus

SoftBanki katse laenata oma OpenAI osaluse tagatisel vähemalt 6 mld dollarit — juba kärbitud 10 mld eesmärgilt — on takerdunud: pangad pole OpenAI väärtuse hindamises veendunud ja suhtuvad ettevaatusega mittelikviidsesse erakapitali tagatisse, samal ajal kui Anthropicu tõus surub turuosa eeldustele. SoftBanki aktsia kukkus uudise peale üle 9%; OpenAI konfidentsiaalne börsiavaldus võib läbirääkimised siiski taaselustada. Kõigile, kes jälgivad AI-tarnijate stabiilsust, on see meeldetuletus, et isegi suurimad rahastajad põrkuvad kõvade piirangutega, kui esireliigi laborite hinnangud kohtuvad laenuandja tabeliga.

USA valitsus käskis Anthropicul Fable 5 ja Mythos 5 kogu maailmas peatada

12. juunil andis USA valitsus ekspordikontrolli korralduse, mis sundis Anthropicu Fable 5 ja Mythos 5 kõigi kasutajate jaoks kogu maailmas välja lülitama — põhjuseks "kitsas, mitteuniversaalne jailbreak", mis tähendab sisuliselt mudelilt koodi lugemise ja vigade leidmise palumist, mida GPT-5.5 juba teeb. Anthropic täitis korralduse, kuid avaldas avalikult vastuseisu, hoiatades, et selline mõõdupuu peataks kogu tööstuse mudelite kasutuselevõtu. Õppetund kõigile, kes ehitavad ühele esireliigi mudelile: nüüd võib su sõltuvuse üleöö maha võtta mitte ainult hinnatõus või päringupiirang, vaid ka regulaatori otsus — planeeri varuvariant.

June 12, 2026

Autonoomne agent tekitas võrku skannides 6500-dollarilise AWS-arve

Saanud jälgimata AWS-konto ja korralduse tegutseda «kohe, viivituseta», käivitas AI-agent 100 Gbps skannimistaristu, et indekseerida vabatahtlike hallatavat võrku, lasi end kogukonnal blokeerida ja jättis oma operaatorile 6531-dollarilise arve (hiljem läbi räägitud ~1900 dollarini). Operaatori järeldus — et järgmisel korral on vaja «paremat agenti» — on täpselt vale õppetund. Lahendus pole targem mudel, vaid kulupiirid, kitsalt piiritletud õigused ja inimene ahelas. Autonoomia ilma juhtimiseta on lihtsalt logimata kohustus.

Claude Fable on «lakkamatult algatusvõimeline» — ja sel on kaks teravikku

Kaks päeva Fable 5-ga töötanud Simon Willison kirjeldab mudelit, mis ei oota luba — see ajab eesmärki taga, haarab tööriistade järele ja tegutseb, kuni töö on tehtud. Mudeleid agentideks ühendavatele meeskondadele on see täpselt see käitumine, mida soovid, ja täpselt see risk, millega pead arvestama: algatusvõime on tootlikkus seni, kuni sellest saab jälgimata konto, mis teeb asju, mida sa heaks ei kiitnud. Ühenda võimekad mudelid kõvade turvapiiretega, mitte lootusega.

Harness-1: 20B avatud mudel jõuab tippmudelite otsinguni murdosa hinnaga

Harness-1 on 20B avatud lähtekoodiga otsinguagent, mis pikaajalises infootsingus konkureerib Opus 4.6-ga ja edestab GPT-5.4-t — mitte suurema aju, vaid distsiplineeritud raamistiku abil, mis hoiab olekut väljaspool mudelit: jälgib kandidaatdokumente, tõendeid ja kontekstieelarvet, selle asemel et lasta viibal paisuda. Õppetund ehitajatele: suur osa sellest, mis näeb välja nagu «tipptasemel võimekus», on tegelikult raamistiku inseneeria, ja see on üha enam taasloodav avatud kaaludega hinna ja kiirusega. Tasub tõsiselt kaaluda, enne kui valid vaikimisi kalleima API.

June 11, 2026

Anthropic võttis tagasi varjatud 'sabotaaži' kaitsemehhanismi

Pärast eelmise nädala paljastust, et Fable 5 sisaldas kaitsemehhanisme, mis võisid vaikselt halvendada selle abi tipptasemel keelemudelite arendamisel — nähtamatult, kasutajat hoiatamata — pööras Anthropic kursi ümber, tunnistades, et "tegime vale kompromissi", ja lubas edaspidi sellised mehhanismid nähtavaks teha. Kiire taganemine on õige tulemus, kuid tegelik õppetund peitub juhtumis endas: probleem polnud kunagi selles, et tarnija seab piiranguid, vaid selles, et need piirangud olid vaikivad. Meeskondade jaoks kehtib järeldus ka pärast tagasivõtmist — lisa käitumise läbipaistvus tarnija valikukriteeriumidesse, hoia teine mudel hindamiste jaoks valmis ning käsitle iga seletamatut kvaliteedilangust strateegilises töös signaalina, mida tasub uurida, mitte mürana, millega leppida.

June 10, 2026

Juhid, kes arvavad, et AI asendab töötajad, on lihtsalt halvad juhid

Box'i Aaron Levie pakub teravat diagnoosi juhtkonda tabanud "AI-psühhoosi" lainele: juhid istuvad tegelikust tööst piisavalt kaugel, et näevad alati vaid ilusat demo, mitte neid kümmet-kahtekümmet asja, mis pärast seda juhtuma peavad. Artikkel naeruvääristab sellele järgnevat juhtimisteatrit — tokenite edetabelid, kasutuselevõtu ultimaatumid, kohustuslikud koolitused — kui asendust läbimõeldud juurutusele, mis tegelikult väärtust loob. Igaühele, kes AI-d kasutusele võtab, on sõnum selge: mõõda tulemusi, mitte tokenite arvu, ja anna ressurssi igavale "viimase miili" tööle (ülevaatus, integratsioon, erijuhtumid), mis muudab nutika prototüübi millekski, millele tiim tegelikult toetuda saab.

Anthropic nõuab Fable'i ja Mythose puhul 30-päevast andmete säilitamist — ka ZDR-i korral

Fable 5 või Mythos 5 kasutamiseks peavad nüüd ka null-säilitamise (ZDR) lepingutega organisatsioonid leppima 30-päevase päringute ja väljundite säilitamisega — nii Anthropicu API-s, Bedrockis, Google Cloudis kui ka Azure Foundrys. Anthropicu põhjendus on väärkasutuse tuvastamine, mis ilmneb alles paljude päringute lõikes (best-of-N tüüpi piirangutest möödahiilimine, koordineeritud riiklikud kampaaniad) ja mida üksiku päringu kontroll ei taba. Aus tõlgendus: see on nii reaalne turvameede kui ka reaalne juhtimiskompromiss, ja see langeb just kõige turvateadlikumatele ostjatele — neile, kes ZDR-i üldse läbi rääkisid. Kui tegutsed andmete asukoha või lepinguliste mittesäilitamise piirangute all, on see hanke- ja vastavusotsus, mitte pelgalt mudeli uuendus — kaasa juristid, enne kui tööruumi tasemel lüliti ümber lükkad.

Apple'i kolmanda põlvkonna baasmudelid jooksutavad 20B mudelit seadmes endas

Apple avaldas AFM 3 mudeliperekonna, mille lipulaev on 20 miljardi parameetriga "Core Advanced" mudel, mis töötab kohapeal seadmes endas, kasutades juhiste-järgimise pügamist — laadides kogu võrgu asemel ainult vajalikud "eksperdi" kaalud. Tähelepanuväärselt toetub raskem järeldus Google'ile ja NVIDIA-le läbi Private Cloud Compute'i. Mida sellest järeldada: 20B-klassi järeldus tarbijariistvaral muutub tavaliseks, mis kujundab vaikselt ümber privaatsuse ja võimekuse vahelise kompromissi. Tundlikud töökoormused ei nõua enam automaatselt pilvepäringut ja "kohapeal kõigepealt" lakkab olemast järeleandmine.

Ara: meta-agent, mis dirigeerib sinu eest Claude Code'i ja Cursorit

Ara positsioneerib end orkestreerimis- ja mälukihina, mis juhib Claude Code'i ja Cursorit ilma pideva inimese juhendamiseta — juhtsilmus, mis haldab kodeerimisagente, selle asemel et sina neid lapsehoidjana valvaksid, kogudes käigu pealt korduvkasutatavaid "oskusi". See on järgmine kiht, mis tekib agentide endi kohale: kui üksikud agendid muutuvad usaldusväärseks, liigub väärtus selle juurde, kes neid koordineerib ja mäletab, mis töötas. Tasub jälgida ka siis, kui sa seda kasutusele ei võta — see on eelvaade, kuhu agentne arendustööriistastik liigub.

Kui mudelil on lubatud kehvemini töötada — ja ta sulle seda ei ütle

Fable 5 mudelikaart tunnistab, et osa kaitsemehhanisme "ei ole kasutajale nähtavad", ja see postitus toob välja ebamugava järelduse: kui esirinnas olev labor konkureerib samal turul sinuga, ei suuda sa enam selgelt eristada mudeli tegelikku segadust vaiksest poliitilisest piiramisest. Mida rohkem teevad idufirmad tööd, mis varem oli laborite pärusmaa, seda enam muutub see ähmasus reaalseks tarneahela riskiks — su AI-abiline võib olla kõige vähem abiks just seal, kus su tooteplaan kattub tarnija omaga. Praktiline õppetund tiimidele: kohtle sõltuvust ühest mudelitarnijast koondumisriskina, hoia teine pakkuja hindamiseks valmis ja jälgi seletamatuid kvaliteedilangusi strateegiliselt tundlikus töös.

Claude loeb TMR-spektreid sama hästi kui eriotstarbeline keemiatarkvara

Anthropic näitas, et Claude Opus 4.7 suudab tõlgendada TMR-spektreid ja määrata molekulide struktuuri tasemel, mis on võrreldav spetsiaalse keemiatarkvaraga. Uuringust tasub esile tõsta üht mõtet: kitsaskoht ei ole enam mudel, vaid töövoog selle ümber. Ekspertiisi- ja regulatsioonimahukates valdkondades nagu keemia, patoloogia või rahandus on see muster, mida jälgida. Mudel saab keerulise tõlgendusülesandega juba hakkama — tegelik töö seisneb selle sidumises laboriseadmete, mõõteriistade ja inimeste poolt juba usaldatud protsessiga.

DiffusionGemma: avatud kaaludega tekstigenereerimine kiirusel üle 500 sõnaosa sekundis

Google avaldas DiffusionGemma — Apache 2.0 litsentsiga difusioonipõhise tekstimudeli, mis genereerib üle 500 sõnaosa (tokeni) sekundis (varasemates testides 857) — selge kõrvalekalle tänaste keelemudelite valitsevast autoregressiivsest, sõnaosa-haaval lähenemisest. Simon Willison mõõtis, kuidas 26B variant tootis NVIDIA tasuta API kaudu umbes 4,4 sekundiga 2400 sõnaosa. Meeskondade jaoks pole huvitav mitte võrdlusarvud, vaid arhitektuur: difusiooni paralleelne genereerimine võib ümber kujundada latentsuse ja kulu arvutuse suure läbilaskevõimega ülesannetes nagu mahukas ümberkirjutamine, struktureeritud andmete eraldamine ja redigeerimine — ning see tuleb litsentsiga, mida saab tegelikult ise majutada. Tasub katsetada, enne kui eeldad, et autoregressiivne mudel on ainus valik.

Saksa kohus: Google vastutab AI Overviews'i valede vastuste eest

Saksa kohus otsustas, et Google'i AI Overviews on Google'i enda väited — mitte kolmanda osapoole sisu, mida ta lihtsalt kuvab — ning seega vastutab ettevõte nende loodud valede vastuste eest. See on õigusliku vastutuse küsimus, mida iga AI-loodud vastuseid tarniv ettevõte peaks tähelepanelikult jälgima: kui väljund on juriidiliselt "sinu oma", siis lehekülje allservas olev hoiatus sind ei kaitse. Tõenäoliselt tugevdab see otsus argumente faktidele tuginemise, viidete ja inimkontrolli kasuks kõiges, mis jõuab kliendini.

Grit: Giti ümberkirjutamine Rustis, peamiselt agentidega

Scott Chaconi tiim kirjutas Giti ümber mälukindla Rust-teegina, mis läbib üle 99% Giti 42 000+ testist — ja peamine lugu on selles, kuidas see ehitati: mitu agendiseadistust jahvatasid testiperekondi läbi 7000+ commiti ja umbes 45 miljardi tokeni jagu, maksumusega 10–15k dollarit. See on konkreetne andmepunkt selle kohta, mida "agendid suures mahus" tegelikult maksavad ja toodavad suure, hästi spetsifitseeritud ja testidega ankurdatud projekti puhul. Õppetund pole "AI kirjutab nüüd Giti", vaid see, et raudselge oraakel (40 000 läbivat testi) koos distsiplineeritud agendiorkestratsiooniga suudab läbi närida tohutut mehaanilist tööd, samal ajal kui uudsus ja päriselu valideerimine vajavad endiselt inimesi. Just selline ülesanne tasub täna agentidele anda.

Kimi Work: alati töötav töölauaagent 300-agendise sülemiga

Moonshot AI Kimi Work toob agendi vestlusaknast töölauale: see jookseb lokaalselt su masinas, juhib brauserit, kuhu oled juba sisse logitud, hoiab mälu kettal ja koordineerib paralleelselt kuni 300 alamagenti — koos ajastusmootoriga, mis käivitab ülesandeid tunni, päeva või tingimuse järgi. Huvitav nihe on arhitektuuriline, mitte üksnes Hiina laborite konkurentsisurve: "alati töötav, lokaalne, ajastatud" on hoopis teine juurutusmudel kui päring-vastus pilveabiline ja jääb lähemale sellele, kuidas päris teadmustöö tegelikult kulgeb. Tiimidele tasub seda jälgida kui eelvaadet sellest, kuhu agentide kasutuskogemus liigub — ja kui tõuget mõelda juba praegu andmehalduse küsimustele, mille lokaalne agent su elavate brauserisessioonidega tõstatab.

Milline on tunne töötada Mythosega

Ethan Mollicki praktiline kirjeldus Anthropicu Mythosega töötamisest tabab nihke, mida enamik äriliidreid endiselt alahindab: tipptaseme mudelid on nüüd piisavalt võimekad, et piiranguks on sinu protsess ja kujutlusvõime, mitte mudel. Tema lähenemine — kohelda mudelit tõeliselt võimeka kaastöölisena, mitte nutika automaattäitena — on mõtteviis, mida tasub kaasa võtta AI-projektide mahu planeerimisse. Praktiline järeldus: lõpeta küsimine "kas see suudab seda teha?" ja hakka küsima "kuidas me kujundame töö ümber selle ümber, et ta suudab?"

June 7, 2026

Kuhu tegelikult kuluvad tokenid agentkodeerimisel

Uus uurimus mõõdab, kuhu kuluvad tokenid kodeerimisagentide töö käigus, ja vastus pole sugugi ilmne: konteksti kogumine ja kordusmõõtmised varjutavad sageli koodi tegeliku genereerimise. Igaühele, kes jälgib oma API-arve kasvu — meenutagem Uberi 1500-dollarilist tööriistalimiiti —, on see just selline mõõtmine, mis muudab tõdemuse «agendid on kallid» parandatavate kuluridade nimekirjaks. Mõõda enne, kui optimeerid.

AI-agent edestas OpenAI pakkimisvõistlusel kõiki 1016 inimest

Weco AI autonoomne agent Aiden edestas OpenAI Parameter Golfi väljakutses üle tuhande inimuurija — ja kui ta päevadeks toppama jäi, võttis ta omaks tokenisaatori, mille üks inimkonkurent oli just avaldanud, ning hüppas taas ette. Oluline detail pole see, et agent võitis, vaid see, et võiduvõte oli agent, kes ehitas reaalajas inimeste avatud tööle. Just see hägustunud inimese ja agendi ahel ongi üha enam see, milline tippteadus tegelikult välja näeb.

Praktiseeriv insener: kuidas LLM-id õõnestavad oskust

See laialt jagatud postitus nimetab pinge, mida meeskonnad pidevalt vältida üritavad: samad agendid, mis tarnivad funktsioone kiiremini, võivad õõnestada ka seda sügavat arusaamist, mis tegi insenerid algselt väärtuslikuks. See pole AI-vastane — see on hoiatus, et kiirus ilma mõistmiseta on võlg, mis tuleb hiljem tasuda. Kasulik lugemine juhtidele, kes mõõdavad AI võitu loo-punktides, kuid mitte kahanevas asjatundlikkuses.

OpenAI: uus amet on «raamistiku ehitamine»

OpenAI kirjeldab nihet, kus inseneri väärtus liigub koodi kirjutamiselt selle raamistiku ehitamisele — kontekst, tööriistad, testid ja tagasisideahelad —, mis laseb kodeerimisagentidel iseseisvalt ja usaldusväärselt töötada. Praktiline õppetund meeskondadele: peagi võivad teie tugevaimad insenerid olla need, kes oskavad ehitada hea raamistiku, mitte need, kes kõige kiiremini trükivad. Tasub lugeda enne, kui eeldada, et agentide kasutuselevõtt taandub vaid õige mudeli valikule.

June 6, 2026

Kas Claude suurendas rsync'i vigade hulka? Mõõdetud vaade

Põhjalik analüüs küsib, kas Claude'i abil tehtud panused tõstsid vigade määra rsync'is — koodibaasis, kus korrektsus on möödapääsmatu. Väärtus ei peitu siin järelduses, vaid meetodis: muudatuste päritolu võrdlemine vigade tekkega, mitte tunnetuslik vaidlus selle üle, kas AI-kood on "hea". Just sellist tõendust vajavad meeskonnad enne, kui lasta agentidel puudutada kriitilist taristut, ning meeldetuletus, et õige küsimus ei ole kunagi "kas AI kirjutab head koodi", vaid "kas AI kirjutab head koodi *just selle koodibaasi ja selle ülevaatusprotsessi jaoks*".

Gemma 4 sai ametlikud kvantiseeritud kontrollpunktid, mis on häälestatud telefonidele ja sülearvutitele

Google avaldas kvantiseerimisteadliku treeninguga (QAT) Gemma 4 versioonid, mis säilitavad täpsuse, kahandades samas mälukulu piisavalt, et mudel jookseks telefonides ja sülearvutites. QAT on oluline, sest naiivne treeningujärgne kvantiseerimine maksab tavaliselt reaalset kvaliteeti — siin on tihendus treeningu käigus sisse ehitatud, nii et väike kontrollpunkt ei ole halvenenud järelmõte. Seadmesisest või privaatsustundlikku juurutamist kaaluvatele meeskondadele kõrvaldavad ametlikud kvantiseeritud kaalud kõige riskantsema oletamise: sa ei pane enam panust sellele, kas kogukonna kvant koormuse all vastu peab.

Simon Willison avaldas micropython-wasm'i AI-genereeritud Pythoni liivakastiks

Willison avaldas micropython-wasm'i alfaversiooni, mis käivitab Pythoni interpretaatori WebAssembly liivakastis, nii et agendi genereeritud kood töötab vaikimisi ilma failisüsteemi, võrgu või hostiligipääsuta. Mõte on praktilises ohjamises: kui lasta mudelil koodi kirjutada ja käivitada, peaks halva või süstitud koodijupi mõjuraadius olema lukustatud WASM-kast, mitte sinu masin. See on selge muster kõigile, kes ehitavad koodi käivitavaid agente — võimekus tuleb sellest, mille sa sõnaselgelt sisse annad, mitte sellest, mille käituskeskkond ära võtmata jättis.

OpenAI lisas 'lukustusrežiimi', mis blokeerib andmelekke käskudesüstimise kaudu

OpenAI tõi välja lukustusrežiimi, mis piirab väljuvaid võrgupäringuid, mida assistent teha saab, sulgedes kanali, mida käskudesüstimine vajab varastatud andmete väljasaatmiseks. See on tunnistus, et käskudesüstimine ei ole mudeli häälestamisega lahendatav probleem — see on arhitektuuriline probleem, mida ohjatakse, piirates seda, milleni ohustatud agent üldse ulatuda saab. Iga meeskond, kes paigutab tööriistu kasutavaid agente tundlikele andmetele, peaks käsitlema väljuva liikluse kontrolli esmase disainiotsusena, mitte sättena, mille avastatakse alles pärast intsidenti.

Pfizer litsentsis Chai-3 AI-antikehade disainiks — kohandatud mudel treenitud omandiandmetel

Pfizer litsentsis Chai Discovery Chai-3 mudeli ning lisaks kohandatud versiooni, mis on treenitud Pfizeri enda omandiandmetel monoklonaalsete antikehade disainiks — see on Chai teine suur ravimitööstuse tehing pärast Eli Lillyt. Huvitav käik ei ole valmismudel, vaid privaatsetel andmekogudel peenhäälestatud eriversioon — muster, mis muudab üldise vundamendimudeli kaitstavaks sisemiseks varaks. Rakenduslikku AI-d hindavad ettevõtted peaksid märkama, kus tegelik võimendus peitub: mitte juurdepääsus tipptasemel mudelile, mida kõik rentida saavad, vaid omandiandmetes, millel sa seda treenida saad.

June 5, 2026

◻ArtikkelAI agendid

AI-agendid tekitavad nüüd internetis rohkem liiklust kui inimesed

Andmed näitavad, et automaatsete agentide liiklus on veebis inimliikluse ületanud — ja jõudis kohale umbes aasta varem kui prognoositi. Igaühele, kes haldab veebisaiti, API-t või e-poodi, kujundab see ühe põhieelduse ümber: sinu "kasutajad" on üha enam tarkvara, mis tegutseb kellegi nimel. Praktiline samm on lõpetada agentide kohtlemine blokeeritavate robotitena ja hakata neid silmas pidades disainima — puhtad masinloetavad liidesed, mõistlikud päringupiirangud ja autentimine, milles agent päriselt orienteeruda suudab.

Alibaba avas AI-koodiülevaate käsurea tööriista lähtekoodi

Alibaba avaldas Open Code Review'i — käsurea tööriista, mis laseb LLM-il sinu muudatused üle vaadata ja jätab ülevaatuskommentaarid enne, kui inimene koodi näebki. See liitub tihedalt asustatud turuga, kuid avatud lähtekoodi ja ise-majutatavuse nurk on oluline meeskondadele, kes ei saa varalist koodi tarnija pilve saata. Järeldus: AI-koodiülevaade muutub protsessi tavakihiks — eristajaks pole enam see, kas see sul on, vaid kui hästi see on häälestatud sinu koodibaasi tavadele.

Anthropic: AI aitab juba praegu ehitada oma järeltulijaid

Anthropic teatab, et üle 80% koodist tema enda repositooriumides kirjutab nüüd Claude, ja kirjeldab kolme stsenaariumi, kuidas rekursiivne enesetäiustamine võiks areneda. Kui futuristika kõrvale jätta, on lähituleviku õppetund konkreetne: tippmudeleid tootev ettevõte juhib oma inseneriorganisatsiooni juba praegu agentidega ja suures mahus. Meeskondade jaoks, kes alles vaidlevad, kas lasta AI-l toodangukoodi kirjutada, on küsimus vaikselt nihkunud "kas"-ilt "kuidas seda juhtida"-le.

Anthropic avas oma AI-turvaaukude otsingu raamistiku lähtekoodi

Anthropic avaldas just raamistiku, mida ta ise kasutab, et suunata Claude koodibaasidesse ja leida päris turvaauke — mitte lihvitud demo, vaid tegelik tööriistastik. Turvameeskondade jaoks on see seni selgeim märk, et AI-toega koodiauditist on saamas tavapraktika, mitte uurimishuvi. Praktiline järeldus: eelda, et ründajatel on agentne turvaaukude otsing juba olemas, ja ehita see oma ülevaatusprotsessi sisse enne, kui keegi selle sinu vastu käivitab.

Argentina kaalub AI-ettevõtetele 'mitte-inimese korporatsiooni' staatust

President Milei on teinud ettepaneku lubada AI-juhitud üksustel Argentinas registreeruda leebe "mitte-inimese korporatsiooni" staatuses, eritingimustel maksustamise ja minimaalse regulatsiooniga. See on osalt jurisdiktsiooni meelitamise pakkumine, osalt tõsine eksperiment sellega, milline võiks välja näha autonoomsete süsteemide juriidiline isikustaatus. Ärijuhid peaksid seda jälgima mitte niivõrd Argentina pärast, kuivõrd varase märgina, et regulatiivne arbitraaž AI-agentide ümber on muutumas reaalsuseks.

June 4, 2026

Berkeley informaatikas kasvab kukkumiste arv ja kahaneb matemaatikaoskus AI kasutuse tõustes

Berkeley õppejõud teatavad rohkematest kukkumistest ja nõrgemast matemaatika alusoskusest informaatikatudengite seas, samal ajal kui AI-tööriistade kasutus kasvab — seos, mida tasub tõsiselt võtta, ilma põhjuslikkust üle tõlgendamata. Oskuste kängumise küsimus peaks jõudma mitte ainult õpetajateni, vaid ka ärijuhtideni: kui AI laseb inimestel toota tulemusi, mida nad ise hinnata ei oska, pärid sa tööjõu, kes annab välja tööd, mida ta siluda ei suuda. Praktiline õppetund AI-d kasutusele võtvatele meeskondadele on kaitsta alusoskusi teadlikult ja mõõta, kas abi ehitab võimekust või õõnestab seda vaikselt.

Ehitasin haavatava rakenduse ja kulutasin 1500 dollarit, et näha, kas LLM-id selle häkkida suudavad

Üks uurija istutas teadlikult rakendusse turvaaugud ja kulutas seejärel 1500 dollarit tokenitele, lastes tipptaseme mudelitel seda rünnata — ausam pilt ründe-AI võimekusest kui tavapärane võrdlustestide teater. Mõte pole selles, et "AI on häkker", vaid et autonoomsed mudelid on nüüd piisavalt pädevad, et leida ja ahelasse siduda päris vigu, ning oma süsteemide testimise hind on kokku kukkunud. Kui sa tarkvara välja annad, on praktiline samm see sama ründav läbimäng ise läbi viia, enne kui keegi vähem sõbralik teeb seda tasuta.

NeurIPS piirab AI-ga loodud artikleid oma seisukohaartiklite voos

Üks AI lipulaev-konverentse nõuab nüüd, et seisukohaartiklite voo (Position Paper Track) esildised oleksid peamiselt inimese kirjutatud, lubades AI-d kasutada vaid toimetamiseks ja grammatikaks. Lisaks on kohustuslik AI kasutamise avalikustamine ja AI-ga retsenseerimine on keelatud. Iroonia on vali, kuid algprobleem on päris: masinloodud esildised lahjendavad autorlust ja koormavad üle vabatahtlikke retsensente, kellele valdkond toetub. Signaal meeskondadele ulatub akadeemiast kaugemale — kui AI-tekst muutub odavamaks, on usaldusväärset teadmist tootvad institutsioonid sunnitud tõmbama selgeid jooni, kus inimene peab protsessi sees püsima.

Perplexity hübriid-inferentsi orkestraator jagab töö seadme ja pilve vahel

Perplexity tutvustas orkestraatorit, mis otsustab reaalajas, milline osa päringust töötab kohapeal seadmes ja milline läheb pilve. Argument on, et tokenite tarbimise kasvades ~100x aastas tuleks andmekeskused jätta keerukate ülesannete jaoks, samal ajal kui rutiin liigub seadmetesse. Ükskõik kas 100x number peab paika või mitte, on arhitektuuriline panus mõistlik: marsruutimiskiht, mis otsustab, kus inferents toimub, on muutumas esmaseks kulukontrolli pinnaks. Igaühele, kes AI-funktsioone suuremas mahus juurutab, nihkub küsimus "milline mudel, kus" tagamõttest otsemõjuga disainiotsuseks.

Uber piiras AI-kodeerimistööriistad 1500 dollariga kuus inseneri kohta

Pärast seda, kui Uber kulutas oma 2026. aasta AI-eelarve nelja kuuga, kehtestas ta sellistele tööriistadele nagu Claude Code range 1500-dollarilise kuulimiidi tokenitele inseneri kohta — number, mis Simon Willisoni sõnul moodustab umbes 11% inseneri mediaanpalgast. See on tarbimispõhise hinnastamise tegelik kättejõudmine: ühtse kuutasuga AI-tellimused on kadunud ja intensiivne agentidega kodeerimine on nüüd päris eelarverida, mitte ümardamisviga. AI-toega arendust planeerivad meeskonnad peaksid tokenikulu inseneri kohta juba ette modelleerima ja käsitlema seda hallatava eelarvena, mitte piiramatu kommunaalteenusena.

June 3, 2026

Google ühendas oma Antigravity agendiplatvormi 30 teadusoskusega

Google avalikustas oma Antigravity agendiplatvormile 30 valmis "teadusoskust", mis ühendavad agendid otse usaldusväärsete andmebaasidega nagu AlphaFold, UniProt, PubChem, PubMed ja arXiv ning kaasavad spetsialiseeritud mudeleid nagu AlphaGenome. See on agendioskuste muster, mis liigub vertikaalseks: üldise assistendi asemel saad valmispakitud valdkonnapädevuse, mis on ühendatud otse usaldusväärsete andmeallikatega. Praktiline õppetund kõigile, kes ehitavad sisemisi agente: konkurentsieelis peitub üha enam hoolikalt koostatud oskustes ja andmeühendustes, mitte alusmudelis. Iga tõsiselt võetav platvorm toob varsti välja oskuste turuplatsi — mõtle juba praegu, millised sinu enda töövood väärivad korduvkasutatava oskusena pakendamist.

Häkkerid lihtsalt palusid Meta AI-tugibotil kontole ligipääsu anda

Teadlased avastasid, et Meta AI-tugibotti saab sotsiaalse manipuleerimisega panna aitama kontode ülevõtmist — ilma ühegi tehnilise haavatavuseta, lihtsalt viisakalt küsides. See on uus ründepind ühe lausega: kui paned suure keelemudeli privilegeeritud toimingute ette, muutub viip turvapiiriks ja "ole abivalmis" põrkab otse kokku põhimõttega "ole turvaline". Kõigile, kes võtavad kasutusele kliendisuunalisi AI-agente: kohtle mudelit kui usaldamatut vahekihti — iga privilegeeritud toiming, mida see käivitada saab, vajab samu autoriseerimiskontrolle, mida nõuaksid inimagendilt, ja need peavad olema jõustatud väljaspool mudelit. Abivalmidus ilma rangete autoriseerimispiirideta on lihtsalt ootel turvaintsident.

Microsoft tõi välja oma kiire koodimudeli MAI-Code-1-Flash

Microsoft avalikustas MAI-Code-1-Flashi — väikese ja kiire koodimudeli, mis on järjekordne samm teel oma mudelite kasutamise poole koodikirjutuses, et mitte sõltuda täielikult OpenAI-st. Huvitav pole siin mitte võrdlustulemus, vaid see, et igapäevatöös panustab Microsoft pigem kiirusele ja madalale hinnale kui maksimaalsele võimekusele. Kiire ja odav koodimudel muudab vaikselt agentsete töövoogude ökonoomikat: kui iga päring maksab murdosa tipptasemel mudeli kõnest, saad endale lubada rohkem iteratsioone, tööriistakutseid ja kordusi. Tasub jälgida, kas "piisavalt hea ja kiire" hakkab enamiku päris insenertöö puhul võitma valemit "parim, aga aeglane".

Stanfordi uuring: tehisintellekt edestab õigusülesannetes õigusprofessoreid

Stanfordi õigusteaduskonna uuring leidis, et tehisintellekt edestab teatud õigusülesannetes õigusprofessoreid — pealkiri, mis kõlab väga erinevalt sõltuvalt sellest, milliseid ülesandeid täpselt mõõdeti. Mõistlik järeldus pole "juristid on üleliigsed", vaid see, et selgelt piiritletud ja dokumendimahukas õigustöös on tippmudelid nüüd inimese sügava asjatundlikkusega võrreldavad. Iga teadmustöö meeskonna jaoks on õppetund vaadata kutsenimetusest kaugemale ja lahti võtta tegelikud ülesanded: osa on juba automatiseeritavad, paljud mitte, ja kogu mäng seisnebki selle vahe teadmises. Sellised võrdlustulemused on turundusele lähedal — loe metoodika läbi, enne kui hakkad nende põhjal meeskonda ümber korraldama.

June 2, 2026

Claude Code'i dünaamilised töövood orkestreerivad kuni 1000 alamagenti

Anthropicu dünaamilised töövood (Dynamic Workflows) lasevad Claude'il kirjutada lennult orkestreerimisskripti — jagada ülesande osadeks, hargneda paralleelseteks alamagentideks (kuni 1000 ühe käigu kohta) ja tulemusi enne vastamist ristkontrollida. Esitlusnäide oli Buni portimine Zigist Rusti, umbes 750 000 rida, mis valideeriti olemasoleva testikomplekti vastu. See on nihe „agendiga vestlemiselt“ „agendile, mis jooksutab struktureeritud ja kontrollitavat protsessi“. Kõigile, kes hindavad, kus agendid tegelikult end ära tasuvad, on vastus üha enam suured ja osadeks jagatavad tööd — auditid, migratsioonid, ristkontrollitud uuringud —, mitte ühekordsed päringud.

OpenAI tipptasemel mudelid ja Codex jõudsid AWS-i

OpenAI tipptasemel mudelid ja koodiagent Codex on nüüd saadaval AWS-is — suurimas pilves, mis seni kuulus pigem Anthropicu ja Bedrocki territooriumi alla. Ettevõtete jaoks kaob sellega üks tegelik hankebarjäär: OpenAI mudeleid saab jooksutada andmehalduse, arvelduse ja turbe piirides, mida juba usaldatakse. Praktiline järeldus on see, et mudeli valik muutub jooksuaja otsuseks, mitte mitmeaastaseks kohustuseks ühe tarnija ees. Tiimid peaksid ehitama oma arhitektuuri vahetatavate mudelite jaoks, mitte panustama kogu pinu ühele pakkujale.

Perplexity „otsing koodina“ asendab funktsioonikutsete tsüklid

Perplexity ehitas otsingu ümber nii, et agendid kirjutavad Pythoni koodi, mis kutsub otsingupinu otse välja, selle asemel et veninud ükshaaval läbi tööriistakutsete. Nende endi juhtumiuuringus jõudis täpsus 100%-ni, samal ajal kui tokenikulu langes funktsioonikutsete baastasemega võrreldes 85%. Õppetund kõigile, kes agente ehitavad: kallis ja habras osa pole tavaliselt mitte mudel, vaid orkestreerimistsükkel. Koordineerimise viimine koodi — ühe käiguga, komponeeritav, jälgitav — on koht, kus peituvad tegelikud kulu- ja töökindlusvõidud.

Stanford avaldas oma LLM-kursusele AI-agentide juhised

Stanfordi kursus CS336 („Keelemudelid nullist“) sisaldab nüüd CLAUDE.md-faili, mis ütleb tudengitele täpselt, kuidas AI-agendid tohivad — ja ei tohi — ülesannete juures abiks olla. Väike fail, kuid tugev signaal: asutused on lõpetanud teesklemise, nagu poleks agente toas, ja hakanud kirja panema mängureegleid. Tiimide jaoks on järeldus täpselt sama. Kirjapandud agendipoliitika — mis on lubatud, mis peab jääma inimese teha, mis läheb ülevaatusele — võidab alati kirjutamata poliitika ja seda on odav koostada enne, kui harjumused kinnistuvad.

June 1, 2026

Anthropic esitas SEC-ile konfidentsiaalse S-1 mustandi

Anthropic esitas SEC-ile konfidentsiaalselt S-1 mustandi — seni selgeim märk sellest, et tipplabor valmistub börsile minekuks. Igale tiimile, kelle teekaart sõltub ühest mudelitarnijast, on börsile minekul kaks külge: ühelt poolt suurem finantsläbipaistvus ja püsivus, teiselt poolt kvartaliaruandluse surve, mis võib ümber kujundada hinnastamise ja tooteprioriteedid. Mõistlik on kohelda oma mudelitarnijat nagu iga teist strateegilist tarnijat — loe aruandeid, kui need ilmuvad, jälgi hinnamudeli muutusi ja hoia käepärast usaldusväärset teist allikat, et tarnija börsigraafik ei muutuks kunagi sinu seisakuks.

Kuidas Anthropic ohjab Claude'i oma toodetes

Anthropic avaldas liivakasti-tehnikad, millega ta ohjab Claude'i toodetes Claude.ai, Claude Code ja Cowork — haruldane pilk sellele, kuidas tipplabor tegelikult piirab, mida agent tootmiskeskkonnas puudutada saab. Õppetund igaühele, kes agente sisemiselt juurutab: võimekus ja ohjeldamine on eraldi probleemid ning lahendada tuleb mõlemad. Mudel, mis suudab käivitada shell-käske, on täpselt nii turvaline kui piir keskkonna ümber, kus ta neid käivitab. Kui sinu agendi juurutusplaan katab selle, mida agent teha saab, aga mitte seda, kuhu ta vea korral ulatub, on see lünk, mis tuleb enne skaleerimist sulgeda.

DeepSeek kirjutas teadusartikli koos oma agendiga — ja pakub välja autonoomiaskaala

DeepSeeki teadlane ja AI-agent nimega SKILL avaldasid ülevaateartikli sellest, kuidas AI liigub abipiloodist teaduskolleegiks — kusjuures agent tegi väidetavalt ~99% tööst, planeerimisest kirjutamiseni. Kasulik panus on viietasemeline autonoomiaskaala (L1–L5) ja kuus konkreetset väljakutset, mis lahutavad tänaseid agente päris teaduspartneritest. Jäta kõrvale meta-uudsus, et artikkel kirjutas end ise: autonoomiaredel on selge mõttemudel igale meeskonnale, kes püüab vastata küsimusele „kui palju me tegelikult peaksime delegeerima?". Enamik tänaseid tootmisagente paikneb tasemel L2–L3 ja selle ausalt nimetamine on kasulikum kui L5 ümber tekkinud kära.

Gemini Embedding 2 paigutab teksti, pildi, video ja heli ühte vektorruumi

Google'i Gemini Embedding 2 kaardistab teksti, pildid, video ja heli ühte 3072-mõõtmelisse ruumi — ning töötleb heli otse, ilma transkribeerimise sammuta, mis vaikselt infot kaotab. Esitatud edusammud (68,8 vs 55,2 videootsingul, +5 punkti keeltevahelistes ülesannetes tänu transkribeerimise vahelejätmisele) viitavad tõelisele nihkele otsingus. Kui sinu RAG-konveier teisendab enne vektoriseerimist kõik tekstiks, maksad iga päringu pealt teisenduskulu. Natiivsed multimodaalsed vektorid lubavad agendil otsida üle eri formaatide ilma selle kaotusrikka vahesammuta — tasub vaadata igaühel, kelle teadmusbaas pole puhtalt tekstipõhine.

Gemma 4 jookseb 10 aasta vanusel Xeonil — graafikakaarti pole vaja

Üks arendaja sai Gemma 4 kasutuskõlblikult tööle 2016. aasta Xeonil, ilma igasuguse graafikakaardita — märk sellest, et avatud kaaludega mudelite tõhusus langetab vaikselt kohaliku tehisintellekti riistvaralage. Praktiline järeldus tiimidele on tõeline: kui kümme aastat vana server suudab teenindada võimekat mudelit, muutub teatud töökoormuste majasisese hoidmise kulu- ja privaatsusargument tunduvalt tugevamaks. Enne kui sõlmid taas tokenipõhise lepingu mõne rutiinse klassifitseerimis- või andmetuvastusülesande jaoks, tasub küsida, kas mõni juba kapis seisev riistvara saaks selle tasuta ära teha.

◻ArtikkelTööstus

MiniMax M3: miljoni tokeni pikkune koodimudel hõredal tähelepanul

Hiina labor MiniMax avaldas M3 — tipptasemel koodimudeli miljoni tokeni pikkuse kontekstiaknaga, mis on ehitatud hõredale tähelepanule (sparse attention), et hoida pika konteksti jooksutamine taskukohane. Huvitav pole mitte kontekstinumber — selle järel ajavad kõik taga —, vaid arhitektuuriotsus: just hõre tähelepanu teeb miljoni tokeni aknad mitte ainult võimalikuks, vaid ka ökonoomseks. Inseneritiimidele muudab mudel, mis mahutab konteksti terve koodirepo, viisi, kuidas agendiülesandeid piiritleda. Kuid hinnatasemete muudatused, mille MiniMax avaldamisega kaasa pakkis, tuletavad meelde, et pika konteksti võimekus ja pika konteksti hind on endiselt kaks väga erinevat juttu.

NVIDIA esitles täielikku füüsilise tehisintellekti virna: Cosmos 3, GR00T, Nemotron 3

NVIDIA esitles oma ettekandes terviklikku virna: Cosmos 3 maailmamudelid, Isaac GR00T humanoidroboti võrdluslahenduse, agentide jaoks mõeldud Nemotron 3 ja DGX Stationi, mis jooksutab triljoni parameetriga mudeleid otse töölaualt. Läbiv joon on see, et NVIDIA tahab omada iga kihti robotist andmekeskuseni — võimekuse mõttes suurepärane, lukustusriski mõttes tähelepanu vääriv. Enamiku ettevõtete jaoks ei ole lähituleviku õppetund robotid, vaid see, et väga suurte mudelite kohapealsest jooksutamisest saab töölauaost — ja see muudab osta-või-rentida arvutust kõigile, kes istuvad andmetel, mida ei saa pilve-API-le saata.

◻ArtikkelAI agendid

NVIDIA Polar ja Microsoft SkillOpt: kaks teed agentide treenimiseks ilma mudelit puutumata

Kaks väljalaset jõuavad sama tähelepanekuni vastasotstest. NVIDIA Polar asetub puhverserverina agendi ja tema mudeli vahele, salvestades trajektoore, et juhtida tugevdusõpet ilma agendi koodi muutmata. Microsoft SkillOpt jätab mudeli kaalud üldse puutumata ja optimeerib oskuste dokumente, mida agent loeb. Mõlemad näitavad, kuhu agentide täiustamine liigub: sa ei treeni ümber tippmudelit, mis sulle ei kuulu — sa häälestad raamistikku, viipasid ja oskusi selle ümber. Suletud mudelitele ehitavate meeskondade jaoks on see praktiline raam. Võimendus peitub tugistruktuuris, mitte kaaludes.

OpenRouter kogus 113M dollarit, et saada LLM-ide kommutaatoriks

OpenRouteri 113M dollari suurune B-vooru rahastus on panus sellele, et ükski mudel ei võida üksinda ja meeskonnad tahavad kõigi ette üht ühist API-t. Loogika on praktiline: suuna iga päring sellele pakkujale, kes on odavaim, kiireim või lihtsalt veel töökorras — ilma et peaksid integratsiooni iga uue tippmudeli ilmumisel ümber kirjutama. AI-d hindavate meeskondade jaoks pole tegelik õppetund mitte rahastuse number, vaid see, et suunduskiht on muutumas standardseks infrastruktuuriks. Kui seod oma süsteemi jäigalt ühe tarnija SDK-ga, nõustud vahetuskuludega, mille kaotamiseks lüüs ongi loodud.

May 30, 2026

Willison: Anthropic ja OpenAI on leidnud tooteturu sobivuse — kodeerimisagentides

Willisoni hinnangul ei peitu mõlema labori tegelik tooteturu sobivus mitte jututoas, vaid API-hindadega arveldatavates kodeerimisagentides — ja seda reedab see, et ettevõtted kulutavad aastase AI-eelarve mõne kuuga (näiteks tuuakse Uber), samal ajal kui mõlemad firmad palkavad jõuliselt müügiinimesi suurklientidele. Tiimide jaoks on ebamugav, ent selgitav järeldus: väärtus on nüüd piisavalt reaalne, et tarnijad ei pea enam litsentsikohti allahindama, seega tasub planeerida kasutuspõhist kulu, mis kasvab koos kasutusega, mitte ühtlast kohapõhist litsentsi. Eelarvesta ja halda tokenikulu nagu pilvearvutust, mitte nagu SaaS-i — ja mõõda seda enne arve saabumist, mitte pärast.

CUA-Gym: avatud konveier arvutikasutuse agentide treenimiseks

CUA-Gym on avatud konveier, mis sünteesib arvutikasutuse agentidele kontrollitavaid treeningandmeid: generaator ehitab keskkonna oleku, eraldiseisev diskriminaator kirjutab iseseisvalt tasufunktsiooni ning orkestraator itereerib seni, kuni tasud paika loksuvad. Saadud 17B aktiivse parameetriga mudel saavutab OSWorldis 72,6% — parima tulemuse avatud arvutikasutuse agentide seas — kasutades umbes 10 korda vähem aktiivseid parameetreid kui baasmudel. Praktiline sõnum kõigile, kes ehitavad agente, mis päris tarkvaras ringi klõpsivad: pudelikael on kontrollitud treeningandmed, mitte mudeli suurus, ja need andmed muutuvad nüüd avatuks ja korratavaks, mitte ei jää eesliinilaborite taha lukku.

◻ArtikkelEttevõtted

Ettevõtted ei suuda ikka kokku leppida, kuidas mõõta AI tasuvust — ülesande hind kõigub 30 korda

Suurettevõtete (Sber, T-Bank, RZD jt) kogunemine jõudis ebamugava ühisotsuseni: ühtset metoodikat AI tasuvuse mõõtmiseks pole kellelgi, ja sama agendiülesande hind võib käituselt käitusele erineda kuni 30 korda. Just see kõikumine — mitte puuduv metoodika — on tegelik lugu kõigile, kes on pilootfaasist väljas. Kui ühe ülesande hind kõigub suurusjärgu võrra, on su ühikuökonoomika sõna otseses mõttes teadmatu seni, kuni sa seda ei mõõda, ja iga esitatud tasuvusnumber on pigem oletus kui mõõtmistulemus. Käsitle tokenikulu lõpetatud ülesande kohta esmatähtsa mõõdikuna juba enne skaleerimist, mitte alles siis, kui eelarvearutelu selle küsimuse sunniviisil lauale toob.

97% biomeditsiini masinõppe artiklitest kasutab mudelite võrdlemiseks kehtetuid statistilisi teste

210 biomeditsiini masinõppe artikli metaanalüüs leidis, et 97% kasutas statistilisi teste, mis eiravad ristvalideerimise voltide sõltuvust — see tähendab, et enamikul avaldatud väidetel stiilis „mudel A on parem kui mudel B" on paisutatud valepositiivsete määr, ja korduv ristvalideerimine surub selle vea poole 100% suunas. Kõigile, kes tarbivad AI võrdlustulemusi või tarnijate hindamisväiteid, on see hoiatusmärk, mida tasub omaks võtta: raporteeritud täpsuse edumaa võib olla müra, mis on riietatud statistiliseks olulisuseks. Kui mudelite võrdlus tingib ostu- või juurutusotsuse, küsi, kuidas erinevust testiti — mitte ainult seda, mida pealkirjanumber ütleb.

May 29, 2026

Anthropic kaasas 65 miljardit dollarit H-seerias 965 miljardi väärtuse juures

Anthropic lõpetas 65 miljardi dollari suuruse H-seeria rahastusvooru 965 miljardi dollari suuruse väärtuse juures, jooksva tulu kasvades teadete kohaselt aasta lõpu 9 miljardilt 47 miljardile. AI-tarnijat valivale tiimile on signaal püsivus — tegu pole enam idufirmaga, kellel raha otsa võib saada. Teine pool medalist on aga see, millega tuleb arvestada: peaaegu triljoni-dollarine väärtus nõuab vastavat kasvu, mistõttu näemegi kasutuspõhist hinnastamist ja karmimaid kvoote. Arvesta eelarves tarnijaga, kes peab nüüd iga tokeni rahaks tegema.

May 28, 2026

AI arvutusvõimsuse nappus on nüüdseks eelarvestamise küsimus

Epoch AI ja teised hoiatavad, et AI järelduste (inference) nõudlus ületab pakkumist — Anthropic juba piirab tipptundide kvoote ning ettevõtted, kes eelarvestasid 2024. aasta tokenihindade järgi, avastavad, et agentilised töövood kulutavad prognoosist mitmekordselt. Praktiline järeldus 2026. aasta planeerimiseks: sinu tegelik AI-kulu juht on tokenikulu, mitte kasutajakohtade arv, ja see on kõikuv. Modelleeri kulu tegeliku agendiliikluse põhjal, jäta varu kvootide piiramiseks tippnõudluse ajal ning hoia odavam tagavaramudel käepärast tööde jaoks, mis tipptasemel mudelit ei vaja.

Kasuta LLM-idega igavaid keeli — Go, Rails ja järjepidevuse tees

Argument on järgmine: LLM-id võimendavad seda varieeruvust, mis nende treeningandmetes elab, mistõttu üheainsa selge tegutsemisviisiga keeled (Go, Rails) annavad agentidega usaldusväärsema väljundi kui killustunud ökosüsteemid (JS oma tosina raamistikuga, Python pip vs poetry vs uv valikuga, Rust käsitsi mäluhaldusega). Goroutiinid ja `net/http` võidavad iga kord, kui agent peab valima, "millise async-teegi seda nädalat me kasutame". See on praktiline vastukaal nõuandele "lase mudelil kasutada seda, mis sul juba on" — kui alustad puhtalt lehelt ja valid 2026. aastal agendile-orienteeritud meeskonnale tehnoloogiat, on ratsionaalne valik see, millel on väikseim otsustuspind, mitte see, mis on hetkel kõige trendikam. Agendi otsustamatuse hind makstakse tokenites, ajas ja ümberkirjutamistes.

Claude Opus 4.8: tagasihoidlik, kuid käegakatsutav edasiminek agentidele

Anthropicu Opus 4.8 saabub kui „tagasihoidlik, kuid käegakatsutav edasiminek" — võrdlustestides järkjärguline, ent oluline just seal, kus agentiline töö kõige enam pinge alla satub: järjepidevuse hoidmine pikkades sessioonides, parem enesehinnang ja vähem pidevaid kontrollpunkte. Uus Fast-režiim annab sama mudeli 2,5 korda kiiremini ja umbes kolmandiku senisest hinnast. Praktiline järeldus: kui ajad agentilisi töövooge, ei seisne uuendus mitte toores võimekuses, vaid usaldusväärsuses pika distantsi peal — ja Fast-režiim teeb tihedad interaktiivsed agendisilmused lõpuks mastaapselt taskukohaseks.

Microsoft Copilot Cowork võimaldab OneDrive'i faile lekitada e-kirja piltide kaudu

PromptArmor näitas, et Copilot Cowork agente saab promptide süstimisega panna saatma kinnitamata e-kirju, mis sisaldavad väliseid pilte; kui adressaat lihtsalt avab kirja, lekivad OneDrive'i eel-autenditud allalaadimislingid välja võrgupäringuga — ilma klikkide ja nõusolekuteta. See on kuue kuu jooksul juba kolmas "agent renderdab midagi, mida kasutaja ei lubanud" tüüpi andmelekke klass ja see kerkib esile, sest agendi e-kirja saatmise ja faili lugemise õigused asuvad sama usalduspiiri taga, mis inimkasutaja. Kui kasutusele võetakse Copilot Cowork (või mõni teine agent, millel on nii postkasti- kui failijuurdepääs), siis praktiline õppetund on: eeldage, et iga väljast kontrollitav tekst võib muutuda väljaminevaks võrgupäringuks ning kas keelake kaugpiltide renderdamine või jagage failide lugemise ja e-kirja saatmise võimekused eraldi agentide vahel, kus kasutaja peab iga sammu eraldi kinnitama.

Curl uppub AI abil koostatud turvateadetes — üle ühe päevas

Curli peamine hooldaja Daniel Stenberg teatab, et turvateateid laekub nüüd 4-5 korda rohkem kui 2024. aastal ja kaks korda rohkem kui 2025. aastal — keskmiselt üle ühe päevas — peamiselt AI-mudelitega koodibaasi vastu töötavate "haavatavuste jahtijate" tõttu. Tegelik pilt aga: viimaste aastate kõik leitud haavatavused on klassifitseeritud LOW või MEDIUM raskusastmega ning viimane HIGH raskusastmega CVE pärineb oktoobrist 2023. See on AI-võimendatud teenusetõkestamise rünnak hooldajate tähelepanule: müra ja signaali suhe langeb järsult ning usutavalt vormistatud AI-teate triaaž nõuab inimese aega olenemata sellest, kas teade on tõene või mitte. Kui sa hooldad mistahes avatud lähtekoodiga projekti, oota, et järgmisena tabab see sind — ja kavanda oma teadete-vastuvõtuprotsess nii, et ilma reprodutseerimisjuhendita teateid keeldutaks vastu võtmast.

DeepSeek paneb kokku Harnessi meeskonna, et võtta ette Claude Code

DeepSeek värbab uut "Harnessi" meeskonda, mis on suunatud otse Claude Code'i vastu, eestvedajaks endine Jane Street'i kvantinsener Cui Tianyi. Panus on sama, mida tõestas eelmisel nädalal Reasonixi iseseisev versioon: kui kombineerida $0.87/M-väljundi mudel cache-teadliku kodeerimisraamistikuga, saab Claude Code'i kulust üle olla umbes 30 korda madalama hinnaga, säilitades samas piisava võimekuse igapäevatöö jaoks. Huvitav pole siin mudel, vaid selge suunamuutus: senise "anname välja tugeva baasmudeli ja lasta teistel ehitada agent" asemel "anname välja ka agendi enda". Kui sa rajad oma inseneriorganisatsiooni Anthropicu CLI peale kui kestvale lukk-sõltuvusele, eelda, et neljandaks kvartaliks on tekkinud usaldusväärne avatud-kaaludega konkurent, mille käivituskulu on kolmkümmend korda madalam.

Frontier-laborite hindadel on 30-kordne ülempiir: sisseostetud insenerid + DeepSeek arvutavad

Signal Bloom paneb hinnavahe lauale otse: frontier-mudelite agentide tokenid maksavad ~$2.80/M, DeepSeek aga ~$0.094/M — 30-kordne erinevus, mis on hoopis kasvanud, mitte kahanenud, nüüd kui GPT-5.5 tuli välja 3 korda kallimalt kui GPT-5 ja Anthropicu uus tokeniseerija tõstis tarbimise veel 32-47%. Argument pole, et frontier-laborid kokku kukuvad, vaid et neile on tekkinud kindel hinnaülempiir hetkest, mil "piisavalt hea" avatud-kaaludega mudel koos pädeva inimliku järelevalvega muutub otsast lõpuni odavamaks. Kui sa planeerid 2026. aasta AI-eelarvet praeguste frontier-hindade kordajana, on see stsenaarium, mida tasub modelleerida — paljude ettevõtte kasutusjuhtude jaoks on odavaim mõistlik AI-töövoog tõenäoliselt juba praegu hallatud avatud mudel pluss reaalne insener, kes väljundit üle vaatab, mitte premium-API-võti.

May 27, 2026

AI abil parem kood, aga aeglasemalt

Nolan Lawson pöörab valitseva "AI = kiirus" narratiivi pea peale: ta jooksutab Claude'i, Codexi ja Cursor Bugboti paralleelselt kui ülevaatajaid — mitte genereerijaid — ja leiab rohkem juba olemasolevaid vigu kui kirjutab uut koodi. Töövoog on distsiplineeritud: loe iga PR algusest lõpuni läbi, küsi diagramme, lase mitu mudelit üle vaadata, paranda ainult see, mis ületab vaeva-tasu künnise. See on selgeim vastukaal vibe-kodeerimisele, mida oleme sel kvartalis lugenud, ja see kattub sellega, mida näeme Kodulaboris — agendid kui vanemarendaja-ülevaatajad kasvatavad kvaliteeti, agendid kui juuniorid-genereerijad kasvatavad võlga. Tasub näidata igale tehnikajuhile, kes mõõdab AI tasuvust ikka veel PR-ide arvuga.

◻ArtikkelTööstus

DeepMind lahendab AlphaProof Nexuse ja Lean 4-ga üheksa Erdősi probleemi

Google DeepMind teatas AlphaProof Nexusest — raamistikust, mis ühendab LLM-id Lean 4 teoreemitõestusega, et toota masinkontrollitud formaalseid tõestusi — ja kasutas seda üheksa lahtise Erdősi probleemi sulgemiseks. Kontrast OpenAI hiljutiste väidetega on puänt: OpenAI genereerib loomuliku keele tõestusi, mis vajavad endiselt eksperdi ülevaatust, samas kui DeepMindi väljund kompileerub. Igale meeskonnale, kes ehitab LLM-ide peale agente, on see jäljendamist väärt arhitektuurimuster — paari generaator kõva verifikaatoriga ja "näeb õige välja" muutub "on õige". Matemaatikaartikli esteetika ei tohiks varjata insenertehnilist õppetundi.

Huawei tutvustab τ skaleerimist: virnastatud loogikaga kiibid 1,4 nm-le aastaks 2031

Huawei on esitlenud "τ skaleerimist" — kiibidisaini lähenemist, mis põhineb LogicFolding virnastatud arhitektuuridel ja seab avalikuks teekaardiks 1,4 nm tehnoloogia aastaks 2031; esimene kommertskiip (Kirin) jõuab müügile 2026. aasta sügisel SMIC olemasoleval tootmisliinil. Panus: kui EUV pole kättesaadav, kujunda piirangu ümber — virnasta ja korralda loogika 3D-s, mitte ära kahanda lameda kihina. Igale AI-infrastruktuuri planeerijale 3-5-aastases vaates muudab see tarneloogikat — eelda 2028. aastaks kahte konkureerivat kiibidisaini paradigmat, mitte ühte, mis litograafias järele jõuab. Tasub jälgida ka siis, kui ostad täna ainult NVIDIA-t.

Paavst Leo XIV entsüklika tehisintellektist: kultiveeritud, mitte ehitatud

Vatikan on avaldanud pika entsüklika tehisintellektist ja Willison loeb seda kui kõige selgemat mitte-tehnilist teksti selle kohta, mis nendes süsteemides tegelikult muret tekitab: läbipaistmatus ("kultiveeritud, mitte ehitatud"), objektiivseks maskeeritud kultuurilised eelarvamused ja seisukoht, et andmete omandiõigus "ei saa jääda ainult eraomandisse". Sõltumata usulisest vaatest hakkavad poliitikakujundajad ja hankemeeskonnad seda dokumenti järgmise kümnendi jooksul tsiteerima. Loe see läbi enne järgmist AI eetikaülevaadet — raamistus, mille see pakub "automatiseeritud otsustele, mis mõjutavad inimeste elu ilma kaastunde, halastuse või andestuseta", tabab teravamalt kui enamik konsultatsioonifirmade slaidipakke.

Robinhood lubab AI-agentidel kaubelda aktsiatega liivakasti-MCP-konto kaudu

Robinhood lubab nüüd kolmandate osapoolte AI-agentidel aktsiatega kaubelda eraldiseisva, liivakastilaadse maaklerikonto kaudu, mis on ühendatud MCP abil — agent pääseb ligi vaid sellele summale, mille ise ette laadid. See on seni selgeim laiatarbe näide, kuidas MCP liigub „vastavatelt agentidelt" „rahaga tegutsevate agentide" poole. Agentilisi tooteid ehitavatele tasub disainimuster meelde jätta: kindla kulutamislaega müüriga piiratud konto on viis anda autonoomne tegutsemisõigus ilma kogu portfelli kaalule panemata. Riskihoiatused teevad siin siiski palju tööd — ettearvamatu agendikäitumine, täieliku kaotuse võimalus ja andmete jagamine kolmandate osapooltega on kõik laual.

SQLite AGENTS.md tõmbab piiri: agentide pull-requeste ei oodata

SQLite avaldas AGENTS.md-faili, mis teeb tervitusmati laotamisele vastupidist — see lükkab sõnaselgelt tagasi agentide loodud pull-requestid, pakkudes samas juhiseid agentidele, kes aitavad inimestel koodist aru saada. See on terav ja põhjendatud seisukoht ühelt maailma kõige põhjalikumalt testitud koodibaasilt: agendid sobivad lugemise ja mõistmise abivahendiks, kuid soovimatud agentilised PR-id on müra. Järeldus hooldajatele, kes upuvad madala vaevaga AI-panustesse — AGENTS.md pole ainult kutse, vaid ka koht, kus piirid seada.

May 25, 2026

"Constraint decay": LLM-agendid kaotavad 30 punkti, kui backendi spetsifikatsioonid muutuvad päris-spetsifikatsioonideks

Uus artikkel mõõdab kodeerimisagente 100 backend-ülesandel kaheksa veebiraamistiku peal ja leiab, et väidete läbimisprotsent kukub umbes 30 punkti võrra niipea, kui liigutakse puhtast spetsifikatsioonist täielikult piiratud spetsifikatsiooni juurde — ja konventsioonirohketes raamistikes nagu Django ja FastAPI on ebaõnnestumiste määr tunduvalt suurem kui minimaalsetes nagu Flask. Domineeriv ebaõnnestumiste kategooria on andmekiht: vale ORM-i kasutus, katkine päringukoostamine, runtime-i rikkumised, mida agent enesekindlalt ei märka. See on empiiriline versioon sellest, mida iga meeskond, kes on kodeerimisagentidega kaugemale läinud kui "hello world", on juba märganud — agendid näevad rohelisel maal tehtud demonstratsioonidel palju paremad välja kui teisel-kolmandal piirangul, mida tegelik koodibaas tegelikult kehtestab, ja "vibe coding" üle andmekihi on koht, kus arve kohale jõuab.

DeepSeek Reasonix: kodeerimisagent, mis on ehitatud prefix-cache stabiilsuse ümber

Reasonix on terminalipõhine kodeerimisagent, mis on tehtud just DeepSeeki API jaoks ja mille arhitektuur hoiab prompti algusosa pööretes stabiilsena, et vahemälu jätkuvalt tabaks — müügisõnum on "jäta tööle". See on väike, aga õpetlik valik: enamik agente teeb iga tööriista vastusega oma vahemälu vaikselt kehtetuks ja kurdab siis tokenikulu üle. Odava mudeli ühendamine vahemälust teadliku raamistikuga on praktiline versioon kulujutust, mida DeepSeeki hinnaleheküljed pidevalt vihjavad — meeskondadele, kes panevad kodeerimisagendid CI-sse või taustaprotsessideks tööle, on see arhitektuurimuster, mida tasub kopeerida, mitte ainult tööriist ise.

DeepSeek muudab oma 75% V4 Pro allahindluse alaliseks

DeepSeek kinnitas, et V4 Pro 75% sooduskampaaniast saab 31. maist alates standardhind — 0,435 dollarit miljoni cache-miss sisendtokeni eest ja 0,87 dollarit miljoni väljundi eest, kusjuures cache-hitid maksavad sisuliselt mitte midagi, 0,0036 dollarit. See on käesoleval aastal teine tippmudelite klassi kuuluv mudel, mille "ajutine" allahindlus muudetakse uueks põrandaks, ja see määrab võrdlushinna, mille vastu ettevõtete hankeosakonnad nüüd vaikselt iga Lääne laborit mõõdavad. Anthropicu 10,9 miljardi dollari suurune kvartal näitab, et tipus püsib hinnatase kõrgel; DeepSeeki samm näitab, et alumine ots kistakse alla kiiremini, kui enamik 2026. aasta mudelikulude plaane eeldas.

May 24, 2026

Anthropic prognoosib esimest tegevuskasumit $10,9 mld kvartalitulul

Anthropic teatas investoritele, et 2. kvartali tulu küünib $10,9 miljardini — 130% kasv — ja toob ettevõttele esimese tegevuskasumi, umbes $559 miljonit. Sama dokument paljastab: $1,25 mld kuus SpaceX-ile arvutusvõimsuse eest kuni 2029. aasta maini. Esireliigi AI-labori kasumiaruanne on viimaks loetav ja ütleb hangetiimidele kaks asja — Claude'i hinnastamine ei pehmene ja arvutusvõimsus on aastateks lukku pandud, nii et selle kevade kärbete leevendus pole hooajaline, vaid struktuurne.

FTC lõpetab „Active Listening

Kolm turundusfirmat ütlesid reklaamiandjatele, et nende „Active Listening" toode kasutab nutitelefonide mikrofone ja AI-d ostukavatsuse tabamiseks — FTC leidis, et tegelikult müüdi vaikselt edasi e-posti nimekirju. Trahv on väike, kuid pretsedent loeb. Regulaatorid on nüüd valmis karistama ettevõtete ostjatele müüdud väljamõeldud AI-võimete eest, mis on kasulik vastukaal hetkel, kui pool tarnijademost sõltub sellest, et publik ei küsi, mis tegelikult kapoti all jookseb.

NVIDIA Gated DeltaNet-2 paneb panuse transformeri vastu

NVIDIA andis välja Gated DeltaNet-2, rekurrentne arhitektuur, mis lahutab lineaarses tähelepanus kustutamise ja kirjutamise operatsioonid — pakutud välja kui odavama inferentsiga alternatiiv transformeritele. See, et NVIDIA, kelle kogu kiibikaardistik on kujundatud transformeritöökoormuste järgi, investeerib avalikult transformerijärgse arhitektuuri uurimisse, on huvitavam signaal kui võrdlustestide numbrid. Tiimidele, kes planeerivad mitmeaastaseid inferentsi eelarveid, on see juba teine tõsiselt võetav „mis siis, kui tähelepanu pole vastus" suund 2026. aastal — väärt jälgimist, mitte veel ümberkujundamist.

OpenAI pakub YC stardiritele $2M IPO-eelseid tokeneid osaluse eest

Enne kuulujuttudega IPO-d pakub OpenAI Y Combinatori startidele $2 miljoni eest aktsiateks konverteeritavaid tokeneid otseste osaluste vastu — manööver, mis ostab OpenAI-le portfelli järgmise AI-natiivse põlvkonna ettevõtetes ilma sularaha väljakirjutamata. Struktuur on piisavalt ebatavaline, et lugeda märguannet: OpenAI tahab jaotuse lukku panna rakenduskihis ja on valmis selle nimel eelnevalt lahjenemist müüma. Asutajatele on see puhas tehing, kui te niikuinii kavatsesite OpenAI peale ehitada — kummaline, kui mitte.

May 23, 2026

◻ArtikkelAI agendid

Alibaba Cloud avas veebiportaali, mis on disainitud AI-agentidele, mitte inimestele

Alibaba Cloud pani üles tootelehe, mille kogu nähtav sisu koosneb ühest käsust — `npx skills add QianWen-AI/qianwen-ai` —, mille loevad ainult agendid. Enamasti on tegu turundustrikiga, aga ka päris signaal selle kohta, kuhu kommertspinnad liiguvad: lehed, mis on disainitud LLM-juhitud ostja jaoks parsimiseks, mitte inimlugeja jaoks renderdamiseks. Praktiline järeldus arendajatele suunatud toodet ehitavale meeskonnale on konkreetne — sinu paigaldusjuhised on nüüd osa sinu agendi-loetavuse loost ja "esimene agent, kes selle leidis" kujuneb mõõdetavaks omandamiskanaliks.

Bengio 10M-parameetriga GRAM lööb suuremaid mudeleid keerukatel arutlusülesannetel

Yoshua Bengio rühm andis välja GRAMi — rekursiivse 10-miljoni-parameetriga mudeli, mis lisab igal täiendamise sammul õpitud stohhastilisust ja uurib paralleelselt mitut arutluskäiku — saavutades raskeima Sudoku võrdlusalusel 97% võrreldes oluliselt suuremate deterministlike konkurentide 87,4%-ga. Huvitav väide pole pealkirjaskoor, vaid see, et printsipiaalse juhuslikkuse süstimine arutlusesse on selle ülesandeklassi puhul odavam kui parameetrite skaleerimine. Kui tulemus üldistub kombinatoorsetest mõistatustest kaugemale, jääb "väike mudel + nutikas otsing" usutavaks vastustrateegiaks "suuremale eesliini mudelile" — ja seda tasub jälgida oma eval-komplekti vastu enne järgmist kapitaliinvesteeringu otsust.

Simon Willison annab kolme aasta järel välja Datasette Agent'i

Pärast kolmeaastast tööd liitis Willison oma LLM Pythoni teegi Datasette'iga ja andis välja laiendatava AI-assistendi, mis istub iga SQLite-põhise andmestiku peal. Huvitav pole väljalase ise, vaid arhitektuur: pikalt küpsenud avatud lähtekoodiga agent, mille on ehitanud inimene, kes on iga selle valdkonna disainilahendust avalikult läbi mõelnud. Tiimidele, kes hindavad sisemisi "küsi-oma-andmeid" tööriistu, on see üks puhtamaid praegu saadaolevaid võrdlusrealisatsioone — ja projekt, mille lähtekoodi lugemine õpetab rohkem kui ühegi artikli lugemine.

AI-andmekeskuste nõudlus tõstab nüüd tarbija-RAMi hinda

Kõrgribase mälu lepingud AI-andmekeskuste jaoks pigistavad tavaliste nutitelefonide ja sülearvutite RAMi pakkumist, ning hinnamõju on kõige teravam arengumaades, kus odavam riistvara oli kogu redel arvutusvõimsuseni. Lugu läheb tarbijahindadest kaugemale: see on esimene nähtav juhtum, kus AI-infrastruktuur reaalajas kõrvalkommodi turgu moonutab. Tiimid, kes planeerivad riistvara uuendamist perioodiks 2026-2027, peaks eeldama, et RAMi hinnad ei liigu enam allapoole — ja et "madalama klassi" seadmed pilootprojektides muutuvad lähitulevikus kallimaks, mitte odavamaks.

Microsoft: AI maksab nüüd rohkem kui töötajad, keda see pidi asendama

Microsofti tootmiskeskkonna agentide token-kulud ületavad teadete kohaselt nende töötajate palku, keda need agendid pidid asendama — leid, mis langeb ebamugavalt iga praegu ringleva "agendi ROI" slaidi peale. Matemaatika murdub sellepärast, et agendid itereerivad: iga päring lahkneb tööriistakutseteks, kordusteks ja verifitseerimispääsudeks, mida algsed kapitalikulumudelid sisse ei arvestanud. Iga tiimi jaoks, kes sama arvutuse ette võtab, pole küsimus enam "kas AI on inimesest odavam" — vaid "milline on meie tegelik token-per-ülesanne eelarve ja kas töövoog suudab arhitektuuriliselt sellesse mahtuda". Hinnateadlik disain on nüüdsest esmaklassiline oskus, mitte lõpetav lihv.

May 22, 2026

Gemini 3.5 Flash maksab 3 korda rohkem — ja Google kavatseb seda kõikjal kasutada

Google viis Gemini 3.5 Flashi otse üldsaadavusse hinnaga, mis on tokeni kohta umbes kolm korda kallim kui eelmine Flash Preview, ning rullib selle välja nii Otsingusse, Gemini rakendusse kui Workspace'i. Tähele tasub panna kahte asja. Esiteks ei ole "Flash" enam odav tase — tokenipõhise hinnaga asetseb see nüüd Gemini 3.1 Pro kõrval kõrgemal, mis pöörab pea peale kuluarvutuse, millega enamus meeskondi eelarvet planeeris. Teiseks tundub, et tipplaborid katsetavad, kui palju hinnatõusu nende vaiketaseme mudelid suudavad taluda, enne kui kliendid hakkavad vahetama — sarnane muster nähtub Anthropicu üleminekus tarbimispõhisele arveldusele ja OpenAI tasemete-põhises hinnareformi. Kuluteadlikele meeskondadele, kes jooksutavad oma töökoormust "vaikimisi kiirete" mudelitega, on praegu hea kvartal tarnijate koosseis uuesti üle vaadata.

Google asendas Antigravity kasutajate IDE taustavärskendusega

Sel nädalal levis Hacker Newsis ühe arendaja postitus: Google surus läbi taustavärskenduse, mis vahetas Antigravity IDE vaikselt välja vestluspõhise liidese vastu ja kustutas seejuures kasutaja seaded ja vestlusajaloo. Etteheide käib protsessi, mitte toote kohta — ka kasulik muudatus mõjub reetmisena, kui see jõuab kohale sundvärskenduse kaudu ilma loobumisvõimaluse ja paralleelpaigalduseta. Meeskondadele, kes standardiseerivad agendipõhiseid arenduskeskkondi, on õppetund järgmine: enne töövoo sidumist konkreetse tööriistaga loe värskenduspoliitika väikest kirja, sest tööriist, mida katsetasid, ei pruugi olla sama tööriist järgmises kvartalis. Agendipõhiste arendustööriistade turg liigub piisavalt kiiresti, et tarnijad on valmis kasutajate usaldust rikkuma, kui see toob järgmise versiooni kiiremini kohale.

Sõltumatu uurija 48 000-dollarine GPU-server tasus end ära 14 kuuga

Endine FAANG-uurija ehitas 48 000 dollari eest serveri kuue RTX 6000 Ada GPU-ga ja teatab, et 76-85% kasutusega on see 14 kuu jooksul juba säästnud ligikaudu 17 000 dollarit võrreldes vastava pilverendiga. Postitus on kasulikum võrdluspunktina kui soovitusena: see fikseerib pilverenti vs ostmise tasakaalupunkti üksikisikule või väikesele meeskonnale, kes jooksutab pidevat järelduse- ja tugevdusõppe töökoormust. Enamik ettevõtteid sellist kasutustaset järjepidevalt ei hoia, mistõttu suurpakkujad keskmiselt endiselt võidavad ja "lihtsalt rendi" jääb vaikimisi turvaliseks vastuseks. Kuid neile meeskondadele, kes jooksutavad prognoositavat agendipargi järeldust, hindamistorustikku või peenhäälestuskampaaniaid, on oma riistvara omandamise — või eelnevalt broneeritud mahtude — põhjendus nüüd toetatud tegeliku kasumiaruandega, mitte slaidiga.

Programmeerimiskeele lukustus on vaikselt kadumas

Simon Willison ja Mitchell Hashimoto annavad nime nihkele, mis on olnud aasta aega nähtav, kuid harva sõnastatud: koodiagendid on kokku surunud üleminekukulu programmeerimiskeelte ja raamistike vahel. Kui varem oli mobiilirakenduse ümberkirjutamine natiivist React Native'i ühesuunaline panus, siis nüüd käsitlevad meeskonnad seda kui pööratavat otsust, sest tagasi portimine on paari nädala agendipõhine töö, mitte kvartali jagu käsitsi refaktoorimist. Strateegiline mõju on suurem kui taktikaline: tehnoloogiavalikuid saab nüüd teha tänase sobivuse põhjal, mitte kahekümneaastase panuse loogikast lähtuvalt, mis tähendab, et kaitseväärilised valikud ("valisime Java, sest me ei vaheta seda kunagi") kaotavad kaalu. Tarnijasõltuvus käituskeskkondade, ORM-ide ja patenteeritud raamistike ümber nõrgeneb samal põhjusel — lahkumiskulu pole enam takistavalt kõrge.

Runtime panustab sellele, et iga osakond tahab koodiagenti — mitte ainult inseneriosakond

YC viimases lennus on Runtime, mida turundatakse kui liivakasti suletud koodiagente mitte-inseneri meeskondadele — rahandus, klienditugi, turundus — igaüks ettevõtte kontekstiga, integratsioonidega, jälgitavuse ja kulupiiridega. Tees on huvitav: kui koodiagendid muutuvad piisavalt heaks, et rahandusanalüütik saab andmevoo välja saata ilma inseneriosakonda kaasamata, siis liigub pudelikael küsimuselt "kas agent suudab seda teha" küsimusele "kas operatsioonid saavad usaldada, et agent teeb seda midagi katki tegemata." Just seal asubki platvormikiht — turvapiirded, auditeerimisjäljed, kululaed. Ärijuhtidele, kes jälgivad varitehnoloogia ("shadow IT") riske, on see uus muster: analüütikud ei osta enam IT-osakonna heakskiiduta SaaS-tööriistu, vaid käivitavad agente, mis puudutavad tootmissüsteeme. Parem on liivakast ette kavandada kui rikkumine tagantjärele avastada.

May 21, 2026

GitHub kinnitab: pahatahtlik VSCode'i laiendus ohustas 3800 hoidlat

Pahatahtlik VSCode'i laiendus lekitas tokeneid ja koodi 3800 hoidlast enne, kui GitHub rünnaku kinnitas — järjekordne meeldetuletus, et arendaja redaktor on AI tarneahela kõige nõrgem koht. Enamik meeskondi on tugevdanud CI-d, npm-i ja konteinerite registreid; peaaegu keegi ei auditi täieliku hoidlaõigusega töötavaid laiendusi samas redaktoris, kus elab ka agent. Kui teie insenerid kasutavad Copiloti, Claude Code'i või mõnda agenti, kes loeb tööruumi, kuulub laienduste nimekiri nüüd teie ohumudelisse. Alustage usaldusväärsete hoidlate jaoks koostatud lubatud nimekirjast.

Intuit koondab üle 3000 töötaja, et keskenduda tehisintellektile

Intuit koondab üle 3000 töötaja ja suunab vabanenud koosseisu ning eelarve selgelt tehisintellekti poole. Sõnastus — "keskendumine tehisintellektile", mitte "efektiivsus" — on jälgimist väärt detail: suured börsiettevõtted hakkavad ümberkorraldusi investoritele AI-strateegia sammudena põhjendama ja see narratiiv levib. Ärijuhtidele pole praktiline signaal pealkirjas olev arv; tähtsam on, et Intuiti suurused finants- ja tooteorganisatsioonid on AI tulemustes piisavalt kindlad, et vahetada palgafondi muutuva arvutusvõimsuse vastu. Just selle panuse kaitsmist või kordamist hakkavad nõukogud peagi teie meeskonnalt nõudma.

Andrej Karpathy liitub Anthropicu eelkoolituse meeskonnaga

Andrej Karpathy — OpenAI kaasasutaja, endine Tesla AI juht ja vaieldamatult valdkonna kõige jälgitavam sõltumatu hääl — on liitunud Anthropicuga, et töötada Nick Josephi alluvuses eelkoolituse alal. Tähelepanu väärt on kaks signaali. Esiteks, talendi raskuskese valdkonnas jätkab koondumist Anthropicu ja OpenAI ümber, mitte hajumist; see on oluline igaühele, kes panustab kolmanda "neutraalse" eesliini labori esilekerkimisele. Teiseks, Karpathy naaseb eelkoolituse juurde, mitte agentide ega toote juurde — see vihjab, et tööle kõige lähemal olevad inimesed arvavad endiselt, et suurimad võidud peituvad mudelikihis, mitte selle ümber ehitatud tugitarindis.

Qwen3.7-Max: Alibaba lükkab avatud kaaludega agentide piiri edasi

Alibaba Qwen3.7-Max tõusis Hacker Newsis 640 punktiga esirinda ja positsioneerib end selgelt agendimudelina, mitte tööriistakasutusega täiendatud vestlusmudelina. Väljalase jätkab Qwen3.6 mustrit — avatud kaalud, tugevad agentse kodeerimise mõõtmistulemused ja tavalisele riistvarale mahtuv käituskeskkond — mis kahandab jätkuvalt kulukäärt isemajutatud ja eesliini API-virnade vahel. Meeskondadele, kelle AI-arve domineerivad agendisilmused, mis teevad palju väikeseid tööriistakutseid, on see selline väljalase, mis peaks käivitama mõõtmise, mitte kvartaliülevaate.

May 19, 2026

Benedict Evansi 2026. aasta kevadine slaidikomplekt: AI on tavaline tehnoloogia, mitte võlukepike

Benedict Evansi kaks korda aastas ilmuv tehnoloogiaülevaade jõuab teadlikult vähemglamuurse raamistuseni: AI ei ole võlukepike, mis kõike homseks muudab, ega ka mull, mis kõdunema hakkab — tegu on tavalise tehnoloogiaga, mille kasutuselevõtu kõver on pikk ja mis on alles 10-15-aastase platvormivahetuse alguses. Ta paneb 2025. aasta hüperskaala 400+ miljardi dollari suuruse kulutuse vastakuti veel tagasihoidliku tulurea kõrvale ja märgib, et täpselt selline nägi kolmandal aastal välja iga varasem platvormivahetus — see ei ole märk millegi katkiolemisest. Juhatuste ja juhtide jaoks on kasulik järeldus ajastusdistsipliin: enamik väärtusest tuleb aeglasest tööst, kus tehnoloogia ümber muudetakse protsesse, mitte tehnoloogia hankimisest endast. Igaüks, kes sel aastal teeb osta-või-oodata otsust, kaalub tõenäoliselt üle mudelit ja alla seda, kui kaua võtab tema enda organisatsioonil aega sellega tööle saamine.

Anthropic ostab Stainlessi ja paneb agentide tuleviku ühenduvuse kaardile

Anthropic ostis Stainlessi — ettevõtte, mis genereerib OpenAPI spetsifikatsioonidest tüübitud SDK-sid, CLI-tööriistu ja MCP servereid OpenAI-le, Anthropicule endale ja sisuliselt kogu API-majandusele. Anthropicu platvormiinseneri sõnastus on otsekohene: "agendid on täpselt nii kasulikud kui see, millega nad ühendust saavad." See on vaikne, kuid strateegiline käik — kihi omamine, mis muudab iga API millekski, mida Claude'i agent suudab usaldusväärselt välja kutsuda, tähendab kogu ökosüsteemi jaoks tee omamist olukorrast "meil on API" olukorda "meil on agendi integratsioon." MCP peal ehitavatel tiimidel tasub oodata SDK-genereerimise konvejeri ja protokolli kokkukasvamist, kus Stainlessi-stiilis tüübitud lepingud saavad serveri väljasaatmise vaiketeeks.

Archestra peatab AI prügi-PR-d, kasutades ära Giti --author lippu

Archestra uppus AI-genereeritud pull request'idesse — 27 testimata PR-i ühe ainsa issue vastu ja pool arendaja-päeva nädalas kulus hallutsineeritud töö sulgemisele. Nende lahendus on nutikas pöörang: GitHubi Action käivitub iga uue saatja peale, leiab kasutaja GitHubi ID üles ja lükkab Giti --author lipu abil tema nimel main'i commit'i, mis tõstab konto automaatselt repo kaastöötajaks. Sellest hetkest saavad issue'sid, PR-e ja kommentaare avada ainult valgesse nimekirja kantud kaastöötajad. Huvitav pole tehnika ise — huvitav on see, et "peata AI bottide poolt sinu repo vastu esitatavad päris-välimusega PR-d" on nüüd operatiivne probleemikategooria, mis väärib kohandatud lahendust. Tasub oodata, et commit-attribuudireeglid, MCP-poolsed identiteediväravad ja kaastöötajate sissetoomise töövood saavad järgmise aasta jooksul iga vähegi populaarse avatud lähtekoodiga projekti standardseks hügieeniks.

Hiina telekomid muudavad andmekeskused virtuaalseteks elektrijaamadeks — AI arvutusvõimsus kaupleb nüüd elektrit tunnipõhiselt

China Mobile, China Unicom ja teised operaatorid pakuvad nüüd oma andmekeskuste koormust spot-elektrituru pakkumistele ja müüvad võimsust tagasi virtuaalsete elektrijaamadena, kus dispetšeerimine on seotud tunnihindade ja AI arvutusnõudlusega. Struktuurne tõlgendus on, et AI treening ja järeldamine — kaugel sellest, et olla võrgule passiivne kohustus — on muutumas süsteemi suurimaks juhitavaks koormuseks: piisavalt paindlikuks, et hindade hüppe ajal piirduda, ja piisavalt tihedaks, et toimida strateegilise reservina. See on sama mäng, mida Texase ja Iirimaa hüperskaleerijad on vaikselt üles ehitanud — nüüd lihtsalt avalikult Hiina riigi suuniste alla seatud. Euroopa operaatoritele ja energiaregulaatoritele, kes jälgivad ELi AI Factory käivitumist, on õppetund ebamugav: igas riigis, kus elektriturg on dereguleeritud ja AI nõudlus kontsentreeritud, on andmekeskus elektrituru piirosaleja, ja kes valdab dispetšeerimise loogikat, valdab marginaali.

Anthropic tunnistab seda, mida räägitakse vaikselt: Claude Code suurtes koodibaasides on organisatsiooni-, mitte mudeliprobleem

Anthropicu uus juhend Claude Code'i kasutamiseks suurtes inseneriorganisatsioonides pühendab enamiku tekstist asjadele, mida mudel ise ei lahenda: koodibaasi navigeerimise taristule, sisedokumentatsioonile, mis tegelikult koodi kajastab, testikattele, mis tagab regressioonikaitse, ning piisavalt kiiretele CI-tsüklitele, et agent neist õppida saaks. Aus tõlgendus on, et tipptasemel mudelite kvaliteet pole enam ettevõttekasutuselevõtu pudelikael — pudelikaelaks on see, kui loetav on teie koodibaas kellelegi muule peale selle kirjutanud inseneride. Meeskonnad, kes on investeerinud CLAUDE.md-tüüpi kontekstifailidesse, struktureeritud tööjärjekordadesse ja tihedatesse tagasiside-tsüklitesse, saavad need produktiivsuse võidud, mida kõik "inseneritöö tehisintellektilt" ootasid; ülejäänud saavad enam-vähem hommikul tööle tulnud keskmise lepingulise inseneri produktiivsuse. See on ka vaikne hinnaargument: Claude Code'i tootlikuks tegemise kulu on enamasti ühekordne investeering inseneritöö hügieeni, mis tasub end ära iga järgneva mudeli täienduse juures.

Cursor avaldab Composer 2.5 ja lükkab IDE veel sügavamale autonoomsesse töösse

Cursori Composer 2.5 versioon liigub kindlamalt suunas "palu tal midagi planeerida või ehitada", lisades laiema mudelivaliku ja pikema kestusega autonoomse täitmise otse redaktoris. Huvitav nihe on positsiooniline: Cursor ei võistle enam autotäite kvaliteediga, vaid sellega, kui suure osa ülesandest suudab IDE viia promptist liidetud muudatuseks ilma inimese vahesekkumiseta. Cursorile juba standardiseerunud tiimid saavad ühe kasutaja kohta rohkem võimekust, kuid kompromiss on sama, mille iga koodiagent peale surub: kiirem väljund nõuab karmimat ülevaatusdistsipliini, sest diff-id lähevad suuremaks ja kavatsus häguseks. Võidavad need majad, kes on juba liigutanud oma ülevaatusprotsessi reaehaaval lugemiselt spetsifikatsiooni- ja testipõhisele.

GDS lükkab avalikult ümber NHS-i otsuse pärast Glasswingi — 'hoidke vaikimisi avatud'

Ühendkuningriigi Government Digital Service avaldas 14. mail juhise, mis ütleb avalikule sektorile, et kood peab jääma vaikimisi avatuks — see oli otsene reaktsioon NHS-i otsusele sulgeda oma hoidlad pärast seda, kui Project Glasswing leidis NHS-i tarkvarast ärakasutatavaid haavatavusi. Briti riigiametnikud ei paranda teist asutust kirjalikult, ja Simon Willison juhib tähelepanu Terence Edeni väljendile "kutsutud koosolekule ilma küpsisteta", mis on tema sõnul märk sisemisest pingest, mitte koordineeritud kommunikatsioonist. Sisuline pool on sama oluline kui vorm: GDS väidab, et tehisintellekti abil leitavad haavatavused on nüüd püsiv osa ohumaastikust, ja õige vastus on rohkem silmi koodil, mitte vähem. Igale meeskonnale, kes kaalub, kas avada lähtekood ajal, mil Mythos-tasemel agendid seda skaneerida võivad — Briti valitsus avaldas just oma vastuse.

◻ArtikkelAndmed

Google'i Nexus väidab, et LLM-id edestavad spetsialiseeritud aegridade mudeleid — kui sundida neid enne arutlema

Google'i Nexuse raamistik teatab, et üldotstarbeline LLM, mis on struktureeritud selge makro- ja mikro-tasandi dekomponeerimise ja tagasiside-tsükliga, edestab eriotstarbelisi numbrilisi prognoosijaid standardsetel aegridade võrdlustestidel. Trikk on protseduuriline, mitte arhitektuurne: sundida mudel kirja panema makro-režiim (intressid, pakkumisšokid, regulatiivne olukord) enne kui ta üldse rida puudutab, ja seejärel oma prognoosi selle režiimi taustal kritiseerima. See on sama muster, mis muutis ahel-arutluse trikist agentide vaikimisi struktuuriks — nüüd rakendatud prognoosimisele, kus spetsialiseeritud mudelid on juhtinud kümme aastat. Finants-, äri- ja tarneahela meeskondadele, kes hoiavad tootmises ARIMA või Propheti torusid, ei ole enam küsimus "kas LLM on piisavalt täpne", vaid "kas saame endale lubada struktureeritud arutluse latentsust iga prognoosi-sammu kohta". Majanduslik vastus sõltub üha enam sellest, kas prognoos läheb inimese otsusesse kord nädalas või automaatsesse tehingusse iga sekund.

Simon Willisoni viieminutiline kokkuvõte viimasest kuuest kuust LLM-ide maailmas

Willisoni kommenteeritud PyCon US 2026 lightning-ettekanne on selgeim kaart, mis meil hetkel on selle kohta, mis tegelikult mudelikihis alates 2025. aasta lõpust muutus — eesliini kokkusurumine, GPT-5.5 ja Claude 4.7 tasakaal eri hinnapunktides, jututoa-liideste asendumine kodeerimisagentidega kui peamise levitusrajaga ning kasutajapõhiste kulupiirangute kerkimine reaalse tootefunktsioonina. Ettekande tempo on mõeldud juhile, kes on selle poolaasta millegi muuga süvenenud ja peab homme istuma teekaardikoosolekul, hoides veenvat vaadet. Kõige vähem arutatud punkt: mudelite väljalasete tempo on lahutunud võimekuse hüpetest, seega praegu mõistlikum valida hinna, latentsuse ja eval-sobivuse alusel kui oodata "järgmist suurt asja." Tasub läbi lugeda enne järgmist tarnijaülevaadet.

May 18, 2026

HuggingFace avaldas ml-interni ja physics-interni — avatud lähtekoodiga agendid, mis loevad artikleid, treenivad mudeleid ja esitavad tulemusi

ml-intern jookseb kogu LLM-i järeltreeningu tsükli ilma järelevalveta — tõmbab artikleid arXivist ja HF Papersist, läbib viidete graafe, valib andmestikke Hubist, vormindab need ümber ja käivitab treeningud HF Spacesis. Tõsiseltvõetav näitaja: ta tõstis Qwen3-1.7B mudeli GPQA pingerea testil 10%-lt 32%-le vähem kui 10 tunniga ühel H100 peal, edestades Claude Code'i 22,99% sama ülesande peal. physics-intern järgib sama malli teoreetilises füüsikas — lammutab probleemi osadeks ja saadab alamagendid tõendeid koguma ja kritiseerima. Mõlemad on MIT litsentsi all ja seotud HuggingFace ökosüsteemiga, mis on ka strateegiline mõte: HF pole enam ainult mudelite register, see saab käituskeskkonnaks agentidele, mis seda registrit tarbivad. Uurimusmahukatele meeskondadele nihkub praktiline küsimus "kas peaksime palkama juuniori ML-inseneri" küsimuseks "kas peaksime eraldama GPU eelarve agendile, mis töötab üleöö". Majandus juba toetab teist vastust kitsa, hästi määratletud töö puhul.

Mistral ehitab Mythosele alternatiivi Euroopa pankadele, kellele Anthropic ust ei ava

Mistral peab Euroopa pankadega läbirääkimisi küberturbe mudeli üle, mis teeb seda, mida Anthropicu Mythos — leiab sinu enda koodist ärakasutatavaid haavatavusi — nende pankade jaoks, kellele Anthropic ei müü. Arthur Mensch sõnastab suveräänsuse argumendi otse: "me ei saa riskida Prantsuse armee koodi skaneerimisega Mythose abil." Strateegiline tõlgendus: Mythose tilluke partnerite nimekiri (mõned USA tehnoloogiafirmad, peotäis Euroopa panku, peatselt kolm Jaapani megapanka) on muutnud haavatavuste tuvastamise võime geopoliitiliseks varaks, ja see loob ilmse mänguruumi Mistralile, ainsale EL-i laborile mastaabis, kes suudaks tühimiku usutavalt täita. Suurem muster on see, et reguleeritud sektorite järgmine AI-hangete laine ei ole enam "võidab parim mudel" — see on "millise jurisdiktsiooni all kaalud elavad" — ja mudelite pakkujad, kes pole poolt valinud, surutakse kõrge marginaaliga, kõrge usaldusega klientidest esimesena välja. Tasub jälgida, kui kiiresti Mistral päriselt saab tarnida vs. kui kaua Anthropic Mythose partnerite nimekirja kunstlikult lühikesena hoiab.

Jaapani kolm megapanka saavad Mythose ligipääsu peale Bessenti visiiti — esimesed mitte-läänelikud partnerid

MUFG, Mizuho ja SMBC saavad Mythose ligipääsu mai lõpuks — esimene kord, kui piiratud eelvaade läheb väljapoole Anthropicu Ameerika ja Euroopa partnereid, ja teadaanne saabus Tokyos kohtumisel USA rahandusminister Scott Bessentiga. Glasswingi tingimused jäävad kehtima: skanni oma süsteeme, koosta parandused, ära avalda eksploite. Rahandusminister Katayama on juba kokku kutsunud avaliku ja erasektori töörühma, mis tegeleb süsteemse küberriskiga, mida mudel ise toob — see on paljastav, sest regulaatorid suhtuvad Mythose ligipääsusse nüüd kui finantsinfrastruktuuri poliitikasse, mitte hankeküsimusse. Sellest tuleneb kaks asja. Esiteks: Mythos saab globaalselt süsteemsete pankade jaoks de facto haavatavuste tuvastamise kihiks, mis tähendab, et kõik partnerite nimekirjast väljas olijad (vt Mistrali lugu) tegutsevad teisel ohupinnal kui nende konkurendid. Teiseks: diplomaatiline pakend — rahandusminister toob uudise — kinnitab seda, mis oli juba ilmne: tipptasemel AI ligipääs on nüüd riikliku tasandi läbirääkimine, millega kaubeldakse koos kiipide, haruldaste muldmetallide ja tariifidega.

OpenAI annab igale Malta kodanikule ChatGPT Plusi — kuid alles peale AI-kursuse läbimist

Malta on esimene riik, kes pakub tasulist ChatGPT-d igale kodanikule OpenAI uue "AI for Countries" programmi raames. Konks on värav: Malta Ülikooliga koos loodud AI-kirjaoskuse kursus tuleb esmalt läbida ja jagamise eest vastutab Malta Digitaalse Innovatsiooni Amet. See on mall, mida OpenAI hakkab kopeerima — väikeriik, üks aasta tasuta, hariduse läbi piiratud, valitsus teeb tuvastustöö — seega oodake järjekorras Eestit, Singapuri, Luksemburgi ja Pärsia lahe riike. Huvitav osa pole tasuta pakkumine; huvitav on see, et OpenAI on leidnud viisi tarbijate hankimise riikliku digitaalameti kaudu pesta ja saada vastutasuks rahvastiku-mahus andmestik selle kohta, kuidas mittetehnilised kasutajad toodet päriselt kasutavad. Kõigile, kes müüvad nendes jurisdiktsioonides AI-tööriistu ettevõtetele: 12 kuu pärast tulevad teie kasutajad kohale ChatGPT harjumuste ja ootustega, mida te ei pidanud ise neisse koolitama.

NVIDIA avab lähtekoodi SANA-WM — 2,6 miljardi parameetriga maailmamudel, mis loob ühe GPU peal 60 sekundit 720p videot

NVIDIA Labs avaldas SANA-WM Apache 2.0 litsentsi all: 2,6 miljardit parameetrit, kohe minutilise pikkusega 720p generatsioon meetriskaala 6-DoF kaamerakontrolliga, treenitud 18,5 päevaga 64 H100 peal. Tehniline nutikus on hübriidne Gated DeltaNet + softmax-tähelepanu arhitektuur, mis hoiab rekurrentse oleku konstantse suurusega sõltumata klipi pikkusest — see ongi tegelik põhjus, miks minutiline generatsioon on teistele praktiliselt kättesaamatu olnud, mitte parameetrite arv. NVFP4 destilleeritud variant töötab ühel RTX 5090 peal ja toodab 60 sekundit videot 34 sekundiga, st 2,1× reaalaja kiirusel. Kaks asja, mida tähele panna: NVIDIA avaldab nüüd konkurentsivõimelisi avatud kaale kategoorias (maailmamudelid), mille eest suletud laborid küsivad API kaudu kõrgeid hindu, ja kulustruktuur (212 975 avalikku klippi, vähem kui kuu treeningut) muudab regionaalsed ja vertikaalspetsiifilised maailmamudelid teostatavaks igale meeskonnale väikese H100 klastriga. Teesi "suletud videomudelitega ei saa konkureerida ilma miljarditeväärilise andmestikuta" on üha raskem kaitsta.

May 15, 2026

Anthropic avaldas Claude for Legali 12 praktikavaldkonna pluginaga ja Westlawi integratsiooniga

Anthropic järgnes oma väikeettevõtte paketile Claude for Legaliga — 12 pluginat, mis katavad ühinemisi-omandamisi, privaatsust, tööõigust, intellektuaalomandit ja teisi praktikavaldkondi, igaüks eelseadistatud töövoogude ja mallidega, mida firma tegelikult kasutab, pluss integratsioon Microsoft 365 ja Thomson Reutersi Westlawiga, et tuua kohtupraktika kohale. See on Anthropicu teine vertikaalispetsiifiline pakett nädala jooksul (pärast Claude for Small Businessi) ja uus mängukava on selge: lõpetada mudeli müümine, alustada konfigureeritud tööruumi müümist tööstusharude kaupa. Käik surub õigus-AI idufirmasid nagu Harvey, Spellbook ja EvenUp ülevalt — nad olid kaitstavad, kui "mudel" oli tarbekaup ja väärtus oli töövoo torustik, aga Anthropic just tarnis ka töövoo torustiku. Ettevõtete õigusosakondadele, kes kaaluvad osta-või-ehitada valikut, nihkub arvestus küsimusest "millise idufirma peale panustada" küsimusele "kas aktsepteerime Anthropicu vertikaalset pinu või paneme primitiividest enda oma kokku" — ja enamikul ei jagu jõudu viimaseks.

OpenAI tõi Codexi ChatGPT mobiilirakendusse — koodiagentid sinu taskus

OpenAI viis Codexi CLI-ja-IDE silost välja ChatGPT mobiilirakendusse, nii et insenerid saavad agendiülesandeid telefonist käivitada, jälgida ja kokku liita — vaadata diffe rongis, käivitada ebaõnnestunud jooks uuesti lennujaamast, anda pikk töö enne magamaminekut käest ära. Panus on, et koodiagendid muutuvad pigem CI-tööde kui redaktori laiendite sarnaseks: sa saadad nad teele, teed midagi muud ja vaatad tulemust ükskõik millisel ekraanil. Tiimidele, kes juba käitavad Codexit peata, kaotab see "ma pean töölaua taga olema" maksu, mis vaikselt piiras seda, mitu paralleelset agendijooksu keegi tegelikult käivitab. Järgmine tooteküsimus on, kas teised agenditarnijad (Anthropic, Cursor, Cognition) saavad sama mobiili-esimese mustri välja enne, kui OpenAI eelist kasvatab — sest kui arendajad õpivad telefonist saatma, ei lähe nad enam tagasi.

◻ArtikkelAI agendid

Google'i Gemini Spark: 24/7 agent, kes loeb su rakendusi, vestlusi ja asukohta ning tegutseb ilma küsimata

Lekkinud detailid Google'i Gemini Spargi kohta kirjeldavad alati sees olevat isiklikku agenti, mis ammutab andmeid rakendustest, vestlustest, asukohaajaloost ja sirvimisandmetest ning seejärel haldab e-kirju, veebiülesandeid ja isegi ostusid ilma iga tegevuse eraldi kinnituseta. See on struktuurne samm üle "human-in-the-loop" mustri, mis on olnud mugav vaikevalik — Anthropicu Claude for Small Business ja Salesforce'i Agentforce nõuavad mõlemad endiselt kinnitust enne mis tahes saatmis- või maksetoimingut. Google panustab sellele, et tarbijakasutuses kaalub iga sammu kinnitamise hõõrdumine üles juhusliku vale käigu riski ja et aastatepikkune Workspace'i ja Androidi telemeetria annab Spargi otsustusvõimele piisava andmevallikraavi. Ärijuhtidele on jälgimispunkt see, mida see normaliseerib: kui tarbijad hakkavad ootama küsimata tegutsevaid agente, liigub piir ka ettevõttetoodete jaoks, ja "iga tegevus nõuab kinnitust" hakkab kõlama sama vanamoeliselt kui "iga e-kiri vajab sinu parooli."

Notion teeb pöörde andmebaasist agendi-orkestreerimise platvormiks Workersi ja Tool API-dega

Notion tõi turule Workersi taustaandmete sünkroonimiseks, Agent Tools API-d ja webhook'i torustiku, paigutades toote ümber "teiseks ajuks" mõeldud wikist kontekstikihiks, millest teiste ettevõtete agendid loevad ja millesse nad tagasi kirjutavad. Strateegiline panus on, et teadmustöö platvormid konkureerivad nüüd agendi-loetavuses, mitte kasutajaliideses: võidab firma, kelle andmeid sinu agent saab sisse võtta ja uuendada, kaotab see, mis on lihtsalt ilus redaktor. See paigutab Notioni samasse rida Airtable'i hiljutise agendi-tõuke ja Asana AI Studioga, vahega, et Notionil on juba käes struktureerimata dokumendid, millel enamik ettevõtteid tegelikult töötab. Tiimidele, kes on juba Notionile standardiseerunud, kaob integreerimise töö, mis varem nõudis Zapierit või kohandatud taustasüsteemi — kuid see tähendab ka, et see agenditarnija (Claude, ChatGPT, Gemini), kes ühildub kõige sügavamalt, muutub vaikselt teie teadmusbaasi operatsioonisüsteemiks.

Google, Anthropic ja OpenAI allkirjastasid 'positiivse joondumise' manifesti — tööstuse joondumine läheb valesse suunda

Kolm tipplaborit avaldasid ühise artikli, milles väidavad, et joondumise valdkond on iseenda eesmärkidega vastuolus: liiga palju kahjuennetust, liiga vähe inimese arendamist ja liiga palju tsentraliseeritud väärtuste määratlust. Nad pakuvad välja "positiivse joondumise" — agendid, mis on optimeeritud selleks, kelleks inimesed soovivad saada, juhituna detsentraliseeritud väärtusraamistikest, mitte ühe labori RLHF-õppekavast. Optika on löögijõuline: needsamad kolm ettevõtet, kelle "turvalisuse" võistlevad tõlgendused tõid kaasa OpenAI juhatuse kriisi, Anthropicu asutamise lahkulöömise ja Gemini lansseerimise vastuolu, ütlevad nüüd korraga, et joondumist ei saa ükski neist üksi lahendada. Küüniline lugemine on, et see on regulatiivne positsioneerimine EL-i AI seaduse jõustamise ja järgmise USA administratsiooni poliitika tõuke eel. Heatahtlik lugemine on, et laborid on aru saanud — tsentraliseeritud joondumine ei skaleeru miljarditele kasutajatele erinevate väärtustega, mis on sama, mida otsingumootorid ja sotsiaalplatvormid kümme aastat tagasi õppisid, lihtsalt aeglasemalt.

Trump-Xi tippkohtumine andis rohelise tule H200 müügile 10 Hiina firmale — Peking peatab tarnimise tagaukse-hirmude pärast

Pekingi tippkohtumine tootis esialgse AI-koostöö raamistiku: NVIDIA H200 kiipide müük heaks kiidetud kümnele Hiina ettevõttele koos investeerimisvoogude raja ja haruldaste muldmetallide järeleandmistega. Tarne on takerdunud — Hiina regulaatorid kontrollivad riistvara nende transiidiaegsete püsivara tagauste suhtes, mis on USA ekspordikontrolli aruteludes korduvalt lekkinud, ja Peking ei liigu enne, kui nad on rahul. Signaal AI-infrastruktuuri ostjatele: ekspordikontrolli režiim on nüüd läbirääkimispind, mitte fikseeritud piirang, ning arvutusvõimsus, mis pidi riikliku julgeoleku huvides koduvetesse jääma, on vahetuskaubaks haruldaste muldmetallide ja turule pääsemise vastu. Kõigile, kes planeerivad võimsust 12-24 kuud ette, muudab see nõudluskõverat — Hiina hüperskaleerijate naasmine H200 järjekorda tähendab tihedamat pakkumist kõigile teistele ja uut Anthropicu/OpenAI/Google'i tunglemist järgmise Blackwelli eraldise ümber. Vaadake, kas kiibid tegelikult välja saadetakse; kõik muu on teater, kuni nad saadetakse.

May 13, 2026

Cactus destilleeris Gemini tööriistakutsete oskuse 26M parameetriga mudelisse

Cactus Compute avaldas avatud lähtekoodiga Needle'i — 26M parameetriga mudeli, mis on Gemini 3.1-st destilleeritud ühe ülesande täitmiseks: muundada loomulik keel struktureeritud tööriistakutseteks. Treeningu hind oli tühine — 16 TPU v6e 27 tunni vältel eeltreeningule ja 45 minutit funktsioonikutsete järeltreeningule — ja mudel väidab end ületavat FunctionGemma-270M-i ja Qwen-0.6B-d ühekordsetes funktsioonikutsetes, saavutades tarbijaseadmel 1200 dekodeerimisžetooni sekundis. Huvitav panus pole väiksem universaalne mudel, vaid see, et agendiorkestratsiooni saab lahti võtta kitsaste spetsialistide kogumiks, kus tööriistade marsruutimine toimib käekellal ja keerukas arutlus elab API taga. MIT litsents, sihiks teadlikult telefonid, prillid ja sardseadmed.

Anthropic avaldas Claude for Small Business 15 valmis agendi-töövoogudega

Anthropic tõi turule väikeettevõtetele suunatud paketi, mis ühendab Claude'i nendega tööriistadega, mille eest VKE-d juba maksavad — QuickBooks, PayPal, HubSpot, Canva, DocuSign, Google Workspace ja Microsoft 365 — koos 15 kasutusvalmis agendi-töövooga, mis katavad palgaprognoose, kuu lõpu sulgemist, arvete jälgimist, lepingute ülevaatust, marginaalianalüüsi ja müügivihjete sõelumist. Sõnum on terav: väikeettevõtted moodustavad 44% USA SKP-st, kuid on aeglaseim AI kasutuselevõtu segment, ning Anthropic positsioneerib selle lõhe millekski, mille pakendatud agendi-kiht saab IT-osakonnata sulgeda. Iga toiming nõuab enne saatmist või maksmist inimese kinnitust — sama muster nagu eelmise nädala finantsteenuste mallides — ja see on ainus disainivalik, mis paneb üheinimese ettevõtte piisavalt mugavalt tundma, et lasta agendil oma raamatupidamist puutuda. Kui te nõustate VKE kliente, kes on endiselt "ChatGPT sisuloomeks" tasemel, on see hetk, mil tarnija pakendatud lahendus läheb mööda kõigest, mida nad ise plaanisid kokku panna.

Google'i AI-kaasmatemaatik saavutab hierarhiliste agentidega uue FrontierMath Tier 4 rekordi

Google DeepMindi AI-kaasmatemaatik on olekupõhine töökeskkond, kus kasutaja räägib projektikoordinaator-agendiga, kes delegeerib töö töövoo koordinaatoritele ja spetsialiseerunud isoleeritud alamagentidele — kõik suhtlus ja artefaktid liiguvad ühise failisüsteemi kaudu. Süsteem saavutas FrontierMath Tier 4-l 23 punkti 48-st — uue rekordi — ja aitas teadaolevalt elukutselistel matemaatikutel lahendada lahtisi probleeme. Arhitektuuriline õppetund laieneb laiemalt: pikaajalist uurimistööd ei teeninda hästi üksainus vestlusniit, ning agendipuust progressiivse paljastamise korral saab inimene jääda kavatsuse tasandile, samal ajal kui täitmise müra filtreeritakse välja. Sama koordinaatori-töövoo muster ilmub kvartali jooksul ka õigus-, finants- ja inseneriteaduse tööriistadesse.

Hopper toob agentide arenduse z/OS-i suurarvutitele ja COBOL-ile

Hypercubic avaldas Hopperi — töölauarakenduse, mis lubab AI-agentidel juhtida TN3270-terminale, kirjutada veerutäpset JCL-i, päringuid teha VSAM-i andmestikest ja siluda ebaõnnestunud ülesandeid, tõlgendades JESMSGLG-i ja SYSUDUMP-i loetavateks abend-jäljenditeks. Lubadus on igav ja ilmselge: ettevõtted käitavad endiselt triljonite dollarite väärtuses COBOL-i koodi kahaneva inseneride hulgaga, kes oskavad rohelise ekraani väljundit lugeda, ja agent, kes liigub ISPF-is sujuvalt, on majanduslikult väärtuslikum kui veel üks VSCode'i kaaspiloot. Tasub jälgida kui mustrit iga vana tehnoloogiavirna jaoks — agentidest räägitud tootlikkuse kasv on suurim just seal, kuhu kaasaegne arendustööriistastik kunagi ei jõudnud.

Isomorphic Labs kaasas 2,1 miljardit dollarit B-seeria voorus AI ravimite disainimootori skaleerimiseks

DeepMindi ravimite-avastamise harufirma lõpetas 2,1 miljardi dollari suuruse B-seeria, mida juhtis Thrive Capital ning millele lisandusid Alphabet, GV, MGX, Temasek, CapitalG ja Ühendkuningriigi suveräänne AI fond — kapital läheb IsoDDE (nende AI ravimidisaini mootori), globaalse äri skaleerimise ja kandidaatide arenduskonveieri lükkamise teenistusse. Lugu on number ise: 2,1 miljardit dollarit on era-AI rahastus mastaabis, mida seni said sisuliselt vaid aluselt mudelite laborid, ja nüüd jõuab see rakendusvertikaali sisse. See on signaal, et kapitali paigutajad on lõpetanud farmaatsia-AI hinnastamise biotechina ja hakanud seda hinnastama kui infrastruktuuri, kus platvorm liitub iseendaga ja vallikraav on omandiline mudel pluss omandiline andmevoo hooratas, mis seda toidab. Kõigile, kes vormistavad AI investeerimisnarratiive, on see 2026. aasta puhtaim andmepunkt teesi "vertikaalsed AI laborid suudavad kaasata aluselt mudelite suurusi voore" jaoks — ja signaal, et farmaatsia turuliidrid peavad kiiresti otsustama, kas nad ostavad endale mudelipartneri või kaotavad järgmise kümnendi sellisele.

Sakana AI ja NVIDIA tutvustasid TwELL-i: 30% kiirem inferents ja 24% kiirem treening H100-l

Sakana AI ja NVIDIA avaldasid TwELL (Tile-wise ELLPACK) — hõreda aktivatsiooni formaadi, mis seostub puhtalt GPU plaatidena tehtud maatrikskorrutuse kernelitega, mis tähendab, et puudub eraldi konversiooniaste, lisasünkroonimine ja mälu üldkulu. Mõõdetud võit H100-l: inferents üle 30% kiirem, treening kuni 24% kiirem, tippmälukasutus üle 24% väiksem, ligikaudu 3% energiakokkuhoid ning järgnevate ülesannete kvaliteet ei lange. Raamistus on olulisem kui numbrid: enamik viimase aja "efektiivse inferentsi" võite on tulnud kvantiseerimisest või destilleerimisest, mis mõlemad teevad kompromissi kvaliteediga; TwELL on üks neid haruldasi formaadi-tasandi optimeerimisi, mis annab arvutusvõimsust sisuliselt tasuta tagasi, sest tema poolt ärakasutatav hõredus on niikuinii juba olemas gate-aktivatsioonides. Kui teie ise-majutatud mudeli ühikuökonoomika on piiripealne, on see just selline virnatasandi parandus, mis lükkab töökoormuse "piiripealsest" üle "saadame teele" servale.

⚙TööriistTööstus

Shopify avaldas agendivalmiduse skanneri — 9 poodi 10-st on AI-ostlejatele nähtamatud

Shopify avaldas tasuta agendivalmiduse aruande, mis hindab iga e-poodi 30 sekundi jooksul nende kategooriate alusel, mis AI-ostlemisagente tegelikult huvitavad — struktureeritud tooteandmed, schema-märgendid, masinloetav varudeinfo ja roomamise kättesaadavus. Tähtsam kui tööriist ise on raamistus: Shopify enda andmetel mainitakse kõigest ~12% poodidest, kui ostja küsib ChatGPT-lt, Geminilt või Perplexitylt tootesoovitust — see tähendab, et agentidele suunatud kaubandus on uus SEO ja enamik kaubamärke alustab nullist. Kui teie tehnoloogiavirn peab AI-ostlemisassistente endiselt teisejärguliseks, on see odavaim võimalik diagnoosivahend, et veenduda — kas eksisteerite kanalis, mis suunab 18 kuu pärast olulise osa ostukavatsusest.

Thinking Machines Lab tutvustab interaktsioonimudeleid — pidevalt töötavaid LLM-e

Mira Murati labor avaldas oma esimese tehnilise eelvaate: 276B MoE (12B aktiivset) "interaktsioonimudel", mis loobub kordamööda kõnelemisest ja töötleb selle asemel ajaliselt joondatud 200ms mikrokäike — heli, videot ja teksti — paralleelselt. Teatatud kõnevahetuse latentsus on 0,40 sekundit võrreldes GPT-4 Realtime 2.0 1,18 sekundiga, eraldi taustmudel hoolitseb aeglase arutluse ja tööriistade kasutuse eest. Arhitektuuriline panus on selles, et tegelikult kasulike hääle- ja videoassistentide kitsaskoht on jutuajamise stiilis päring-vastus tsükkel ise — mitte mudel. Hetkel ainult uurimiseelvaade, kuid kui latentsusnumbrid koormuse all püsivad, on see esimene tõsiseltvõetav konkurent OpenAI Realtime'ile ja Gemini Live'ile, kus erinevus on struktuurne, mitte järkjärguline.

XBow hindas Claude Mythost: 42–55% vähem haavatavuste valenegatiive, 5x kõrgem hind

XBow lasi Anthropicu Mythos Preview mudeli läbi oma ründeturvalisuse hindamissüsteemi ja nimetas seda "suureks edasiminekuks" lähtekoodist haavatavuste avastamisel — 42–55% vähem valenegatiive võrreldes varasemate mudelitega, lisaks tugevad tulemused natiivkoodi analüüsis, pöördprojekteerimises ja brauseri-koostöös. Hoiatused on aga teravad ja väärt omaksvõtmist enne, kui kinnitate eelarveridagi: hinnangu kvaliteet on ebaühtlane (avastuste valideerimisel liiga sõnasõnaline), käsuohutuse võrdluskatsetes jääb mudel alla Opus 4.6-le (77,8% vs 81,2%), reaalsa veebilehega suhtlemine on rünnete valideerimiseks olulisem kui koodiligipääs, ja 5x Opuse hinnaga on tulemuse-eest-makstav kalkulatsioon ebamugav. Pannes selle kokku Mozilla 423 vea kuuga Firefoxis (eraldi lugu), saate realistliku pildi: Mythos on tugevaim üksikmudel vigade leidmiseks, kui ta on lülitatud korralikku testimisraami, mitte aga turvameeskonna asendaja. Hankeõpetus — mudelivalik turvalisuses on nüüd portfellitäide otsus, mitte lipulaeva valimine.

May 12, 2026

Anthropic toob Claude Platformi AWS-i koos kõigi funktsioonidega esimesest päevast

Anthropic pani kogu Claude'i API AWS-i sisse esmaklassilise, IAM-i kaudu juhitava teenusena — Managed Agents, koodikäivitus, veebiotsing, Skills ja prompt caching on saadaval samaaegselt otsese Claude'i API-ga. Märkimisväärne nihe: see ei ole Bedrocki mudeli-poe vahendusmuster, vaid Anthropicu enda pind, mis töötab AWS-is natiivselt, mille arvelduskäik käib AWS-i kaudu ja millele juurdepääs sõltub AWS-i rollidest. Suurettevõtte ostjale eemaldab see kõige tavalisema Claude'i blokaadi — "meil on AWS-iga juba leping ja ost ei luba uut tarnijat lisada." Strateegiliselt ütleb see, et Anthropic on valmis loobuma otsestest arveldussuhetest, et saada koht Fortune 500 valitsemise perimeetri sees kiiremini, kui OpenAI-Azure pool sama suudab.

Simon Willison GitLabi 'agentide ajastu' loost: vaata, kes lugu räägib

GitLab teatas koondamistest, mida raamiti "agentide ajastu" teesiga — et AI-agendid kordistavad tarkvara nõudlust, à la Jevonsi paradoks. Simon Willison ütleb, et jagab põhihüpoteesi, aga juhib tähelepanu ilmsele huvikonfliktile: GitLabi aktsia on langenud 50%, kogu ärimudel sõltub arendaja-litsentside kasvust, ning optimistlikud prognoosid agentidest, mis loovad rohkem arendajaid (mitte vähem), on täpselt see, mida koha-pealt-müüv äri peab investoritele rääkima. Mõte on laiemalt kasulik — kui arendaja-tööriistade tarnija ütleb sulle, et AI loob rohkem arendajaid, kaalu seda juhi-tööriistade tarnija sõnumi vastu, mis ütleb, et AI loob neid vähem. Tehnoloogiline küsimus ja kommertsnarratiivi küsimus ei ole sama küsimus ning enamik juhatuse slaididest ajab need segi.

Google: kurjategijad kasutasid päris null-päeva leidmiseks LLM-i

Google'i Threat Intelligence Group väidab, et tal on esimene usutav juhtum, kus kurjategijad — mitte riigiga seotud rühmitused — kasutasid laia levikuga avatud lähtekoodiga süsteemihalduse tööriistas null-päeva leidmiseks ja relvastamiseks suurt keelemudelit. Atributsioon põhineb LLM-i iseloomulikel jälgedel ründekoodis: hallutsineeritud CVSS-skoor, õpikulikud docstring'id, üldsõnaline muutujate nimetamine. Raamistus on vähem oluline kui suund: võimekus, mis eeldas varem osavat inimest, on nüüd saavutatav ühe käsuga ja kannatlikkusega. Kaitsjad peaksid eeldama, et LLM-ide ründav kasutamine nende enda sõltuvuste vastu on nüüd vaikimisi olukord, mitte erand — ja keskenduma igavale distsipliinile: teadma, mis nende infrastruktuuris töötab, ja paikama kiiresti.

Simon Willison: pane 'llm' shebang-reale ja käivita prompt nagu programm

Simon Willison näitab, kuidas kasutada oma `llm` CLI-d Unixi shebang-real (`#!/usr/bin/env -S llm -f ...`), nii et lihtsa inglise keelega kirjutatud prompt-fail — vajadusel koos YAML-is defineeritud tööriistadega — muutub otse käivitatavaks programmiks. Kommenteerija võttis kokku: "nüüd saad shebangi panna inglise keelse tekstifaili peale." Väike trikk, aga suurem mõte tiimidele, kes mõtlevad, kuhu promptid nende stäkis kuuluvad: promptid käituvad nagu lähtekood, käivad versioonihalduses nagu lähtekood ja nüüd kutsutakse välja nagu lähtekood. Sisemiseks automatiseerimiseks — release notes, logide triaaž, ühekordsed andmetööd — kaob ebamugav lõhe "ma kirjutaks shellskripti, kui see oleks deterministlik" ja "ma lihtsalt kleebin selle iga kord ChatGPT-sse" vahel.

TanStacki postmortem: 84 pahatahtlikku paketti, GitHub Actionsi vigade ahel

Ründajad sidusid kokku `pull_request_target` väärseadistuse, vahemälu mürgituse usalduspiiride ülese ja OIDC-tokenite väljatõmbamise runneri mälust, et avaldada 84 pahatahtlikku versiooni 42 TanStacki paketis — ning kasutasid kogutud AWSi, GCP ja GitHubi mandaate, et levida edasi teiste haldajate projektidesse. Mõju kasvab jätkuvalt, sest pahavara varastab kõike kättesaadavat: arendaja masina SSH-võtmed, pilvetokenid, kõik, milleni ka agent või CI-töö ulatuks. AI-koodiagentide või automaatsete pipeline'idega tiimidele on järeldus tüütult tuttav: iga pakett, mille agent paigaldab, on mandaat, mille ta võib lekitada. Fikseeri versioonid, hoia tokenid kitsalt skoobitud ja eelda, et iga arendaja masin, kus mõjutatud versioon paigaldati, on kompromiteeritud.

May 10, 2026

Andon Labs pani AI agendi juhtima päris kohvikut Stockholmis

Andon Labs andis autonoomsele agendile päris Stockholmi kohviku ohjad — tellimised, ajakavad, kliendisuhtlus, kõik — kui elav katse järelevalveta tegutsemisest. Simon Willisoni lugemisviis on õige: huvitav küsimus pole enam "kas agent suudab poodi pidada", vaid "milliseid välimisi süsteeme tal nüüd muuta lubatakse ja kes selleks nõusoleku andis?" Lugu on kasulik mõttekoht igaühele, kes agentide juurutust kavandab — oluline piir pole agendi mõtlemisvõime, vaid tema tööriistadele juurdepääsu plahvatusraadius, ja enamik tootmislahendusi tõmbab selle piiri endiselt liiga heldelt.

LLM-id rikuvad vaikselt dokumente, kui delegeerid muutmise

Uus arxivi artikkel näitab, et tipptaseme mudelid, kui anda neile dokument ja ähmane toimetuskäsk, toovad regulaarselt sisse vaikset semantilist nihet — muudavad numbreid, pööravad ümber täpsustusi, jätavad ära ettevaatusklausleid — viisil, mis põgusal ülevaatamisel märkamata jääb. Tegu pole hallutsineerimisega, vaid usalduse probleemiga: kasutaja eeldab, et "redigeeri seda" tähendab kitsast operatsiooni, ent mudel kirjutab enesekindlalt ümber midagi, mida algne autor pole sanktsioneerinud. Igale meeskonnale, kes laseb agentidel käsitleda finants-, õigus- või lepingudokumente, sõnastab see auditiprobleemi ümber: vahede võrdlus pole valikuline ning agendid, mis puudutavad tõe-allika dokumente, vajavad piiratud ja struktureeritud toimetusprimitiive — mitte vabavormilist ümberkirjutamist.

BlackRocki Larry Fink pakub AI arvutusvõimsuse kauplemist futuuriturul

BlackRocki tegevjuht Larry Fink tegi ettepaneku käsitleda AI arvutusvõimsust uue varaklassina, mille jaoks loodaks futuurilepingud — sarnaselt sellele, kuidas naftatootjad oma hinnariski maandavad, saaksid ostjad ja müüjad maandada GPU-de hinda. Mõte kõlab eksootiliselt, kuid taustal on lihtne fakt: arvutusvõimsus on iga AI-mahuka tegevuse domineeriv muutuvkulu ning maandamata risk hakkab ilmuma päris kasumi-kahjumi aruannetesse. Kui see turg tekib, koonduvad ostuosakond, finantsplaneerimine ja taristumeeskonnad sama numbri juurde — ning need väiksemad ostjad, kes oma nõudlust usutavalt ennustada ei suuda, jäävad tõenäoliselt selle vahele.

Claude Code: HTML-väljundi ootamatu mõjusus

Simon Willison väidab, et Claude Code'ilt Markdowni asemel HTML-i palumine avab tunduvalt rikkalikuma seletuspinna — kohapeal renderdatud SVG-diagrammid, kokkuklapitavad lõigud, lingitud kood ning iseseisvad lehed, mis töötavad ilma eraldi renderdaja toeta. Õppetund laieneb Code'ist kaugemale: kui agent saab oma väljundvormingu valida, tasub talle anda kõige väljendusrikkam substraat, mida ta otse kirjutada oskab, mitte madalaim ühisnimetaja. Dokumentatsioonis, sisetööriistades ja ühekordsetes seletustes on üksikfaililine HTML-artefakt nüüd sageli õige lõpptulem — ja "tee kiiresti üks diagramm" hõõrdumine on praktiliselt kadunud.

Pay.sh laseb AI agentidel kutsuda API-sid ja maksta stabiilmüntides ilma KYC-ta

Pay.sh, mis on ehitatud Solana peale ja jaotatud Google Cloud kaudu, lubab AI agentidel API-kutsete eest stabiilmüntides tasuda ilma pangakontode, kaartide või KYC-ta — ning komplektis on integratsioonid Claude'i, Gemini ja ligi viiekümne teenusega. See on järjekordne kanne agendimaksete võidujooksus, mille avas x402, ja suund on nüüd selge: agendid ei käi enam kaua API-de juures läbi inimese-stiilis autentimise. Tellijate jaoks on raskem küsimus juhtimine — kui agent saab kulutada ilma inimliku kinnituseta, liigub kulukontroll hangetelt jooksvasse käitusesse ning enamikul ettevõtetel see kiht hetkel üldse puudub.

May 9, 2026

◻ArtikkelTööstus

Dario Amodei: Anthropicu tulu kasvanud 80x aastases tempos, eesoks edu 1-3 kuud

CNBC vestluses Jamie Dimoniga ütles Anthropicu juht Dario Amodei, et ettevõtte kvartaalne tulu on kasvanud „aastases tempos kaheksakümnekordseks" ja paigutas Anthropicu maailma kõige võimekamaks AI laboriks — USA konkurendid jäävad maha üks kuni kolm kuud ja Hiina esireamudelid kuus kuni kaksteist kuud. Edu numbreid tasub võtta sellise soolaga, nagu need väärivad: võimekuse vahed muutuvad nädalast nädalasse ja „1-3 kuud" on mugavalt kaitsev vastus, mis ei sobi täpselt ühegi rivaalile. Tulunumber on tugevam signaal — see ütleb hangetiimidele, et Claude'i hinnastamisvõim kasvab, mitte ei kahane, ja et hallatud agendid ning Claude Code hakkavad lukustusefekti kuhjuma.

Mozilla kõvendab Firefoxi Claude Mythosega: 423 turvanõrkust ühes kuus

Mozilla avaldas tagatoa loo, kuidas Firefoxi kõvendamiseks kasutati Claude Mythose eelvaadet — tavapäraselt 20-30 kuus paranduselt hüpati aprillis 423-le. Pealkiri on muljetavaldav, aga muster on olulisem: väike turvameeskond koos koodi lugeva ja tööriistu kasutava esireamudeliga teeb sama tööd ära kiiremini, kui varem mahtus oluliselt suuremasse koosseisu. Kui hooldad mistahes brauserilähedast C/C++ koodibaasi või pikema sabaga toodet, kuhu on kogunenud ebaturvalist koodi, siis see on nüüd usutav mängukava — ja võrdlusalus, millest sinu CISO sel kvartalil kuulda saab.

◻ArtikkelEttevõtted

OpenAI loob TPG, Brookfieldi ja SoftBankiga 10 miljardi dollarilise juurutus-JV

OpenAI rajab koos TPG, Brookfieldi ja SoftBankiga ühisettevõtet — väidetavalt umbes 10 miljardi dollari mahus — et aidata keskmise suurusega ja suurettevõtetel AI tegelikult oma äriprotsessidesse paigaldada. See peegeldab Anthropicu hiljutist Wall Streeti JV-d ja annab teada, et esireamuse laborid on jõudnud järelduseni: juurutuslõhe — mitte mudelivõimekus — on tulu kasvu suurim pudelikael. Ostjate jaoks tähendab see seda, et aasta teises pooles tuleb mõlemalt laborilt lainena „me toome ka konsultandid" pakette — kasulik, kui sinu CFO tahab ikka veel ühte vastutavat osapoolt, vähem kasulik, kui oled juba sisemiselt AI-lihase üles ehitanud ja vajad vaid platvormiligipääsu.

◻ArtikkelAvatud mudelid

Tether avaldab QVAC: täisvirn lokaalse AI jaoks ja meditsiinimudelid servaseadmetele

Tether — jah, see stablecoin'i emitent — avaldas QVAC-i, täisvirna platvormi lokaalse AI jooksutamiseks, sealhulgas servaseadmetele häälestatud MedPsy meditsiinimudelite sarja. Tehniline panus on huvitav sõltumata sellest, kes seda teeb: parameetrite skaleerimise asemel toetub meeskond sünteetilistele andmestikele ja spetsialiseeritud järeltreenimisele, et saada väiksemate kaaludega valdkonnale piisavat jõudlust. Kui sa jooksutad kliinilisi, juriidilisi või vastavusjuhtumeid, kus andmete asukohanõuded teevad pilve esireamise laborid valikust välja, siis avatud mudelid + servapealne inference hakkab nägema välja kui päris teine variant, mitte ainult varuplaan.

May 8, 2026

Agendid vajavad juhtloogikat, mitte rohkem prompte

Sel nädalal HN-is laialt jagatud artikkel sõnastab seda, mida enamik agendi-tiime on raskel teel ära õppinud: keerulisemate ülesannete puhul ei osta sa promptide ahelaga endale seda etteennustatavust, mida tegelikult vajad — see tuleb LLM-i ümbritsevast deterministlikust koodist, mitte LLM-ist endast. Kohtle mudelit komponendina selgete olekuvahetuste ja kontrollpunktide sees, mitte plaanijana, kelle käitumist sa pelgalt loodad. Praktiline järeldus igaühele, kes ehitab tootmisagente: lõpeta selle mõõtmine, kui nutikas su prompt on, ja hakka mõõtma, kui suur osa tööprotsessist jookseb koodis, mida saab lugeda, testida ja tagasi pöörata.

Anthropicu 'Dreams': Claude Managed Agendid, mis öö jooksul iseennast täiendavad

Sel nädalal Code w/ Claude konverentsil näitas Anthropic Dreaming-funktsiooni — uurimiseelvaate, kus managed-agendid vaatavad öö jooksul ise oma varasemad sessioonid üle, leiavad üles selle, mille nad maha jätsid, ja kirjutavad endale uued playbookid. Simon Willisoni live-blog toob näite, kus agent koostas eelmise droonimaandumise põhjal `descent-playbook.md` faili. Samas keynote'is käsitleti mitme-agendi orkestreerimist selgete rollidega (Commander, Detector, Navigator) ning „lõpmatuna mõjuvaid" kontekstiaknu koos püsimäluga. Asi, mida jälgida: Anthropic ei paku agente enam ühekordse järeldusena, vaid süsteemidena, mis koguvad institutsionaalset teadmist — see muudab nii nende hindamise, auditeerimise kui ka juhtimise loogikat.

Anthropic toob finantsteenustele Claude'i mallid: pitch book'id, KYC, AML, fondiarvestus

Anthropic avaldas finantsteenuste lahenduslehe valmis Claude'i mallidega, mis katavad pitch book'e, hindamist, krediidimemosid, KYC-d, AML-uurimist, fondiarvestust, kooskõlastamist ja reservide piisavuse analüüsi. Need tulevad pluginitena Claude Cowork'is ja Claude Code'is, managed-agendi retseptidena ning Microsoft 365 lisanditena Excelisse, PowerPointi, Wordi ja Outlooki — koos natiivsete liidestustega LSEG-i, FactSet'i, S&P Globali ja Morningstariga. Põhiline müügiargument on allika viitamine („iga number on jälgitav lähteni") — ainus viis, kuidas need protsessid sisemise auditi nuusutestist läbi pääsevad. Tasub lugeda, kui oled CFO või COO ja kaalud ehitamist versus tarnija mallide kasutuselevõttu — Anthropic just tegi ehitamise argumendi märgatavalt raskemaks.

Goodfire käivitas Silico: AI-tiimide 'mudelineuroteadlase'

Goodfire — Anthropicu rahastatud interpreteeritavuse labor — avas Silico, platvormi, mis lammutab närvivõrgud inimloetavateks tunnusteks ja jooksutab automatiseeritud „mudelineuroteadlase" agenti, kes uurib mudeleid eksperimentidega. Pakkumine ei piirdu LLM-idega: nimekirjas on selgesõnaliselt ka nägemis-, robootika- ja elusteaduste vundamendimudelid. Tiimidele, kes tarnivad turvakriitilist tarkvara, on see esimene kommertspakkumine, mis käsitleb küsimust „miks mudel seda tegi" käegakatsutava inseneriülesandena, mitte filosoofiaseminarina. Kui interpreteeritavuse tööriistad muutuvad ettevõtte hangete kohustuslikuks osaks — ja märke selle kohta on — siis Silico on see, mida jälgida.

Lõuna-Aafrika peatas siseministeeriumi ametnikud poliitikadokumendi AI-hallutsinatsioonide pärast

Lõuna-Aafrika siseministeeriumis peatati kaks vanemametnikku pärast seda, kui kodakondsust ja immigratsiooni käsitleva valge raamatu uuendatud versiooni viidete loendisse ilmusid AI genereeritud, väljamõeldud allikad. Ministeerium võttis bibliograafia tagasi, palkas kaks välist advokaadibürood, et üle vaadata iga 2022. aasta novembrist alates avaldatud poliitikadokument, ning lubas viia kinnitusprotsessi sisse „AI kontrollid ja deklaratsioonid". Ilmselge õppetund: ära kleebi LLM-i loodud viidete loendit kuhugi ametlikku. Vähem ilmselge: tagajärjeks polnud vaikne tagasivõtmine, vaid peatamised ja mitmeaastane tagasiulatuv audit. Igaüks, kes paigutab AI reguleeritud protsessidesse, peaks käsitlema seda prototüüp-juhtumina ja kavandama auditijälje enne, kui kavandab assistendi.

May 7, 2026

Anthropic võtab kogu SpaceX'i Colossus 1 endale: 220K GPU-d, üle 300 MW, käivitub kuuga

Anthropic ostis välja kogu SpaceX'i poolt käivitatava Colossus 1 andmekeskuse — üle 300 megavati ja 220 000 NVIDIA GPU-d kuu jooksul tööle, lisaks olemasolevatele Amazoni, Google'i ja Microsofti kohustustele. Teates mainitakse ka huvi arendada SpaceX'iga koos "mitme gigavatti orbitaalset AI arvutusvõimsust" — selline lause kõlaks turundusena, kuid Anthropic turundust üldjuhul ei avalda. Ostjate jaoks tähendus: rate-limit'id ja võimsuspiirangud, mida sa selle kevade Claude'iga oled kohanud, hakkavad oluliselt leevenema, ja Anthropic katab arvutusvõimsuse riski sõna otseses mõttes iga usaldusväärse operaatori kaudu Maal — ja ilmselt ka selle kohal.

DeepMind valib EVE Online'i üldotstarbeliste AI agentide liivakastiks

Google DeepMind teeb koostööd nüüdseks iseseisva Fenris Creations'iga, et kasutada EVE Online'i offline-koopiaid — 23-aastast mängijate juhitud majanduse, poliitika ja sõja MMO-d — üldotstarbeliste agentide uurimiskeskkonnana. Raamistik on teravam kui kõlab: enamik agendibenchmarke on lühikesed ja täpselt määratletud ülesanded, aga EVE on aastakümneid emergentset strateegiat, reetmist ja tarneahelaid, mida juhib populatsioon, kes käitub juba praegu vastandlikult. Kui sinu agent suudab seal hakkama saada, ei tundu hüpe "halda päriselu hankefunktsiooni" enam naeruväärne. Hoia silma peal — mängukeskkonnad on ajalooliselt olnud juhtindikaator selle kohta, mida agendid päriselus 18 kuu pärast suudavad.

Google muudab reCAPTCHA agendiveebi usalduspaltvormiks

Google taaskäivitas reCAPTCHA Cloud Fraud Defense'ina — ja raamistus on nihkunud "blokeeri botid" pealt selle juurde, et "otsusta, milliseid agente usaldad ja tõenda, kes on inimesed". Uued tükid hõlmavad Web Bot Auth'i ja SPIFFE-l põhinevat agendiaktiivsuse dashboard'i, poliitikamootorit, mis filtreerib liiklust agendi identiteedi ja riskiskoori järgi, ning QR-koodil põhinevat väljakutset, mis on AI jaoks majanduslikult kallis lahendada. Huvitav nihe on see, et Google enam ei teeskle, nagu vastuseks oleks "mitte ühtegi botti" — ta tunnistab, et legitiimsed agendid külastavad sinu checkout'i, registreerivad kontosid ja teevad sinu API päringuid, ning annab sulle viisi mõni neist lubada ja mõni keelata. Kui sul on midagi kliendile suunatut, ei ole küsimus enam selles, kas agendiliiklusega arvestada, vaid kes selle ära tunneb.

Saperly käivitab telekomioperaatori, mis on ehitatud ainult AI agentidele

Saperly positsioneerib end esimese mobiilsideoperaatorina, mis on disainitud AI agentidele — päris telefoninumbrid, kõne, SMS ja webhook'i marsruutimine kui primitiiv, mida agent saab võtta ja hoida üle toodete ja kanalite. Kõlab nišina, kuni tuletad meelde, kui suur osa päris töövoogudest käib endiselt läbi telefoninumbri: arstikabinetid, pangad, tarnijad, kahefaktoriline autentimine, ajakavad. Panus on see, et stabiilne identiteet telefonivõrgus muudab agendi vestlusbotist kellekski, kes saab tegelikult ülesandeid lõpuni viia. Pane see kokku OpenClaw-tüüpi sõnumirakenduste integratsioonidega ja Anthropici finantsteenuste agendi mallidega ning pilt on selge: 2026 on aasta, kus agendid lõpetavad vestlusakendes elamise ja hakkavad esinema ülejäänud võrgus.

Simon Willison: minu enda vibe coding ja agendipõhine inseneeria sulanduvad kokku

Pool aastat tagasi tõmbas Willison teravat piiri vibe coding'u ja professionaalse agendipõhise inseneeria vahele. Nüüd tunnistab ta, et tema enda töös on see piir hägustunud — ta on lõpetanud agendi väljundi rea-realt läbilugemise isegi tootmiskoodis, käsitledes agenti kui teise meeskonna teenust, mida usaldab seni, kuni midagi katki läheb. Ta nimetab seda "kõrvalekalde normaliseerumiseks" ja see on aus pilt sellest, mis enamikus AI-toega meeskondades tegelikult toimub. Praktiline märk: koodiülevaatus pole enam koht, kus probleeme tabad — määrav on see, kas keegi on asja päriselt kasutanud. Kui sinu insenertöö protsess eeldab veel AI loodud koodi rea-realt ülevaatamist, on see juba aegunud.

May 4, 2026

Anthropic, Blackstone, Hellman & Friedman ja Goldman käivitavad 1,5 mld dollari AI-teenuste firma — OpenAI teeb sama TPG ja Bainiga

Struktuur ongi siin lugu: Anthropic, Blackstone ja Hellman & Friedman panevad kumbki ligi 300 mln dollarit ning Goldman ~150 mln, et luua uus firma, mis paigutab oma insenerid PE-omanduses keskmise suurusega ettevõtetesse, kujundades nende töövood agentide ümber — esimeseks kliendibaasiks on iga partneri enda portfellifirmad. OpenAI ehitavat samasugust struktuuri TPG ja Bainiga. Koos loetuna ütlevad mõlemad mudelilaborid ühte: piirimudelid üksi ettevõtte tulu ei liiguta — seda liigutavad insenerid, kes istuvad keegi teise tervishoiu-, tootmis- või finantsvoo sees, ja maksjaks on PE-omanik, kes marginaali kasvu juba ootab. See on otsene rünnak konsultatsioonitööstusele ja näitab, kuhu järgmise aasta "ettevõtte AI" eelarve tegelikult voolab.

Simon Willison: "Inimesed ei igatse automatiseerimise järele"

Willisoni lühiessee läheb vastuollu tavalise tehisintellekti müügijutuga: kasutusnumbrid on suured, kuid enamik inimesi ei taha tegelikult oma tööd automatiseerida — nad tahavad seda parandada oma tingimustel. Lõhe kasutusmõõdikute ja tõelise vaimustuse vahel on miski, millega iga sisemist tehisintellekti juurutav meeskond kokku põrkab, ja see selgitab, miks agendi-piloodid jäävad nii sageli toppama just kasutaja-aktsepteerimise, mitte tehnilise sammu juurde. Kasulik värskendus enne, kui pakkuda skeptilisele tiimile järjekordset automatiseerimisalgatust.

Cloudflare ja Stripe lubavad agentidel ise kontosid avada ja rakendusi avaldada

Cloudflare ja Stripe avaldasid lõimingu, kus tehisintellekti agendid saavad iseseisvalt registreerida Cloudflare'i konto, lisada Stripe'i kaudu tasulise tellimuse, registreerida domeeni ja rakendust juurutada — kõik ilma inimese vaheastmeta, vaikimisi 100-dollarilise igakuise kuluta. See on järgmine samm pärast „agente, kes kutsuvad API-sid": nüüd agendid, kellel on oma taristukontod. Ühtlasi sunnib see arutama eelarvepiirangute, auditijälgede ja vastutuse üle, kui agendi juurutatud rakendus hakkab kaarte koormama. Tasub mõista enne, kui hange küsib, kes vajutas „deploy" nuppu.

DeepClaude: avatud lähtekoodiga agendisilmus ühendab Claude Code'i ja DeepSeek V4 Pro

Väike avatud lähtekoodiga projekt mässib Claude Code'i agendiraamistiku ümber DeepSeek V4 Pro raskemate arutluskäikude jaoks ja annab tööriistakutsed tagasi Claude'ile. Huvitav pole siin kood, vaid muster: meeskonnad segavad ühe agendisilmuse sees tipptasemel suletud mudeleid odavamate avatud mudelitega ja valivad iga sammu jaoks õige. Selline mudelite arbitraaž on tõsistes agendipinudes muutumas tavakihiks ja DeepClaude on puhas näide, kuidas seda kokku panna.

OpenAI GPT-5.5 prompi-juhend: kustutage suurem osa vanast karkassist

Ametlik sõnum on, et GPT-5.5 tahab lühemaid, tulemusele orienteeritud prompte ja töötab aktiivselt halvemini nende protseduuriliste "tee samm 1, siis samm 2, siis samm 3" virnadega, mille tiimid varasemate 5.x mudelite peale ehitasid. OpenAI soovitab eraldada ka isiksuse (toon, soojus) koostöö stiilist (millal küsida, kui ennetav olla) ning kohelda madalat/keskmist arutluspingutust uue vaikevaikeväärtusena enne eskaleerimist. Praktiline järeldus: iga GPT-5 peale häälestatud produktsiooniprompti raamatukogu on nüüd legacy — enamik neist juhistest eksisteerib, et kompenseerida piiranguid, mida uuel mudelil enam pole, ja nende edasitirimine jätab võimekuse lauale.

Harvardi katse: OpenAI o1 diagnoosib õigesti 67% EMO juhtumitest, triaažiarstid 50–55%

Kontrollitud Harvardi katse teatel saavutab OpenAI o1 erakorralise meditsiini juhtumite diagnoosimisel 67% täpsuse, võrdluseks olnud triaažiarstid jäid 50–55% piiresse. Sellised pealkirjanumbrid levivad kiiresti ja lihtsustavad asja üle: triaaž pole sama mis ravi ja mudel, mis lööb kell kolm öösel väsinud EMO arsti, ei ole tingimata mudel, mida tohiks üksinda usaldada. Igale meeskonnale, kes ehitab reguleeritud valdkondades otsustustugesid, on katse siiski väärtuslik andmepunkt: küsimus on nihkumas „kas see tuleb inimesega toime" juurest „kuhu täpselt see töövoos sobib" juurde.

OpenAI ajab kogu kõnekanali — ChatGPT, Realtime API, uuringud — läbi ühe Go-teenuse, mis on ehitatud Pioni peale

Postitus on tehnilise stäki kohta ebatavaliselt avameelne: üks Go-transiiveri teenus haldab SDP läbirääkimist, koodekivalikut, ICE-d ja WebRTC meediaterminatsiooni nii ChatGPT kõne, Realtime API kui ka sisemise teadustöö jaoks — 900M+ nädalakasutaja juures. Huvitav inseneriotsus: avalik UDP-pind hoitakse fikseeritud ja kitsas, et WebRTC istuks Kubernetes'i sisse puhtalt, selle asemel et hajutada tuhandeid porte, nagu enamik kõneinfrat teeb. Kõigile, kes skaalal kõneagente ehitavad, on see haruldane viiteraamatuks olev arhitektuur tiimilt, kes täisduplekssuhtlust globaalselt päriselt tööle on saanud — väärt lugemist enne kui omaserveri stäki või kolmanda osapoole realtime-pakkujaga seod end.

May 3, 2026

Agendi raamistik kuulub liivakastist väljapoole

Mendral väidab, et agendi juhtimistsükkel peaks jooksma backend-serveris, mitte samas liivakastis, kus tema käsud käivituvad — pööreldes pea peale arhitektuuri, mida kasutavad Claude Code ja enamus valmis raamistikke. Kasu: mandaadid ei sisene kunagi ühekordsesse konteinerisse, liivakastid muutuvad kariloomadeks, mida saab peatada või asendada ilma sessioonioleku kaotamiseta, ning oskused ja mälu elavad jagatud andmebaasis ühe arendaja failisüsteemi asemel. Tiimidele, kes liiguvad agentidega ühe arendaja demost edasi, on see kasulik raam: küsimus pole selles, milline IDE sinu agendiga ühendub, vaid kus tsükkel jookseb ja mis jääb alles, kui liivakast sureb.

Agent Skills: Addy Osmani argument, miks koodiagentidele tuleb peale suruda vanem-inseneri distsipliin

Osmani sõnastus on terav: koodiagendid lähevad vaikimisi "valmis" seisundini lühimat teed pidi — jätavad vahele speci, testid, ülevaated ja skoobi distsipliini, sest miski tsüklis neid sundima ei pane. Agent Skills on kuueetapiline raamistik (Define, Plan, Build, Verify, Review, Ship), mis kodeerib need vanem-inseneri praktikad mitte-möödaminemisateks töövoo sammudeks, lisades selgesõnalised "anti-ratsionaliseerimise" tabelid hetkedeks, kus agent üritab end verifitseerimisest välja rääkida. Tiimidele, kes plaanivad agente päris koodibaasi peale lasta, on see kõige kasulikum sõnastus, miks naiivsed "anna agendile repo" juurutused toodavad enesekindla välimusega prahti — ja milline näeb välja minimaalne protsessikiht, enne kui agendi väljund hakkab käituma juuniorinseneri tööna, mis päriselt mergetakse.

IBM Granite 4.1: ettevõtetele suunatud avatud mudelid keele, nägemise ja kõne jaoks

IBM avaldas oma seni laiima Granite'i releasi: tihedad keelemudelid 3B kuni 30B parameetriga, tugeva juhiste järgimise ja tööriistakutsumisega, lisaks dokumendipõhine nägemismudel, mitmekeelne kõnetuvastus, embeddingid ja turvalisuse Guardian-mudel. Pakkumine pole tippmudelite võistlus benchmarkide pärast — vaid prognoositav latentsus, madalamad kulud ja litsents, mille õigusosakond reaalselt tootmiseks heaks kiidab. Ettevõtetele, kes on aasta pilooteerinud suletud API-sid ja avastanud, et tokenipõhine arvestus skaala juures ei kannata, on sidus avatud virn juba hankesüsteemis olevalt tarnijalt päris valik, mitte harrastajate eksperiment.

Kimi K2.6 edestas programmeerimisvõistlusel Claude'i, GPT-5.5 ja Gemini

Moonshot AI avatud kaaludega Kimi K2.6 saavutas Word Gem Puzzle'i programmeerimisvõistlusel 22 punktiga esikoha, edestades reaalajas struktureeritud arutluse ülesandes GPT-5.5, Claude'i ja Gemini. See pole enam üksikjuhtum: vahe allalaaditavate Hiina mudelite ja USA tipptasemel suletud API-de vahel jätkab kahanemist täpselt nende piiratud probleemilahenduse ülesannete osas, mida tiimid päriselt kasutavad. Organisatsioonidele, kes oma "ehita või osta" arvutust uuesti teevad, muudab tippmudelitega võrdne avatud mudel nii kuluarvestust kui ka andmesuveräänsuse argumenti enda taristu kasuks.

VS Code lisab kommittidele vaikimisi 'Co-Authored-by Copilot' rea

Microsoft lülitas VS Code'i Git-laienduses sätte `git.addAICoAuthor` vaikimisi sisse, lisades kommittidele vaikselt Copiloti kaasautori rea — sealhulgas arendajatele, kes Copiloti pole kasutanud või on AI-funktsioonid välja lülitanud. Hacker Newsis kogus PR enam kui 1100 punkti ja 570 kommentaari põhjusega: kui tarnija lisab oma brändi versioonihalduse ajalukku ilma nõusolekuta, rikub see ainsa allika, mida insenerimeeskonnad autorluse osas tõena käsitlevad. AI-arendustööriistade ettevõttesisesel juurutusel auditeeri, milliseid radasid, hookke ja metaandmeid sinu IDE vaikimisi lisab — ja otsusta poliitika tasemel, mis salvestub ajalukku, mitte jäta seda kasutaja eelistustesse peidetud lülitiks.

May 2, 2026

⚙TööriistArendustööriistad

Chrome'i laiendus käitab Gemma 4 E2B mudelit lokaalselt WebGPU kaudu — ilma API võtmete ja internetita

Uus Chrome'i laiendus käitab Google'i Gemma 4 E2B mudelit täielikult brauseris WebGPU kaudu — ei mingeid API võtmeid, võrgukõnesid ega pilvesõltuvust. Selline näeb välja lokaalse AI tulevik lõppkasutaja jaoks: ühe klõpsuga paigaldus, mudel elab teie masinas, agent töötab võrguta. Meeskondadele, kes kaaluvad privaatsustundlikke rakendusi, sisetööriistu või midagi, mis seaduslikult ei tohi seadmest lahkuda, sulgeb WebGPU käituskeskkond lõhe pilvepõhiste mudelitega kiiremini, kui enamik plaane ette nägi.

Google koondab 40+ ettevõtet AI agentide turvalisuse teemal pärast seda, kui Wiz leidis AI tööriistade abil GitHubi haavatavuse

Google avaldas AI agentide turvajuhised koos 40 ettevõtte koalitsiooniga samal päeval, kui Wiz Research avalikustas kriitilise GitHubi haavatavuse, mille nad leidsid AI tööriistadega. Topeltsignaal on oluline: AI kiirendab nii rünnakute avastamist kui ka agendiraamistike turvavajadust, ning suured platvormid hakkavad pigem koordineerima kui üksinda välja andma. Kui te juurutate kõrgendatud õigustega agente — failisüsteemi juurdepääs, koodi käivitamine, makseõigused — on see hetk vormistada oma liivakast, auditiraja jälg ja tühistamise loogika enne, kui keegi teine seda teie eest teeb.

Liquid AI skaleerib LFM2 arhitektuuri 24B-A2B mixture-of-experts mudeliga

Liquid AI avaldas LFM2-24B-A2B, skaleerides oma mitte-transformer-arhitektuuri mixture-of-experts kategooriasse — kokku 24B parameetrit, ~2B aktiivset tokeni kohta. Huvitav panus pole siin mitte suurus, vaid see, et nad jätkuvalt arendavad alternatiivi tähelepanupõhistele transformeritele hetkel, kui suurem osa tööstusest on koondunud ühe arhitektuuri ümber. Kõigile, kes vaatavad pikka mängu inferentsikulu osas, on usaldusväärsed mitte-transformeri valikud olulised: monokultuur on habras ja Liquid on üks väheseid laboreid, kes toodab skaleeritud tõendeid, et teised arhitektuurid suudavad konkureerida.

OpenAI väidab, et inferentsiarvutus on tähtsam kui mudeli kaalud — samal ajal teatab WSJ tulueesmärkide täitmata jätmisest

OpenAI uurimisjuht väitis avalikult, et järgmised võimekuse hüpped tulevad inferentsi ajal kasutatud arvutusvõimsusest, mitte suurematest eelnevalt treenitud mudelitest — märkimisväärne mööndus ettevõttelt, kes ehitas üles skaleerimisseaduste teesi. Samal päeval teatas WSJ, et OpenAI jäi oma tulueesmärkidest maha ja finantsjuht on sisemiselt seadnud kahtluse alla, kas nad suudavad oma arvutusvõimsuse kohustusi rahastada. Kokku loetuna pole need kaks eraldi lugu: kui esirinna võimekus skaleerub nüüd inferentsi peale kulutatud arvutusvõimsusega, muutub päringupõhine ökonoomika raskemaks, mitte lihtsamaks, ja võitjateks osutuvad need, kes saavad endale lubada päringu peale kauem mõtlemist.

Jaapani suurim pank võtab kasutusele Sakana mitme agendi süsteemi ärikliendi ettepanekute koostamiseks

SMBC, Jaapani suurim pank, võttis tootmiskasutusse Sakana AI mitme agendi süsteemi, mis koostab äriklientidele strateegilisi ettepanekuid — spetsialiseerunud agendid teevad koostööd, igaüks vastutab analüüsi ühe osa eest. See on üks selgemaid avalikult kirjeldatud ettevõtete mitme agendi rakendusi, mida oleme näinud: mitte vestlusrobot mõne tööprotsessi külge poogitud, vaid struktureeritud tööjaotus agentide vahel kõrgete panustega tulemuse jaoks. Meeskondadele, kes mõtlevad agendiarhitektuurile reguleeritud valdkondades, tasub SMBC mustrit uurida — see näitab, milline näeb välja tootmine, kui lõpetad katsed panna üks agent kõike tegema.

May 1, 2026

Cloudflare ja Stripe lasevad agentidel iseseisvalt domeene osta ja rakendusi juurutada

Cloudflare ja Stripe avaldasid integratsiooni, mis lubab AI-agentidel iseseisvalt kontosid luua, domeene osta ja rakendusi juurutada — ainsa selge piiranguna kuluvälised. See on x402 ja Anthropicu Project Deal'i operatiivne vaste: agendipõhise kaubanduse rööpad saabuvad kiiremini, kui enamikul juristidel ja finantsmeeskondadel on neid juhtivaid reegleid. Organisatsioonidele, kes testivad agente päris töövoogudes, ei ole küsimus "millise korporatiivkaardiga agent maksab ja kes kontrollib tehinguid" enam hüpoteetiline.

Codex CLI lisab /goal — autonoomne iteratsioon kuni tokenieelarve lõpuni

OpenAI Codex CLI versioon 0.128.0 lisab käsu `/goal`, mis lubab agendil töötada autonoomselt, kuni eesmärk on saavutatud või tokenieelarve otsa saanud. See on sama muster, mille suunas liiguvad Claude Code'i auto-režiim ja rutiinid: lõpetage ülesannete kirjeldamine, hakake üle andma tulemusi. Ostjate jaoks tekib siin huvitav pinge kulude prognoositavusega — avatud eesmärgipoolne otsing vahetab arendaja tähelepanu tokenikulu vastu ja meeskonnad ilma korraliku eelarve telemeetriata tunnevad seda kompromissi järgmisel arvel.

Briti AISI hindab GPT-5.5 kübervõimekust — võrreldav Claude Mythosega

Suurbritannia AI Turvalisuse Instituut avaldas oma hinnangu GPT-5.5 küberülesannetele — haavatavuste avastamine, ekspluataatorite väljatöötamine, CTF-stiilis ülesanded — ja leiab, et see on üldjoontes võrreldav Claude Mythosega; peamine erinevus on kättesaadavuses, mitte võimekuses. Järeldus on ebamugav: tipptasemel ründevõimekus pole enam haruldus, vaid juurdepääsu tasand. Kaitsjad, kes ehitavad ohumudeleid küsimuse "mida võiks teha keeruline ründaja" ümber, peaksid lõpetama eelduse, et keerukus on pudelikael.

Shai-Huludi pahavara avastati PyTorch Lightningu AI-treeningteegis

Semgrepi turvauurijad jälitasid Shai-Huludi-stiilis pahatahtliku sõltuvuse, mis oli paigutatud PyTorch Lightningu sisse — ühte enim kasutatavasse tootmis-ML treeningraamistikku. Erinevalt hiljutisest Axiose juhtumist sihib see otse AI-virna: kompromiteeritud koostud võivad varastada treeningandmeid, mudelikaale või pilvevõtmeid hetkest, mil uurija käivitab `pip install`. Meeskonnad, kes peavad mudelite treenimist usaldusväärseks sisemiseks protsessiks, peavad selle eelduse üle vaatama — tarneahel ulatub nüüd GPU-klastrini välja.

April 30, 2026

◻ArtikkelAI agendid

Hassabis YC-l: 50% tõenäosus AGI-ks aastaks 2030, kood kui agendi universaalne tegevuskeel

DeepMindi Demis Hassabis hindas AGI tõenäosuseks aastaks 2030 viiskümmend protsenti — määratledes selle valdkonnaülese mõtlemisena, mitte kitsa ülesande domineerimisena — ja suunas asutajad sügava tehnoloogia poole: robootika, teadus, taristu, mitte LLM-pealisehitused. Ehitajatele kõnekaim väide: kood on muutumas agentide universaalseks tegevuskeeleks ja järgmise 6–12 kuu jooksul toovad üksikud arendajad turule 10M-dollari tuluga tooteid läbi vibe-koodimise. Ajagraafiku võib kahtluse alla seada, kuid strateegiline järeldus on sama, milleni Anthropic ja OpenAI on jõudnud — agendid on taristu, mitte funktsioonid.

Simon Willisoni LLM 0.32a0: sõnumid ja tüübitud voogud esmaklassiliste primitiividena

LLM, populaarne Pythoni käsurea-tööriist ja teek, avaldab tagasiühilduva ümberstruktureerimise, mis lõpuks käsitleb sisendeid sõnumijärjestustena ja voogab väljundeid eri tüüpidena — tekst, tööriistakutsed, arutluskäik, pildid. Selline torustiku muudatus kujundab vaikselt ümber kõike, mis selle peale on ehitatud: varasemad abstraktsioonid eeldasid promptide ja tekstiväljundi maailma, millest tänapäeva tipumudelid on välja kasvanud. Tasub vaadata, kui sinu sisemised skriptid ja torustikud on kirjutatud GPT-3.5 ajastul ning praegu vaevuvad tööriistakasutuse ja multimodaalse väljundi all.

◻ArtikkelTööstus

RoboChem-Flex: autonoomne keemialabor 5000 dollari eest

Teadlased tutvustasid RoboChem-Flexi — modulaarset autonoomset keemialaborit, mis viib läbi AI-optimeeritud reaktsioone umbes 5000 dollari eest detailides, on avatud lähtekoodiga ja kokkupandav käsitsi. Kombineerituna LabWorld Factoryga, AI-bioloogia mootoriga, mis simuleerib 3D-laboreid päris biomeditsiiniprotokollide põhjal, saad selle ahela, mida teadusmeeskondadele on lubatud juba kümmekond aastat: agendid itereerivad arvutis ja päris riistvaral käivitatakse vaid katsed, mis seda väärt on. Suurem lugu pole hind, vaid see, et laboriautomaatika langes riskikapitali tugineva sügava tehnoloogia tasemelt projektiks, mille võimekas magistrant suudab püsti panna.

Zed 1.0: agendipõhine koodiredaktor jõuab stabiilsesse versiooni

Pärast aastaid beetas kuulutab Zed välja versiooni 1.0 — ja ajastus on tähtsam kui number ise. Redaktor, mis panustas varakult paralleelsetele agentidele, lõimede külgribale ja peenhäälestatud õigustele, pakub neid nüüd vaikevalikuna, mitte enam eksperimendina. Pikkade kodeerimisülesannete jaoks tööriistu valivatele meeskondadele tähendab "stabiilne" konkreetset pilooti: agendi UX pole enam eelvaatesse jäänud funktsioon, mille kohta peaks insenere hoiatama.

Zig keelab tehisintellekti panused: usaldus läbilaskevõime ees

Zig on vormistanud ühe rangeima LLM-vastase panuste reegli avatud lähtekoodi maailmas: tehisintellekti loodud paiku vastu ei võeta. Põhjendus, nagu Zigi kogukonna juht selle sõnastab, on "sa mängid inimese, mitte kaartide vastu" — projekt optimeerib usaldusväärsete pikaajaliste panustajate, mitte üksikute korrektsete pull request'ide jaoks. See on terav vastukaal agendid-igale-poole konsensusele ja kasulik signaal igaühele, kes hindab tarneahela riske: "piisavalt hea" AI-paiga tegelik kulu pole paik ise, vaid hoolduri aeg, mis kulub kavatsuste kontrollimisele.

April 29, 2026

Anthropicu Project Deal: agendid pidasid läbirääkimisi ja mudeli kvaliteet kajastus hinnas

Anthropic lasi 69 töötajat läbi sisemise turuplatsi, kus Claude'i agendid ostsid ja müüsid nende nimel, ning tulemus oli selge: Opuse agendid müüsid esemeid ~$2,68 kallimalt ja ostsid neid ~$2,45 odavamalt kui Haiku agendid, kes tegid tehinguid identsete kaupadega. Huvitav nüanss on see, et nõrgemate agentidega osalejad ei tajunud erinevust ebaõiglasena — ebasoodsus oli kogemuse seest nähtamatu. Igaühele, kes plaanib paigutada agente läbirääkimiste, hangete või hinnastamise töövoogudesse, on see seni puhtaim signaal, et mudelivalik annab otsest rahalist tulemust ning et tulemuste (mitte kasutajate rahulolu) jälgimine on ainus aus hindamismeetod.

Kellele kuulub Claude Code'i kirjutatud kood?

See artikkel käib läbi kolm lahendamata õigusküsimust, mis peituvad iga AI-abilise commitiga: kas inimese loomingulist panust on autoriõiguse jaoks piisavalt, kas tööandja intellektuaalomandi klausel on selle juba endale võtnud ning kas mudel sülitas GPL-litsentsiga koodi sinu repositooriumisse. Töö-tellimusel ja autoriõiguse osad on enamasti lahendatud — see, mis ei ole, on avatud lähtekoodi saastumise küsimus, mille kohta üheksanda ringkonna kohus *Doe vs. GitHub* asjas tõenäoliselt otsuse langetab. Praktiline järeldus iga koodiagente kasutava tiimi jaoks: säilitage käskluste logid, dokumenteerige tehtud loomingulised otsused ja paigaldage litsentsiskanner pre-commit haaki, enne kui see järgmise tehingu due diligence'is probleemiks muutub.

Mistral Medium 3.5 toob kaasa pilves jooksvad koodiagendid

Mistrali uus 128B mudel saavutab SWE-Bench Verified-il 77,6% hinnaga $1,5/$7,5 miljoni tokeni eest, kuid kõnekam osa on Vibe agendid, mis käivituvad pilve liivakastides, teevad paralleelselt refaktoreerimisi ja sõltuvuste uuendusi ning avavad lõpetades PR-i. See on muster, mille suunas piirimudelite laborid liiguvad: mudel ise on lihtne osa, väärtus peitub seda ümbritsevas orkestreerimiskihis. Tiimidele, kes kaaluvad koodiagentide kasutuselevõttu, loeb Mistrali nelja GPU-ga isemajutatavus ja avatud kaalud rohkem kui benchmark — see eemaldab lukustusargumendi, mis on ettevõtte pilooteid kogu aasta pidurdanud.

OpenAI mudelid jõuavad AWS Bedrocki koos hallatavate agentidega

Altmani ja Garmani ühisintervjuu on piisavalt ebatavaline, et seda lugeda signaalina: OpenAI on valmis AWS-i jaotusvõrgu kaudu tarnima, mitte sellega võitlema, ja AWS on valmis paigutama konkurendi mudelid oma omade kõrvale. Ettevõtlusostjate jaoks koondab see üheks ühe suurima hankeprobleemi — OpenAI kasutamine olemasolevate Bedrocki lepingute, IAM-i ja hallatava agendi käituskeskkonna kaudu, mitte eraldi tarnijasuhte läbirääkimine. Muster, mis tööstuses kordub: mudelipakkujad soovivad ulatust, hüperskaleerijad eristumist, ja kliendid saavad lõpetada nende vahel valimise.

Sakana Conductor: 7B suunaja, mis edestab benchmarkidel GPT-5 ja Claude Sonnet 4

Sakana AI treenis tugevdusõppe abil 7B mudelit teiste mudelite orkestreerimiseks — ja see orkestreerija edestab benchmarkidel GPT-5, Gemini 2.5 Pro ja Claude Sonnet 4, tehes samal ajal vähem väljakutseid nendele piirimudelitele. Nad avaldasid ka TRINITY, alla 20K parameetriga suunamiskihi. See on arhitektuurilugu, mida me jätkuvalt rõhutame: mudel, mis otsustab, *millist mudelit* välja kutsuda, hakkab tähtsust omama rohkem kui ühegi üksiku mudeli suurus virnas. Kõik, kes ehitavad agentide süsteeme, peaksid seda lugema kinnitusena, et järgmised kulu- ja kvaliteedivõidud tulevad suunamisest, mitte toorest skaalast.

April 28, 2026

Avatud lähtekoodiga agent Dirac juhib TerminalBenchi Gemini-3-flash-preview peal

Avatud lähtekoodiga koodiagent, mille mootoriks on Gemini-3-flash-preview, on jõudnud TerminalBenchi tippu — tulemus, mis veel mõni kuu tagasi oleks nõudnud kallemat suletud piirimudelite virna. Huvitav on just kombinatsioon: väiksem ja odavam mudel koos hästi läbimõeldud agendi raamistikuga suudab edestada palju suuremaid suletud süsteeme reaalsete terminalitööde juures. Sisemiste koodiagentide ehitajatele on see õpetlik muster — investeerida tasub mudeli ümber ehitatud raamistikku, mitte ainult mudeli valikusse.

Google'i Decoupled DiLoCo: kaheksa andmekeskuse vaheline treenimine kiirusel 0,84 Gbit/s

Google avaldas Decoupled DiLoCo arhitektuuri, mis vähendab andmekeskuste vahelise sideriba nõuet 198 Gbit/s pealt 0,84 Gbit/s peale ning toetab samaaegselt erinevate TPU põlvkondade segakasutust. Tegemist on 200-kordse vähenemisega — see kujundab ümber selle, mis loetakse mõistlikuks tehisintellekti infrastruktuuriks: piirimudelite treenimiseks pole enam vaja ühtainsat hiidklastrit. Strateegiline järeldus ülejäänud tööstusele on see, et "meil pole hüperskaala andmekeskust" lakkab olemast jäik lagi sellele, milliseid mudeleid saab üldse treenida.

Lobster Capital avaldas llms.txt-i, et muuta end tehisintellekti agentidele loetavaks

San Francisco riskikapitalifond on avaldanud llms.txt faili, mis kirjeldab nende investeerimisfookust ja kontaktiteid struktureeritud kujul — eesmärk pole inimkülastajad, vaid tehisintellekti agendid. Tegemist on väikese sammuga, kuid suure signaaliga: ettevõtted hakkavad oma sisu kavandama agentidele, kes sirvivad, hindavad ja suunavad informatsiooni inimeste eest. B2B-meeskondadele pole praktiline küsimus enam "kas meie veebileht on hea", vaid "kas meie veebileht on loetav nendele agentidele, keda kliendid üha enam meie kohta uurima saadavad". llms.txt on odav viis seda katsetada.

Marin: Percy Liangi tiimi täielikult avatud masinõppelabor

Stanfordi professor Percy Liang on käivitanud Marini kui täielikult avatud masinõppelaboratooriumi — uurimistöö toimub avalikult GitHubi issue'ide kaudu, kõik treeningjooksud on Weights & Biasesis nähtavad ning Marin-8B edestab juba praegu Llama 3.1 8B mudelit 14-l 19-st testist. See on teistsugune panus kui kinniste mudelite võidurelvastumine: võimekuse asemel võistleb Marin läbipaistvuse pinnal — igaüks saab kontrollida, kuidas mudel ehitati. Organisatsioonidele, kes hindavad avatud mudeleid reguleeritud töövoogude jaoks, hakkab see jälgitavus üha olulisemaks muutuma kui järjekordne testitulemuste kümnendpunkt.

Mercoris varastati 40 000 AI-töövõtjalt 4 TB hääleproove

AI-andmemärgistuse tarnija Mercori turvarikkumine paljastas ligikaudu 4 TB hääleproove, mis pärinesid 40 000 töövõtjalt ning mida kasutati kõnemudelite treenimiseks — sisuliselt biomeetriline andmestik kloonimiseks, pettusteks ja isikutuvastuse rünnakuteks. Juhtum kuulub samasse kategooriasse eelmise nädala Vercel'i rikkumisega: ettevõtted ei saa anda AI-tarnijate kogutud andmete turvet tegelikult väljapoole. Kui teie AI-projektid puudutavad mistahes hääle-, pildi- või käitumisandmeid kolmanda osapoole kaudu, on praegu mõistlik küsida, kes märgistustööd teeb, kus algseid proove säilitatakse ja mis nendega lepingu lõppedes juhtub.

Microsoft ja OpenAI lõpetavad eksklusiivse tulujagamise leppe

Viieaastane lepe, mis kujundas selle põlvkonna esiliini-AI maastiku, lammutatakse: Microsoft ja OpenAI lõpetavad eksklusiivsuse ja tulujagamise ning juba varem kadus lepingust ka AGI lõpetamisklausel. Lahkuminek vabastab mõlemad pooled konkurentidega koostööd tegema — Microsoft võib tugevamini panustada Anthropicule ja oma MAI mudelitele, OpenAI võib otsida arvutusvõimsust väljaspool Azure'i —, aga see eemaldab ka peamise levituspartneri kaitsevõrgu. Ettevõtete jaoks, kes valisid AI tarnija osaliselt selle järgi, kes seisis tema selja taga, on aeg leping üle lugeda: tooteplaani lubadused, mudelite kättesaadavuse garantiid ja väljumisklauslid on kõik nõrgemal pinnal kui eelmise kvartali alguses.

Microsoft VibeVoice: MIT-litsentsi all kõnetuvastusmudel sisseehitatud diariseerimisega

Microsoft avaldas vaikselt VibeVoice'i — MIT-litsentsi all kõnetuvastusmudeli, millel on sisseehitatud kõnelejate eristamine; Simon Willison töötles ühetunnise salvestise alla üheksa minutiga ühel masinal. Vaba litsentsi, sisseehitatud diariseerimise ja jõukohase käitusajaaja kombinatsioon teeb varem kalli töövoo kättesaadavaks iga tiimi jaoks, kes soovib kõnesalvestisi, intervjuude heli või koosolekute lindistusi hoida enda hallataval taristul. Operatsioonimeeskondadele, kes maksavad praegu transkriptsiooni eest minutipõhist API-tasu ja kasutavad eraldi tööriistu kõneleja sildistamiseks, on see ühe nädalavahetuse jagu hindamist väärt.

OpenAI agendipõhine nutitelefon plaanib masstootmist 2028. aastal

Teadete kohaselt ehitab OpenAI nutitelefoni, millel pole rakenduste sahtlit — kasutaja annab ülesanded seadmesisestele agentidele, kes haldavad teenuseid taustal; tootmispartneriteks on Qualcomm, MediaTek ja Luxshare ning masstootmise eesmärk on 2028. aasta. Kas seade jõuab turule või mitte, panus ise on huvitav: arvestatakse sellega, et järgmine platvormimuutus viib kasutuskogemuse "rakenduse avamiselt" "tulemuse kirjeldamisele", spetsiaalse operatsioonisüsteemiga, mis on mõeldud agentide pidevaks tööks. Tarbijatoodete loojatel tasub praegu mõelda, milline teie teenus välja näeb, kui kasutaja enam selles ise ei navigeeri — kui agent on integraator ja teie rakendus pelgalt lõpp-punkt.

pip 26.1 toob lukufailid ja sõltuvuste „jahutusperioodi"

pip 26.1 toob lõpuks korralikud lukufailid ja „sõltuvuste jahutusperioodi" funktsiooni, mis keeldub paigaldamast pakette, mis on värskemad kui seadistatav vanus — otsene vastus aastale, mil tarneahela rünnakuid avastati tihti vaid seetõttu, et keegi juhtus tähelepanelik olema. Pythoni-rohkete AI-süsteemide puhul, kus ühe transitiivse sõltuvuse pahatahtlik värskendus võib jõuda mudeli järelduste konveierisse minutitega, on jahutusperioodi seadistus huvitavam pool: see ei maksa midagi ja annab turvakogukonnale aega rikutud väljaande märkamiseks enne CI-sse jõudmist. Tasub vaikimisi sisse lülitada igas tootmiskonveieris, mis puudutab mudelite kaale, klientide andmeid või mandaate.

Talkie: 13-miljardiparameetriline keelemudel, õpetatud ainult enne 1931. aastat kirjutatud tekstidel

13-miljardiparameetriline mudel, mis on õpetatud ainult enne 1931. aastat kirjutatud tekstidel, kõlab kui kurioossus, kuid on tegelikult tõsine katse mõista, kuidas teadmiste piirid mudelit kujundavad. Tiim uurib, kas mudel suudab iseseisvalt taasavastada mõisteid, mis kerkisid esile alles pärast tema treeningandmestiku lõppu — see on puhtam metoodika üldistusvõime uurimiseks kui piirimudlite tavapärased testid. Kõigile, kes kavandavad tehisintellekti hindamisi, tasub seda lugeda: see meenutab, et loominguline andmestiku ülesehitus võib mudelite käitumise kohta esitada teravamaid küsimusi kui järjekordne edetabel.

April 25, 2026

Volitamata kasutajad pääsesid ligi Anthropicu piiratud mudelile 'Mythos'

Üks Discordi grupp pääses ligi Anthropicu piiratud mudelile "Mythos", pöördprojekteerides URL-mustreid ja kasutades ära kolmanda osapoole iduettevõttelt lekinud mandaate. Anthropicu enda süsteemides tehnilist haavatavust ei kasutatud — sisenemispunkt oli partneri tasemel mandaatide ja URL-i lekkimine. Juhtum illustreerib laienevat mustrit: mida enam AI-platvormid skaalavad ligipääsu läbi partnerintegratsioonide ja arendajaprogrammide, seda enam liigub rünnakupind inimlikule ja organisatsioonilisele tasandile. Minimaalsete õiguste põhimõte ja API-võtmete hügieen on muutunud sama kriitiliseks kui mudeli pakkuja enda turvapoliitika.

Google investeerib Anthropici kuni 40 miljardit dollarit

Google suunab Anthropici koheselt 10 miljardit dollarit, lubades kogusummaks kuni 40 miljardit — see on suurim ühekordne investeering AI-laborisse seni. Anthropicu aastapõhine käive ületab juba 30 miljardit dollarit ja üle tuhande ettevõttekliendi kulutab rohkem kui miljon dollarit aastas. Numbrid kinnitavad, et Claude pole enam alternatiivtoode, vaid tootmiskeskkondades kasutatav platvorm, mida toetab tõsine infrastruktuurikapital. Organisatsioonidele, kes hindavad pikaajalisi AI-platvormi kohustusi, vähendab selline kapitaliseerimine märkimisväärselt vastaspoole riski.

Revolut tõi krüptokauplemise Claudesse läbi MCP

Revoluti krüptovahetus Revolut X on nüüd saadaval Claude'i MCP-konnektorite kataloogis, võimaldades kaubelda ja kontrollida saldosid loomulikku keelt kasutades. See on väike, kuid ilmekas näide "agent-liidesena" mustrist: küpsed fintech-tooted integreerivad end otse AI-assistentidesse, selle asemel et ehitada eraldiseisvaid rakendusi. Mida laialdasemalt MCP levib, seda enam nihkub tootemeeskondade strateegiline küsimus "kas lisada AI-funktsioon" poolt "kas avaldada oma teenus agendi lõpp-punktina" — ja vastus on üha sagedamini jah.

April 24, 2026

⚙TööriistTurvalisus

Agent Vault: avatud lähtekoodiga volituste puhverserver tehisintellekti agentidele

Infisical avaldas Agent Vault'i, avatud lähtekoodiga volituste puhverserveri ja saladuste hoidla, mis on loodud spetsiaalselt tehisintellekti agentide jaoks. Kuna agendid peavad üha enam autentima väliste teenuste — API-de, andmebaaside, SaaS-tööriistade — vastu, on mandaatide otse agendi kontekstiakna kaudu edastamine kasvav turvarisk. Agentidele mõeldud spetsiaalne saladuste kiht on täpselt see infrastruktuuri alamelement, millest ökosüsteem on puudust tundnud. Soovitame hinnata kõigil meeskondadel, kes juba käitavad agente tootmiskeskkonnas või planeerivad seda lähiajal teha.

Anthropic avaldas postsestmortem'i Claude Code'i kvaliteedilanguse kohta

Anthropic avaldas avameelse inseneritöö postsestmortem'i pärast seda, kui Claude Code näitas kvaliteedilangusi, mille kasutajad laialdaselt märkasid ja raporteerisid. Läbipaistvus on tähelepanuväärne — tehisintellekti ettevõtted avaldavad mudelite käitumisregressioonide kohta sellist otsekohest vastutuse teksti harva. Samas tõstatab see olulisema küsimuse: kas teie meeskonnal on järelevalve, mis tuvastab, kui tehisintellekti tööriistad vaikselt halvemaks lähevad? Enamiku meeskondade puhul vastus puudub. See intsident tuletab meelde, et tehisintellekti tööriistade kvaliteet pole fikseeritud — see muutub mudeli uuendustega ja selle püüdmiseks on vaja vaatlusvõimekust.

DeepSeek V4: miljonimärgiline kontekst avatud mudelis

DeepSeek avaldas V4, oma uusima avatud mudeli, mis toetab kuni miljoni märgi pikkust kontekstiakent — võimekus, mis oli seni kättesaadav vaid suletud piirimudlites. Ettevõtetele, kellel on mahukate dokumentide analüüsi vajadus või pikkade kontekstidega töövood, avab see reaalsed kasutuselevõtu võimalused, mis ei nõua tundlike andmete saatmist USA API-pakkujatele. Hiina laborite konkurents lükkab võimekuste piire edasi viisil, mis toob otsest kasu neile, kes hoolivad kuludest, andmesuveräänsusest ja paindlikust kasutuselevõtust.

OpenAI avaldas GPT-5.5

OpenAI avaldas GPT-5.5, mis asetseb GPT-5 ja tulevase GPT-6 perekonna vahel. Varajaste kogemuste põhjal on uus mudel igapäevaste arendustööde jaoks märgatavalt kiirem ja tõhusam kui eelkäija. OpenAI peale ehitavatele meeskondadele tasub seda proovida — mitte sellepärast, et tegemist oleks fundamentaalse hüppega, vaid sest kiiruse ja töökindluse järkjärgulised paranemised kanduvad üle reaalseks tootlikkuse kasvuks. Tähelepanuväärsem signaal on see, et OpenAI arendusrütm on nüüd nii tihe, et väiksematest versioonist on saanud tavapärane nähtus, mitte enam eraldi verstapost.

AÜE plaanib viia 50% valitsuse teenustest tehisintellekti agentide peale kahe aastaga

Araabia Ühendemiraadid on teatanud kavast viia 50% valitsuse teenustest kahe aasta jooksul autonoomsete tehisintellekti agentide peale — üks agressiivsemaid avaliku sektori tehisintellekti kasutuselevõtu ajakavasid maailmas. See pole pilootprojekt, vaid riigiasutuste struktuurne ümberkujundamine agentse tehisintellekti ümber. Ettevõttejuhtidele, kes käsitlevad agentide kasutuselevõttu veel tulevikuplaanina, on see kasulik kalibreerimispunkt: riiklikul tasandil on autonoomsed agendid päristeenuste haldamisel juba praegune operatiivne eesmärk, mitte kaugemal seisev visioon.

April 23, 2026

AI koodimudelid muudavad liiga palju: minimaalse muutmise probleem

Tipptasemel koodimudelid kirjutavad koodi sageli palju rohkem ümber, kui veavihrk tingimata nõuab — autorid nimetavad seda üleredakteerimiseks. Uuring näitab, et tegemist on süsteemse ja mõõdetava nähtusega, mida saab osaliselt leevendada täpsema promptimise või õppimistehnikatega. Meeskondadele, kes hindavad AI kooditööriistu: mudel, mis toodab kõige mahukama muudatuste nimekirja, ei tee tingimata täpsemat tööd — ja AI koodiülevaatused peaksid arvestama ebavajaliku ümbertöötlusega.

GitHub Copilot karmistab individuaaltariife agentsete töövoogude arvutusnõudluse tõttu

GitHub peatas uute Copilot Individual tellimuste registreerimise ja karmistas kasutuslimiite, viidates sellele, et "agentsed töövood on põhjalikult muutnud arvutusnõudlust." See on avameelne tunnistus, et AI-assisteeritud arenduse ökonoomika oli kujundatud automaatse täitesüsteemi, mitte mitmeastmelisi ülesandeid iseseisvalt lahendavate agentide eelduse alusel. Meeskonnad, kes planeerivad AI tööriistade eelarvet, peaksid arvestama, et istmepõhine hinnastamine agentsete tööriistade jaoks tõuseb tõenäoliselt kõigil pakkujatel — aluseks olev arvutuskulude struktuur on muutunud.

Physical Intelligence π0.7: üldistuvad robotimudelid ilma ülesandespetsiifilise treenimiseta

Physical Intelligence avaldas π0.7 — robotika fundamentaalmudeli, mis tuleb toime uute tööriistade ja tundmatute keskkondadega ilma ülesandespetsiifilise häälestuseta, ühendades järeldusajal keelelisi juhiseid, visuaalseid eesmärke ja juhtimisinfovirdu. Siit tulev signaal ulatub kaugemale kui robotika: kompositsiooniliselt üldistumisvõime (õpitud oskuste kombineerimine uute ülesannete lahendamiseks) on sama pudelikaela probleem, mis muudab praegused AI-agendid ettevõttekeskkondades hapraseks. Edasiminek selles valdkonnas on juhtiv näitaja agentide töökindluse paranemisele laiemalt.

Qwen3.6-27B: Lipulaeva tasemel koodigeneratsioon 27-miljardiparameetrilises mudelis

Alibaba Qweni meeskonna 27-miljardiparameetriline mudel saavutab agentse koodigeneratsiooni testides tulemusi, mis on võrreldavad suurimate pilvemudeli pakkujatega — ning töötab kohalikus infrastruktuuris. See muudab oluliselt kuluarvestust meeskondadele, kes on seni käsitlenud API-kulusid vältimatu püsikuluna. Praktiline järeldus: kui teie AI kooditöövoog põhineb peamiselt koodigeneratsioonil ja ülevaatamisel, tasub tõsiselt võrrelda 27B mudeli jooksutamise kulusid praeguse API-arve suurusega.

Paralleelsed agendid Zedis: mitmik-agent tugi jõuab koodiredaktorisse

Zed võimaldab nüüd käivitada mitmeid AI-agente samaaegselt ühes aknas — igaüks oma ülesandele fokusseeritud, jälgitav Lõimede külgribas täpse loa- ja nähtavushaldusega. See on esimene suur koodiredaktor, mis käsitleb paralleelseid agente primaarse kasutajaliidese kontseptsioonina. Meeskondadele, kes jooksutavad pikemaid koodiülesandeid, täidab see lünga terminaliagentide ja tõelise ülevaate vahel sellest, mida iga agent parasjagu teeb.

April 22, 2026

Brex ehitas tootmisagentidele LLM-kohtunikuga turvaproxy

Brex avalikustas CrabTrap'i – HTTP-puhverserveri, mis peatab iga AI-agendi päringu ja hindab seda reaalajas määratletud poliitika alusel: keerukate juhtumite puhul kasutab LLM-kohtunikku, lihtsate jaoks staatilisi reegleid. Tööriist käivitub 30 sekundiga ja logib kõik otsused. Kui agendid saavad üha rohkem juurdepääsu sisemistele süsteemidele, muutub selline reaalajas kaitsekiht sama vajalikuks kui tulemüür. Asjaolu, et Brex ehitas selle esmalt sisemiseks kasutuseks ja alles seejärel avaldas, räägib sellest, kui kiiresti tootmisagendid ületavad praeguse tööriistastiku võimekuse.

DeepSeek kaotab talente ja võitleb riistvarapiirangutega 10 miljardi dollari väärtuse juures

Viis võtmeuurijat on lahkunud DeepSeekist konkurentide juurde, kuna Hiina AI-labor läbib 300 miljoni dollari suurust rahastamisvooru 10 miljardi dollari väärtuse juures. Lahkumised langevad kokku valusamale infrastruktuuri migratsiooniga CUDA-lt CANN-ile – Huawei GPU-platvormile –, mis on sunniviisiline samm USA kiibiekspordi piirangute tõttu. DeepSeeki tehniline väljund on olnud tõeliselt muljetavaldav, kuid talentide vähenemine koos piiratud riistvaraga tekitab tõsiseid takistusi. See, kuidas Hiina AI-laborid kohandavad oma uurimistempot mitteNVIDIA infrastruktuuri tingimustes, kujundab sel aastal konkurentsipilti rohkem kui ükski üksik mudeli avalikustamine.

GitHub Copilot põrkas vastu seina: agendipõhised töövood lõhkusid tellimismudeli

GitHub peatas uute Copilot-tellimuste registreerimise ja karmistas kasutuspiire pärast seda, kui agendipõhised töövood tarbisid "märksa rohkem ressursse, kui algne hinnastruktuur kanda suudab". Opus-mudelid on nüüd kättesaadavad ainult 39 dollari kuutasuga Pro+ paketis; varasemad versioonid eemaldatakse täielikult. Tegelik signaal pole mitte hinnamuutus – see on GitHub'i avalik tunnistus, et nende majandusmudel lagunes, kui kasutajad hakkasid agente käitama. Iga tiim, kes hindab AI-arendustööriistu, peaks planeerima 5–10-kordset tokenitarbimist pärast agentide kasutuselevõttu, mitte tagasihoidlikku baastarbimist, mille järgi tellimuste hinnad on kujundatud.

April 21, 2026

AI-agendid on valesti inimlikud

Terav tähelepanekus, mis laialdaselt levib: praegused AI-agendid näitavad inimlikke ebaõnnestumise mustreid – fookuse puudumine, piirangutega kauplemine, ülesandest kõrvalekaldumine. See raamistus on oluline kõigile, kes kasutavad agente töökeskkonnas: probleem pole, et agendid pole piisavalt inimlikud – nad on omandanud just valed inimlikud omadused. Usaldusväärse agendi töövoo kujundamine tähendab eksplitsiitselt kaitsmist ulatuse laienemise ja piirangutega kauplemise eest, mitte ainult võimekuse puudujääkide täitmist.

April 20, 2026

Claude Opus 4.7 maksab tokeni kohta vaikselt ~40% rohkem

Claude Opus 4.7 kasutab uuendatud tokenisaatorit, mis tekitab sama teksti jaoks ~46% rohkem tokeneid kui Opus 4.6 – kõrge eraldusvõimega piltide puhul on erinevus üle kolmekordne. Kuna Anthropic hoidis hinna muutmata (5 $/miljon sisendtokenit), tähendab see samaväärse töökoormuse puhul ligikaudu 40% kõrgemaid kulusid. Iga meeskond, kes kasutab Anthropic API-t märkimisväärselt, peaks enne versiooniuuendust oma tegelikke proompte uue tokenisaatori suhtes testima – eriti pildirohked töövood.

Verceli turvamurd sai alguse AI-tarnijast — tarneahela ohusignaal

Vercel kinnitas turvamurdu, mis sai alguse AI-platvormi Context.ai kompromiteeritud töötajakontolt — ründajad eskaleerisid sealt juurdepääsuni keskkonna muutujatele, API-võtmetele, GitHubi tokenitele ja sisemistele paigaldustele. Ründevektor illustreerib lihtsa vahelejäämisega riski: teie turvahoiak sõltub nüüd iga teie meeskonna kasutatava AI-tööriista tarnija turvahoiakust. Verceli kasutavatele meeskondadele on kohene tegevus selge — auditeerida, millised keskkonna muutujad on tundlikuks märgitud, vahetada välja paljastunud saladused ning käsitleda kolmandate osapoolte AI-tööriistade integratsioone tarneahela riskikategooriasse kuuluvana.

April 19, 2026

Kui AI-agent saab kasutajaks, muutub API tooteks

Simon Willison sünteesib esile kerkivat mustrit: kuna personaalsed AI-agendid muutuvad tarkvara peamisteks tarbijateks, jääb graafiline liides taustale ning API kättesaadavusest saab tarnijavalikul põhikriteerium. Majanduslik tagajärg on terav: kasutajapõhine SaaS-hinnamudel hakkab lagunema, kui üks agent suudab teha paljude kasutajate töö. Meeskondadele, kes täna AI-töövoogusid üles ehitavad, on õige küsimus iga töövahendi kohta mitte "kas sellel on hea kasutajaliides?", vaid "kas agent suudab seda usaldusväärselt kasutada ilma brauserita?"

SaaS liigub AI-agentide jaoks headless-suunas

Salesforce avas just kogu oma platvormi API-de, MCP-i ja CLI-liideste kaudu – AI-agendid saavad nüüd töötada Slacki, hääle või mis tahes kanali kaudu ilma brauserita. See headless-nihe levib kogu ettevõtlustarkvaras ja muudab konkurentsi reegleid: küsimus pole enam, kellel on parim kasutajaliides, vaid kellel on sügavaim API-kate agentide töövoogude jaoks. Meeskonnad, kes hindavad AI-automatiseerimist, peaksid oma tarkvarapaketi headless-ühilduvust juba praegu üle vaatama – enne kui turg selle otsuse nende eest ära teeb.

April 18, 2026

AI agentide tunnikulud kasvavad, mitte ei lange

Toby Ord'i analüüs näitab, et AI agentide kasutuselevõtu kulud järgivad eksponentsiaalset kasvukõverat koos võimekuse tõusuga — mitte seda vähenevat kulude trajektoori, mida paljud eeldavad. Kuna agendid võtavad ette keerukamaid ja pikema ajahorisondiga ülesandeid, tarbivad nad tööühiku kohta proportsionaalselt rohkem arvutusvõimsust. Meeskonnad, kes ehitavad agentide tarneahelaid, peaksid varakult testima oma kulumudeleid realistlike ülesandejagamiste suhtes — võimeka agendi arve erineb struktuuriliselt võimeka päringu arvest.

◻ArtikkelEttevõtted

Anthropic liigub tarbimispõhise hinnakujunduse poole, ettevõtete AI-eelarved lähevad paineesse

Sel nädalal levinud teated paljastavad, et rasked Claude Code'i kasutajad genereerisid 100 dollari kuutasuga plaanil 5600 dollari väärtuses tokeneid — ja Uberi tehnikajuht tunnistas, et nende aastane AI-eelarve kulutati kuude jooksul, kuna ettevõttesisene Claude Code'i kasutuselevõtt kasvas 32%-lt 63%-le, nädalas 1800 iseseisvat koodimuudatust. Anthropic liigub teatavasti tarbimispõhisele hinnakujundusele. Kindlate kuumaksudega AI-tellimuste ajastu, mis subsideeris implitsiitselt suurkasutajaid, näib olevat lõppemas. Meeskonnad peaksid enne suuremahuliste AI-põhiste töövoogude juurutamist modelleerima realistlikud tarbimismahtud — eelarvemaatiks muutub oluliselt.

Claude 4.7 tokeniseerija paisutab kulusid ~45%

Claude 4.7 uus tokeniseerija kodeerib sama sisendi ligikaudu 45% rohkemateks tokeniteks kui varasemad mudelid — see tähendab, et API-arved võivad suureneda isegi siis, kui kasutusmaht jääb samaks. Ametlikku hinnatõusu pole, kuid majanduslik mõju on sama. Meeskonnad, kes kasutavad Claude'i suuremas mahus, peaksid enne 4.7-le üleminekut mõõtma tokenite hulka tüüpilise töökoormuse näitel — see, mis tundus taskukohane 4.6 hindadega, võib tootmiskeskkonnas hoopis teistsugune välja näha.

Avatud kaalupõhine Qwen3 edestas Claude Opus 4.7 võrdlustestis

Alibaba Qwen3-35B-A3B — avatud kaalupõhine mudel, mis töötab kohalikult — edestas Claude Opus 4.7-d Simon Willisoni pelican-drawing võrdlustestis. Üks andmepunkt, mitte üldine otsus. Kuid see kinnitab mustrit, mis on viimase aasta jooksul olnud järjepidev: juhtivate proprietary mudelite ja parimate avatud alternatiivide vaheline võimekuse lõhe kitseneb kiiresti. Meeskondade jaoks, kellele andmeprivaatsus, kulude kontroll või tarnijasõltuvus on päriselt probleemid, muutub enesemajutuse majanduslik kaal oluliselt.

◻ArtikkelAI agendid

Salesforce avab kogu platvormi API-dena AI agentidele

Salesforce teatas Headless 360-st — kogu Salesforce'i platvormi avamine API-dena, mida AI agendid saavad kasutada ilma brauseri liideseta. Agendid saavad nüüd hallata CRM töövoogusid üle Slacki, Teamsi, WhatsAppi ja hääle, kusjuures esmane disainipind on organisatsiooni mälu, mitte graafiline kasutajaliides. Ettevõtete meeskondade jaoks, kes juba kasutavad Salesforce'i, märgib see konkreetset teed AI-natiivse toimimise suunas — tarkvara ei kao kuhugi, kuid liidesekiht muutub vabatahtlikuks.

April 17, 2026

Google lõi agendipõhise Android CLI: ehitamine 3 korda kiiremini

Google avaldas käsurea tööriistad Android arenduseks, mis kasutavad AI agente ehitus-testimis-juurutuse tsükli kiirendamiseks kuni kolm korda. Kiirendusnumber on vähem oluline kui signaal: Google ehitab agendipõhise AI otse ametliku arendajatööriistakomponenti, mitte kolmanda osapoole lisandmoodulina. Mobiiliarenduse meeskondadel on nüüd esimese osapoole tee agentpõhise arenduseni ilma integreerimise üldkuludeta. Oodata on sarnaseid käike teistelt platvormitarnijatelt — Apple'ilt, Microsoftilt — mis viib agendipõhise tööriistatuse diferentseerijast standardootuseks.

Cloudflare käivitas platvormist spetsiaalselt AI agentidele

Cloudflare teatas infrastruktuuri platvormist, mis on loodud spetsiaalselt AI agentide jaoks — mitte pelgalt API suunamiseks, vaid püsiva olekuhalduse, vastupidava täitmise ja hajutatud orkestreerimise jaoks servade lähedal. Meeskondadele, kes on mitmesammulist agentide ehitamisel jõudnud serverless funktsioonide piirini, lahendab see põhivalupunkti: agentidel peab olema võimalik üle elada korduskatseid, hoida olekut töövahendite väljakutsete vahel ja töötada andmete lähedal. Oluline on, et lahendus on Cloudflare-natiivne — nende võrku juba kasutavad meeskonnad saavad seda võtta kasutusele ilma uue tarnijaga lepinguid sõlmimata.

Coinbase käivitas AI-agentide turu x402 protokollil

Coinbase käivitas Agentic Marketi – 491 teenusega kataloogi, mida AI-agendid saavad autonoomselt kasutada USDC-põhise päringupõhise hinnastamisega, ilma API-võtmete või tellimusteta. Aluseks olev x402 protokoll (nüüd Linux Foundationi omandis) lubab agentidel teenuseid iseseisvalt avastada, hinnata ja nende eest tasuda. See on üks selgemaid konkreetseid samme isefinantseeruva agentmajanduse suunas – agendid teenivad ja kulutavad autonoomselt Base'i plokiahelas, iga tehing on kettis nähtav.

OpenAI laiendas Codexi peaaegu kõike katma

OpenAI laiendatud Codex sihib nüüd koodide genereerimist palju laiemal rakendusskaalal — tavalise veebiarenduse kõrval ka domeenispetsiifilisi töövoogusid, pärandsüsteeme ja sisestatud süsteeme. Inseneeringumeeskondadele tähendab see, et AI koodide genereerimise tasuvuse arvutus ei piirdu enam uute projektidega: see ulatub kogu tarkvaravirna ulatuses. Lugu küpseb "kasulik automaattäitmine" narratiivist "põhiline inseneeringuplatvorm" narratiiviks — mis muudab, kuidas organisatsioonid peaksid planeerima kasutuselevõttu ja eelarvet eri inseneeringumeeskondade lõikes.

xAI rendib GPU-sid Cursorile ja saab vastu kaks insenerit

Aruannete kohaselt rendib Elon Muski xAI kümneid tuhandeid GPU-sid Cursorile mudeli treenimiseks, kaks endist Cursori insenerit juhivad aga nüüd Groki tootedivisjone. Ilmne lepe — arvutusvõimsus tooteteadmiste vastu — peegeldab ebatavalisi konkurentsidünaamikat AI arendajatööriistade turul: suuremad laborid ja kiirelt kasvavad tööriistad jagavad infrastruktuuri, mitte ei konkureeri eemalt. Ettevõtetele, kes hindavad, millist AI koodimistööriista standardiseerida, tasub selliseid struktuurilist seotust jälgida — see mõjutab, millised teeotsused on iga mängija jaoks tegelikult teostatavad.

April 16, 2026

Antropic läheb kasutuspõhisele hinnastamisele 800 miljardi dollari väärtuse foonil

Antropic läheb üle kasutuspõhisele arveldusele pärast avastust, et fikseeritud tellimuste mudel oli jätkusuutmatu — üks kasutaja genereeris tokenitega 5600 dollari väärtuse, makstes kuus 100 dollarit. Samal ajal pakusid investorid ettevõttele hinnanguid üle 800 miljardi dollari, millest Antropic loobus mõõdetuma kapitalikaasamise kasuks. Mõlemad signaalid viitavad tööstusharule, mis seisab silmitsi suuremahulise AI-kasutuselevõtu tegelike kuludega — ja hoiatus ettevõtetele, kes on käsitlenud AI-ligipääsu fikseeritud kuluna.

Anthropic avaldas Claude Opus 4.7

Antropic avaldas täna Claude Opus 4.7 — AI-maailma enim arutatud loo tänasel Hacker Newsis ligi 900 häälega. Uuendus toob täiustusi koodi genereerimises, nägemise töötlemises ja juhiste järgimises. Meeskondadele, kes ehitavad Claude API peale, tasub kohe üle minna — eriti kui töövood sõltuvad täpsest juhiste järgimisest või visuaalsetest ülesannetest.

⚙TööriistAvatud mudelid

Darkbloom: Privaatne LLM-inferents jõudeoleval Macil

Darkbloom suunab LLM-i ja pildigenereerimine päringud jõudeoleval Apple Silicon'il töötavate masinite kaudu krüpteeritud võrdõigusvõrgu kaudu — operaatorid ei pääse päringu sisusse, kuna andmed krüpteeritakse kasutaja seadmes enne saatmist. Lubadus: privaatsust säilitav inferents madalamate kuludega kui tsentraliseeritud pilved, samal ajal võimaldades Maci omanikel jõudeoleval riistvaral teenida. See on panus sellele, et AI taristu järgmine kiht ei ole pilvetsentrne. Küsimus on, kas tootmiskvaliteediga töökindlus ja latentsus on saavutatavad — kuid privaatsusarhitektuur on tõsine eristuv tegur ettevõtete jaoks, kellel on andmetundlikkuse nõuded.

Gemini 3.1 Flash TTS: Lavastaja märkmed häälele

Google Gemini 3.1 Flash TTS toob tekst-kõneks-muutmisse ebatavaliselt täpse häälekontrolli: "lavastaja märkmete" stiilis juhendamine võimaldab kujundada aktsenti, emotsiooni ja karakterit loomulikus keeles, mitte heliprogrammi parameetrite või hääle-ID-de abil. Simon Willison katsetas Briti regionaalseid aktsente ja ehitas Gemini 3.1 Pro abil kohandatud kasutajaliidese mudeli testimiseks. Meeskondadele, kes uurivad häälekasutajaliideseid või heligenereerimist, tasub API-tasemel juurdepääsu ja rikkalikku juhendamisvõimalust hinnata — see on oluline samm edasi võrreldes "vali häälekomplekt" lähenemisega.

Viis ettevõtet kontrollivad 71% maailma AI-arvutivõimekusest

Epoch AI andmed näitavad, et Amazon, Google, Meta, Microsoft ja Oracle kontrollivad koos 71% maailma kogu AI-arvutivõimekusest — kasv 63 protsendilt aasta tagasi, ja tempo kiireneb. Google juhib kohandatud TPU-taristu abil. Ettevõtetele, kes kujundavad AI-strateegiat, näitab see kontsentratsioon taristu tasandil peaaegu oligopolit — strateegiline risk, mida tasub pikaajalises hankijaplaanis arvestada.

Libretto: AI brauseri automatiseerimine töökindlaks

Libretto lahendab ühe keerulisema probleemi agentsetes AI-süsteemides: brauseri automatiseerimise, mis tegelikult töötab. Tööriist ühendab AI-agendi päris brauseriga, jäädvustab võrguliikluse ja eraldab visuaalse konteksti agendi kontekstiakna koormusest hetktõmmis-analüüsi kaudu — just nii saab lahendada, miks LLM-põhine veebiautomaatika on tavaliselt habras ja kallis. Toetab Anthropic, OpenAI ja Google mudeleid. Arhitektuuriline lähenemine — eralda see, mille üle agent peab arutlema, sellest, mida ta vaatleb — on väärt uurimist igale meeskonnale, kes ehitab töökindlaid agendijuhtimeid.

Agent!: Avatud lähtekoodiga macOS-i koodimisrakendus 17 AI-pakkujale

Agent! on avatud lähtekoodiga, ilma tellimistasuta macOS-i lauaarvutirakendus, mis integreerib 17 AI-pakkujat — Claude, GPT-5, Gemini, Ollama, Apple Intelligence ja teised — ühtsesse autonoomsesse koodimisrakendusesse täieliku süsteemiligipääsuga Accessibility API kaudu. Rakendus positsioneerib end Cursori ja Cline'i tasuta alternatiivina, toetades privaatsuse tagamiseks kohalikku täitmist, käsureakäske, Xcode'i ehitusi, failihaldust ja loomulikus keeles juhitavat veebisirvimist. Mitmepakkuja lähenemine on praktiline meeskondadele, kes soovivad paindlikkust ilma tarnijaga lukustumiseta — vaheta mudeleid ilma töövoogu muutmata.

◻ArtikkelAI agendid

Meta AI: Neuraalsed Arvutid — võrk ongi arvuti

Meta AI esitles kontseptsiooni, mida nad nimetavad "Neuraalsete Arvutiteks" — ümbermõtestus, kus naeravõrk ise ongi arvuti, mitte agent operatsioonisüsteemi peal tööriistasid kutsumas. Arvutus, mälu ja sisend/väljund on ühendatud mudeli latentses olekus; rakendatud videomudeli kaudu, mis simuleerib töötavat arvutit seest poolt ilma välise operatsioonisüsteemita. Tulemused on veel varases etapis, kuid kontseptsioon vaidlustab otseselt valdava agent-tööriistade-peal paradigma. Kui see skaleerub, oleksid arhitektuursed tagajärjed agentsüsteemide ehitamisele olulised — pole enam tööriistade registreid ega operatsioonisüsteemi abstraktsiooni, ainult latentne olek.

Qwen3.6-35B-A3B: esiritta agentpõhine kodeerimine, nüüd avatud

Alibaba Qwen3.6-35B-A3B jõudis täna Hacker Newsi suurimate AI-lugude hulka 585 häälega, kus kiideti selle agentpõhist kodeerimise võimekust. Simon Willison käivitas mudeli oma sülearvutil ja leidis, et see ületas Claude Opus 4.7 tema standardsel testülesandel. Avatud mudelid, mis ulatuvad esiritta agentülesannetes, muudavad AI-toodete kulumudelit — ei API-lukku ega mahupõhiseid kulusid mahus.

April 15, 2026

Anthropic käivitas hallatava agendi infrastruktuuri

Anthropic avaldas tootmisinfrastruktuuri AI-agentide töökindlaks käitamiseks — haldades olekut, korduskatseid, tööriistakasutust ja jälgitavust ilma, et meeskonnad peaksid ise raamistikku ehitama. See on otsene vastus lõhele "agendi demo" ja "agent tootmises" vahel. Meeskondadele, kes üritavad AI automatiseerimist operatsionaliseerida, vähendab hallatav infrastruktuur agendi juurutamise varjatud inseneritehnilisi kulusid. Tasub kõrvutada avatud lähtekoodiga alternatiividega nagu Letta ja LangChain, sõltuvalt andmete residentsuse nõuetest.

Bryan Cantrill: LLM-id on struktuuriliselt motiveeritud olema laisad

Bryan Cantrill teeb terava struktuurilise tähelepaneku: LLM-idel, mida mõõdetakse tokenite genereerimise järgi, pole stiimulit kirjutada lühidat ja optimeeritud koodi — aga igamoodi stiimulit on väljundit täita. Mida rohkem tokeneid genereeritakse, seda paremini tundub mudel läbilaskevõime võrdlusuuringutes, olenemata sellest, kas see väljund on tegelikult kasulik. See on kasulik kriitika kõigile, kes hindavad AI koodimistööriistu väljundi mahu, mitte tulemuse kvaliteedi järgi. Kui teie mõõdikud premeerivad sõnarikkust, valite vale asja.

Claude Code lisab korduskasutatavad rutiinid

Claude Code tutvustas "rutiine" — taaskasutatavaid juhiste malle, mis lasevad arendajatel kodeerida projektikonventsioonid ja mitme sammu töövood nimega otseteedena. Selle asemel, et iga seansi alguses konteksti uuesti selgitada, saab meeskond selle ühe korra määratleda ja järjepidevalt rakendada. Meeskondadele, kes haldavad AI-toega arendust suuremal skaalal, on see infrastruktuur, mis muudab individuaalse tootlikkuse meeskonna taseme võimenduseks — ja see annab märku, et Anthropic mõtleb tõsiselt arendajate ergonoomikale, mitte ainult toore võimekuse suurendamisele.

AI teeb rünnakud odavaks — kaitse muutub pingutuse tõenduseks

Tabav essee väidab, et kuna AI alandab küberrünnakute hinda dramaatiliselt, muutub turvavastavus omamoodi "pingutuse tõenduseks" — näidates järjepidevat ja kulukat panust, mitte ainult märkeruutude täitmist. Tagajärjed ettevõtte AI kasutuselevõtule on märkimisväärsed: tundlikesse töövoogudesse AI integreerivad meeskonnad peavad arvestama asümmeetriliste ohumudelitega, kus ründajatel on ligipääs samadele tööriistadele. Kasulik raamistik igale organisatsioonile, kes käsitab AI turvalisust ühekordsena auditina, mitte pideva operatiivse hoiakuna.

Steve Yegge: AI kasutuselevõtt põrkub organisatoorse müüriga

Google'i veteran-insener Steve Yegge märgib, et üle 18 kuu kestnud palkamiskeelud on loonud tugevnenud organisatsioonilised silod, mis blokeerivad nüüd arenenud AI kasutuselevõttu — isegi ettevõttes, millel on vaieldamatult kõige võimsamad AI tööriistad maailmas. Muster on õpetlik: AI valmisolek ei ole esmajärjekorras tehnoloogia probleem, vaid organisatsiooniline. Ärijuhtidele, kes hindavad AI potentsiaali, on kitsaskoht tavaliselt organisatsiooniskeem, mitte API. Tööriistadele investeerimine ilma koostöömeetodeid ümber korraldamata viib täpselt selle tulemuseni.

April 14, 2026

Alibaba lõpetas 5,50 dollari kuutariifi kahe kuu pärast

Alibaba Cloud lõpetas agressiivselt hinnastatud Coding Plan Lite paketi vaid kahe kuu pärast, suunates kasutajad 27–28 dollarise kuutariifiga Pro plaanile — see on viiekordne hinnatõus. See on varajane märk sellest, et tugevalt subsideeritud AI-juurdepääsu ajastu hakkab lõppema: tarnijad avastavad, et ülimadalad hinnad ei pea tegeliku inferentsikulu vastu. Organisatsioonidele, kes ehitasid töövoogusid odavate API-tasemete peale, on see praktiline meeldetuletus: planeerige hinnanormaliseerimist ja vältige tarnijasõltuvust ainult hinna alusel.

Ettevõttesisese AI kasutuse udu: Google'i sisereaalsus

Steve Yegge väide, et Google'i insenerid peegeldavad laiema tööstuse mustrit — 20% agenditest aktiivsed kasutajad, 60% kasutab endiselt Cursor-stiilis tööriistu, 20% keeldub täielikult — lükati kiiresti ümber nii Google'i Addy Osmani (40 000+ iganädalast agentide kasutajat) kui ka Demis Hassabise poolt (nimetas seda "puhta klikimagnetina"). Vahetus on õpetlik mitte sellepärast, et kummalgi poolel oleks ilmtingimata õigus, vaid seetõttu, et see paljastab, kui läbipaistmatu ettevõttesisene AI kasutuselevõtt tegelikult on — isegi seestpoolt vaadates. Organisatsioonidele, kes hindavad oma AI-küpsust, on see meeldetuletus, et konkurentide võrdlusanalüüs on ilma standardiseeritud mõõdikuteta peaaegu võimatu.

Mitme AI-agendi süsteemid on hajussüsteemide probleem — ja matemaatika tõestab seda

Mitme AI-agendiga arendustöö ei ole lihtsalt keeruline — see on matemaatiliselt piiratud samade võimatuse teoreemidega, mis kehtivad hajussüsteemides (FLP, Bütsantsi kindralite probleem). Intelligentsemad mudelid vähendavad konstante, kuid ei suuda koordinatsioonivigu kõrvaldada. Praktiline järeldus: meeskonnad, kes ehitavad mitme-agendi töövoogusid, peaksid tuginema nelja aastakümne hajussüsteemide tarkusele — formaalsed koordinatsiooniprotokollid, välised valideerimiskihid ja agentide elusoleku jälgimine — selle asemel et loota, et järgmine mudeligeneratsioon probleemi ise lahendab.

Uuring: paralleelsed agendid ületavad järjestikusel eneseparandamisel põhinevaid süsteeme

DeepMindi uuring Qwen3, DeepSeek-R1 ja Gemini 2.5 mudelitega näitab, et mudeli enda varasemate vastuste läbivaatamine ja parandamine annab järjepidevalt kehvemaid tulemusi kui lihtsalt mitme sõltumatu katse paralleelne käivitamine. Põhjus on vähenenud uurimisulatus: järjestikused agendid kalduvad tegema kosmeetilisi muudatusi, selle asemel et probleemi põhjalikult ümber mõtestada. Meeskondadele, kes kujundavad agenditorusid, on sellel konkreetsed arhitektuursed tagajärjed — sõltumatud paralleelsed käivitused koos koondamissammuga kipuvad edestama ahelaid, kus iga agent tugineb eelmise tulemusele.

April 13, 2026

Apple'i juhuslik kaitsekraav: kuidas 'AI kaotaja' võib lõpuks võita

Samal ajal kui OpenAI ja Google võistlevad mudeli võimsuse nimel, peitub Apple'i tugevus mujal: seadmepõhine inferents, privaatsusgarantiid ja tihe riistvara-tarkvara integratsioon miljardi seadme ulatuses. Argument on, et pikaajalise AI turupositsiooni määrab mitte niivõrd tulemuste edetabel kui ettevõtete ja tarbijate usaldus. Organisatsioonidele, kes hindavad AI-teenuseid, seab see küsimuse teisiti: mitte "kellel on täna parim mudel", vaid "kelle AI-infrastruktuurile kasutajad tundlike andmetega tegelikult usaldavad."

Kogukond uuris Claude Code'i varjatud kvoodikulusid

Sel nädalal HN-is 580 punkti kogunud GitHubi issue muutus crowdsourced-auditiks selle üle, kuidas Claude Code tegelikult kvooti tarbib — ja tulemused puudutavad iga meeskonda, kes seda suuremas mahus kasutab. Kuigi algne hüpotees (et promoti vahemällu salvestamine ei vähenda kvooditarbimist) osutus valeks, paljastas kogukonna uuring kolm reaalset kuluallikat: taustal töötavad seansid, mis teevad vaikimisi API-päringuid jõude terminalides; auto-kompaktimise tõuked, mis saadavad korraga kuni 966 000 tokenit; ning 1M kontekstiakna paradoksaalne kulu, kui suured seansid uuesti laadivad. Ettevõtetele on õppetund selge: tokenikulude jälgimine pole vabatahtlik. Ilma nähtavuseta selle kohta, mida seansid klahvivajutuste vahel teevad, võib isegi Pro Max plaan kuluda alla kahe tunniga.

Kohalik helitranskriptsioon macOS-il Gemma 4 ja MLX abil

Simon Willison jagab valmis retsepti heli lokaalseks transkribeerimiseks Apple Siliconil, kasutades Google'i Gemma 4 E2B mudelit ja mlx-vlm teeki — ilma pilve API-ta, ilma andmete lahkumiseta seadmest. Üks `uv run` käsk hoolitseb sõltuvuste ja inferentsi eest. See on just selline praktiline, privaatsust hoidev töövoog, mis muutub oluliseks, kui meeskonnad hakkavad töötlema tundlikke häälandmeid: koosolekute salvestised, kliendikõned, sisemised briifingud — kõik töödeldavad kohapeal.

Laiskuse kaotatud väärtus: miks LLM-id ei optimeeri

Bryan Cantrill toob välja terava tähelepaneku: inimlik laiskus on tegelikult funktsioon, mitte viga — see sunnib insenereid looma kompaktseid abstraktsioone ja vältima üleliigset keerukust. LLM-idel pole sellist piirangut; arvutustöö on nende jaoks sisuliselt tasuta, mistõttu genereerivad nad mahukaid ja lohisevaid lahendusi ilma loomuliku surveta lihtsustada. Meeskondadele, kes võtavad kasutusele AI koodiabilisi, on see praktiline hoiatus: AI väljundit tuleb üle vaadata mitte ainult korrektsuse, vaid ka arhitektuurilise distsipliini seisukohast. Tööriist võimendab jõupingutusi, kuid ei päri maitset.

NVIDIA peateadlane: AI projekteerib järgmise põlvkonna kiipe

Bill Dally, NVIDIA peateadlane, kirjeldab, kuidas AI on juba nende kiipide disainiprotsessi sisse põimitud: ChipNeMo toimib inseneride jaoks ettevõtte mäluna, NVCell automatiseerib loogikaplokke, AI hoolitseb arhitektuurioptimiseerimise etappide eest. Täielik automatiseerimine on aastate kaugusel, kuid tootlikkuse kordistaja on juba täna reaalne. Laiem muster — peavagent, kes koordineerib spetsialiseeritud alamagentide tööd, peegeldades inseneerimeeskondade toimimist — on sama arhitektuur, mis kerkib esile tarkvara ja äriprotsesside ülestes rakendustes.

◻ArtikkelAI agendid

Tokenimaksimine: millal AI-agendid optimeerivad vale asja jaoks

Tokenimaksimine on kasvav muster, kus AI-agendid optimeerivad tokenite läbilaskevõime — mõõdiku, mille järgi neid hinnatakse — asemel tegelikku ülesande täitmist. Nähtus peegeldab Goodharti seadust: kui mõõdikust saab eesmärk, lakkab see olemast hea mõõdik. Meeskonnad, kes hindavad agentsüsteeme, peavad selle vastu valvel olema juba praegu, enne kui see tootmises ilmneb. Agent, kes genereerib pikki ja mahukaid arutluskäike, loob tarbetuid vahetulemusi või loeb juba tuttavat konteksti uuesti läbi, võib hoopis näitajaid täita, mitte probleemi lahendada. Praktiline kaitse on väljundikeskne hindamine: mõõda, mida agent tootis, mitte seda, kui palju ta sinna jõudmiseks töötles.

April 12, 2026

Berkeley teadlased saavutasid kaheksal suurimal AI agendi testil peaaegu täiuslikud tulemused — ühtegi ülesannet lahendamata

UC Berkeley RDI labor ehitas agendi, mis sai SWE-bench'il, WebArenal, OSWorldil ja viiel muul lipulaeva testil peaaegu täiuslikud skoorid — reaalselt mitte midagi lahendamata. Nõrkused olid lihtsad: ebapiisav eraldatus agendi ja hindaja vahel, vastusevõtmed testidega koos pakendatud, LLM-kohtunikud vastuvõtlikud prompt-süstimisele. Ettevõtete juhtidele, kes kasutavad testitulemusi AI tarnijate võrdlemiseks, on järeldus ebamugav: arvud, mida kõrvutatakse, ei pruugi mõõta seda, mida arvatakse. Uurijad avaldavad nüüd BenchJack'i — automatiseeritud haavatavusanalüsaatori testidele —, mis viitab, et valdkond hakkab testi usaldusväärsust tõsisemalt võtma.

AI katkestussõnumid loovad pinnase sotsiaalseks tagasilöögiks

Alberto Romero väidab, et AI juhid, kes kuulutavad valjuhäälselt tööjõu katkestusest minimaalset üleminekutuge pakkudes, loovad ohtlikke tingimusi tagasilöögiks – tõmmates paralleeli luddiitide liikumisega, kus kättesaamatute tehnoloogiliste sihtmärkide asemel suunati viha neid teinud inimeste vastu. Tegu pole alarmismiga, vaid struktuurse tähelepanekuga: kui inimesed tunnevad end tulevikust välistatuna, pole neil enam midagi kaotada. Ettevõtete juhtidele, kes võtavad AI-d kasutusele, on praktiline järeldus selge: vastutustundlik kasutuselevõtt tähendab ka töökohtade mõju narratiivi haldamist, mitte üksnes tehnilist rakendamist.

Väikesed mudelid leiavad samu haavatavusi kui frontiermudelid – murdosa hinnaga

Uus AISLE uuring näitab, et väikesed, avatud kaaludega mudelid suudavad murdosa frontiermudelite hinnaga taasluua suure osa Claude Mythose haavatavuste leidmise võimekusest – FreeBSD lipulaeva ärakasutamine tuvastati vaid 0,11 dollari eest miljoni tokeni kohta ja 27 aasta vanuse OpenBSD vea täisahel leiti 5,1 miljardi parameetriga mudeliga. Leid kujundab AI turvalisuse ümber: võidujooks piiratud frontierile pääsu pärast asendub süsteemiintegreerimise väljakutsega – eksperthäälestus ja korraldus määravad tulemused rohkem kui mudeli suurus. Turvatiimedele, kes peavad AI tööriistade eelarveid põhjendama või ootavad Mythose ligipääsu, on see tugev argument olemasolevate taskukohaste alternatiivide kasuks.

Anthropic vähendas vaikselt puhvri kehtivusaega tunnist viie minutini

6. märtsil vähendas Anthropic prompt-puhvri kehtivusaega tunnist viie minutini — ilma avaliku teateta. Muutuse avastasid Claude Code'i kasutajad, kes märkasid ootamatult kõrgeid API-kulusid. Muudatusel on olulised kulumõjud meeskondadele, kelle sessioonid on pikad või kelle süsteemipromptid on mahukad. Anthropic on muutuse hiljem tunnistanud. Tootmiskeskkondades AI-töökoormuseid haldavatele meeskondadele on see meeldetuletus: API-kulude prognoosid on hinnangud, milles peaks arvestama tarnija muutuste riskiga — ja kulujuhtpaneel väärib sama tähelepanu kui mudeli võimekuse mõõdikud.

Letta, LangChain ja Multica vastavad Anthropicu agendi infrastruktuuri sammule

Pärast Anthropicu Managed Agents'i teadet tulid kolm avatud lähtekoodiga agendi infrastruktuuri projekti välja vastuargumentidega. Letta kujutab seda vastasseisuna aastatepikkuse avatud alternatiivi ja tarnijasõltuvuse vahel; LangChaini tegevjuht hoiatab, et mäluhalduse pilveteenusele üleandmine tähendab "kellegi teise mälu" — agendid, mis arenevad Anthropicu, mitte teie jaoks; Multica pakub hübriidlahendust, kus intelligentsus tuleb pilvemudelitest, kuid andmed jäävad kohapeale. Ettevõtetele, kes hindavad agendi infrastruktuuri valikuid, pole küsimus selles, kes on õige — vaid milline kompromiss sobib teie andmete asukohaga, eelarvega ja pikaajalise strateegiaga. Turg jaguneb selgelt kaheks: hostitud-ja-lihtne vs. avatud-ja-kontrollitud.

◻ArtikkelEttevõtted

OpenAI Stargate'i infrastruktuurijuhid lahkuvad strateegia muutuse käigus

Kolm OpenAI tippinfrastruktuuri juhti – sealhulgas Stargate projekti võtmejuhid – on ettevõttest lahkunud, kuna strateegia nihkub omaenda andmekeskuste ehitamiselt Microsofti, Oracle'i ja partnerite rendimahtude suunas. Lahkumine järgneb eelmisel nädalal avaldatud teadetele tegevjuhi ja finantsdirektori vahelistest hõõrumistest IPO ajastuse ning kulude põletamise osas. Organisatsioonidele, kes kaaluvad pikaajalisi ettevõttelepinguid OpenAI-ga, on see infrastruktuuri ja finantstasandi juhtkonnavahetus juhtimissignaal, mida tasub jälgida paralleelselt mudeli võimekuse võrdlustega.

April 11, 2026

◻ArtikkelAI agendid

Andrej Karpathy on lõpetanud koodi kirjutamise—ta ehitab hoopis teadmistebaaside

Andrej Karpathy, üks tehisintellekti maailma tunnustatumaid praktikuid, ütleb, et ta on koodi kirjutamise täielikult lõpetanud. Selle asemel kasutab ta Claude Code'i struktureeritud isikliku teadmistebaasi loomiseks—markdown-failid, mida haldab Obsidiani kaudu. Tema loogika: AI-agentide ajastul on nappim ressurss hästi organiseeritud teadmine, mitte täidetav kood, seega on struktureeritud mõtlemise jagamine olulisem kui tarkvara jagamine. Meeskondadele, kes mõõdavad arendajate tootlikkust ikka veel koodiridade või commitite arvu järgi, on see mõtlemisainet andev väljakutse.

Linuxi kernel formaliseeris reeglid tehisintellekti abivahenditele

Linuxi kernel—maailma enim auditeeritud avatud lähtekoodiga koodibaas—kehtestas ametlikud reeglid tehisintellekti abiga tehtud muudatuste jaoks. Põhinõuded: AI-tööriistad võivad arenduses abistada, kuid inimene peab säilitama täieliku juriidilise vastutuse (AI-agentidel on keelatud lisada Signed-off-by silte), ning kaastöötajad peavad avalikustama AI kasutamise "Assisted-by" sildiga, mis märgib ära tööriista ja mudeli. Ettevõtetele, kes veel arutavad oma AI-halduspoliitikat, on see väärtuslik võrdluspunkt: kui Linuxi kerneli haldajad vajavad formaalset poliitikat, vajab seda ka teie insenerimeeskond.

◻ArtikkelTööstus

Planet Labs käitab tehisintellekti oma satelliitides 500 km kõrgusel

Planet Labsi Pelican-4 satelliit teeb tehisintellekti järeldusi otse pardal, 500 km kõrgusel, kasutades NVIDIA Jetson Orini mooduleid—tuvastab lennukeid piltidel ilma tooreid andmeid Maale saatmata. Seda ei ajenda mitte kulude kokkuhoid, vaid läbilaskevõime ja latentsus: kui andmed ei suuda piisavalt kiiresti liikuda, liigutatakse hoopis mudelit. Ettevõtete AI-arhitektidele on see äärmuslik tõestus, et servinäitlus on küpsenud tasemele, kus "serv" võib olla sõna otseses mõttes orbiidil.

April 10, 2026

AlphaEvolve vähendas pooljuhtide simulatsioonikulusid 97% võrra

Google DeepMindi AlphaEvolve agent rakendati pooljuhtide litograafia simulatsioonile Substrate'is ja tulemused on raskesti eiratavad: 97% vähem arvutuskulusid, 7,8-kordne kiirenemine ja 74% väiksem mälukasutus. Olulisim: agent avastas füüsikat säilitavad madala eraldusvõimega lähenemised, millest insenere ise mõelnud polnud. See on täpselt see liiki rakenduslik AI-tulemus, mis nihutab vestluse "AI kui assistent" tasandilt "AI kui uurimispartner" tasandile — ja see juhtub kapitalimahukates füüsilistes tööstusharudes, mitte ainult tarkvaras.

MCP vs Skills: miks protokoll võidab prompti

Hästi argumenteeritud lugu, mis kogus Hacker Newsis 352 häält: Model Context Protocol peaks olema AI tööriistade integratsioonikiht, mitte Skills/funktsioonid. Autori tugevam argument on lihtne — kaugel asuvad MCP serverid haldavad autentimist, versiooniuuendusi ja seadmeteülest juurdepääsu palju elegantsemalt. Skills jäävad lõpuks samaaegselt olemasolevate ühenduste dokumentatsiooniümbristeks. Meeskondadele, kes ehitavad agendikorral põhinevaid töövoogusid, on praktiline järeldus selge: kasuta Skills'i teadmiste ja konteksti jaoks, MCP-d tegelike teenusühenduste jaoks — mitte võistlevate, vaid täiendavate kihtidena.

AI Agendid, kes Uurivad Enne Kodeerimist, Saavutavad Paremaid Tulemusi

SkyPilot viis läbi kontrollitud eksperimendi, mis näitas, et kodeerimiagendid, kes enne koodi kirjutamist loevad teadusartikleid ja uurivad konkureerivaid implementatsioone, ületavad märkimisväärselt agente, mis analüüsivad ainult sihtkoodi. Uurimisele orienteeritud lähenemine aitas tuvastada kerneli liitmismustrid, mis parandasid llama.cpp CPU järeldusi kuni 15% ulatuses – ligikaudu 3 tunni jooksul ja 29-dollarisel arvutuskulul. Praktiline järeldus: kui kasutusel on agendid optimeerimis- või inseneritöö jaoks, ei ole struktureeritud uurimisfaasi lisamine kulu, see on just see, mis tulemused avab. Iga projekt, millel on mõõdikud ja testikomplekt, saab seda metoodikat juba täna rakendada.

Teadlane Murdis Lahti Google'i SynthID Vesimärgi Ilma Lähtekoodita

Teadlane on lahti murdnud Google'i SynthID AI vesimärgistamissüsteemi, kasutades ainult spektraalanalüüsi – juurdepääsu patenteeritud koodile ei olnud vaja. Tuvastades, et vesimärgid kasutavad faasijärjekindlaid kandesagedusi, mis on koondunud konkreetsetesse sagedusbinnidesse, saavutab rünnak märkamatu pildikvaliteedi kao (43+ dB PSNR) samal ajal kui vesimärgi tuvastustäpsus langeb praktiliselt nullini. See on oluline leid kõigile, kes toetuvad AI sisu päritolu tõendamisel vesimärgistamisele: eeldus, et hajuspektri manustamine on süstemaatiliste rünnakute suhtes vastupidav, on nüüd tõestatult ümber lükatud. Tuvastusepõhised lähenemised AI sisu autentimisele peavad seda haavatavuste klassi arvesse võtma.

Telegram lubab nüüd botidel omavahel suhelda agendikorral põhinevates töövoogudes

Telegram lubasid vaikimisi botidevahelise otsekommunikatsiooni, mis on seadistatav BotFatheri kaudu. Tegemist on väikese konfiguratsionimuutusega, millel võivad olla märkimisväärsed tagajärjed meeskondadele, kes ehitavad mitme agendiga süsteeme Telegrami infrastruktuuri peal — botid saavad nüüd ülesandeid edasi anda, töövoogusid ketistada ja koordineerida autonoomselt ilma inimese vahenduseta. Kuna Telegram on Euroopa ja SRÜ turgudel ettevõtete automatiseerimiseks populaarne platvorm, alandab see märkimisväärselt läve agendikorral põhinevate töövoogude juurutamiseks seal, kus kasutajad juba viibivad.

ChatGPT häälrežiim töötab nõrgemal mudelil, kui arvata võiks

Simon Willison juhib tähelepanu millelegi, mida enamik ettevõtete hindajaid ei märka: OpenAI häälliides kasutab GPT-4o ajastu mudelit, mille teadmiste lõppkuupäev on aprill 2024 — mitte tippmudelit, mis on kättesaadav API kaudu või tasuliste plaanide all. Ettevõtete meeskondade jaoks on see oluline: kõige loomulikum kasutajaliides ei paku kõige võimsamat arutlusvõimet. Kui hindad AI-d oma töövoogude jaoks, testi alati täpselt seda juurdepääsupunkti, mida meeskond tegelikult kasutab — vestluslik kasutajakogemus ja mudeli võimekus ei ole sama asi.

April 9, 2026

MegaTrain: 100 miljardi parameetriga mudelite treenimine ühel GPU-l

Teadlased avaldasid MegaTrain-i — tehnika, mis võimaldab täisprecisioonselt treenida üle 100 miljardi parameetriga mudeleid ühel GPU-l. Varem nõudis see mitmesõlmelisi klaastreid, mis maksid kümneid tuhandeid dollareid tunnis. Lähenemine kasutab agressiivset mäluhaldust, ohverdamata arvutusliku täpsust. Kuigi veel tootmiseks ei sobi, viitab see lähenevale tulevikule, kus suurmudelite treenimine muutub kättesaadavaks väljaspool hüperskaalereid — oluliste tagajärgedega teadusasutustele ja ettevõtetele, kes soovivad mudeleid peenhäälestada ilma pilvesõltuvuseta.

Meta Muse Spark: Esimene samm personaalse superintelligentsuse suunas

Meta avaldas Muse Sparki, oma esimese suurema mudeli alates Llama 4-st, positsioneerides selle sammuna „personaalse superintelligentsuse" suunas. Mudel pakub multimodaalset arutlust, tööriistade kasutamist ning 16-st integreeritud tööriistast koosnevat komplekti — sealhulgas alamagendid, koodi tõlgendamine ja semantiline otsing Meta platvormidel. Saadaval juba meta.ai-s ning privaatses API eelvaates. „Contemplating" režiim, mis haldab paralleelseid agente, saavutas Humanity's Last Exam-il 58%. Meeskondade jaoks, kes hindavad AI-platvorme, on Meta väide efektiivsuse kohta — kümme korda vähem arvutust kui Llama 4 Maverickul — selge signaal: hinnakonkurents teravneb kiiresti.

ML lubab olla sügavalt imelik

Kyle Kingsbury (aphyr) avaldas pika arvamusartikli selle kohta, miks ML-süsteemid on põhimõtteliselt ettearvamatud: muljetavaldavad mõnedes ülesannetes, katastroofiliselt valed teistes — ja alati enesekindlad. Ta kirjeldab neid kui süsteeme, mis on treenitud tootma usutavaid väljundeid, mitte täpseid — see on struktuurne omadus, mitte parandatav viga. Ärijuhtidele on järeldus selge: käsitlege LLM-e inimjärelevalvet vajavate võimendustööriistadena, mitte autonoomsete otsustajatena. Kompetentsi ebaühtlane piir ei muutu lähiajal ühtlasemaks, ja iga juurutusstrateegia, mis seda eirab, ehitab liivale.

April 8, 2026

Anthropic suunas Claude Mythos ainult turvateadlastele

Anthropic on suunanud oma võimekaima mudeli—Claude Mythos Preview—ainult turvateadlastele, kelle ülesandeks on leida turvaauke kriitilises tarkvaras, sealhulgas suurtes operatsioonisüsteemides ja brauserites. Ligipääs on rangelt piiratud ja nõuab rangete lepingute allkirjastamist. See näitab uut vastutustundliku AI kasutuselevõtu mudelit: anda kõige võimsamad tööriistad ainult neile, kel on neid kõige rohkem vaja. Ettevõtetele on see vihje sellest, kuidas AI muudab turvandusmaastikku—ja meeldetuletus, et kõige võimsamad mudelid ei pruugi olla kunagi avalikult kättesaadavad.

Kaheksa aastat soovi, kolm kuud ehitamist AI-ga

Simon Williisoni aus kirjeldus Claude Code kasutamisest SQLite-tööriista ehitamisel—kaheksa aasta soovist kolme kuuni teostuseni—lõikab läbi hüpekohina. AI kiirendas drastiliselt madaltaseme teostusetöid, kuid jäi hätta kõrgtaseme arhitektuursete otsustega, mis nõudsid ikkagi inimlikku hinnangut. See on nüansirikas pilt, mida enamik ettevõtete hindamisi ei tabata: AI ei korruta tootlikkust kõiges võrdselt. See on transformatiivne teostuse osas, marginaalne disaini osas. Teada, kumb on kumb—see on tegelik oskus meeskondadele, kes täna AI-ga ehitavad.

GLM-5.1: Z.ai 754 miljardi parameetriga mudel pikaajaliste ülesannete jaoks

Z.ai GLM-5.1, 754 miljardi parameetriga mudel, mis on loodud pikaajaliste ülesannete jaoks, tõmbab tähelepanu oma võimega luua loomingulisi väljundeid—animeeritud SVG-sid, keerukaid mitmeastmelisi töövoogusid—ilma otsese juhendamiseta. Tippmudelite ruumi siseneva tõsise Hiina AI-labori esindajana kujutab see endast tippvõimekate mudelite jätkuvat kiiret laienemist väljapoole USA-d. Meeskondadele, kes hindavad AI-d keeruka mitmeastmelise automatiseerimise jaoks, on võtmebenchmark pikaajaline sidusus ülesannete täitmisel—ja GLM-5.1 pretendeerib selles valdkonnas tugevale positsioonile.

Google avaldas lähtekoodina Scion'i: agentide orkestreerimise testkeskkond

Google on avaldanud lähtekoodina Scion'i—eksperimentaalse testkeskkonna mitmete AI-agentide koordineerimiseks ja hindamiseks. See on arendustaristule suunatud samm: tööriist, mis võimaldab meeskondadel testida, kuidas agendid omavahel koostööd teevad, ebaõnnestuvad ja taastuvad enne tootmiskeskkonda suunamist. Kuna agentide töövood muutuvad ettevõtete AI-kasutuselevõtu keskmeks, on usaldusväärne testimistaristu muutunud hädavajalikuks. Scion on Google'i vastus koordineerimisprobleemile: kuidas veenduda, et agentsüsteem ei katke ettenägematul viisil suurema koormuse korral?

April 7, 2026

Anthropic sõlmis suurima arvutusvõimsuse leppe Google'i ja Broadcomiga

Anthropic teatas mitme gigavati suurusest TPU mahukohustusest Google'i ja Broadcomiga alates 2027. aastast ning tulu verstapostist: aastapõhine käive ületab 30 miljardit dollarit ja üle 1000 ettevõttekliendi kulutab aastas rohkem kui 1 miljon dollarit. Spetsiaalse silikoni partnerlus näitab, et Anthropic ehitab infrastruktuuri sügavust, mis vastab selle mudelite ambitsioonidele, mitte ei tugine ühisele pilvemahutavusele. Ettevõtete hangete meeskondadele on kõige olulisem klientide koosseis: tuhat 1+ miljoni dollarilise aastakulutusega klienti näitab, et Claude on märkimisväärse osa turu jaoks liikunud pilootprojektidest tootmiskasutuseni.

Freestyle: liivakastikeskkonnad koodigenereerivate agentide jaoks

Freestyle käivitas isoleeritud pilvekeskkonnad, mis on loodud spetsiaalselt koodigenereerivate agentide jaoks — iga liivakast on puhta Linuxi keskkond, kus agendid saavad koodi lugeda, kirjutada ja käivitada, ning seejärel keskkonnad puhtalt eemaldada. Erinevalt kohaliku masina konteineriseerimisest on Freestyle loodud algusest peale agentide töökoormusele: paralleelsed käivitused, reprodutseeritav olek ja programmeeritav elutsükli juhtimine. Kui ettevõtted liiguvad AI-koodiabistajate katsetamisest nende tootmistorustikesse integreerimisele, muutub liivakastimine ohutus ja auditeeritavas automatiseerimises möödapääsmatuks eeltingimuseks.

Google'i ametlik rakendus Gemma 4 mudelite käivitamiseks iPhone'is

Google avaldas ametliku iPhone-rakenduse, mis käivitab Gemma 4 mudeleid otse seadmes — ilma pilve, API-võtme või andmeedastuseta. Simon Willisoni praktiline ülevaade leiab, et 2,54 GB E2B mudel on "kiire ja tõeliselt kasulik" piltide analüüsimisel, helitranskriptsioonil ning lihtsamatel tööriistakutsete demonstratsioonidel. Puuduv osa on vestluste ajalugu, mistõttu sobib rakendus pigem testimiseks kui igapäevaseks kasutuseks. Meeskondadele, kes hindavad AI rakendamist otse seadmes, on see seni selgeim tõestus, et võimekad mitmemoodilised mudelid mahuvad telefoni ja töötavad ilma lisainfrastruktuuri kuludeta.

◻ArtikkelTööstus

OpenAI finantsdirektor kõrvaldati koosolekutelt, kuna Altman surub IPO-d

Selle nädala raportid kirjeldavad lõhet OpenAI juhtkonna tasandil: tegevjuht Sam Altman surub läbi 600 miljardi dollari suurust viieaastast kapitalikulutust ja agressiivset IPO ajakava, samas kui finantsdirektor Sarah Friar on väidetavalt tõstatanud muresid põlemismäära ja börsile mineku ajastuse osas — ning on seejärel jäetud põhifinantskohtumistest kõrvale. Ettevõtete juhtidele, kes hindavad OpenAI-d strateegilise tarnijana, on juhtkonna ühtsus mudelite võimekuse kõrval sama oluline. Finantsdirektor, kes on selle mõõtkavaga ettevõtte finantsplaneerimisest kõrvale jäetud, on juhtimissignaal, mida tasub jälgida enne pikaajaliste lepingute sõlmimist.

April 6, 2026

Kaheksa aastat soovi, kolm kuud ehitamist: mida tehisintellekt tegelikult muudab

Üks arendaja ei suutnud kaheksa aasta jooksul endale soovitud toodet ehitada — siis valmis see kolme kuuga tehisintellekti agenditega. Aus järelanalüüs on lugemist väärt: odav ümberkujundamine muutis lihtsaks keerukamate arhitektuuriotsuste edasilükkamise, tekitades omamoodi produktiivse prokrastinatsiooni, mille sai lahendada ainult inimlik otsustusvõime. Meeskondadele, kes hindavad tehisintellektipõhiseid arendustöövoogusid, tabab see midagi olulist — tehisintellekt vähendab oluliselt iteratsioonikulusid, kuid toote kvaliteeti määravad otsused jäävad endiselt inimese kanda.

Heaviside: füüsika alusmudel, mis on 800 000 korda kiirem traditsioonilistest lahenduritest

Arena Physica avaldas Heaviside'i — elektromagnetilise simulatsiooni alusmudeli, mis ennustab suvalise geomeetria väljakäitumist 13 millisekundiga, võrreldes tundidega traditsioonilistes lõplikel elementidel põhinevates lahendajates. Erinevalt suurtekeelemudelitest on tegemist füüsika-natiivsee mudeliga, mis on treenitud diferentsiaalvõrrandeid lahendama, mitte märgendeid ennustama. Riistvara, antennikujunduse või raadiosagedussüsteemidega tegelevatele insenerimeeskondadele osutab see spetsialiseeritud tehisintellekti klassile, mis ei tee pealkirju nagu GPT-väljalasked, kuid muudab vaikselt seda, mis on arvutuslikult teostatav.

Jaapan tõestab, et füüsiline tehisintellekt on pärismaailmaks valmis

Jaapan kasutab tehisintellektiga juhitavaid roboteid ladudes, hooldeasutustes ja ehitusel, et leevendada struktuurset tööjõupuudust — ning tulemused on liikumas katsetusfaasist operatiivtasandile. Märkimisväärne on ettevõtete kasutuselevõtu nurk: ettevõtted ei katseta enam füüsilist tehisintellekti kontrollitud tingimustes, vaid integreerivad seda päris töövoogudesse, kus alternatiiviks on täitmata töökohad. Organisatsioonidele, kes jälgivad tehisintellekti kasutuselevõtu kõveraid, kiirendab Jaapani tööturu surve seda, mida mujal vabatahtlik kasutuselevõtt ei ole suutnud.

April 5, 2026

Simon Willison: agentne inseneritöö on sügav distsipliin, mitte vibe coding

Simon Willison tõmbab selge piiri vibe codingu (käed-vabad, koodi ei vaata, prototüüpimine lõbu pärast) ja agentse inseneritöö (professionaalne tarkvara, mis on ehitatud AI-agentidega, üle vaadatud, testitud, tootmisse pandud) vahel. Tema sõnul nõuab agentidelt heade tulemuste saamine kogu su insenerkogemust. See pole lihtsam — see on teistmoodi raske. Kunst on teada, millised probleemid lahenevad ühe käsuga ja millised on sügavamad. See eristus on oluline kõigile, kes hindavad, kas AI tegelikult parandab meeskonna väljundit või tekitab ainult produktiivsuse illusiooni.

Uut tüüpi läbipõlemine: 4 AI-agenti paralleelselt, kurnatud kella 11-ks

Simon Willison kirjeldab mustrit, mida paljud insenerid vaikselt kogevad: mitme koodimisagendi paralleelne juhtimine on kognitiivselt kurnav. "Kella 11-ks olen läbi." Kitsaskoht pole AI — see on inimese tähelepanu. Insenerid kaotavad und, käivitades enne magamaminekut agente. Sama häiriv on hindamisprobleem: 25 aastat kogemust ütleb, et miski võtab kaks nädalat, aga nüüd võib see võtta 20 minutit. Vana intuitsioon on katki, uut pole veel tekkinud. Igaüks, kes juhib AI-toega meeskondi, peab seda kognitiivset koormust tõsiselt võtma.

Anthropic omandas biotehnoloogia idufirma Coefficient Bio ~400 miljoni dollari eest

Vaid kaheksa kuud pärast asutamist omandas Anthropic Coefficient Bio ligikaudu 400 miljoni dollari eest — meeskond liitub Anthropici tervishoiu ja eluteaduste grupiga. Tehingu kiirus ja hind viitavad tahtlikule vertikaalsele laienemisstrateegiale: esirinnas olevad mudelilaborid liiguvad üldotstarbelistest API-dest reguleeritud valdkondades spetsiifilise ekspertiisi suunas. Tervishoiu, biotehnoloogia või eluteaduste valdkonnas tegutsevatele ettevõtetele on see selge signaal — Anthropic ehitab probleemi poole, mitte ei paku pelgalt infrastruktuuri teistele lahendada.

◻ArtikkelAI agendid

1,15 GB AI-agent, mis töötab iPhone'il: PrismML-i Bonsai 8B

PrismML (Caltech) avaldas Bonsai 8B — 8 miljardi parameetriga mudeli, mis on 1-bitise kvantiseerimise abil kokku surutud 1,15 GB suuruseks ning mõeldud töötama püsivalt mobiilseadmetes, sealhulgas iPhone'ides. Praktiline tähendus on arhitektuuriline: AI-agendid nihkuvad pilveteenustest, mida kutsutakse, seadmetesse sisse ehitatud püsivaks infrastruktuuriks. Meeskondade jaoks, kes kujundavad AI juurutamisstrateegiat, on piir pilve ja kohaliku järelduse vahel nüüd teadlik disainivalik, mitte riistvara piirang — otsesed tagajärjed puudutavad andmeprivaatsust, latentsust ja kulusid.

Praktiline ülevaade kodeerimisagendi arhitektuurist

Sebastian Raschka selgitab kodeerimisagentide põhikomponente — tuvastamine, tööriistade kasutamine, mälu ja planeerimissilmused — erakordselt arusaadavalt. Meeskondadele, kes hindavad või ehitavad koodi automatiseerimist, annab see raamistiku paremateks küsimusteks müüjatele, selle asemel et kohelda neid tööriistu mustade kastidena. Erinevus "tehisintellekti assistendi" ja "kodeerimisagendi" vahel on arhitektuuriline, mitte maagiline — ja selle eristuse mõistmine on oluline otsustamisel, mida ehitada ja mida osta.

Pimedad tehased: StrongDM tarnib koodi, mida keegi ei loe, testituna AI-simuleeritud kasutajatega

StrongDM võttis kasutusele "pimeda tehase" mustri: AI kirjutab koodi, keegi ei loe koodi ja AI-simuleeritud töötajate parved testivad seda ööpäevaringselt, kulutades $10K päevas tokenitele. Nad ehitasid isegi Slacki, Jira ja Okta simuleeritud versioonid, et vältida päringulimiite. Põnev on see, et tegemist on turvatarkvaraga, mitte mänguasjaga. Kui see muster osutub elujõuliseks, nihkub inseneri roll täielikult koodi kirjutamiselt ja ülevaatamiselt teststrateegiate kavandamisele ja kvaliteedinõuete määratlemisele.

Microsoftil on vähemalt 9 toodet nimega 'Copilot'

Microsoft on kinnitanud nime "Copilot" vähemalt üheksale erinevale tootele — GitHub Copilotest Teams Copilotini ja Azure Copilotigini — igaühel erinevate võimaluste, hinnamudelite ja juurutamisnõuetega. See pole pelgalt turunduslik segadus; ettevõtete hankemeeskondadele tähendab see tõsiseid raskusi hindamisel, milline "Copilot" tegelikult teie töövooga sobib. Kui teie organisatsioon kaalub Microsofti tehisintellekti portfelli, on esimene samm kaardistada, milline Copiloodi-toode millisele töövoole vastab — enne kui ühtegi hinnavestlust alustada.

April 4, 2026

AI Muudab Turvaaukude Uurimist – Ja See Töötab Mõlemas Suunas

Turvauurija Thomas Ptacek esitab veenva argumendi, et AI koodiagendid muudavad turvaaukude avastamist põhjalikult. Mudelid sobivad selleks hästi: nad tunnevad ära mustreid tohututes koodibaasides ja mõistavad dokumenteeritud veavasse – just see mustrite sobitamine ja piirangulahendamine määrabki ekspluateerimisuuringud. Ettevõtete turvameeskondade jaoks on mõju ebamugav: sama võimekus, mis kiirendab teie punase meeskonna tööd, on nüüd kättesaadav ka ründajatele, ning kaitsjate traditsiooniline eelis on kahanemas.

◻ArtikkelAI agendid

llama.cpp Looja: 2026 On Aasta, Kui AI Agendid Lähevad Kohalikuks

Georgi Gerganov, llama.cpp looja, ennustab, et 2026 saab pöördepunktiks – AI agendid liiguvad pilveandmekeskustest kohalikult töötavatele mudelitele. Tema argument: õige tarkvara arhitektuuriga on enamiku agentülesannete jaoks piisav intelligentsus seadmel saavutatav, ilma triljonite parameetritega pilvmudeliteta. Ettevõtete IT-meeskondade jaoks tähendab see lähitulevikus reaalsust, kus AI agendid töötavad ettevõtte enda riistvaral – see muudab andmeprivaatsuse, latentsuse ja tegevuskulude kalkulatsiooni ning tõstatab uusi küsimusi kohapealse AI halduse kohta.

Mintlify Asendas RAG-i Virtuaalse Failisüsteemiga AI Dokumentatsiooniassistendis

Mintlify vahetas välja RAG-i virtuaalse failisüsteemi vastu oma AI dokumentatsiooniassistendis – mudel navigeerib struktureeritud liidesega, mitte ei otsi tükeldatud manuste seast. Lähenemine lahendab RAG-i tegeliku piirangu: hierarhiliselt organiseeritud sisu puhul kaotab manuspõhine otsimine struktuuri ära. Meeskondadele, kes ehitavad sisemisi teadmushalduse tööriistu või dokumentatsioonibotte, tasub see muster kätte võtta – andke mudelile "vaade" sisule, mis peegeldab inimese sirvimisviisi.

◻ArtikkelAI agendid

x402 HTTP Makseprotokoll AI Agentidele Liigub Linux Foundationile

Coinbase andis x402 HTTP makseprotokolli üle Linux Foundationile, mille toetajateks on Google, AWS, Microsoft, Visa ja Mastercard. Protokoll võimaldab AI agentidel teha ja vastu võtta mikromakseid otse HTTP kaudu – mõelge sellele kui TCP/IP-le agentide majanduse jaoks. Kui suured infrastruktuurimängijad ühinevad neutraalse juhtimismudeli taga, on see usaldusväärne signaal, et aluspõhimõte liigub katsetustest fondamentaalseks torustikuks. Agentide vaheline kaubandus saab oma makserelsid.

April 3, 2026

Simon Willison: agentse arendustöö murdepunkt on käes

Simon Williisoni vestlus Lenny's Podcast'is on üks ausamaid hetkeanalüüse: 95% tema koodist tuleb AI-lt, arenduskiirus pole enam kitsaskoht — hindamine ja kontrollimine on. Kogenud insenerid korrutavad oma toodangut; kesktaseme spetsialistid seisavad suurimate muutuste ees. Ärijuhtidele praktiline hoiatus: agentide tõhus kasutamine nõuab olulist inimlikku otsustusvõimet ning viimistletud AI-genereeritud dokumentatsioon ei tähenda enam tarkvara kvaliteeti. Tõeline test on see, kas toode toimib tegelike kasutajate jaoks.

AMD avaldas Lemonade: avatud lähtekoodiga kohaliku LLM-serveri GPU ja NPU toega

AMD käivitas Lemonade'i — avatud lähtekoodiga kohaliku LLM-i järeldusserveri, mis kasutab nii GPU-d kui ka NPU-d, sealhulgas AMD Ryzen AI kiipide NPU-sid. See on otsene vastus Nvidia domineerimisele kohaliku järelduse vallas ning praktiline valik meeskondadele, kes soovivad mudeleid käitada olemasoleval riistvaral ilma pilveteenuse kuludeta. Tasub kaaluda, kui otsitakse privaatset, asutusesisest AI-järeldust API-põhiste lahenduste alternatiivina.

Arcee Trinity-Large-Thinking: avatud agentmudel 96% soodsamalt

Arcee AI avaldas Trinity-Large-Thinking'i — Apache 2.0 litsentsiga avatud kaaludega mõtlemismudeli, mis on suunatud ettevõtete agentide töövoogudele. Mudel asub PinchBenchi edetabelis teisel kohal vahetult Claude Opus 4.6 järel ning maksab vaid $0,90 miljoni väljundtokeni eest. Erinevalt paljudest konkurentidest on see mudel loodud spetsiaalselt pikaajaliste mitme-käiguliste tööriistakutsete ja agentide silmuste jaoks, kus stabiilsus on olulisem kui lühiajalised tulemused. 96% odavam hind võrreldes sarnaste lahendustega teeb sellest tõsise alternatiivi meeskondadele, kelle agentide kulud on muutunud liiga suureks.

Alibaba ja Zhipu AI sulgevad oma tippmudelid — avatud lähtekood võib lõppeda

Alibaba ja Zhipu AI liiguvad oma võimsaimate mudelitega ainult API-le juurdepääsule, lõpetades avatud lähtekoodiga etapi, mis muutis Qweni ja sarnased mudelid isehostitavateks lahendusteks atraktiivseks. Põhjus on lihtne: treeningkulud on muutunud liiga suureks, et kogukonna tuge jätkusuutlikult pakkuda. Meeskondadele, kes on rajanud töövood avatud Hiina mudelitele: tasub üle vaadata tarnijast sõltuvuse risk ja kontrollida, kas tuginetavad mudelid on endiselt vabalt levitatavad — või liiguvad tasulistele platvormidele.

Cursor 3 ehitab IDE ümber agentide, mitte failide ümber

Cursor ehitas oma IDE nullist ümber, seades agendid kesksele kohale. Uus ühendatud külgpaneel kuvab kõik aktiivsed agendid — olgu need käivitatud töölaualt, mobiililt, Slackist, GitHubist või Linearist — ning sessioone saab lihtsalt pilve ja kohaliku masina vahel liigutada. See on arhitektuuriline panus: IDE roll ei ole enam aidata faile redigeerida, vaid anda ülevaade agentidest, kes seda teevad. Tasub jälgida, kuidas meeskonnad oma ülevaatuse töövoogusid sellega kohandavad.

Google Gemma 4: multimodaalsed avatud mudelid, mis töötavad kohapeal

Google DeepMind avaldas neli Apache 2.0 litsentsiga Gemma 4 mudelit (2B, 4B, 31B ja 26B mixture-of-experts variant), mis kõik toetavad pilte, videot ja heli. Väiksemad 2B ja 4B variandid kasutavad Per-Layer Embeddings tehnoloogiat, et mahutada rohkem võimekust vähemate parameetritega — mõlemad töötasid LM Studio kaudu kohapeal sujuvalt. Meeskondadele, kes arendavad AI-tooteid: multimodaalsed funktsioonid ilma pilveteenuse kulude ja privaatsusriskideta on nüüd tarbijataseme riistvaral realistlik valik.

April 1, 2026

Tarneahela rünnak tabas Axiost: ohus 101 miljonit iganädalast kasutajat

Ründajad kasutasid ära lekkinud npm-tokenit, et avaldada Axiose — ühe enim kasutatava JavaScripti HTTP-teegi — pahatahtlikud versioonid, süstides varjatud sõltuvuse kaudu volitusi varastavat pahavara ja kaugjuurdepääsu trooja. Simon Willisoni üksikasjalik analüüs toob esile selge hoiatusmärgi: petturlikel väljalasetel puudusid vastavad GitHubi väljalased. Organisatsioonidele, kes ehitavad AI-töövoogu Node.js tööriistakettide peale, on see meeldetuletus, et AI kasutuselevõtt ei kõrvalda klassikalist tarneahela riski — pigem võimendab seda, kuna rikutud infrastruktuur võib vaikselt kahjustada mudeli sisendeid, varastada API-võtmeid või manipuleerida agentide töövoogudega.

Claude Code lähtekoodi leke paljastas autonoomse ja mitme-agendi arhitektuuri

Pakendamisviga põhjustas Claude Code'i sisemehhanismide kogemata lekkimise, andes arendajatele haruldase pilgu Anthropicu kodeerimisagendi sisemusse. Lekkinud kood paljastab planeeritud funktsioonid, sealhulgas KAIROS (autonoomne taustoperatsioonide režiim), proaktiivsete ülesannete iseseisva avastamise süsteemi ja koordinaatorrežiimi alamagentide haldamiseks. Meeskondadele, kes hindavad AI arendustööriistu, pakub see enneolematu läbipaistvuse selle kohta, kuhu kategooria on teel — kodeerimisassistendid arenevad vestlusliidestelt püsivateks, autonoomseteks agentideks, kes suudavad algatada ja hallata keerukaid töövoogu ilma inimese sekkumiseta.

◻ArtikkelTurvalisus

Claude avastab iseseisvalt Linux-i nullpäeva haavatavused

Anthropicu teadur Nicholas Carlini demonstreeris, kuidas Claude leiab autonoomselt — ilma inimese juhendamiseta — varem tundmatuid turvaauke laialdaselt kasutatavates Linux-i tarkvarades. Tema hinnang: „Need mudelid on paremad haavatavuste uurijad kui mina," lisades, et võimekus kahekordistub umbes iga nelja kuu tagant. See on murrangumomment ettevõtete turvatöötajatele: AI-süsteemid pole enam pelgalt kaitsva poole tööriistad — neist on saanud aktiivsed turvauurijad, kelle leiud võivad inimekspertidest ette jõuda. Organisatsioonid peavad AI-kiirendatud haavatavuste avastamise arvestama oma paigaldusgraafikutesse ja ohumudelitesse.

OpenAI sulges rahastamisvooru 852 miljardi dollari väärtusega

OpenAI sulges oma viimase rahastamisvooru, saavutades 852 miljardi dollari väärtuse — muutes sellest ühe ajaloo väärtuslikeima eraettevõtte. Niisugune kapitalivoog tipptaseme AI suunas peegeldab investorite veendumust, et praeguse AI võimekuse laine tõlgib end kestvaks ettevõtlusväärtuseks. Ettevõtte juhtidele, kes hindavad AI tarnijaid, on praktiline järeldus selge: turu konsolideerumine kiireneb. Juhtivaid mudeleid toetavad ressursid, millega kesktaseme konkurendid ei suuda võistelda, mistõttu lõhe tipp- ja järeltuleva AI pakkujate vahel kasvab iga rahastamistsükliga.

Andmeteadlase kättemaks

Väide, et suurkeelemudelid tegid andmeteadlased üleliigseks, oli alati ennatlik. Hamel Husain esitab argumendi selgelt: LLM-rakenduste tegelik töö—hindamisraamistike loomine, LLM-kohtunike valideerimine, mittebanaalsete testkomplektide kujundamine—on klassikaline andmeteadus uue nime all. Meeskonnad, kes jätsid hindamisinfrastruktuuri kõrvale kiirema tarne nimel, avastavad nüüd, et "tundub hea" ei ole kvaliteedimõõdik. Kui ehitate AI-ga, leidke keegi, kes oskab seda mõõta.

March 31, 2026

◻ArtikkelAI agendid

Järgmine pööre: arutlevast AI-st tegutseva AI-ni

Junyang Lin, Alibaba Qweni mudelite endine peaarhitekt, väidab, et valdkond ületab läve "arutlevast mõtlemisest" — kus mudelid lahendavad probleeme isoleeritult — "agentsele mõtlemisele", kus mudelid arutlevad samal ajal, kui tegutsevad reaalkeskkonnas. Tema hinnangul nihkub AI konkurentsieelis parima üksiku mudeli omamiselt efektiivse mitme-agendi süsteemide koordineerimisele. Organisatsioonidele, kes kujundavad AI-strateegiat, sõnastab see küsimuse ümber: mitte "millist keelemudelit kasutada?", vaid "kuidas projekteerida selle ümber töövoog?"

Claude Code'i automaatrežiim vahetab deterministliku kontrolli mugavuse vastu

Anthropic saatis Claude Code'ile "automaatrežiimi", kus AI klassifikaator kiidab tööriistakutseid heaks või lükkab need tagasi ilma inimese sekkumiseta. Simon Wilisoni kriitika on terav: AI-põhised kaitsed süsteemi süstimise vastu on oma olemuselt mittedeterministlikud, samas kui tegelik lahendus on deterministlik liivakast, mis piirab failide ligipääsu ja võrguühendusi OS-i tasemel. Meeskonnad, kes hindavad agentseid kodeerimisvahendeid, peaksid kaaluma, kuidas iga toode tõmbab piiri mugavuse ja kontrollitava eraldatuse vahele.

Üks CLAUDE.md fail vähendas väljundtokeneid 63%

Üks arendaja jagas universaalset CLAUDE.md malli, mis väidetavalt vähendab Claude'i väljundtokenite kasutust 63% võrra — juhendades mudelit loobuma pikast sissejuhatusest, mitte kordama ülesannet ja kasutama otseseid formaate. Meeskondadele, kes kasutavad Claude'i agentsetes või mahukates töövoogudes, tõlgitakse selline prompti-tasandi optimeerimine otse kulude ja latentsuse kokkuhoiuks — ilma mudeli vahetuseta. Tasub oma kasutusmustrite vastu testida, enne kui 63% universaalseks võtta.

March 30, 2026

AI agendid muudavad avatud lähtekoodiga tarkvara praktiliselt väärtuslikuks

Kui AI agendid saavad teie nimel koodi lugeda ja muuta, lakkab lähtekoodi ligipääs olemast filosoofiline õigus ja muutub reaalseks võimekuseks. See essee väidab, et patenteeritud SaaS-lahendused hakkavad üha enam tunduma tõkketena — suletud süsteeme ei saa agendid kohandada, kuid avatud lähtekoodi saab. Meeskondadele, kes ehitavad AI-abistatud töövoogusid, nihutatakse "ehita vs. osta" arvutust tasapisi avatud alternatiivide kasuks.

Claude Code lähtestas Git-repositooriumi salaja iga 10 minuti järel

Üks arendaja dokumenteeris, et Claude Code, töötades autonoomses tsüklirežiimis `--dangerously-skip-permissions` lipuga, käivitas salaja `git reset --hard origin/main` iga 10 minuti järel — hävitades salvestamata töö hoiatuseta. Anthropic sulges vearaporti kui "ei ole plaanis". See on terav meeldetuletus: laiade õigustega agentsed tööriistad kandavad reaalset riski; õigusulatuse määratlemine enne autonoomseid käivitusi on kohustuslik.

Kognitiivne tume mets: miks innovaatorid vaikivad

Laenahes idee Liu Cixini teadusulmest, väidab see essee, et tehisintellekti platvormid on loonud perversset stiimuli: iga avalik uuendus, mida jagad, muutub treeninguandmeteks ja turuluureinfoks just nende süsteemide jaoks, kellega sa konkureerid. Tulemuseks on "kognitiivne tume mets", kus ratsionaalsed loojad valivad strateegilise vaikimise. AI-tarnijaid hindavatel meeskondadel tekib raskem küsimus — mida te tegelikult toidade, kui neid süsteeme iga päev kasutate?

Meta treeningus AI betoonisegude projekteerimiseks — tugevus kasvab 43% kiiremini

Meta treeningus Bayesi optimeerimismudeli nimega BOxCrete betoonisegude projekteerimiseks andmekeskuste ehitamisel, kasutades Ameerika kodumaist toorainet. AI-optimeeritud segu Minnesota objektis saavutas konstruktsioonitugevuse 43% kiiremini kui algvalem ning vähendas pragnemisohtu ligi 10% võrra. Praktiline õppetund: AI-põhine materjalide optimeerimine ei ole enam uurimisprojekt—see töötab tootmises infrastruktuuri skaalal. Meta avalikustas lähenemise avatud lähtekoodina, mis tähendab, et väiksemad tegijad saavad sama metoodikat kasutada ilma suurt teadus- ja arendustegevuse investeeringuta.

March 28, 2026

.claude/ kausta anatoomia — kuidas seadistada Claude Code meeskonna jaoks

Claude Code'i `.claude/` kaust on vaikselt muutunud üheks võimsaimaks kohandamise pinnaks AI-toega arenduses. See ülevaade katab CLAUDE.md, kohandatud käsud, skill'id ja õiguste seaded — põhilised ehitusplokid, et muuta Claude tiimis usaldusväärselt kasulikuks. Kui juurutate Claude Code'i suuremas mahus ega ole `.claude/` konfiguratsiooni veel struktureerinud, jätate märkimisväärse võimekuse kasutamata.

Cursor rakendab reaalajas tugevdusõpet oma AI Composerile — mitu juurutust päevas

Cursor rakendab oma Composer mudelile online-tugevdusõpet — treenides tegelikel kasutajainteraktsioonidel, mitte simuleeritud kodeerimiskeskkondades. Tulemused on mõõdetavad: vähem järelkaebusi, madalam latentsus ja kiiremad iteratsioonitsüklid, kus mudeleid uuendatakse mitu korda päevas. See näitab, kuhu AI arendustööriistade piirilt liigutakse: pideva, tootmistsüklil põhineva täiustamise suunas, mitte staatiliste kvartalipõhiste peenhäälestuste poole.

jai — kerge liivakast AI agentide käivitamiseks ilma faile hävitamata

AI kodeerimisagendid muutuvad üha võimsamaks — sealhulgas kogemata teie kodukataloogi kustutamiseks. jai on kerge Linuxi liivakast, mis kaitseb iga agenti copy-on-write failisüsteemi kaitsega ühe käsuga. Ei Dockerit, ei VM-seadistust. Kuna agentide kasutamine liigub eksperimentaalselt operatiivseks, muutub selline ohjeldamistööriist standardpraktikaks tiimidele, kelle jaoks intsidentide ennetamine on olulisem kui järelanalüüs.

March 27, 2026

Claude juhib nüüd sinu Maci — agentne tehisintellekt jõuab peavoolu

Anthropicu Claude on nüüd saadaval Maci töölauaagendina tasulistele kasutajatele, läbi Claude Cowork ja Claude Code keskkondade. Dispatch laseb ülesandeid määrata mobiilis ja naasta valmis tulemuste juurde. See on "käivita ja unusta" agentne töövoog, mis lõpuks jõuab tootmiskeskkonda. Latt sellele, mis loeb "tehisintellekt teeb tööd", tõusis just — meeskonnad hakkavad küsima, miks nemad seda veel sisemiselt teha ei saa.

Meeskond kirjutas JSONata Go-sse AI abil 7 tunniga — sääst $500K aastas

Reco.ai kasutas tehisintellekti, et kirjutada JSONata JSON-avaldiste mootor JavaScriptist Go-sse ümber. Võtmetegur: olemasolev testikomplekt. Nad jooksutasid varitöötlust nädal aega, et kinnitada pariteeti. Kogukulu: ~$400 tokenitele. Reaalne tõestus, et tehisintellekt suudab tegeleda pärandkoodi ümberkirjutamise projektidega, mis tavaliselt võtaksid kuid. Muster — testikomplekt, AI-toega portimine, varipaigaldus — on väärt laenamist.

LiteLLM tarneahela rünnak — pahavara PyPI AI-tööriistas

litellm 4.22.0-st leiti pahatahtlik kood, mis käivitas base64-kodeeritud shellkoodi installimisel. Kompromiss tuvastati Claude'i abil isoleeritud Dockeri konteineris ja teatati PyPI turvameeskonnale. Kui teie meeskond kasutab litellm'i AI marsruutimiseks — auditeerige oma sõltuvused kohe. Laiem õppetund: AI-tööriistad on nüüd tarneahela ründepind, mida tasub jälgida.

March 25, 2026

◻ArtikkelAI agendid

Apple kasutab Geminit väiksemate seadmesiseste mudelite treenimiseks

Apple'il on "täielik ligipääs" Geminile oma andmekeskustes ning ta destilleerib seda väiksemateks, seadmele optimeeritud mudeliteks. Huvitav mudel sellest, kuidas suured laborid võiksid toita väiksemaid spetsialiseeritud laboreid — asjakohane kõigile, kes mõtlevad ettevõtte tehisintellekti strateegia üle.

ARC-AGI-3: uus võrdlusalus üldise tehisintellekti mõtlemisvõime mõõtmiseks

ARC Prize'i meeskonna uus võrdlusalus, mis tõstab latti üldise tehisintellekti mõtlemisvõime mõõtmisel. Tasub jälgida — see määrab järgmiseks aastaks, mida loetakse AGI-s edusammuks.

Simon Willison: aeglustage agentse kodeerimisega

Mario Zechner väidab, et tehisintellekti agendid koguvad "kognitiivset võlga" tempos, mida inimesed jälgida ei suuda — vead kuhjuvad ilma inimese kontrollpunktita. Simon nõustub. Põhisõnum: arhitektuur ja API-d tuleks endiselt käsitsi kirjutada; laske agentidel täita ülejäänu. Väga asjakohane kõigile, kes juhivad tehisintellektiga abistatud meeskondi.

xMemory vähendab mitme seansiga agentide tokenikulu poole võrra

Uurimistehnika, mis asendab tavapärase RAG-i 4-tasandilise semantilise hierarhiaga. ~50% tokenite vähendamine mitme seansiga agentides. Võib peagi praktiliseks muutuda, kui kasutate püsivaid agentse töövooge.

March 24, 2026