Nvidia, Robotların Öğrenme Şeklini Yeniden Tasarlıyor: 44.000 Saat İnsan Videosuyla Zeka Kazanımı
CES 2026 fuarında ev işleri yapan, çamaşır katlayan veya bulaşık makinesi yerleştiren insansı robotların kalabalığı, geleceğin evlerimizde hizmet robotlarıyla dolu olacağına dair güçlü bir izlenim bıraktı. Bu “bir sonraki büyük şey” olarak nitelendirilen robotlar, şimdilik en büyük engeli aşmaya çalışıyor: karmaşık ve öngörülemeyen gerçek dünyada nasıl hareket edeceklerini öğrenmek. Geleneksel yaklaşımlar, robotların her görevi yerine getirebilmesi için muazzam miktarda veri toplamasını ve bu veriyi yapılandırmasını gerektiriyor ki bu da robotik gelişimini yavaşlatan en maliyetli ve zahmetli süreçlerden biri. Ancak Nvidia, bu zorluğa yepyeni bir “tasarım” ve “öğrenme” perspektifi sunuyor.
Robotların Öğrenme Paradigması Değişiyor: DreamDojo
Nvidia, bu karmaşık soruna çığır açıcı bir çözüm getirdiğine inanıyor: açık kaynaklı “dünya modeli” DreamDojo. Bu platform, robotların fiziksel dünyada insanları gözlemleyerek sezgisel fizik kurallarını öğrenmesini hedefliyor. Artık robotları titizlikle programlamak veya uzaktan kumandayla yönlendirmek yerine, Nvidia DreamDojo sayesinde robotlar, 44.000 saati aşkın “egosantrik insan videosu” üzerinde eğitim alabilecekler. Bu videolar, insanların araçları nasıl kullandığını, nesneleri nasıl birleştirdiğini ve ev işlerini nasıl yaptığını gösteriyor; yani robotlara doğrudan “hayattan” dersler veriyor. Bu, robotik tasarımcıları ve mühendisleri için adeta bir hayal gücü patlaması anlamına geliyor.

DreamDojo-HV: İnsan Deneyiminin Devasa Kütüphanesi
Nvidia, bu açık kaynaklı dünya modelini “dünya modeli eğitimi için bugüne kadarki en büyük veri seti” olarak tanımlıyor. DreamDojo-HV (Human Video) adı verilen bu veri seti, tam olarak 44.711 saatlik görüntü içeriyor. Bu devasa kütüphane, 6.015 benzersiz görevi ve bir milyondan fazla eylem yörüngesini kapsıyor. Nvidia’ya göre, bu veri seti önceki en büyük dünya modeli eğitim setlerinden 15 kat daha büyük ve yaklaşık 96 kat daha fazla beceri barındırıyor. Dahası, daha önce görülen en büyük veri setlerinden 2000 kat daha fazla sahne içerdiği düşünülüyor.
“Robotların öğrenmesini hızlandırmanın ve maliyetini düşürmenin yolu, onlara robotlara özgü pahalı veriler sağlamaktan ziyade, insan deneyiminin zenginliğini sunmaktan geçiyor. DreamDojo, bu felsefenin somutlaşmış hali.”

Sektördeki en büyük darboğazlardan biri, robotlara özgü veri toplamanın maliyeti ve zorluğuydu. Nvidia, bu süreci bol miktarda insan videosuyla basitleştirerek, insansı robotlara yatırım yapan şirketler için öğrenmeyi daha erişilebilir ve ekonomik hale getirmeyi amaçlıyor. Bu, robotların sadece önceden programlanmış görevleri yapmakla kalmayıp, aynı zamanda görsel olarak gördükleri bir görevi anlayıp adapte edebilme potansiyeli anlamına geliyor. Tasarımcılar için bu, robotların insan ihtiyaçlarına daha iyi yanıt verecek şekilde evrimleşmesi için yeni kapılar açıyor.
Öğrenme Süreci: Ön-Eğitim ve Son-Eğitim
Nvidia’nın DreamDojo platformu, bu yenilikçi öğrenme sürecini iki ana faza ayırıyor: Ön-Eğitim (Pre-Training) ve Son-Eğitim (Post-Training). Bu iki aşamalı yaklaşım, robotların hem genel fiziksel anlayışı edinmesini hem de bunu belirli bir robotik platforma uyarlamasını sağlıyor.

Ön-Eğitim: İnsan Videolarından Gizli Eylemleri Çıkarma
İlk aşamada, DreamDojo büyük ölçekli insan videoları üzerinde ön eğitim yapıyor. Nvidia’nın belirttiğine göre, bu süreç “gizli eylemler” (latent actions) kullanıyor. İnsan videoları, robot eklemlerinin tork etiketleri veya motor komutları gibi teknik veriler sağlamadığından, Nvidia 700 milyon parametreli “uzamsal-zamansal Transformer” adı verilen bir model eğitti. Bu Transformer, kareler arasındaki görsel değişikliklerden “vekil eylemler” (proxy actions) çıkararak, modelin herhangi bir insan videosunu sanki motor komutları ile birlikte gelmiş gibi işlemesini sağlıyor. Bu sayede robot, sadece izleyerek bir eylemin “nasıl” yapıldığını sezgisel olarak öğreniyor. Bu, adeta bir çocuğun izleyerek öğrenmesi gibi, robotlara da görsel zeka kazandırıyor.
Son-Eğitim: Fiziksel Anlayışı Robotik Donanıma Uyarlama
İkinci aşamada ise, öğrenilen fiziksel anlayış “sürekli robot eylemleri” ile belirli bir robot gövdesine adapte ediliyor. Buradaki temel fikir, fiziksel dünya anlayışını donanım kontrolünden ayırmak. Böylece robot önce fiziksel dünyanın kurallarını öğreniyor ve ardından bu kuralları kendi ihtiyaçlarına ve uzuvlarının gereksinimlerine göre uyarlıyor. Bu modüler yaklaşım, bir robotun bir görevi genel olarak nasıl yapacağını öğrenirken, aynı zamanda o görevi kendi fiziksel yapısına göre optimize etmesini sağlıyor.

Nvidia, robotlara önce insanları izlemeyi öğreten bu dünya modeliyle, insansı robotların ölçeklenmesinin en iyi ve en hızlı yolunun daha fazla robot verisi değil, daha fazla insan deneyimine maruz kalmak olduğunu öne sürüyor. Bu vizyon, sadece robotik mühendisleri için değil, aynı zamanda kullanıcı arayüzü tasarımcıları, ürün tasarımcıları ve endüstriyel tasarımcılar için de sınırsız yeni fırsatlar sunuyor. Robotlar daha “insan gibi” düşündükçe ve davrandıkça, onlarla etkileşim kurma ve onları günlük hayatımıza entegre etme yollarımız da kökten değişecek. Gelecek, insan ve robot işbirliğinin yeni tasarımlarla şekillendiği bir dünya vaat ediyor.

Kaynak: Yanko Design | Yayın Tarihi: 3 Mart 2026