Siapa Andrew G. Barto? Kontribusi Besar di Balik Penghargaan Turing Award AI
Turing Award
Pada suatu sore di
awal musim semi, di sebuah kampus yang tenang di Amherst, Massachusetts,
seorang profesor senior berjalan perlahan melewati lorong-lorong gedung lama
Fakultas Ilmu Komputer. Rambutnya memutih, langkahnya santai, dan wajahnya
membawa ketenangan khas seorang ilmuwan yang telah berdamai dengan pencapaian
panjang hidupnya. Sosok itu adalah Andrew Gehret Barto, seorang
akademisi yang namanya mungkin tidak sepopuler Elon Musk atau Demis Hassabis,
tetapi bagi dunia kecerdasan buatan, ia adalah figur fundamental—sebuah fondasi
yang menopang hampir seluruh inovasi AI modern.
Pada tahun 2024,
ketika ACM secara resmi mengumumkan penerima A.M. Turing Award,
penghargaan paling prestisius dalam dunia komputasi, nama Barto disandingkan
dengan kolaborator lamanya, Richard S. Sutton. Dunia AI pun serentak menengok
ke dua tokoh yang selama bertahun-tahun tidak mengejar sorotan media, tetapi
mempersembahkan teori, algoritma, dan prinsip-prinsip inti yang hari ini
menjadi jantung teknologi AI—mulai dari robot otonom, sistem rekomendasi,
hingga model bahasa besar seperti ChatGPT.
Penghargaan itu terasa seperti sebuah momen penegasan: bahwa perjalanan panjang menuju kecerdasan buatan tidak hanya dibentuk oleh raksasa industri, tetapi juga oleh para pemikir teoritis yang selama puluhan tahun berkhidmat dalam kesunyian laboratorium dan ruang kuliah.
Awal Perjalanan: Seorang Mahasiswa Fisika yang Terpikat
Pada Perilaku
Andrew Barto tidak
selalu bercita-cita menjadi “bapak reinforcement learning.” Ia memulai karier
akademiknya sebagai mahasiswa fisika di University of Michigan pada akhir
1960-an. Tapi cerita Barto berubah ketika ia mulai terpesona pada pertanyaan
sederhana namun mendalam: bagaimana makhluk hidup belajar?
Pada masa itu, dunia
komputasi masih primitif. Komputer besar memenuhi ruangan, algoritma sederhana
terasa seperti sihir, dan kecerdasan buatan hanyalah mimpi futuristik. Tetapi
di ruang antara fisika, biologi, dan psikologi, Barto melihat celah:
kemungkinan bahwa kita bisa meniru sistem belajar manusia dan hewan ke dalam
mesin.
Barto bukan sekadar
peneliti yang mengutak-atik persamaan. Ia adalah pemikir
lintas-disiplin—menggabungkan neuroscience, psikologi perilaku, dan matematika.
Ketertarikan itu menuntunnya memasuki bidang adaptive control, sebuah area
riset yang kelak menjadi fondasi reinforcement learning.
Ketika banyak
ilmuwan pada era tersebut mengejar pembelajaran terawasi (supervised
learning), Barto justru menengok ke mekanisme yang lebih mendasar:
bagaimana agen (baik manusia maupun mesin) belajar dari konsekuensi tindakan—melalui
penghargaan (reward) dan hukuman. Ide itu mengingatkannya pada teori
perilaku B. F. Skinner, tetapi dengan pendekatan yang jauh lebih matematis dan
komputasional.
Bertemu Richard Sutton: Dua Pemikir yang Menulis Ulang Masa
Depan AI
Pertemuan Barto
dengan Richard S. Sutton bukan hanya kolaborasi ilmiah; itu adalah momentum
sejarah. Keduanya berbagi kegelisahan dan ambisi intelektual tentang bagaimana
mesin dapat belajar dari interaksi jangka panjang dengan lingkungan.
Hubungan mereka
ibarat pasangan kreatif legendaris di dunia teknologi—seperti Jobs dan Wozniak,
tetapi dalam versi akademik dan jauh lebih tenang.
Bersama, mereka
mengembangkan dasar-dasar algoritma penguatan:
- Temporal Difference (TD)
Learning,
- Actor-Critic architectures,
- Adaptive critics,
- dan kemudian memformulasikan
filosofi yang menjadi jantung reinforcement learning modern.
Pada pertengahan
1980-an, karya mereka mulai mengguncang ranah kecerdasan buatan. Saat banyak peneliti
AI frustasi dengan keterbatasan metode simbolik tradisional, pendekatan Barto
dan Sutton menawarkan sesuatu yang radikal: mesin dapat belajar sendiri
melalui percobaan, kesalahan, dan reward, mirip seperti manusia.
Itulah momen ketika
reinforcement learning tidak lagi hanya teori perilaku, tetapi berkembang
menjadi kerangka matematis yang solid—suatu landasan algoritmis yang bisa
direplikasi oleh komputer dalam skala besar.
Buku yang Mengubah Dunia AI
Pada tahun 1998, dunia AI mendapat kamus baru yang nantinya menjadi kitab suci para peneliti, insinyur, dan pegiat machine learning:
“Reinforcement Learning: An Introduction.”
Ditulis oleh Sutton
dan Barto, buku itu bukan hanya jadi buku teks—tetapi deklarasi intelektual.
Gaya penulisan mereka jernih, mengalir, dan sederhana tanpa kehilangan
kedalaman. Buku tersebut menjelaskan dunia RL dengan cara yang membuat konsep
kompleks seperti fungsi nilai (value function), kebijakan (policy),
Q-learning, dan eksplorasi-eksploitasi menjadi masuk akal bahkan bagi pemula.
Jika Anda menelusuri
bagan teknologi AI hari ini, hampir semua sistem canggih memiliki akar yang
bersentuhan dengan buku tersebut:
- AlphaGo dan AlphaZero (DeepMind)
- robot navigasi otonom
- sistem rekomendasi adaptif
- virtual assistant yang belajar
dari interaksi
- model bahasa seperti ChatGPT yang
dilatih dengan RLHF (Reinforcement Learning from Human Feedback)
Tentu, Barto tidak
membangun semuanya. Tetapi kerangka berpikir yang ia tanamkan menjadi tanah
tempat inovasi itu tumbuh.
Bagaimana Reinforcement Learning Mengubah Dunia AI
Untuk memahami
dampak Barto, kita perlu memahami keunikan RL. Berbeda dari pembelajaran
terawasi yang menelan jutaan data berlabel, RL bekerja seperti cara manusia
belajar di kehidupan nyata.
Bayangkan Anda
belajar mengendarai sepeda. Tidak ada guru yang memberi Anda label “benar” atau
“salah” setiap detik. Anda belajar dengan mencoba, jatuh, bangkit, dan
mendapatkan reward berupa stabilitas dan kebebasan bergerak. Begitu pula
dengan mesin dalam RL:
mereka menerima umpan balik berupa reward dan menggunakan pengalaman itu untuk
meningkatkan policy dari waktu ke waktu.
Inilah filosofi yang
menjadi pondasi banyak terobosan AI modern.
DeepMind, misalnya,
membangun banyak prestasinya di atas ide-ide RL—mulai dari AlphaGo yang
mengalahkan juara dunia Go, hingga agen belajar mandiri yang dapat bermain
puluhan game Atari tanpa instruksi manusia.
Setiap kali
pencapaian monumental itu dipuji, nama Barto sering muncul di balik layar
sebagai bagian arsitek intelektual yang membuatnya mungkin.
Sosok yang Tenang Tetapi Berpengaruh
Mungkin bagian
paling menarik dari kisah Andrew Barto bukan prestasi akademisnya, tetapi
bagaimana ia menjalani hidup: sederhana, lembut, jauh dari hingar-bingar
Silicon Valley.
Barto tidak mengejar
spotlight, tidak menjalankan startup miliaran dolar, tidak tampil dalam Ted
Talk yang penuh ledakan visual. Tetapi justru itulah yang membuatnya memesona.
Di era ketika inovator sering tampil seperti selebritas, Barto tetap seperti
ilmuwan klasik—mendalam, reflektif, dan fokus pada persoalan fundamental.
Mahasiswa-mahasiswanya
sering menggambarkan Barto sebagai mentor yang sabar, seorang pendengar yang
baik, dan pemikir yang selalu memberikan ruang bagi ide baru. Banyak generasi
baru peneliti AI besar—termasuk sebagian ilmuwan di DeepMind, Google Brain, dan
OpenAI—berakar dari ajaran atau literatur Barto.
Ketika berita Turing
Award diumumkan, komunitas AI merayakan kemenangan itu seperti kemenangan
kolektif. Wajar saja: ini adalah penghargaan yang terasa terlambat diberikan,
tetapi tepat sasaran.
Dari Laboratorium ke Industri: Dampak Modern Reinforcement
Learning
Kontribusi Barto
bukan sekadar teori. Hari ini, reinforcement learning menjadi tulang punggung
banyak inovasi industri:
- Robotika Otonom
Robot belajar memegang objek, menavigasi lingkungan, dan mengambil keputusan tanpa diprogram secara eksplisit. - Sistem Transportasi
Algoritma RL digunakan untuk mengatur lampu lalu lintas adaptif, logistik cerdas, hingga perencanaan rute. - Fintech & Ekonomi
Model RL digunakan dalam optimasi portofolio, prediksi risiko, dan pergerakan pasar. - Perawatan Kesehatan
Sistem dapat merencanakan regimen obat optimal berdasarkan respons pasien. - Gaming & Simulasi
Perusahaan seperti DeepMind dan NVIDIA menggunakan RL untuk menciptakan agen super pintar yang belajar dari lingkungan virtual.
Dan tentu saja—RLHF
(Reinforcement Learning from Human Feedback) menjadi metode utama dalam
melatih model bahasa generatif, termasuk ChatGPT yang Anda gunakan sekarang.
Jika Anda pernah
bertanya-tanya bagaimana model besar dapat “belajar” menyenangkan pengguna,
memberi jawaban sopan, atau mengikuti pedoman etika, jawabannya: kombinasi
manusia dan mesin melalui mekanisme reward—ide yang sangat dekat dengan warisan
Barto.
Mengapa Turing Award 2024 Sangat Layak untuk Barto
ACM memberikan
penghargaan Turing Award kepada Barto dan Sutton bukan hanya karena kontribusi
ilmiah, tetapi karena pengaruh transformasional karya mereka.
Dalam rilis resmi,
ACM menyoroti:
- Perumusan kerangka reinforcement
learning modern
- Kontribusi pada algoritma TD
learning
- Peran mereka dalam membentuk
lahirnya generasi baru AI otonom
Jika dunia AI modern
adalah bangunan megah penuh inovasi dan terobosan, maka Barto adalah salah satu
insinyur fondasi yang memastikan bangunan itu kokoh.
Tanpa RL, banyak
sistem AI paling canggih yang kita kenal sekarang mungkin tidak akan pernah
lahir.
Barto Hari Ini dan Masa Depan Reinforcement Learning
Kini, Andrew G.
Barto telah menjadi profesor emeritus. Ia tidak lagi aktif mengajar setiap
hari, tetapi tetap terlibat dalam komunitas ilmiah melalui seminar, tulisan,
dan kolaborasi. Ia kerap berbicara tentang arah masa depan AI dengan nada
bijak—memperingatkan dunia akan pentingnya etika dan pemahaman mendalam tentang
bagaimana mesin membuat keputusan.
Konsep RL terus
berkembang dengan cepat:
multi-agent RL, deep RL, offline RL, hingga hierarchical
RL membuka jalan untuk agen yang lebih pintar dan lebih aman.
Namun di dalam
setiap varian baru itu, alurnya tetap sama: agen belajar dari reward. Sebuah
prinsip sederhana namun revolusioner—dan itu adalah jejak yang ditinggalkan
Barto.
Penutup: Warisan Diam-Diam yang Membangun Masa Depan AI
Kisah Andrew G.
Barto bukan kisah tentang kejutan satu malam, bukan pula cerita tentang
miliarder teknologi. Ini adalah kisah tentang kesungguhan intelektual, eksplorasi
panjang, dan keberanian untuk menggali pertanyaan dasar: bagaimana kita
belajar, dan bisakah mesin belajar seperti itu?
Ia mungkin tidak
pernah membayangkan bahwa ide-ide risetnya di tahun 1970-an dan 1980-an akan
menjadi penggerak utama revolusi AI global. Tetapi sejarah punya caranya
sendiri untuk memberi tempat kepada mereka yang meletakkan dasar-dasar
peradaban teknologi baru.
Turing Award adalah
pengakuan atas karya besar itu.
Dan ketika dunia AI melangkah ke masa depan yang semakin kompleks, nama Andrew
G. Barto akan terus tercatat sebagai salah satu arsitek paling berpengaruh
dalam perjalanan menuju kecerdasan buatan yang benar-benar otonom.
