Reinforcement Learning (RL) : Pengertian, Tujuan Dan Jenisnya
Kemajuan yang signifikan telah dibuat di bidang Machine Learning (ML), khususnya yaitu Reinforcement Learning (RL) yang menggunakan jaringan saraf yang dalam untuk memodelkan fungsi nilai (berbasis nilai) atau kebijakan agen (berbasis kebijakan) atau keduanya (pengkritik aktor).
Sebelum kesuksesan jaringan saraf dalam yang meluas, fitur kompleks harus direkayasa untuk melatih algoritma RL. Ini berarti kapasitas belajar yang berkurang, dan akan membatasi ruang lingkup RL pada lingkungan yang sederhana.
Dengan deep learning, model dapat dibuat menggunakan jutaan bobot yang dapat dilatih, membebaskan pengguna dari rekayasa fitur yang membosankan. Fitur yang relevan dihasilkan secara otomatis selama proses pelatihan, memungkinkan agen untuk mempelajari kebijakan yang optimal di lingkungan yang kompleks.
Pengertian Reinforcement Learning (RL)
Berarti pembelajaran penguatan (dalam bahasa Indonesia) istilah Reinforcement Learning (RL) sederhanyanya adalah ilmu pengambilan keputusan (decision making).
Pembelajaran penguatan adalah tentang mempelajari perilaku yang optimal dalam lingkungan untuk mendapatkan penghargaan yang maksimal.
Perilaku optimal ini dipelajari melalui interaksi dengan lingkungan dan pengamatan tentang bagaimana ia merespon, mirip dengan anak-anak menjelajahi dunia di sekitar mereka dan mempelajari tindakan yang membantu mereka mencapai tujuan.
Seperti yang juga Kami kutip dari sumber simpulan yang bersumber dari Situs Towardsdatascience, Reinforcement Learning (RL) adalah jenis teknik pembelajaran mesin yang memungkinkan agen untuk belajar dalam lingkungan interaktif dengan coba-coba menggunakan umpan balik dari tindakan dan pengalamannya sendiri.
Tujuan Melakukan Reinforcement Learning (RL)
Agar lebih memahaminya, di sini Kami juga akan menjelaskan tujuannya secara khusus. Reinforcement Learning merupakan area Pembelajaran Mesin. Model yang menggunakan konsep RL mengambil tindakan yang sesuai untuk memaksimalkan imbalan dalam situasi tertentu.
Tujuannya yaitu, mereka digunakan oleh berbagai perangkat lunak dan mesin untuk menemukan cara, metode, perilaku, atau jalur terbaik yang harus diambil dalam situasi tertentu.
Pembelajaran penguatan berbeda dari pembelajaran terawasi (supervised) dengan cara dalam pembelajaran terawasi, data training (pelatihan) sudah memiliki kunci jawaban sehingga model dilatih dengan jawaban yang benar sendiri, sedangkan dalam Reinforcement Learning (RL), tidak ada jawaban tetapi agen penguatan memutuskan apa yang harus dilakukan untuk melakukan tugas yang diberikan.
Dengan tidak adanya dataset pelatihan, RL pasti akan belajar dari pengalamannya sendiri.
Cara Kerja Reinforcement Learning (RL)
Setelah mengetahui pengertian, fungsi, dan tujuan dari Reinforcement Learning, selanjutnya juga perlu memahami prinsip, konsep, atau bagaimana cara kerja dari Reinforcement Learning (RL) ini. Dengan tidak adanya pengawasan atau supervisor, pembelajar harus secara mandiri menemukan urutan tindakan yang memaksimalkan penghargaan.
Proses penemuan ini mirip dengan pencarian coba-coba atau yang dikenal dengan istilah trial-error.
Kualitas tindakannya diukur tidak hanya dengan imbalan langsung yang mereka kembalikan, tetapi juga imbalan tertunda yang mungkin mereka dapatkan. Karena dapat mempelajari tindakan yang menghasilkan kesuksesan akhirnya di lingkungan yang tidak terlihat tanpa bantuan supervisor, pembelajaran penguatan adalah algoritma yang sangat kuat.
Masalah Reinforcement Learning (RL) melibatkan agen (agent) menjelajahi lingkungan yang tidak diketahui untuk mencapai tujuan. RL didasarkan pada hipotesis bahwa semua tujuan dapat dijelaskan dengan memaksimalkan imbalan kumulatif yang diharapkan.
Agen harus belajar untuk merasakan dan mengganggu keadaan lingkungan menggunakan tindakannya untuk mendapatkan hadiah atau imbalan maksimal. Kerangka formal untuk RL meminjam dari masalah kontrol optimal dari proses keputusan Markov atau Markov Decision Process (MDP).
Jenis dan Bagian Utama Reinforcement Learning
Dalam membahas terkait Reinforcement Learning (RL), selain membahas pengertian Reinforcement Learning (RL), di sini juga akan menjelaskan beberapa hal terkait jenis dan bagian utamanya.
Perlu diketahui, adapun beberapa jenis elemen utama yang terdapat dalam sistem RL adalah :
- Agen atau pelajar (agent atau learner).
- Lingkungan yang berinteraksi dengan agen.
- Policy atau kebijakan yang diikuti agen untuk mengambil tindakan.
- Reward signal atau sinyal hadiah yang diamati agen saat mengambil tindakan.
Ilustrasi, atau abstraksi yang berguna dari sinyal hadiah adalah fungsi nilai, yang dengan tepat menangkap “kebaikan” suatu keadaan.
Sementara sinyal hadiah mewakili manfaat langsung dari keadaan tertentu, fungsi nilai menangkap hadiah kumulatif yang diharapkan akan dikumpulkan dari keadaan itu, menuju masa depan.
Sekali lagi, seperti yang sudah disebutkan dalam subbagian tujuannya di atas, fungsi dan tujuan dari algoritma RL adalah untuk menemukan kebijakan tindakan yang memaksimalkan nilai rata-rata yang dapat diekstraksi dari setiap keadaan sistem.
Selanjutnya, di dalam Reinforcement Learning (RL) juga terdapat jenis dari penguatannya yaitu :
1. Positive Reinforcement
Penguatan positif atau positive reinforcement didefinisikan sebagai ketika suatu peristiwa, terjadi karena perilaku tertentu, meningkatkan kekuatan dan frekuensi perilaku. Dengan kata lain, itu memiliki efek positif pada perilaku.
Keuntungan dari pembelajaran penguatan positif adalah :
- Memaksimalkan performa.
- Sustain change atau mempertahankan perubahan untuk jangka waktu yang lama.
- Terlalu banyak reinforcement dapat menyebabkan kelebihan status yang dapat mengurangi hasil.
2. Negative Reinforcement
Penguatan negatif atau negative reinforcement didefinisikan sebagai penguatan perilaku karena kondisi negatif dihentikan atau dihindari.
Keuntungan dari pembelajaran penguatan negatif yaitu :
- Meningkatkan behavior (perilaku).
- Memberikan defiance atau pembangkangan terhadap standar kinerja minimum.
- Menyediakan kecukupan untuk memenuhi perilaku minimum.
Macam Istilah dalam Komponen Reinforcement Learning (RL)
Semakin dalam bidang yang diselami, maka akan semakin banyak juga terminologi, istilah, akronim, atau jargon yang bermunculan, begitupun juga dalam kasus dari subbidang kecerdasan buatan yang satu ini.
Dalam memahami konsep Reinforcement Learning (RL), adapun beberapa macam istilah yang digunakan wajib kalian ketahui yaitu :
- Agent : Entitas yang dapat melihat/menjelajahi lingkungan dan bertindak berdasarkan itu.
- Environment : Situasi di mana agen hadir atau dikelilingi oleh. Di RL, kita akan mengasumsikan lingkungan stokastik, yang berarti itu bersifat random atau acak.
- Action : Tindakan atau action adalah gerakan yang diambil oleh agen dalam environment atau lingkungan.
- State : State adalah situasi yang dikembalikan oleh lingkungan setelah setiap tindakan yang dilakukan oleh agen.
- Reward : Umpan balik yang dikembalikan ke agen dari lingkungan untuk mengevaluasi tindakan agen.
- Policy : Policy di sini merupakan strategi yang diterapkan oleh agen untuk tindakan selanjutnya berdasarkan keadaan saat ini.
- Value : Nilai dalam Reinforcement Learning (RL), ini lebih diharapkan imbalan jangka panjang dengan faktor diskon dan berlawanan dengan imbalan jangka pendek.
- Q-Value : Sebagian besar mirip dengan nilai, tetapi dibutuhkan satu parameter tambahan sebagai tindakan (action) saat ini.