EITC/AI/ARL Advanced Reinforcement Learning is het Europese IT-certificeringsprogramma over DeepMind's benadering van versterkend leren in kunstmatige intelligentie.
Het curriculum van het EITC/AI/ARL Advanced Reinforcement Learning richt zich op theoretische aspecten en praktische vaardigheden in versterkende leertechnieken vanuit het perspectief van DeepMind, georganiseerd binnen de volgende structuur, en omvat uitgebreide videodidactische inhoud als referentie voor deze EITC-certificering.
Reinforcement learning (RL) is een gebied van machine learning dat zich bezighoudt met hoe intelligente agenten acties zouden moeten ondernemen in een omgeving om het idee van cumulatieve beloning te maximaliseren. Reinforcement learning is een van de drie basale machine learning-paradigma's, naast leren onder supervisie en leren zonder supervisie.
Bekrachtigingsleren verschilt van leren onder supervisie doordat het niet nodig is gelabelde input/output-paren te presenteren, en doordat er geen behoefte is aan suboptimale acties die expliciet moeten worden gecorrigeerd. In plaats daarvan ligt de focus op het vinden van een balans tussen verkenning (van onbekend terrein) en exploitatie (van huidige kennis).
De omgeving wordt doorgaans vermeld in de vorm van een Markov-beslissingsproces (MDP), omdat veel versterkende leeralgoritmen voor deze context dynamische programmeertechnieken gebruiken. Het belangrijkste verschil tussen de klassieke dynamische programmeermethoden en versterkende leeralgoritmen is dat deze laatsten niet uitgaan van kennis van een exact wiskundig model van de MDP en dat ze zich richten op grote MDP's waar exacte methoden onhaalbaar worden.
Vanwege zijn algemeenheid wordt versterkingsleren in vele disciplines bestudeerd, zoals speltheorie, controletheorie, operationeel onderzoek, informatietheorie, op simulatie gebaseerde optimalisatie, multi-agentsystemen, zwermintelligentie en statistiek. In de literatuur over operations research en control wordt reinforcement learning genoemd benaderend dynamisch programmeren of neurodynamisch programmeren. De problemen die van belang zijn bij het leren van bekrachtiging zijn ook bestudeerd in de theorie van optimale controle, die zich voornamelijk bezighoudt met het bestaan en karakteriseren van optimale oplossingen, en algoritmen voor hun exacte berekening, en minder met leren of benadering, in het bijzonder bij afwezigheid van een wiskundig model van de omgeving. In economie en speltheorie kan bekrachtigingsleren worden gebruikt om uit te leggen hoe evenwicht kan ontstaan onder begrensde rationaliteit.
Basiswapening wordt gemodelleerd als een Markov-beslissingsproces (MDP). In de wiskunde is een Markov-beslissingsproces (MDP) een discrete-tijd stochastisch controleproces. Het biedt een wiskundig raamwerk voor het modelleren van besluitvorming in situaties waarin uitkomsten deels willekeurig zijn en deels onder controle staan van een besluitvormer. MDP's zijn handig voor het bestuderen van optimalisatieproblemen die zijn opgelost via dynamisch programmeren. MDP's waren in ieder geval al in de jaren vijftig bekend. Een kern van onderzoek naar Markov-besluitvormingsprocessen vloeide voort uit Ronald Howard's boek uit 1950, Dynamic Programming and Markov Processes. Ze worden in veel disciplines gebruikt, waaronder robotica, automatische besturing, economie en fabricage. De naam van MDP's komt van de Russische wiskundige Andrey Markov, aangezien ze een verlengstuk zijn van Markov-ketens.
Bij elke tijdstap bevindt het proces zich in een bepaalde toestand S, en de beslisser kan elke actie a kiezen die beschikbaar is in toestand S. Het proces reageert op de volgende tijdstap door willekeurig naar een nieuwe toestand S 'te gaan en de beslisser een overeenkomstige beloning Ra (S, S ').
De kans dat het proces naar zijn nieuwe toestand S 'gaat, wordt beïnvloed door de gekozen actie a. Concreet wordt het gegeven door de toestandsovergangsfunctie Pa (S, S '). De volgende toestand S 'hangt dus af van de huidige toestand S en de actie van de beslisser a. Maar gegeven S en a, is het voorwaardelijk onafhankelijk van alle voorgaande toestanden en acties. Met andere woorden, de toestandsovergangen van een MDP voldoen aan de Markov-eigenschap.
Markov-besluitvormingsprocessen zijn een uitbreiding van Markov-ketens; het verschil is de toevoeging van acties (keuze toestaan) en beloningen (motiveren). Omgekeerd, als er voor elke staat slechts één actie bestaat (bijv. "Wacht") en alle beloningen hetzelfde zijn (bijv. "Nul"), wordt een Markov-beslissingsproces gereduceerd tot een Markov-keten.
Een bekrachtigingslerende agent communiceert met zijn omgeving in discrete tijdsstappen. Op elk tijdstip t ontvangt de agent de huidige toestand S (t) en beloning r (t). Vervolgens kiest het een actie a (t) uit de set beschikbare acties, die vervolgens naar de omgeving wordt gestuurd. De omgeving gaat naar een nieuwe toestand S (t + 1) en de beloning r (t + 1) behorende bij de overgang wordt bepaald. Het doel van een leermiddel voor bekrachtiging is om een beleid te leren dat de verwachte cumulatieve beloning maximaliseert.
Bij het formuleren van het probleem als een MDP wordt ervan uitgegaan dat de agent direct de huidige milieutoestand observeert. In dit geval wordt gezegd dat het probleem volledig waarneembaar is. Als de agent alleen toegang heeft tot een subset van toestanden, of als de waargenomen toestanden door ruis worden aangetast, wordt gezegd dat de agent gedeeltelijke observeerbaarheid heeft, en formeel moet het probleem worden geformuleerd als een gedeeltelijk observeerbaar Markov-beslissingsproces. In beide gevallen kan de reeks acties die beschikbaar zijn voor de agent, worden beperkt. De toestand van een rekeningsaldo kan bijvoorbeeld worden beperkt tot positief; als de huidige waarde van de toestand 3 is en de toestandovergang probeert de waarde met 4 te verminderen, is de overgang niet toegestaan.
Wanneer de prestatie van de agent wordt vergeleken met die van een agent die optimaal handelt, roept het verschil in prestatie het idee van spijt op. Om bijna optimaal te handelen, moet de agent redeneren over de langetermijngevolgen van zijn acties (dwz het toekomstige inkomen maximaliseren), hoewel de onmiddellijke beloning die hiermee gepaard gaat negatief kan zijn.
Aldus is bekrachtigingsleren bijzonder geschikt voor problemen die een afweging tussen beloning op lange en korte termijn omvatten. Het is met succes toegepast op verschillende problemen, waaronder robotbesturing, liftplanning, telecommunicatie, backgammon, checkers en Go (AlphaGo).
Twee elementen maken het leren van versterking krachtig: het gebruik van monsters om de prestaties te optimaliseren en het gebruik van functiebenadering om grote omgevingen aan te kunnen. Dankzij deze twee hoofdcomponenten kan bekrachtigingsleren worden gebruikt in grote omgevingen in de volgende situaties:
- Een model van de omgeving is bekend, maar een analytische oplossing is niet beschikbaar.
- Er wordt alleen een simulatiemodel van de omgeving gegeven (het onderwerp van op simulatie gebaseerde optimalisatie).
- De enige manier om informatie over de omgeving te verzamelen, is door ermee te communiceren.
De eerste twee van deze problemen kunnen worden beschouwd als planningsproblemen (aangezien er een model beschikbaar is), terwijl de laatste als een echt leerprobleem kan worden beschouwd. Bij reinforcement learning worden beide planningsproblemen echter omgezet in problemen met machine learning.
De afweging tussen exploratie en exploitatie is het meest grondig bestudeerd aan de hand van het meerarmige bandietenprobleem en voor MDP's met eindige toestandsruimte in Burnetas en Katehakis (1997).
Versterkend leren vereist slimme exploratiemechanismen; het willekeurig selecteren van acties, zonder verwijzing naar een geschatte kansverdeling, vertoont slechte prestaties. Het geval van (kleine) eindige Markov-beslissingsprocessen is relatief goed begrepen. Vanwege het ontbreken van algoritmen die goed schalen met het aantal toestanden (of schaalbaar zijn naar problemen met oneindige toestandsruimten), zijn eenvoudige verkenningsmethoden het meest praktisch.
Zelfs als de kwestie van verkenning buiten beschouwing wordt gelaten en zelfs als de toestand waarneembaar was, blijft het probleem om ervaringen uit het verleden te gebruiken om erachter te komen welke acties leiden tot hogere cumulatieve beloningen.
Om u in detail vertrouwd te maken met het certificeringscurriculum kunt u onderstaande tabel uitvouwen en analyseren.
Het EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum verwijst naar open access didactisch materiaal in videovorm. Het leerproces is opgedeeld in een stapsgewijze structuur (programma's -> lessen -> onderwerpen) die relevante curriculumonderdelen omvat. Onbeperkt advies met domeinexperts wordt ook geboden.
Voor meer informatie over de certificeringsprocedure, zie Hoe het werkt.
Referentiebronnen voor leerplannen
Controle op menselijk niveau door publicatie van Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Open access cursus over diepgaande bekrachtiging aan UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL toegepast op K-armbed bandietenprobleem van Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Download het volledige offline zelflerende voorbereidende materiaal voor het EITC/AI/ARL Advanced Reinforcement Learning-programma in een PDF-bestand
EITC/AI/ARL voorbereidingsmaterialen – standaardversie
EITC/AI/ARL voorbereidend materiaal – uitgebreide versie met evaluatievragen