Що таке метод Q-learning?
Q-навчання є підхід машинного навчання, який дозволяє моделі ітеративно навчатися та вдосконалюватися з часом, виконуючи правильні дії. Q-навчання – це тип навчання з підкріпленням. За допомогою навчання з підкріпленням модель машинного навчання навчена імітувати спосіб навчання тварин або дітей.
Приклад Q-Learning. Ось приклад Q-навчання в машинному навчанні в реальному часі для навігація лабіринтом: Скажімо, у нас є лабіринт 3×3, де початкова позиція знаходиться у верхньому лівому куті, а цільова позиція – у нижньому правому куті. Агент може рухатися вгору, вниз, ліворуч або праворуч для навігації лабіринтом.
Q-навчання — це безмодельний алгоритм RL, розроблений Watkins [340], і є одним із найпопулярніших алгоритмів RL на основі значень. У Q-навчанні, очікувана майбутня винагорода (або q-вартість) дії в даному стані моделюється Q-функцією Q ( S t , A t ) = E [ R ∑ | S t , A t ] .
Q-навчання (Watkins, 1989) — це метод оптимізації (накопичуваної) зниженої винагороди, що робить винагороди в далекому майбутньому менш пріоритетними, ніж винагороди в найближчій перспективі. R-навчання (Schwarz, 1993) — це метод оптимізації середньої винагороди, який однаково зважує винагороду у віддаленому та найближчому майбутньому.
Q-навчання може визначити оптимальну політику вибору дій для будь-якого заданого кінцевого марковського процесу прийняття рішень, враховуючи нескінченний час дослідження та частково випадкову політику. "Q" означає функцію, яку обчислює алгоритм – очікувану винагороду за дію, виконану в даному стані.
Q-навчання є підхід машинного навчання, який дозволяє моделі ітеративно навчатися та вдосконалюватися з часом, виконуючи правильні дії. Q-навчання – це тип навчання з підкріпленням. За допомогою навчання з підкріпленням модель машинного навчання навчена імітувати спосіб навчання тварин або дітей.