Искусственный интеллект


Сети с симметричными связями - часть 10


Для работы алгоритма требуется обучающая выборка, состоящая из пар вход - выход, которые должна научиться ассоциировать сеть. Если после обучения зафиксировать на входных блоках один из входных образов, на выходных блоках должен появиться соответствующий выходной образ. Если подать на вход неизвестный образ, система на основе выявленных в обучающей выборке закономерностей должна провести правильное обобщение.
Практически каждый цикл обучения состоит из трех шагов.
1. Фаза тренировки. Для каждой пары образов фиксируются состояния входных и выходных блоков, а остальная часть сети подвергается отжигу к низкой температуре. Затем для каждой связи собирается статистика, какую часть времени pij+ были одновременно активны соединяемые ею блоки.
2. Фаза проверки. Вычисляется аналогичная величина pij-, однако теперь выходные блоки не зафиксированы и свободно меняют состояние.
3. Изменение связей. В хорошо обученной сети ее поведение будет идентично для обеих фаз. Если р+ и р- не совпадают для конкретной связи, ее изменяют:
image057.gif (348 bytes)
, где e масштабирует размер изменения.
Каждый цикл необходимо повторить много раз, пока матрица связей не стабилизируется в достаточной степени.
Оказывается, что при таком изменении весов осуществляется минимизация методом градиентного спуска теоретико-информационной меры различия между внешней средой и ее моделью, сформированной сетью:
image059.gif (830 bytes)
(18)
где P+(Ia Щ Ob) - вероятность а-го состояния входных блоков и b-го состояния выходных, когда они фиксированы внешней средой;
P+(Ia | Ob) - вероятность b-го состояния выходных блоков при а-м состоянии входных, когда они фиксированы средой;
Р- (Оb | Ia) - соответствующая вероятность, когда фиксированы только входы.
Действительно, частная производная Q по каждому из весов имеет вид:
image061.gif (501 bytes)
(19)
что позволяет обучать сеть с помощью описанной локальной процедуры.
К сожалению, алгоритм обучения машины Больцмана имеет типичные недостатки, присущие процедурам градиентного спуска в многопараметрических пространствах. Прежде всего это неточность вычисления градиента, обусловленная неполным достижением теплового равновесия и ограниченным временем сбора статистик.Из-за своей стохастичности алгоритм требует гораздо больших временных затрат по сравнению даже с алгоритмом обучения многослойного персептрона методом обратного распространения ошибки. Имеющаяся аппаратная реализация, однако, смягчает этот недостаток по крайней мере для небольших сетей. Известны примеры применения машины Больцмана для решения классических персептронных задач, таких, как задача «исключающего ИЛИ», обнаружение симметрии во входном образе и т. д., а также для распознавания речи.




Начало  Назад  Вперед



Книжный магазин