Полумарковские управляемые случайные процессы

В технических приложениях довольно широкое распространение получили полумарковские управляемые случайные процессы, которые вводятся следующим образом. Пусть множество состояний 2 50“Системы конечно. Система может менять скачкообразно свои состояния в случайные моменты времени, есть независимые по совокупности случайные величины, причем их распределения зависят от состояния системы в момент и от состояния в момент При этом предположении и справедливости условия (7.20) процесс называют полу марковским.
С точки зрения его интересов вводится цель А0 операции, проводится описание 50-системы и устанавливается множество допустимых стратегий V. Действия другого субъекта системы могут оказать существенное влияние на результат операции. До проведения операции эти действия для ЛПР представляют собой поведенческую неопределенность. Используя внешнее дополнение, ЛПР выдвигает гипотезы поведения партнера в операции (цели, отражающие его интересы, возможные реакции на действия ЛПР, множество допустимых стратегий V, принципы, лежащие в основе его рационального поведения, а также показатель эффективности, на основе которого он оценивает эффективность операции). На схеме операции (см. рис. 3) сохраняются почти все блоки. Однако в каждой группе блоков 3, 6 и 8 остается лишь по одному блоку.
Предположим, что с точки зрения ЛПР эффективность операции оценивается показателем УР® (и, и), тогда как по мнению ЛПР другой субъект системы свои интересы в операции отражает показателем эффективности УР0, (и, у). Можно, например, предположить, что критерием эффективности для ЛПР является правило, предписывающее выбирать стратегию и* ^ V из условия максимизации' УР® (и, I»), а критерий эффективности для партнера рекомендует ему выбирать стратегию V ^ V из условия минимизации УР0, (и, у). Однако наличие взаимодействий партнеров в операции, проявляющееся в зависимости показателя одного из партнеров от стратегий другого, требует введения сложного критерия эффективности, учитывающего эти взаимодействия.
Однако их интересы в операции прямо противоположны (ЛПР стремится к достижению максимального значения УР (и, о), а его партнер — к минимальному значению V? (и, о)). Подобный тип взаимодействия партнеров называют конфликтом (противодействием) в антагонистической форме. Именно такую ситуацию исследует теория антагонистических игр [ 16[. Другой частный случай взаимодействия появляется при выполнении условия (7.21) и при полностью совпадающих интересах партнеров (либо к достижению максимума ХР (и, у), либо к достижению его минимума). Эта форма содействий партнеров называется единством и .сводится к системе с одним распорядителем.
Отсутствие взаимодействий между субъектами системы приводит к ситуации нейтралитета. В этом случае показатели эффективности V?® (и) и №а (и) зависят только от стратегии соответствующего распорядителя, и операция рассматривается в рамках системы с одним распорядителем—ЛПР.
Конфликт между субъектами может возникнуть не только в своей крайней антагонистической форме. Конфликтная ситуация возникает всякий раз, когда действия одного из партнеров противоречат стремлению к достижению своей цели другим партнером.- Если партнеры в операции свои интересы оценивают разными показателями эффективности (условие (7.21) не выполняется), а любая стратегия одного из партнеров прямо противоречит стремлению, например, к максимизации показателя эффективности другого партнера, то такую ситуацию называют строгим конфликтом в отличие от нестрогого конфликта, при котором не все стратегии из множества допустимых прямо противоречивы стремлениям другого партнера.
Рациональное поведение партнеров в условиях конфликта обычно основывается на принципе равновесия. При стремлении партнеров к максимизации своих показателей эффективности ИР*0 (и, у) и (и, у) равновесными в смысле стратегиями и* и V* конкурирующих партнеров будут стратегии, выбираемые из условия:
В общем случае, ни один из партнеров не заинтересован в нарушении равновесного состояния.