Методы формирования признаковых пространств в классификационных задачах и при оценке качества продукции

Оценка качества промышленной продукции предусматривает контроль по целому ряду признаков. Пусть качество отдельного изделия характеризуется признаками. Тогда результат контроля изделия можно представить в виде п-мерного вектора, каждая компонента которого принимает значение 1, если имеется дефект по /-му признаку, и 0 — в противном случае. Пусть для контроля партии изделий взята выборка объемом / штук. Обозначим через, число дефектов по 1-му признаку. Тогда обобщенным показателем качества партии в случае оценки по числу выявленных дефектов может быть сумма: где XI — 1, если изделие дефектно по 1-му признаку, и ж = 0 — в противном случае; с\ — весовой коэффициент признака. При этом отдельное изделие считается годным при выполнении неравенства В ^ В0, а качество партии определяется числом 5 изделий в партии, для которых это неравенство не выполняется.
Из соотношений (1) и (2) следует, что в каждом из рассмотренных случаев оценка качества партии продукции решающим образом зависит от набора коэффициентов с*, а значит от тех признаков, которые используются при анализе. Еще в большей степени это относится к случаю оценки качества методами теории распознавания образов, так как при этом вступают в силу вопросы различимости качественных изделий от дефектных.
Далее каждое изделие будет рассматриваться как вектор, называемый изображением. Если требуется различать только качественнее изделия от дефектных, то изображения X разделяются на два образа. Если же выделяются несколько градаций качества, то число образов соответственно возрастает.
Информативность пространства признаков. С точки зрения математической статистики все знания о том, к какому образу относится распознаваемое изображение, сводятся к знанию вероятностей гипотез о принадлежности этого изображения каждому из образов. Поскольку заранее известно, что каждое конкретное изображение не может быть отнесено более чем к одному образу, распределение вероятностей гипотез, отличное от 1, обусловливает некоторую определенность решения. Чем больше неопределенность решения, тем меньше информации получено при распознавании конкурентного изображения.
Множество образов V] с определенным на нем распределением вероятностей можно рассматривать как источник информации с исходной неопределенностью: где Р (У/) — безусловная вероятность появления образа V*; Н (V) — энтропия множества образов.
Количество информации, получаемой при распознавании, можно оценить разностью между Н (V) и неопределенностью решения, усредненной по I изображениям, а неопределенность решения можно определить полной условной энтропией образов при условии, что системе предъявлено изображение XV:
С точки зрения надежности распознавания не все признаки равноправны. Использование одних признаков позволяет получить меньшую вероятность ошибки распознавания, а использование других — большую. Поэтому желательно оценить информативность каждого признака в отдельности. Мерой, определяющей информативность отдельного признака хг, может служить количество информации:
где — значения, которые может принимать признак х при ц — 1, р Выражения (3) и (4) дают полное представление об информативности описания. По ним можно было бы оценивать как информативность выбранного пространства признаков, так и информативность отдельных признаков. Однако оценка по этим соотношениям в целом ряде случаев затрудняется достаточно большим объемом вычислений. Кроме того, практически вообще невозможно получить численные значения вероятностей, входящих в эти формулы. Поэтому для решения практических задач обычно пользуются приближенными способами оценки полезности признаков, на базе которых формируется признаковое пространство.
Общую задачу формирования информативного признакового пространства можно рассматривать как совокупность из двух подзадач: формирование информативных признаков из исходных измерений (исходного описания);
формирование наиболее информативного набора из уже сформированных информативных признаков.
Формирование информативных признаков из исходных измерений. При удачном формировании исходного описания задача распознавания может оказаться тривиальной, и, наоборот, неудачно выбранное исходное описание может привести либо к очень сложной переработке информации, либо вообще к не-достижению решения. Например, если решается задача оценки качества изделий по влагостойкости окраски, а исходное описание сформулировано из результатов измерения массы, твердости, плотности окрашиваемого изделия, то такая задача в принципе не может быть решена. В большинстве практических задач набор признаков из исходных измерений (описаний) определяется не тем, что было бы нужно измерить для решения той или иной задачи, а тем, что удается измерить. Поэтому чаще всего считают, что исходное описание объекта уже задано, а задача формирования признаков сводится к выбору способов обработки исходного описания с целью построения хорошего признакового пространства. Результат преобразования исходного описания, полученный с помощью выбранного набора преобразующих функций, называется преобразованным описанием. Преобразование исходного описания может быть многоуровневым. Сначала строятся некоторые функции от исходного описания, затем эти функции рассматриваются как исходный материал для преобразований следующего уровня и т. д. Все эти преобразования должны быть направлены на то, чтобы получить в конце концов такое описание, в терминах которого поставленная задача могла бы быть решена приемлемыми методами.
Формирование наиболее информативного признакового пространства. После того, как осуществлено преобразование исходного описания, может быть решена задача выбора информативного пространства (или набора) признаков, которая, в свою очередь, состоит из трех подзадач:
оценки информативности отдельных признаков и их наборов; формирования набора признаков; определения оптимального числа признаков в наборе.
Оценка информативности отдельных признаков и их наборов может быть получена по соотношениям вида (3) и (4). Существуют и другие способы, например, путем проверки статистических гипотез об одинаковости распределений признаков в различных классах.
Существуют достаточно простые, но эффективные критерии информативности бинарных признаков, вычисляемые по небольшим выборкам. Один из этих критериев вычисляется по соотношениям — ту/щ при % < ш0 и I) = = т0/т! при ТП\ > т0, где — число образов, в которых признак принимает одно и то же значение, пг0 — число образов, описания которых не содержат исследуемый признак.
Эффективным является критерий, определяющий информативность по следующему алгоритму. Сначала все образы, подлежащие распознаванию, разбиваются на всевозможные пары (сочетания по два). Затем для каждой пары определяется критерий йг. Так как признаки бинарные, то критерий Ог может принимать только два значения: 0 или I. Наконец, новый критерий вычисляется как отношение суммы всех единиц к общему числу пар, т. е.
В ряде случаев для оценки информативности признаков используется критерий вероятности ошибки классификации. При этом осуществляется классификация либо по одному при-I знаку, либо по выбранному набору.
Частость или вероятность ошибки при классификации и определяет Информативность признака или их некоторый набор. Этот метод удобен тем, что он, кроме обычной информативности, определяемой, например, с помощью соотношений (3) и (4), учитывает еще и свойства тех алгоритмов, которые используются для распознавания.
Для того чтобы сформировать оптимальный набор признаков по любому из признаков, т. е. такой набор, в котором замена хотя бы одного признака другим, не входящим в оптимальный набор, вела бы только к его ухудшению, следует опробовать самые различные варианты из всех признаков, что может потребовать значительного числа вычислений. Поэтому для практических нужд часто используют приближенные процедуры формирования рационального числа наборов информативных признаков.
Значительное упрощение таких процедур достигается, например, путем введения допущения о независимости признаков. При этом первым считают самый лучший признак, вторым — следующий по качеству и т. д. Для составления набора информативных признаков берется п первых признаков в соответствии с полученной ранжировкой.
В методе последовательного соединения к первому лучшему признаку присоединяется тот, который дает лучшее качество в паре с первым. К выбранной паре присоединяется третий, максимально улучшающий критерий, и т. д. Иногда в этом методе выбирается первый лучший набор из к признаков путем полного перебора всех вариантов из п признаков. Перебор осуществляется для того, чтобы наилучшие признаки сразу вошли в наилучший набор.
Наряду с методом последовательно наращиваемых пространств при знаков часто используют метод последовательного его сокращения. При этом в наборе из п признаков сначала отбрасывается тот, отсутствие которого наименьшим образом ухудшает качество первоначального набора. Этот метод часто применяют в комбинации с предыдущим методом.
Для формирования наилучшего набора признаков в ряде случаев применяют метод случайного поиска с адаптацией. В этом методе из п признаков случайным образом выбирается несколько наборов по р признаков. Оценивается качество наборов. Признаки, попавшие в хорошие наборы, «поощряются», плохие — «наказываются» изменением вероятности их включения в следующий набор. В результате за несколько шагов получают некоторый рациональный набор признаков.
Приведенные методы далеко не исчерпывают все процедуры формирования оптимальных наборов признаков, но они являются достаточно характерными, чтобы создать общее представление о тенденциях, преобладающих при решении подобных задач.
Оптимальное число признаков п* существенно зависит от объемов обучающих выборок и от типов распознающих алгоритмов. Более сложным алгоритмам обычно соответствуют меньшие значения п*. Оптимальное число признаков также зависит и от правила формирования пространств. Чем информативнее признаки, из которых формируется пространство, тем меньше п* Достаточно распространенной, например, является процедура определения оптимального количества признаков для линейных классификаторов, минимизирующих эмпирический риск. Для ранжированной системы признаков хх, хп по обучающей выборке вычисляются значения эмпирического риска ..., Кп в предположении, что выбранный алгоритм распознавания сначала работает с одним признаком Хх, потом с двумя, далее с тремя — хх, х2, х3 и т. д. Для каждого набора находятся оценки по формуле, где I — объем обучающей выборки; 1п т| — вероятность того, что не будет превышать эмпирический риск Яг более чем на Для нахождения п* нужно минимизировать функционал вида (6) по параметру I, т. е. следует увеличивать размерность пространства до тех пор, пока значение функционала (6) будет уменьшаться.
Результаты сравнения различных процедур (параметрических и непараметрических оценок) при определении п* на реальном материале показали, что при небольшом объеме выборок применение различных оценок дало практически одинаковые результаты. Вместе с тем ввиду смещения параметрических оценок, возникающих из-за несоответствия реальных данных нормальному распределению, эффективность применения параметрических оценок по сравнению с непараметрическими падает с ростом объемов выборок. Поэтому при больших объемах выборок предпочтительнее использовать непараметрические оценки.
Формирование оптимальных признаковых пространств. Простейшие решающие правила формирования оптимальных признаковых пространств основаны на двух фундаментальных теоремах, одна из которых утверждает, что если из множества, состоящего из N решающих правил, выбирается такое правило, которое на обучающей последовательности не совершает ни одной ошибки, то с вероятностью можно утверждать, что вероятность ошибочной классификации с помощью выбранного правила составит величину, меньшую е, если длина обучающей выборки не менее, где N — число различных способов разделения д-мерного пространства с помощью заданного класса решающих правил.
В случае линейных решающих правил, действующих в бинарном пространстве, соотношение (7) принимает вид, где п — размерность пространства.
Несмотря на простоту линейных решающих правил, соотношение (8) не является строго обоснованным. В самом деле, если принять е = 0,1 и т) = 0,1, то уже при п = 4 длина/ обучающей последовательности должна' превышать / = 183. А если при тех же е и т) принять п = 10, то необходимая обучающая последовательность должна содержать уже более тысячи элементов. Естественно, что если усложнять решающее правило, то число N будет резко возрастать. Заметим, например, что уже для кусочно-линейного правила вместо п в соотношении (8) следует подставить, где к — число гиперплоскостей.
Используя соотношение, можно вычислить значение е при заданных п, т) и / или размерность пространства п при заданных.
Приведенные соотношения (8), (9) и (10) указывают на то, что реальный смысл имеют только те задачи распознавания, в которых используются простые (лучше всего линейные) решающие правила при низких размерностях пространства. Представляется целесообразным таким образом организовать процесс обучения, чтобы в результате его применения удалось сформировать пространство такой размерности, которая обеспечила бы заданные значения е и г), и в этом пространстве конкретная обучающая последовательность длины I была бы линейно разделима. С этой целью, например, предлагается считать признаками относительно заданных образов только такие свойства, которые сами по себе хотя и не разделяют образы, но в совокупности с себе подобными образуют пространство, в котором заданные образы легко разделимы. Пусть на обучающей последовательности V определены два непересекающиеся подмножества V* и У$, представляющие собой образы. Задано некоторое свойство объектов XI, которому соответствует отношение эквивалентности А1 (соблюдать или не соблюдать свойство **). Отношение Л* порождает разбиение V на два класса эквивалентности.
По данной проблеме доказаны следующие утверждения.
Утверждение 1. Если увеличивать размерность п пространства неодинаковых, но однотипных признаков, то всегда найдется такое л0 < /, что любые два образа, заданные обучающей последовательностью длиной /, будут линейно разделимы. Здесь длина обучающей последовательности соответствует мощности множества V — УТ и
Утверждение 2. В пространстве любой размерности, ординаты которого не являются признаками, линейное разделение образов невозможно.
Утверждение 3. Пара-признак — это признак.
Утверждение 4. Если ((п О П VI = 0) V V ((п У2<) П У" = 0) = 1.               (12)
то образы V* и VI в пространстве признаков размерности п0 линейно разделимы.
Приведенные утверждения объясняют и обосновывают введенное определение признака. При выполнении условия (11) любое свойство становится признаком относительно заданной классификации, так как в совокупности с себе подобными приводит к простому разделению классов (образов). Утверждение 3 раскрывает интересную особенность некоторых свойств, описывающих образы. Каждое свойство само по себе может и не являться признаком и не способствовать линейному разделению образов. Однако это же свойство, вступая в особые отношения с другими свойствами, порождает признаки и приводит к простому разделению образов. Можно показать, что не только два, но и три и более свойств, не являющиеся сами по себе признаками, могут образовывать, при определенных условиях, пара-признаки. При этом из двух свойств получается один пара-признак, из трех — два, из четырех — три и т. д. Утверждение 4 дает возможность установить правило процесса наращивания пространства признаков.
Приведенные выше определения и соотношения относятся только к бинарным признакам (т. е. присутствует некоторое свойство или нет). Если же рассматривать непрерывные измерения свойств, то признаком следует считать такое свойство, с помощью которого можно установить порог, обеспечивающий соотношение (11). В этом случае порог порождает бинарное свойство Х(, определяющее отношение эквивалентности Аг и разбиение множества V на классы эквивалентности Уц и Бинарное свойство х$ определяется следующим соотношением: где хг — результат измерения; хУ— порог.
Таким образом, признаком следует считать любое свойство, измерение которого после нелинейного преобразования (13) или до него порождает отношение эквивалентности и соответствующие классы эквивалентности, обеспечивающие выполнение соотношения (11).
Рассмотренные утверждения и соотношения открывают возможность перенести центр тяжести проблемы обучения распознаванию образов на процесс формирования такого описания распознаваемых объектов, в пространстве которого разделение образов не вызывает каких-либо затруднений.
В этом случае в процессе обучения формируется пространство признаков, и уже в этом пространстве простым (лучше линейным) решающим правилом решается задача распознавания. С учетом сказанного более точно задачу обучения распознаванию образов можно сформулировать в такой постановке. Пусть задана обучающая выборка, состоящая из I пар (л^, У7-)-Требуется, используя только обучающую выборку, сформировать пространство признаков такой размерности п0, в котором линейное решающее правило обеспечивало бы вероятность ошибки распознавания, не превышающую е с вероятностью более чем.
Для решения этой задачи следует таким образом выбирать свойства объектов, чтобы они были признаками относительно заданных объектов и заданной обучающей последовательности, т. е. для этих свойств должно выполняться соотношение (11). Процесс обучения, т. е. процесс подбора признаков, заканчивается, как только будет выполнено соотношение, так как это означает, что образы, представленные обучающей последовательностью длиной I, будут линейно разделимы. При этом автоматически будут выполняться соотношения (8), (9) и (10), а значит будут выполнены требования, предъявляемые к процессу обучения. Такая задача не может быть решена однозначно, так как не всегда пространство признаков /г0 окажется таким, чтобы в соответствии с (9) обеспечить заданное е. Поэтому нужно сначала по соотношению (10) определить значение, которое соответствует заданным значениям, а затем организовать процедуру формирования пространства. Для этого в процедуре обучения следует отдавать предпочтение признакам первого типа, для которых так как такие признаки приведут к линейному разделению обучающей последовательности при минимальном их числе.
Таким образом, для улучшения качества распознающего алгоритма, т. е. уменьшения е и т] при фиксированной длине обучающей выборки, нет иного пути, кроме уменьшения числа N. а этого можно достичь практически только путем снижения размерности признакового пространства и упрощения решающих правил. Этот вывод является определяющим для любых задач распознавания.