АДАПТИВНЫЙ МЕТОД РЕДУКЦИИ РАЗМЕЧЕННЫХ ВЫБОРОК ДАННЫХ ДЛЯ ПОСТРОЕНИЯ ДИАГНОСТИЧЕСКИХ МОДЕЛЕЙ

Ескіз недоступний
Дата
2018
Назва журналу
Номер ISSN
Назва тому
Видавець
Анотація
Решена актуальная задача редукции размеченных выборок данных большого размера путем извлечения подвыборок меньшего размера для построения диагностических и распознающих моделей по прецедентам. Предложен детерминированный метод редукции размеченных выборок, который использует информацию о классах для извлечения репрезентативных выборок небольшого размера. Предложенный метод последовательно разбивает исходную выборку на гиперсферы, радиусы которых определяются расстояниями до ближайших экземпляров противоположного класса. Из центров полученных гиперсфер формируется подвыборка меньшего размера. Благодаря адаптивности радиуса каждой гиперсферы к расстоянию до ближайшего экземпляра противоположного класса в редуцированной выборке сохраняется большинство наиболее важных экземпляров, которые находятся вблизи границ классов. Это позволяет извлекать репрезентативные выборки с хорошо определенными межклассовыми границами. Метод базируется на гипотезе о компактности классов, поэтому объем сокращенной выборки сильно зависит от степени разделимости классов. Например, если классы компактны, объем редуцированной выборки может быть слишком малым с плохо определенными границами классов. Для решения данной проблемы, предлагается регулировать объем извлекаемой выборки, изменяя радиусы гиперсфер с помощью долевого коэффициента. Таким образом, можно более точно определять границы классов, повышая репрезентативность редуцированных выборок. Для обработки очень больших исходных выборок, когда объем данных не позволяет загрузить их полностью в память ЭВМ, либо данные поступают динамически, предложенный метод позволяет обрабатывать исходную выборку пакетами заданного объема. Разработано программное обеспечение, реализующее предложенный метод, которое позволяет проводить вычислительные эксперименты по исследованию его свойств, при решении задач редукции размеченных выборок данных большого размера.
Опис
Ключові слова
Бібліографічний опис