Чаще всего прогнозист сталкивается с такой ситуацией: несколько моделей могут быть использованы им для прогнозирования. А ему нужно выбрать одну, лучшую.
Сегодня для этого используется такая процедура: вычисляется дисперсия ошибки аппроксимации каждой модели, после чего на основе этой дисперсии, числа коэффициентов модели и числа наблюдений рассчитывается один из информационных критериев. Та модель, у которой значение информационного критерия минимально, и является лучшей. Она используется для прогнозирования.
Один из популярных информационных критериев — это BIC — байесовский информационный критерий, который в 1970-х годах предложил еврейский учёный Шварц. Мне пришлось статью Шварца внимательно изучить. Написана она в классическом математическом стиле: из рукописи вынимается три листа с математическими вычислениями, после чего вместо них пишется фраза «очевидно, что».
Тем не менее, я постарался разобраться в доказательстве этого информационного критерия, и обнаружил, что ничего от теоремы Байеса в нём нет. «Байесовский» он потому, что при регулярном асимптотическом разложении, которое получил в итоге Шварц, нет необходимости высказывать какие-то предположения о характере распределения вероятностей.
Я год назад придумал, как использовать теорему Байеса для выбора лучшей прогнозной модели — просто для демонстрации этой теоремы. Показал это студентам. И в этом году со студентами провёл занятия по этой же теме. А потом подумал:
— Ну, вот. Я придумал метод выбора модели для демонстрации студентам сути байесовской теоремы. А, может быть, этот метод окажется конкурентом существующим методам выбора прогнозной модели? Надо проверить.
Для этого я взял базу M3C, а именно — помесячные данные: ряды, начиная с 1402-го ряда. Для каждого ряда я строил простые авторегрессии, приведя ряды предварительно к стационарному виду. В некоторых случаях я обходился моделями от AR(1) до AR(10), в некоторых случаях приходилось увеличивать модельный ряд аж до AR(20). После этого я для каждого ряда выбирал лучшую модель по BIC и по моему критерию, а потом на проверочном множестве сравнивал — какая модель лучше выполняет краткосрочный прогноз по величине дисперсии ошибки прогноза. Лучшей оказывалась то модель, выбранная по критерию BIC, то модель, выбранная по моему критерию. Для того, чтобы устранить влияние случайного выбора, надо было увеличить число экспериментов. И я довёл число обработанных рядов до 70, работая над вычислением почти тысячи моделей три месяца.
И надо же такому случиться! Обнаружил, что при расчёте своего коэффициента для моделей, порядка выше p=7, я сделал досадную описку. Пришлось для всех моделей пересчитывать эту часть. И я потратил на это ещё три недели и вот только сегодня все расчёты завершил.
И что я вижу? В среднем мои модели прогнозируют точнее, чем модели, выбранные по BIC: на одно наблюдение вперёд на 20%, на одно и два наблюдения — на 12%, на одно, два и три наблюдения — на 6 %, на срок до четырёх наблюдений — на 5%, на одно, два, три, четыре и пять наблюдений — на 4,7%.
Надо бы довести количество использованных рядов до 120, тогда влияние случайного выбора ряда будет нивелировано, но уже сейчас я могу сказать, что мой метод выбора прогнозной модели можно успешно использовать на практике.