| | 08.09.2021

Power Rank рассчитывает цифры, чтобы лучше понимать спорт. И есть гора спортивных номеров.

В 2011 году футбольные команды колледжа Первого дивизиона сыграли 1430 матчей друг с другом. С каждой игрой идет окончательный счет, счетчик со статистикой, такой как потерянные нащупывания, и описание того, что происходило в каждой игре. В 2011 году баскетбольные команды колледжей Первого дивизиона сыграли более 5400 игр. За последние 4 года было проведено более 1100 значимых международных футбольных матчей.

Наша спортивная аналитика использует математику и компьютеры, чтобы разобраться в этих данных. Он берет эту неструктурированную массу чисел и выводит рейтинги, которые дают представление о спорте. Наши методы были разработаны специально для спорта, и они могут ответить на такие вопросы, как выиграет ли ваша команда в следующей игре или у кого будет лучший пас в стране.

Давайте рассмотрим 10 вещей, которые вы должны знать о том, как это работает.

1. Поправка на силу расписания.

Наш алгоритм берет спортивные номера и корректирует их в соответствии с расписанием. В качестве простого примера спортивных чисел рассмотрим преимущество команды или количество набранных очков за вычетом очков, разрешенных за игру. По такой сырой статистике сложно ранжировать команды. Хорошая команда, играющая со слабым графиком, может иметь больший запас победы, чем лучшая команда, играющая по сложному графику. Наш алгоритм корректирует этот грубый запас победы в соответствии с графиком. Результатом является рейтинг, который дает прогнозируемую разницу в победе над средней командой в лиге. Эти рейтинги определяют наши рейтинги.

В качестве примера того, почему сила расписания имеет значение, рассмотрим футбольную команду колледжа штата Бойсе. Они ворвались на национальную арену после победы над Оклахомой в 2007 году на фестивале Fiesta Bowl. Штат Бойсе оставался на национальном радаре, несмотря на участие в менее известной конференции с более слабыми оппонентами. Учет силы расписания - единственный способ сравнить штат Бойсе с более известными командами, такими как Алабама и Техас.

И наши цифры похожи на штат Бойсе. С 2009 по 2011 годы «Бронкос» завершили сезон в первой пятерке нашего рейтинга.

2. Прогнозирование выигрыша в каждой игре.

Разница в рейтингах двух команд дает прогнозируемый перевес на нейтральной площадке. Например, Мичиган обгонит Технологический институт Вирджинии на 6,7 в Сахарной чаше.

Ясно, что это предсказание неверно, поскольку Мичиган не может выиграть ни малейшей доли очка. Прогноз на самом деле означает, что существует 50% -ная вероятность того, что Мичиган превзойдет Технологический институт штата Вирджиния более чем на 6 очков, в то время как есть 50% -ная вероятность того, что Мичиган выиграет менее чем на 7 очков или проиграет.

Такой прогнозируемый разброс очков дает одной команде более высокую вероятность победы в игре. То, насколько реально выигрывает эта команда, дает точность алгоритма. Футбольные матчи колледжа - удобный набор тестов, так как в эти игры играют в нейтральных местах. (Что ж, Rose Bowl может быть домашней игрой для USC. По крайней мере, у команды из Большой Десятки есть неделя, чтобы адаптироваться к часовому поясу.) За последние десять лет наш метод предсказал победителя в играх с чашей 62,4% ( 196 из 314 игр). Эта точность лучше, чем у линии Vegas (61,7%).

Более того, мы оставляем за собой право обновлять эту точность. В нашем рукаве еще есть несколько хитростей, которые нам не терпится опробовать.

3. Методы основаны на статистической физике.

Какое отношение статистическая физика имеет к спорту?

Что ж, статистическая физика изучает, как взаимодействия молекул в нанометровом масштабе приводят к массовому поведению в человеческом масштабе. Например, силы притяжения между молекулами в жидкости приводят к сферической форме капли воды. Статистическая физика учитывает все эти взаимодействия при описании свойств поверхности капли, таких как ее энергия.

В спорте команды - это молекулы. Эти команды или молекулы взаимодействуют, играя в игры. Статистическая физика нашего алгоритма учитывает все взаимодействия или игры для получения командного рейтинга, который подобен основным свойствам капли воды.

Алгоритм Power Rank основан на десятилетнем изучении статистической физики. Ключевая связь между физикой и спортом возникла из оригинальной статьи об алгоритме Google PageRank. Оказывается, ранжирование веб-сайтов на основе структуры ссылок в сети имеет прямое отношение к статистической физике, которую мы объясним ниже. Что еще более важно, PageRank вдохновил на создание нового алгоритма ранжирования спортивных команд.

Думайте о Power Rank как о научно-исследовательском институте, посвященном спорту. Так же, как академические группы, изучающие статистическую физику, мы проводим дни, работая над математикой на бумаге и пишем компьютерный код для вычисления ответов. Что ж, модель публикации немного другая ...

4. Рейтинг по прохождению нападения, стремительной обороне…

Первоначально мы начали с ранжирования команд, но вскоре поняли, что этот алгоритм применим не только к пределу победы. Другие типы необработанной статистики, такие как количество очков, набранных за нарушение, приводят к ранжированию подсчета очков за нарушение. Конечно, нападение взаимодействует с защитой команд-соперников. Поскольку мы должны учитывать эти единицы при подсчете очков нападения, мы также получаем рейтинги для подсчета очков защиты.

На этом все не заканчивается. Исходные статистические данные, такие как ярды за попытку паса, приводят к ранжированию атак и защиты с передачей. Алгоритм корректирует эти исходные количества в соответствии с графиком, что открывает богатый набор аналитических данных о футболе. Мы все еще изучаем различные типы статистики, которые наш алгоритм может превратить в набор рейтингов. Пропуск против защиты от паса, основанный на количестве мешков, может быть интересным.

5. Вероятность выигрыша для игр, турниров и сезонов.

Прогнозируемую величину выигрыша по нашему алгоритму можно превратить в вероятность выигрыша. Для таких видов спорта, как баскетбол, в каждой игре выявляется победитель, этот метод дает вероятность для каждой команды. Для таких видов спорта, как футбол, в которых команды могут равняться, теперь есть три исхода для определения вероятности.

Эти вероятности победы также позволяют нам прогнозировать исход турниров и сезонов. Мы программируем компьютер на участие в турнире или сезоне много раз, подбрасывая монету в каждой игре в соответствии с нашей вероятностью выигрыша. Например, вы можете проверить последние вероятности победы в турнирах NCAA, щелкнув здесь.

6. Уменьшение отдачи от продувки.

Когда-то в студенческом футболе было что-то, называемое серией чемпионатов по чашам. Эта система попыталась определить две лучшие команды в стране и сопоставить их в матче национального чемпионата. Компьютерные рейтинговые системы сыграли роль в этом определении. Однако власть имущие не хотели поощрять увеличение счета в играх. Поэтому они не позволили компьютерам использовать в своих расчетах запас прочности.

Глупость этого ограничения поражает воображение. Любой алгоритм, который выдает эту информацию, имеет более низкий класс предсказательной способности, чем алгоритм, использующий запас победы. Это похоже на настройку веб-сайта сравнения покупок, который только сообщает вам, в каком магазине цена ниже.

Есть лучший способ: давать командам меньше уважения по мере того, как увеличивается их победа. Наш алгоритм делает это. Мы впервые заметили эту особенность в 2010 году. Висконсин просто разрушал слабую конкуренцию Большой Десятки, опередив Индиану и Северо-Запад на 63 и 47 очков соответственно. Они практически не двигались в рейтинге, закончив сезон на 10-м месте. Это подавление выбросов также помогает при прохождении и ускорении ранжирования. Орегон не получает особой выгоды от спешки почти на 10 ярдов за перенос против штата Миссури в 2011 году.

Нам немного повезло с этой функцией, поскольку она не была заложена в алгоритм. Это просто результат выполнения некоторых рекомендаций статистической физики при построении уравнений. Мы возьмем это.

7. Преимущество домашнего поля

Это существует. В подсчете очков Тобиас Московиц и Йон Вертхайм показали, что предвзятость арбитра играет роль в домашнем преимуществе. Усталость также имеет значение, и мы хотели бы отложить некоторые цифры в ближайшее время.

Независимо от того, почему это происходит, преимущество дома - слишком большой фактор, чтобы его игнорировать. Домашние команды по студенческому футболу в 2011 году набирали в среднем 6,2 очка. Однако это число искажено, поскольку хорошие команды планируют плохие команды дома во внеконференционные игры. Это феномен кексов. Если учитывать только игры конференции, домашнее преимущество в студенческом футболе приближается к 3,0. Делая прогнозы, важно добавить этот фактор к хозяевам поля.

8. Как непостоянный спортивный болельщик объясняет наши рейтинги.

Чтобы получить интуитивное представление о том, как работает алгоритм, рассмотрим Непостоянного Фредди. Он вырос в Филадельфии вслед за Филлис, но в старости стал непредсказуемым. В какой-то момент он дико аплодирует Филлис, крича в телевизор, как будто Джо Картера и Мировой серии 1993 года против Блю Джейс никогда не было.

Внезапно он видит, что Филы растоптаны Мец в серии из трех игр с общим счетом 16-0, и переключает лояльность на Мец. Это довольно шокирует, поскольку Фредди вырос, ненавидя Мец. Но затем Даймондбэки обгоняют Метс, и внезапно он становится фанатом Аризоны.

Снова и снова, устремляясь в бесконечность, Фредди прыгает от команды к команде. Чем больше отрыв, в котором Метс побеждает Филлис, тем более вероятно, что он перейдет от Метса к Филлис. Однако любой прыжок возможен, поэтому он даже проводит время, болея за Питтсбургских пиратов.

Количество времени, которое Непостоянный Фредди проводит с каждой командой, определяет ее рейтинг и ценность. Как типичный фанат хорошей погоды, он проводит больше времени с лучшими командами. Непостоянный Фредди действует во многом как случайный веб-серфер, которого Ларри Пейдж и Сергей Брин использовали для описания своего алгоритма PageRank для ранжирования веб-сайтов.

9. Нет неизвестных параметров.

В алгоритме всего два параметра: преимущество дома и второй, который управляет убывающей доходностью, о которой говорилось ранее. Оба параметра определяются из данных. Ни в коем случае мы не меняем веса или параметры фаджа на основе результатов. Это не моделирование климата. Я не буду называть имен, но эти исследователи занимают оборонительную позицию, когда вы спрашиваете о количестве неизвестных параметров в их модели.

10. Решение системы уравнений.

Райс и Хьюстон набирают в общей сложности 84 очка в футбольном матче колледжа. Райс опережает Хьюстон на 16. Каков окончательный счет игры?

Давайте превратим эту задачу в математику, позволив X обозначать оценку Райса, а Y - оценку Хьюстона. Затем мы хотим решить

  • Х + Y = 84
  • X - Y = 16

Это система уравнений с двумя переменными X и Y. Если мы хотим ее решить, мы сначала решаем относительно X во втором уравнении, получая X = 16 + Y. Подставляя это в первое уравнение, мы получаем 2Y + 16 = 84. Решая это уравнение с одной переменной, мы получаем Y = 34. Тогда X = Y + 16 = 50. Райс выиграл игру 50-34.

Этот простой пример показывает, как решить систему уравнений с двумя переменными. При расчете рейтинга студенческого футбола мы решаем линейную систему уравнений с 246 переменными.

Наиболее важным аспектом этого решения является то, что мы решаем все переменные одновременно. В нашем примере 2 переменные удовлетворяют 2 уравнениям. Это свойство есть у всех хороших систем ранжирования. Когда вы ищете другие сайты спортивной аналитики, остерегайтесь тех, которые не решают систему уравнений. Часто они говорят об итерациях. Предположите ответ, посмотрите, удовлетворяет ли он уравнениям, измените ответ, чтобы увидеть, приближается ли он к удовлетворению уравнений. Нейт Сильвер говорит об итерациях в своем Индексе футбольной мощи, и он, скорее всего, решает систему уравнений, аналогичную приведенным выше.

Тем не менее, иногда люди говорят о корректировке силы расписания на какой-то порядок. В этом посте Аарон Шатц рассказал о метрике DVOA Football Outsider, сказав, что он вносит корректировки только второго порядка при учете силы расписания. Это похоже на повторение дважды. Это не решение системы уравнений.

Ты все еще читаешь?

Вау, спасибо. Меня зовут Эд Фенг, и если мы когда-нибудь встретимся в баре, первое пиво на мне.