Как работают прогнозы футбольного клуба нашего клуба | Пять тридцать восемь

Как работают прогнозы футбольного клуба нашего клуба

2.8/5

Рекомендации

Детали

Мы впервые опубликовали прогнозы FiveThirtyEight по клубному футболу в январе 2017 года для шести лиг. С тех пор мы неуклонно увеличивали количество прогнозируемых лиг, добавляли функции в нашу интерактивную графику, улучшали нашу модель прогнозирования для повышения эффективности и публиковали глобальные рейтинги клубных футбольных матчей.

Прогнозы основаны на существенно переработанной версии ESPN Soccer Power Index (SPI), рейтинговой системы, первоначально разработанной главным редактором FiveThirtyEight Нейтом Сильвером в 2009 году для оценки международных футбольных команд. Мы обновили и адаптировали SPI, чтобы включить данные клубного футбола с 1888 года (всего из более чем 550 000 матчей), которые мы собрали из базы данных ESPN и репозитория Engsoccerdata GitHub, а также из данных игры за игрой, созданных Opta, доступная с 2010 года.

Рейтинги SPI

В основе наших прогнозов клубного футбола лежат рейтинги SPI FiveThirtyEight, которые являются нашей наилучшей оценкой общей силы команды. В нашей системе у каждой команды есть рейтинг нападения, который представляет собой количество голов, которые, как ожидается, она забьет средней команде на нейтральном поле, и рейтинг защиты, который представляет количество голов, которое, как ожидается, она пропустит. Эти рейтинги, в свою очередь, создают общий рейтинг SPI, который представляет собой процент доступных очков - победа оценивается в 3 очка, ничья - в 1 очко, а проигрыш - в 0 очков - ожидается, что команда выиграет, если этот матч игрались снова и снова 1win официальное приложение.

Учитывая рейтинги любых двух команд, мы можем спроецировать результат матча между ними в различных форматах - например, матч лиги, матч дома и в гостях или финал кубка - а также смоделировать целые сезоны. с вероятностью, что каждая команда выиграет лигу, выйдет в Лигу чемпионов или перейдет в более низкий дивизион.

Перед началом сезона рейтинги SPI команды основываются на двух факторах: ее рейтингах на конец предыдущего сезона и ее рыночной стоимости, рассчитанной Transfermarkt (сайтом, который присваивает каждому игроку денежную оценку в зависимости от того, что они получить в переводе). Мы обнаружили, что рыночная стоимость команды - по отношению к средней стоимости ее лиги - сильно коррелирует с ее рейтингом SPI в конце сезона. Таким образом, мы используем эти рыночные значения для определения предсезонного рейтинга SPI каждой команды.

По мере завершения сезона рейтинги команды корректируются после каждого матча в зависимости от ее результатов в этом матче и силы соперника. В отличие от рейтинговой системы Эло, которую мы используем в некоторых других видах спорта, рейтинг команды не обязательно улучшается всякий раз, когда она выигрывает матч; если он будет работать хуже, чем ожидалось, его рейтинг может снизиться.

Выступления в матчах

Футбол - сложный вид спорта для моделирования, потому что в каждом матче забивается так мало голов. Окончательный результат довольно часто не согласуется с мнением многих людей о качестве игры каждой команды, а низкая результативность этого вида спорта иногда приводит к продолжительным периодам удачи, когда команда может добиваться хороших результатов, несмотря на то, что играет плохо (или наоборот).

Чтобы уменьшить эту случайность и лучше оценить качество игры каждой команды, мы используем три показателя для оценки производительности команды после каждого матча. Настройка модели

10 августа 2018 г .:скорректированные голы ,ожидаемые голы на основе бросков иожидаемые голы без бросков .

До 10 августа 2018 г. мы также включали фактический счет матча для расчета результатов матча.

Первыескорректированные голы учитывают условия, при которых был забит каждый гол. Дляскорректированных голов мы уменьшаем ценность забитых голов, когда в команде больше игроков на поле,

Они стоят примерно 0,8 гола за штуку. Этот и все другие веса были выбраны для оптимизации модели для прогнозирования результатов будущих матчей.

">2, а также забитые голы в конце матча, когда команда уже ведет.

В частности, после 70-й минуты ценность гола, когда команда лидирует, линейно уменьшается до конца игры, когда реальный гол стоит половину гола в глазах нашей модели. Таким образом, гол на 70-й минуте при опережении означает для нашей модели полный гол, гол на 80-й минуте стоит 0,75 гола, а гол на 90-й минуте или позже стоит 0,5 гола.

">3 После уменьшения веса этих целей мы увеличили ценность всех других целей, чтобы общее количество скорректированных голов в целом составляло общее количество фактических голов, забитых с течением времени.

Ожидаемое количество голов на основе бросков - это оценка того, сколько голов команда «должна» забить с учетом количества бросков, сделанных в этом матче. Каждому броску присваивается вероятность забить, основанная на расстоянии и угле от ворот, а также части тела, которой был произведен выстрел, с поправкой на то, какой конкретный игрок сделал бросок.

Всем игрокам, у которых в нашей базе данных достаточно бросков для квалификации, предоставляется модификатор, основанный на их историческом коэффициенте конверсии (количество голов, которые они фактически забили, с учетом качества сделанных ими бросков). Например, Лионель Месси исторически преобразовывал бросок в ворота примерно в 1,4 раза чаще, чем ожидалось, поэтому вероятность любого удара, который он сделает, умножается на 1,4.

'>4 Эти индивидуальные вероятности бросков складываются для полученияожидаемых голов команды в этом матче наоснове бросков , которые могут быть больше или меньше фактически забитых голов.

Ожидаемое количество голов без броска - это оценка того, сколько голов команда «должна» забить, основываясь на действиях, несвязанных с броском, которые они предприняли вокруг ворот противоположной команды.

То есть на площади чуть больше 18-ярдовой коробки.

">5: передачи, перехваты, отборы мяча и отборы мяча. Например, мы знаем, что перехват мяча у пенальти противоположной команды приводит к голу примерно в 9% случаев, а завершенный пас получается в центре. из шести ярдов коробки приводит к цели около 14 процентов времени. Сложат эти индивидуальные действия вверх через весь матч , чтобы прибыть в командахне однократный ожидаемых целях. так же , как и длявыстрела на основе ожидаемых целей , есть корректировка для каждого действия на основе показателей успешности игрока или игроков, выполняющих действие (как нападающего, так и принимающего, в случае передачи).

Поскольку все три показателя представляют собой количество голов, которые команда либо забила, либо могла ожидать забить во время матча, они напрямую сопоставимы. Таким образом, совокупный показатель атаки команды в этом матче - это среднее значение ее эффективности по трем показателям, а составной показатель защиты - это средний показатель по трем показателям для ее противника.

Возьмем, к примеру, матч между «Эвертоном» и «Манчестер Сити» в январе 2017 года. Хотя «Эвертон» выиграл со счетом 4: 0, наша модель не считала этот матч почти таким однобоким: два гола «Эвертона» были забиты после 70-й минуты. К тому же «Эвертон» сделал всего шесть бросков. Наша модель ожидаемых голов, основанная на бросках, предполагает, что только 0,4 из этих бросков попадут в сетку, а не четыре. «Манчестер Сити» также был лучшей командой в соответствии с нашей моделью ожидаемых голов без бросков. В целом, по нашим сводным счетам, окончательный результат - победа «Эвертона» со счетом 1,53–1,13 - намного меньше, чем 4–0.

Прогнозирование матчей

Учитывая рейтинги SPI двух команд, процесс определения вероятностей выигрыша / проигрыша / ничьей для данного матча состоит из трех частей:

  1. Мы рассчитываем количество голов, которое, как мы ожидаем, забьет каждая команда во время матча. Эти прогнозируемые результаты матчей представляют собой количество голов, которое каждой команде необходимо будет забить, чтобы сохранить свой атакующий рейтинг точно таким же, как и в начале матча, и они скорректированы с учетом преимущества домашнего поля для конкретной лиги и важности матч для каждой команды (описано ниже).
  2. Используя наши прогнозируемые результаты матчей и предположение, что забивание голов в футболе следует процессу Пуассона, который, по сути, является способом моделирования случайных событий с известной скоростью, мы генерируем два распределения Пуассона вокруг этих результатов. Это дает нам вероятность того, что каждая команда не забьет гол, один гол, два гола и т. Д.
  3. Мы берем два распределения Пуассона и превращаем их в матрицу всех возможных результатов матчей, из которой мы можем вычислить вероятность победы, поражения или ничьей для каждой команды. Чтобы избежать недооценки ничьих, мы увеличиваем соответствующие вероятности в матрице, чтобы отразить фактическое количество ничьих в данном соревновании.

Были некоторые споры о том, какие модели распределения выигрывают в футболе. Мы обнаружили, что два независимых распределения Пуассона хорошо работают с добавлением диагональной инфляции. То есть мы генерируем два распределения независимо, но увеличиваем значение каждой ячейки в матрице, где оценки равны некоторой константе (где-то около 9 процентов, но это зависит от лиги и зависит от степени, в которой мы будем иметь заниженные ничьи, если бы мы не раздували диагональ).

Возьмем, к примеру, матч Премьер-лиги в мае 2018 года между Ливерпулем и Брайтоном, который Ливерпуль выиграл со счетом 4: 0. Перед матчем наша модель была очень уверена, что «Брайтон» либо не забьет, либо один гол. Однако распределение «Ливерпуля» было намного шире, что привело к тому, что он стал значительным фаворитом (84 процента) в матче. Вот визуальная интерпретация того, как наша модель использует эти распределения для определения шансов каждой команды на победу в матче:

Прогнозирование сезонов

Когда у нас есть вероятности для каждого матча, мы запускаем моделирование Монте-Карло, чтобы отыграть сезон каждой лиги 20 000 раз, используя эти прогнозы. Как и в случае с другими нашими прогнозами, мы запускаем моделирование методом Монте-Карло «горячим», что означает, что вместо того, чтобы рейтинги команды оставались неизменными в течение каждого моделируемого сезона, рейтинги могут повышаться или понижаться в зависимости от моделируемых матчей, которые играет команда. По сути, это расширяет распределение возможных результатов, позволяя слабой команде продолжить выигрышную серию и существенно повышая свои рейтинги, или обеспечивая возможность того, что сильная команда проиграет свои первые несколько игр моделируемого сезона и получит соответствующее наказание.

Рейтинги совпадений и значения

В любую неделю в пик футбольного сезона FiveThirtyEight предлагает прогнозы на десятки клубных футбольных матчей по всему миру. Огромное количество матчей, проводимых в некоторые времена года, может парализовать. Имея это в виду, у нас есть функция в нашей интерактивной графике Новая функция от

14 февраля 2018 г., чтобы оценивать предстоящие матчи по ихкачеству иважности .

Качество - это просто показатель того, насколько хороши команды. В частности, это гармоническое среднее значение рейтингов SPI двух команд.

Мы используем гармоническое среднее вместо простого усреднения двух оценок, потому что в однобоких совпадениях оно ограничивает влияние очень высоких или низких оценок, в результате чего получается более сбалансированное число.

">7 Поскольку каждая команда имеет рейтинг SPI от 0 до 100, качество матча также колеблется от 0 до 100.

Важность - это показатель того, насколько исход матча изменит статистический взгляд каждой команды на сезон. Этот прогноз учитывает различные факторы в зависимости от того, в какой лиге проводится матч; для некоторых лиг прогноз учитывает только победу в лиге, в то время как другие лиги включают возможность повышения или понижения, либо выхода в Лигу чемпионов. Чтобы рассчитать важность матча для команды, мы генерируем вероятности для каждого фактора, обусловленного победой (или проигрышем) матча, а затем находим разницу между этими двумя возможными числами. Мы берем фактор с максимальным диапазоном разницы для каждой команды и масштабируем результат от 0 до 100. Наконец, мы усредняем важность матча для обеих команд, чтобы определить общую важность матча.При расчете важности все лиги рассматриваются одинаково, поэтому матч по определению победителя шведского Allsvenskan будет иметь такое же высокое значение, как и матч по определению победителя английской премьер-лиги.

Общийрейтинг матча - это просто среднее значение качества и важности.

По состоянию на 2018 год наши прогнозы матчей учитываютзначимость двумя способами. Настройка модели

10 августа 2018 года:

  1. Когда матч важнее для одной команды, чем для другой, эта команда, как правило, превосходит ожидания из-за повышения производительности по сравнению с тем, насколько важен для них матч.
  2. Если матч не важен ни для одной из команд, неуверенность в его исходе возрастает.

Чтобы понять масштаб этих корректировок важности, рассмотрим матч, который одинаково важен для двух команд, где у хозяев поля есть 50-процентный шанс на победу в матче, у команды гостей есть 25-процентный шанс на победу в матче, а остаток - шанс на ничью.

Если вместо этого мы предположим, что это чрезвычайно важный матч для хозяев поля и бессмысленный матч для команды гостей, шансы хозяев на победу возрастут до 58%, а шансы команды гостей снизятся до 18. процентов.

С другой стороны, если бы матч был бессмысленным для обеих команд, шансы хозяев на победу снизились бы до 43 процентов, а шансы команды гостей увеличились бы до 30 процентов.

Улучшение, которое мы видим в наших прогнозах матчей при включении важности матча, составляет примерно одну треть от того, что мы видели, когда мы добавляли показатели ожидаемых голов в 2016 году, и примерно половину от того, что мы видели, когда мы включали рынок. значений в предсезонных рейтингах на 2017 год.

Если мы посмотрим на рейтинговую оценку вероятности (RPS) модели по каждому матчу в пяти сильнейших лигах - Испании, Англии, Германии, Италии и Франции - в течение последних трех сезонов, добавление наших показателей ожидаемых голов снижает RPS нашей модели на 0,0018, добавление рыночной стоимости к предсезонному рейтингу команд снижает его еще на 0,0011, а включение важности матча снижает его еще на 0,0006, до 0,1957.

Сильные стороны лиги

Большинство клубных футбольных матчей проводится против команд из одной национальной лиги, но в некоторых матчах - например, в лигах чемпионов УЕФА и Европе - можно играть против команд из разных стран.

Чтобы оценить относительную силу национальных лиг, мы используем недавние матчи, сыгранные между командами из разных лиг, дополненные рыночной стоимостью лиг от Transfermarkt, чтобы присвоить рейтинг силы каждой лиге, по которой у нас есть данные.

Для создания рейтингов силы лиг мы создали систему, в которой мы сначала предполагаем, что все лиги имеют равную силу, и определяем, насколько выше или ниже ожиданий каждая лига показала результаты за последние пять лет. По порядку мы:

  1. Просмотрите все домашние матчи в истории и рассчитайте рейтинг национальной команды Soccer Power Index (SPI) за все время.
  2. Посмотрите на каждый матч между лигами за последние пять лет и рассчитайте ожидаемый счет в матче, основываясь исключительно на внутреннем рейтинге каждой команды на данный момент.
  3. Возьмите разницу между нашим ожидаемым счетом в матче и фактическим счетом и прогоните эти результаты с помощью метода Месси, чтобы найти рейтинг для каждой лиги, выраженный в том, на сколько голов лучше или хуже, чем в среднем по всему миру, в этой лиге.
  4. Регрессируйте эти рассчитанные рейтинги к рейтингам на основе рыночной стоимости, взвешенным по количеству матчей между лигами, которые у нас есть для каждой лиги.
  5. Пройдите через все матчи в истории еще раз, включив сильные стороны лиги в прогнозы на любые межлиговые матчи, чтобы улучшить итоговые рейтинги команд.

После прохождения этого процесса наши сильные стороны в лиге можно интерпретировать как бонус (в голах), предоставляемый каждой команде в матче между лигами.

Есть клубные футбольные лиги, в которые играют круглый год; следите за десятками из них на наших футбольных прогнозах.

Примечание редактора: эта статья адаптирована из предыдущих статей о том, как работают наши прогнозы клубного футбола.

Создатель модели

История версий

1.3 Важность матча, включенная в прогнозы; обновлены прогнозы для 35 лиг на сезон 2018-19. 10 августа 2018 г.

1.2 Качество матча и важность добавлены к интерактиву. 14 февраля 2018 г.

1.1 Улучшение относительной силы лиги; обновлены прогнозы для 26 лиг на сезон 2017-18 гг. 10 августа 2017 г.

1.0 Модель и прогноз запущены на сезон 2016-17 с шестью лигами. 19 января 2017 г.

Популярные слоты