Échec: le secret du succès?

Échec: le secret du succès?

« Rien dans ce monde ne peut remplacer la persistance. Le talent ne le fera pas: rien n’est plus courant que ceux qui sont infructueux mais talentueux. Le génie ne le fera pas; le génie sans récompense est presque un proverbe. L’éducation ne le fera pas: le monde est plein de délaissés instruits. La persévérance et la détermination à elles seules sont omnipotentes. » – Calvin Coolidge

En ce qui concerne la modélisation sportive, l’échec peut être le secret d’un succès éventuel.

Dans cet article, je voudrais vous expliquer une méthode simple pour dériver les probabilités de résultat 1X2 d’un match de la LNH grâce à la simulation. Pour commencer, nous allons parcourir un modèle de modèle de base que vous pouvez exécuter vous-même facilement dans Excel. Le modèle sera simpliste mais fonctionnel.

Cependant, mon véritable objectif en partageant cela avec vous est d’introduire certains des éléments les moins discutés de la modélisation sportive: échec, analyse critique à l’aide des connaissances du domaine et dépannage.

Cela peut être une vérité surprenante dans la construction de modèles que vous apprenez souvent plus de vos échecs que de vos succès. À cette fin, une fois que nous aurons assemblé ce modèle et établi un processus de base, nous analyserons de manière critique les faiblesses du modèle pour rechercher des opportunités de l’améliorer. Ce faisant, j’espère vous donner quelque chose de plus précieux à long terme que n’importe quel modèle – un processus de dépannage pour améliorer vos propres idées jusqu’à ce qu’elles soient suffisamment précises pour concurrencer avec succès. Commençons.

Étape 1: recueillir des données

Pour commencer, nous allons avoir besoin de quelques données. Rendez-vous sur Hockey-Reference.com et copiez et collez toutes les données de résultats de match de la saison 2019-2020 de la LNH dans une feuille de calcul Excel.

Nous pouvons accomplir une quantité surprenante d’analyses en utilisant uniquement ces simples données de résultat de jeu. Par exemple, nous pourrions vouloir connaître le nombre moyen de buts marqués pour les équipes à domicile et à l’extérieur, la variance des buts marqués ou la fréquence des heures supplémentaires.

Si nous utilisons les fonctions AVG et VAR dans Excel, nous pouvons voir que les équipes à domicile en moyenne 3,30 buts par match tandis que les équipes à l’extérieur en moyenne 2,85 buts. La variance de ces objectifs est respectivement de 2,85 et 2,62. Les heures supplémentaires jusqu’à présent cette saison se sont produites environ 26,81% du temps. À tout le moins, nous avons nos données. Identifions maintenant la distribution de notre résultat cible.

Étape 2: Observer la distribution de notre résultat cible

Supposons que notre résultat cible soit le nombre de buts marqués pour chaque équipe, ce qui semble assez simple si nous voulons prédire qui est susceptible de gagner et à quelle fréquence environ. Il serait utile de savoir à quel type de distribution statistique ces données correspondent à peu près lorsque nous tenterons plus tard de transformer nos prévisions en probabilités.

Nous savons que les objectifs dans la LNH sont une forme de données de comptage discrètes. Ils sont relativement rares malgré de nombreuses opportunités de réussite, notés un à la fois et contenant un élément de hasard. La distribution de Poisson semble être un choix naturel. Nous pouvons vérifier cela avec n’importe quel nombre de modules complémentaires Excel:

La distribution de Poisson semble convenir convenablement à nos données. Pas de surprise ici, car cela a été étudié et commenté pendant des années par divers chercheurs en statistique. Gardons ces informations de distribution à l’esprit lorsque nous avançons. Il deviendra utile très prochainement.

Étape 3: Établir une attente ajustée par l’adversaire pour chaque équipe

Nous avons nos données, nous avons un résultat cible et nous avons une distribution de probabilité. Nous avons maintenant besoin d’une structure de modèle pour obtenir nos prévisions de base pour chaque match. Pour cet exemple, j’utiliserai une structure de modèle simple qui prend la moyenne des buts marqués pour et contre chaque équipe à domicile ou à l’extérieur et les fait la moyenne ensemble. La fonction ressemblera à ceci:

x Objectifs pour = (Objectifs moyens pour + Objectifs moyens contre l’adversaire) / 2

En procédant de cette façon, nous avons pris en compte l’attaque, la défense et l’avantage de la glace à domicile (quoique de manière simpliste). En utilisant le match des Rangers de New York contre les Sénateurs d’Ottawa du 22 novembre, nous pouvons voir que notre modèle s’attendait à ce qu’Ottawa marque 3,43 buts et que New York marque 2,73. Le simple fait de regarder cela nous indique que notre modèle, compte tenu de ce qu’il sait, s’attendait à ce qu’Ottawa gagne.

Étape 4: simuler les résultats pour refléter le caractère aléatoire

Maintenant que nous avons des attentes en matière d’objectifs pour les deux équipes, nous avons besoin d’un moyen de convertir ces attentes en probabilités. Une manière courante de le faire est d’utiliser une matrice de Poisson concurrente, comme je l’ai exposé dans mon livre «Modèles statistiques de sport dans Excel». C’est assez facile à faire dans Excel en utilisant la fonction POISSON.

Un inconvénient potentiel de cette méthode est qu’elle ne prend pas très bien en compte le caractère aléatoire du score. Afin d’essayer d’avoir une meilleure idée de la façon dont ce jeu est susceptible de se terminer, nous allons essayer quelque chose d’un peu différent ici en utilisant une simulation de Poisson à la place. Pour ce faire, nous utiliserons la fonction de génération de nombres aléatoires d’Excel.

En supposant que vous avez installé le pack d’outils d’analyse de données dans votre version d’Excel, cliquez sur «Données», puis sur «Analyse des données» et enfin sur «Génération de nombres aléatoires».

Ce que cela va faire pour nous, c’est simuler 1 000 matchs en utilisant nos attentes de but pour chaque équipe. Nous pouvons ensuite calculer la fréquence de chaque équipe gagne, la fréquence des heures supplémentaires, ou tout ce que nous aimerions savoir.

Entrons «1» comme nombre de variables, «1000» comme nombre de nombres aléatoires (jeux simulés), «Poisson» comme distribution et les objectifs attendus de New York (2,73) comme lambda. Une fois que nous avons sélectionné l’endroit approprié sur notre feuille de calcul où nous voulons que les résultats soient sortis, nous cliquons sur «OK» et laissons le générateur de nombres aléatoires opérer sa magie.

Une fois la simulation terminée, nous faisons simplement la même chose pour Ottawa, en veillant à afficher les résultats dans la colonne adjacente appropriée sur la feuille.

Étape 5: conversion en probabilités

Maintenant que nos simulations pour les deux équipes sont terminées, nous devons compter la fréquence d’occurrence pour une victoire à domicile, une victoire à l’extérieur et une égalité réglementaire. Pour ce faire, nous ajouterons une colonne supplémentaire à notre feuille qui calcule la marge de victoire de l’équipe à domicile [MOV]. Ensuite, nous compterons combien de fois sur 1000 le MOV domestique est supérieur à zéro, inférieur à zéro et exactement zéro.

Cela devrait nous donner des probabilités que nous pouvons utiliser pour estimer les prix d’une victoire à domicile, d’une victoire à l’extérieur et d’une égalité réglementaire. Cela fait, le modèle estime le prix de la réglementation équitable de New York à 3,247, le prix équitable d’Ottawa à 1,855 et le prix équitable sur une égalité de réglementation à 6,536. Nous pouvons ensuite comparer ces prix estimés aux prix du marché dans notre recherche de valeur de pari.

Analyse des faiblesses du modèle

Ottawa a fini par gagner ce match de façon plutôt catégorique en matière de réglementation, mais ne soyons pas trop rapides pour supposer que nous avons un modèle gagnant entre nos mains. Malgré un succès ponctuel, ce modèle n’est pas particulièrement bon. Je ne vous recommande pas de parier avec ça. Si nous devions l’utiliser contre le marché sur un grand nombre d’essais, nous apporterions une paire de ciseaux de sécurité pour un combat d’armes à feu. Cela m’est tout à fait clair et le sera aussi si vous décidez de faire un backtest sur ce que nous avons construit jusqu’à présent.

Ce qui n’est peut-être pas aussi clair, surtout si vous êtes un modélisateur néophyte, c’est pourquoi. Cela peut être un moment frustrant pour un constructeur de modèles. Vous avez fait du travail, créé ce que vous pensez être un processus raisonnablement décent et le résultat est un échec. Il peut sembler que vous ayez investi beaucoup de temps et d’énergie à essayer de faire des progrès pour finir à la ligne de départ.

Mais ce n’est pas là que votre modèle se termine. C’est plutôt là que commence le vrai travail.

Un bon modèle est analogue à une bonne paire de jumelles – il voit loin et la résolution est nette. Les modèles pauvres ne voient pas très loin (ou pire, regardent en arrière!) Et produisent une résolution d’image floue. Une mauvaise performance dans un backtest est un indicateur que notre modèle nous donne une image floue des performances futures. Lorsque cela se produit, c’est généralement une bonne idée de se demander:

  • À quelle variation du processus sous-jacent ne répondons-nous pas adéquatement?
  • Quelles hypothèses pouvons-nous émettre qui s’avèrent désastreuses?
  • Comment rendre l’image plus nette?

Voici quelques suggestions pour guider votre processus de dépannage. En continuant à améliorer votre modèle en tirant des leçons de ses échecs, vous pouvez finalement réussir à le rendre suffisamment précis pour qu’il devienne un outil précieux dans votre arsenal de paris.

Considérez les données

Il est temps de démonter ce modèle jusqu’aux boulons et de voir ce qui ne va pas. Commençons par considérer les données que nous avons utilisées. Cela semblait assez simple – nous voulions projeter la notation des objectifs, nous avons donc utilisé des objectifs. Cela devrait fonctionner correctement?

Peut-être peut-être pas. Les données de notation des objectifs sont des données de résultat. Les résultats dans n’importe quel sport contiennent un élément de bruit, ce qui signifie simplement qu’une certaine proportion du résultat enregistré n’est pas due à une compétence sous-jacente reproductible que nous pouvons prévoir avec précision.

Plus le score est aléatoire dans un sport, plus ce bruit statistique est proportionnellement élevé. Au hockey, il y en a pas mal. Nous avons peut-être tenté par inadvertance de modéliser le bruit ici – ce qui est certainement l’une des raisons pour lesquelles notre modèle pourrait produire de mauvais résultats.

Pensez à ce que vous avez vu dans les matchs de hockey: des buts de filet vides, de mauvais rebonds qui se retrouvent à l’arrière du filet, des déviations par rapport au point qui fait basculer le coude d’un joueur – ce sont tous enregistrés comme des buts pour une équipe. Devraient-ils être comptés comme faisant partie de la capacité latente de cette équipe par rapport à une autre équipe? Probablement pas. C’est là que les techniques statistiques comme la régression deviennent importantes, et pourquoi une prévision d’objectifs attendus (xG) est généralement considérée comme un prédicteur plus puissant du succès futur que les objectifs réels.

Lorsque vous éliminez le plus de bruit possible, vous pouvez mieux cartographier les compétences répétitives sous-jacentes qui sont à l’origine des objectifs. Attribuer des objectifs qui se sont déjà produits à la capacité latente d’une équipe dans n’importe quel scénario où il y a un bruit important est une erreur. Cette prise en compte ouvre de nouveaux domaines possibles à explorer pour essayer d’améliorer notre modèle.

À retenir # 1: Trouvez des moyens de réduire le bruit dans vos données par rapport à votre résultat cible.

Tenir compte des hypothèses du modèle

Chaque modèle que vous créez contient des hypothèses. Lorsqu’un modèle échoue, il est très utile d’identifier et de remettre en question ces hypothèses pour voir si vous pouvez trouver des opportunités pour les améliorer. La première hypothèse que nous avons faite dans notre exemple était que les objectifs réels sont représentatifs de la force de l’équipe et de la capacité latente. Nous avons des raisons de croire que ce n’est peut-être pas la meilleure approche, et nous l’avons écrite comme un domaine à explorer.

Quelles autres hypothèses avons-nous formulées par inadvertance et qu’il serait sage de remettre en question?

Prenons la distribution de Poisson. Cela semblait convenir à nos données, mais lorsque nous avons fait notre analyse initiale des moyennes des buts et de leur variance, nous avons observé quelque chose d’intéressant: pour les équipes à domicile et à l’extérieur, les moyennes et les variances n’étaient pas les mêmes.

Dans les deux cas, il semblait y avoir une sous-dispersion. Cela pourrait être un problème potentiel, car l’une des hypothèses fondamentales qui doivent tenir pour que la distribution de Poisson soit appropriée est que la moyenne et la variance des données sont supposées être les mêmes.

Si la variance dépasse la moyenne, les distributions comme le binôme négatif sont généralement un bon endroit pour regarder. Si la variance est inférieure à la moyenne, nous pourrions envisager l’adaptation Conway-Maxwell Poisson.

De plus, nous pourrions constater avec un plus grand échantillon de matchs que les moyennes de buts marqués dans la LNH et les écarts convergent vers l’égalité. Le fait est qu’une autre distribution peut être plus adaptée à ce que nous essayons d’accomplir ici. Il est important d’être mentalement flexible et de ne pas simplement accepter une solution sans considérer d’autres possibilités.

À retenir # 2: contester les hypothèses de votre modèle en termes de données, de distributions et de fonctions.

Tenir compte des sources de variation non comptabilisées

Enfin, nous pourrions souhaiter examiner les sources de variation des résultats que nous n’avons pas pris en compte. Et quelques exemples? Pour commencer, nous avons supposé que la force d’une équipe est une masse indifférenciée. C’est-à-dire que nous ne prenons pas en compte les blessures clés ou les remplacements de joueurs. Les Oilers d’Edmonton sont-ils capables de jouer au même niveau, que Connor McDavid joue ou non? Il y a sûrement un changement significatif dans l’un ou l’autre scénario auquel notre modèle actuel est aveugle.

De plus, nous avons supposé que l’attente de buts contre une équipe est la même quel que soit le gardien qui commence le match. Ce n’est pas non plus une hypothèse trop utile, car les gardiens de départ et les gardiens de but ont des plages de pourcentage de sauvegarde distinctes qui sont généralement différentes les unes des autres. Ces deux considérations représentent des sources de variation qui pourraient ne pas être prises en compte et qui pourraient aider notre modèle à produire une image plus nette.

Nous pourrions également prendre en compte la force de l’horaire, la fatigue, les arbitres, l’altitude et un certain nombre d’autres facteurs que notre modèle ne prend pas actuellement en compte. Les meilleures sources pour savoir où chercher proviennent d’un certain degré de connaissance du domaine. Notre mannequin ne sait pas qu’une équipe se présente de façon consécutive avec son gardien de but partant et 2 blessures clés – mais vous le faites.

À retenir # 3: utilisez les connaissances du domaine pour rechercher des sources de variation non comptabilisée.

En utilisant le bon sens et certaines connaissances du domaine, nous avons commencé à réfléchir à la manière dont ce modèle pourrait être amélioré en faisant un remue-méninges sur les raisons potentielles pour lesquelles il pourrait manquer de prouesses prédictives. Nous pouvons revisiter nos données, notre distribution et nos hypothèses pour trouver des domaines pleins d’opportunités d’amélioration de notre modèle. S’appuyer lentement sur ce processus et ne pas se laisser décourager par les revers initiaux est le chemin vers la rentabilité.

De cette façon, les échecs du modèle peuvent ouvrir la voie à votre succès éventuel, à condition que vous tiriez des leçons de vos erreurs et que vous n’abandonniez pas.

La feuille de calcul Excel utilisée dans cet article est disponible sur demande. Email [email protected] pour plus d’informations.

Cet article a été rédigé par Andrew Mack.