Gagner la CAN grâce au Machine Learning : Gabaski aurait-il pu deviner tous les choix sénégalais aux tirs au but ? Par Samba Sall

Le Sénégal est champion d’Afrique ! Le 06/02/2022, une finale de longue haleine a tenu plusieurs millions de supporters dans un état de stress et de suspens pendant 90 minutes et une période de prolongations. Les Lions de la Teranga ont fini par s’imposer lors de la séance de tirs aux buts parachevée par un magnifique tir de Sadio Mané. Pourtant, les sénégalais étaient unanimes, il était préférable d’éviter à tout prix d’aller décider l’issue du match en série de penalty. D’une part parce que l’équipe du Sénégal était meilleure sur le papier que celle des Pharaons, mais aussi parce que les Lions ont un passif funeste avec les séances de tirs au but (tout le contraire des égyptiens qui n’avaient pas échoué à une telle épreuve depuis… 1984 !).

Pour ajouter à la frayeur des Lions, Mohamed Abou Gabal, plus connu désormais des sénégalais sous le nom Gabaski, étale un talent monumental pendant les phases finales. Il porte son équipe à la victoire contre la Côte d’Ivoire et le Cameroun en arrêtant 3 tirs adverses lors des séances de tirs au but. Contre le Sénégal, il parvient à deviner le côté et arrêter le penalty de Sadio Mané à la 7ème minute du jeu. Et lors de l’ultime séance de tirs au but il plonge systématiquement (4 fois) du bon côté du tir.

Coïncidence ? Chance ? Don de voyance ? Haki de l’observation ? Sûrement pas. Le secret de Gabaski résiderait dans une simple bouteille en plastique, sur laquelle étaient collées des étiquettes antisèches, chacune avec le nom d’un tireur sénégalais, ainsi que ses préférences de tir.

Gabaski et sa fameuse bouteille à antisèches

Certains ont crié au scandale, et d’autres au génie. Mais une des principales questions soulevées est celle de la place des analyses statistiques (et donc forcément du Machine Learning) dans le monde du sport. En particulier quand il s’agit de choix décisifs à faire comme lors d’une séance des tirs au but par exemple. Il faut en effet noter que l’analyse de données est déjà utilisée de manière très intensive dans le domaine du sport, pour assister au coaching, prendre des décisions, étudier la performance d’une équipe ou d’un joueur, etc.

Dans la suite de cet article, nous allons voir quelques approches plus ou moins basiques qui pourraient permettre à un portier de mettre toutes les chances de son côté afin d’arrêter un tir au but.

Quelques informations et statistiques sur les tirs au but

Il n’est pas nécessaire de rappeler les règles et procédures qui régissent un tir au but (qu’il s’agisse d’un penalty en plein match ou d’une séance de tirs au but pour départager deux équipes). Ces règles peuvent être retrouvées ici.

Il faut toutefois noter quelques détails fondamentaux.

Tout d’abord, la plupart des gardiens choisissent un côté de plongeon avant le tir du penalty. En effet, le temps de réaction à un tir au but est de l’ordre de 0,1s. Certains peuvent aussi exploiter leurs réflexes en partie (notamment en observant le pied du tireur par exemple), mais il est fondamentalement impossible (inhumain) de se baser uniquement sur les réflexes après tir en analysant la trajectoire du ballon, à moins que ce dernier ne soit particulièrement lent.

Un autre point à noter est que le tir d’un penalty comprend un énorme aspect psychologique. Consciemment ou inconsciemment, les joueurs ont leurs habitudes. Certains joueurs tirent et ont tiré énormément de penalties au cours de leur carrière. Cristiano Ronaldo par exemple est un excellent tireur au but avec 166 tentatives en carrière (dont 143 réussis !) . De simples études statistiques montrent des tendances significatives, ce qui justifie de facto l’intérêt de l’analyse probabiliste quand il s’agit de tirs au but.

D’après un rapport détaillé de l’économiste basque Ignacio Palacios Huerta, lorsque Cristiano Ronaldo s’arrête juste avant son tir, 85% du temps ce dernier est effectué vers la droite du gardien. Intéressant, non ?

Autre point à noter : depuis 2009, plus de 100.000 penalties ont été tirés dans les différents terrains de foot compétitifs à travers le monde, dont 17,57% seulement ont été arrêtés par le gardien de but et environ 6% totalement ratés par le tireur. Certains joueurs tels que Ronaldo ou Neymar seraient relativement meilleurs que la moyenne au tir au but, tandis que le meilleur gardien pour cet exercice serait Diego Alves avec un remarquable taux d’arrêt de 42,42% en 47 tentatives.

Deviner le choix de tir d’un joueur : un problème de classification multi-classe

On peut modéliser la situation de tir au but comme suit :

La cage de but est divisée en 9 zones (gauche, milieu, droite – supérieure, centrale, inférieure).
Avant de frapper la balle, le tireur choisit une zone des cages qu’il souhaite viser. En pratique, cela ne se passe pas forcément comme cela, mais pour des besoins de simplicité, on considère que ce choix est fait a priori, et que le tir sera réussi.
Avant le tir au but, le gardien cherche à deviner dans quelle zone la balle sera envoyée. Cette période “d’avant tir” commence au moment où le gardien connaît l’identité du futur tireur, et se termine au moment où le pied du tireur entre en contact avec la balle.
Le gardien plonge du côté “deviné” et essaie de dévier le tir ou d’attraper le ballon.

Malgré les hypothèses simplificatrices, cette modélisation reste relativement fidèle à la réalité. Le problème modélisé se rapporte donc à une classification multi-classe. Il s’agit de déterminer, étant donné un ensemble d’informations, quelle classe (ou label) est le plus probable. Ici, chaque zone de la cage correspond à une classe du problème. L’objectif est de prédire quel secteur des buts est le plus probable d’être choisi en fonction des données.

Maintenant que le problème est formalisé, nous pouvons voir quelle approche employer afin d’augmenter le plus possible les 17,57% de chances de succès du gardien de but.

Une subdivision possible d’une cage de football

Les modèles dits « naïfs »

Les modèles les plus naïfs pour décider de quel côté plonger, pour un gardien de but, consisteraient probablement, soit à plonger au hasard vers une direction, soit à toujours aller vers le même côté (ou rester au centre), sans réfléchir.

Si ces approches ont l’avantage de la simplicité, elles n’ont quasiment aucun intérêt pour un gardien de but. Elles pourraient même se retourner contre lui (si jamais l’équipe adverse s’en rend compte). Au final, un gardien qui emploie une de ces méthodes aura probablement un taux de succès bien inférieur à 17,57%.

Toute stratégie n’est pas une bonne stratégie

En pratique, un gardien de but va “deviner” la direction de tir en se basant sur plusieurs données (features). Certains pourraient s’appuyer uniquement sur les habitudes du joueur (de quelle côté tire t-il le plus souvent ?). D’autres pourraient pousser l’analyse plus loin en incluant le regard du joueur, la vitesse de sa course, la direction de ses pieds, etc.

Comment utiliser le Machine Learning ?

Random Forest, Naive Bayes, SVCs… N’importe quel modèle classique pourrait faire l’affaire. Il n’y a pas masse de données, et de toute façon l’ordre de grandeur des scores recherchés dans ce problème rend le choix du modèle utilisé probablement bien moins important que la préparation des données et les choix des features. Ceci est lié à la nature du problème qu’on cherche à résoudre, qui diffère par exemple d’un challenge de type Kaggle… mais j’y reviendrai dans un prochain article.

La première étape, et sans doute la plus importante, est de recueillir suffisamment de données (des vidéos de penalties tirés). Par la suite, il faut effectuer une featurization adéquate (la featurization consiste à récupérer diverses caractéristiques telles que par exemple l’identité du tireur, son poste, son pied préféré, …). Enfin, il faut une labellisation correcte de chaque tir (noter laquelle des 9 zones a été choisie par le tireur).

Quelques features envisageables pour un modèle de Machine Learning

Une fois cette étape de préparation des données terminée, il suffit de les traiter puis de les utiliser pour entraîner un modèle de Machine Learning, qui pourra ensuite fournir les insights d’intérêt. A ce stade, plusieurs approches sont envisageables.

Approche statistique liée aux précédents tirs du joueur

Une première approche statistique consisterait à toujours plonger du côté où le joueur tire le plus souvent : il s’agit probablement de l’approche de Gabaski, ou du moins de la stratégie inscrite sur ses antisèches. Cette approche correspond au cas ou la seule feature utilisée dans les données d’entraînement correspond à l‘identité du joueur. D’après une étude de Ignacio Palacios Huerta, 60% des penalties sont envoyés vers le côté favori du tireur (ce qui est déjà bien meilleur qu’un choix totalement au hasard qui donnerait 33% de succès).

Une approche un peu plus complète, mais qui demande beaucoup plus de données et d’études, consiste à inclure plus de features liées aux précédents tirs du joueur (côté ou il est placé avant le tir, élan pris, vitesse de course, tir décisif ou pas?, etc…). Dans ce cas, il faut bien sûr faire attention à ne pas prendre en compte trop de features inutiles. Sinon impossible pour le gardien de prendre sa décision assez vite. Normalement, quelques features seulement devraient être décisifs pour le choix du côté. Par exemple dans cette situation, il est inutile de se demander quel est le poste du joueur ou son pied préféré, puisque cette information est déjà inclue dans l’identité du joueur.

Quid des joueurs qui n’ont jamais tiré de penalty ?

Contre l’Egypte, en finale de CAN, Abdou Diallo tirait son penalty sans aucun précédent en carrière. Impossible de se baser sur les précédents tirs pour deviner le choix du tireur. Pourtant, Gabaski a plongé du bon côté. Simple coup de chance ? Probablement. Mais est-il possible là encore de faire mieux que le simple hasard ? Oui ! En exploitant les statistiques de l’ensemble des penalties tirés, et pas uniquement en se limitant à ceux du tireur en question. Cette fois encore, le choix des features est déterminant : poste du joueur ? pied préféré ? taille du tireur ? son âge ? son numéro de téléphone ? … Certains modèles de Machine Learning permettent parfois de connaître a posteriori les features les plus significatives (avec parfois des faux positifs malheureusement).

Un exemple de prédiction que pourrait donner un tel modèle serait alors :

si le poste du joueur est un défenseur central,
qu’il a 25 ans,
qu’il mesure 1m88,
qu’il est gaucher,
que son numéro de téléphone est le 77 575 ** **,
qu’il prend un élan moyen,
que son regard est orienté vers la balle,
et qu’il court à cadence moyenne avant de tirer,
alors il visera probablement la zone 7 (qui correspond au coin inférieur gauche des cages).

Abdou Diallo tire sereinement à gauche et marque malgré le bon choix de Gabaski

Et pour exploiter tous ces modèles ?

Difficile de tout mettre sur une bouteille.

Entre le début de la prise d’élan du tireur et la frappe, il ne se passe que quelques secondes. Un gardien ne peut évidemment pas prendre en compte toutes les caractéristiques du tir et effectuer les calculs d’un modèle de Machine Learning dans sa tête avant de prendre sa décision.

Ce qui est sûr, c’est que tirer un penalty n’est pas qu’une affaire de technique ou de chance. La stratégie compte, et qui dit stratégie, dit importance des données et des choix éclairés permettant de maximiser les chances de succès. Dans un contexte aussi décisif qu’une grande compétition, augmenter ces dernières ne serait-ce que d’un simple pourcent reste bénéfique. L’analyse statistique (et par extension le Machine Learning) constitue un puissant outil pour cela.

Les tirs au but ne sont pas les seuls domaines d’application de l’analyse de données au sport, loin de là. Dans toutes les disciplines, les plus grandes équipes disposent de statisticiens qui mènent différentes études pour maximiser les performances des joueurs et aider ces derniers, ainsi que les coachs et managers, à prendre les meilleures décisions.

Et pour finir, encore une fois… ON EST CHAMPIONS D’AFRIQUE !!

Ecrit par Samba Sall, élève-ingénieur à CentraleSupélec, et Data Scientist à Dassault Systèmes. Contact LinkedIn

9ème Cop de la Convention anti-dopage, Matar Bâ plus haut
J’aime ça :
J’aime chargement…
Don Camillo, CBS News
Camille Bounama, de Charybde en Sylla À l’oral, le péril sera jeune L’occupation des jeunes […]
J’aime ça :
J’aime chargement…
Partis politiques : Déficit, querelles et excès
Sénégal-Partis politiques Déficit de démocratie, querelles de leadership ou excès de centralisme L’expérience a montré […]
J’aime ça :
J’aime chargement…
Campagne électorale : Vous avez dit 5.000 km ?
Optimisation d’une tournée politique électorale Cela me semblait bizarre de les entendre dire qu’ils […]
J’aime ça :
J’aime chargement…
Assemblée : Mimi auto-exclue
Exclusion de Mimi Touré L’arroseur arrosé Mimi, l’auteur de son exclusion Le bureau exécutif a […]
J’aime ça :
J’aime chargement…

Parcours

Parcours : Guirassy

00:00 / 28:08

Parcours : Guirassy
Feb 16, 2021 • 28:08
Écoutez le parcours de Claudiane Kapia Nobana (Podologue)
Feb 24, 2021 • 28mn
1988-1989 : La polémique de Guidimakha (Podcast)
Sep 3, 2021 •
Affirmations & Précisions Exécutions, déportations et répressions au Guidimakha (sud de la Mauritanie) de 1989 /1990 Peut-on les oublier nos victimes ? Au cours de nos recherches de mémoire de maîtrise (1997) intitulé (,), nous avons enquêté sur les noms des personnes victimes (mortes, rescapées et déportées) lors des événements…