Les effets pervers d'une North Star Metric selon Guillaume Chaslot

  • mise à jour : 05 octobre 2020
  • 8 minutes
Article écrit par

Youtube n’a plus à être présenté. Produit aux milliards d’utilisateurs quotidien, Youtube est l’un des piliers de notre notre société digitale. Il est aussi l’un des Produits les plus décriés, cumulant captation de l’attention, publicité envahissante, contenus douteux, algorithme de recommandation peu vertueux, et consommation énergétique d’un pays de petite taille.

Mais le Produit Youtube n’est pas né ainsi. Des Product Managers et Designers ont, itération après itération, pris une myriade de décisions qui ont transformé Youtube en un monstre du web. Mais il est probable qu’aucun de ces Product ait volontairement agi dans ce sens, ou même considéré que ses actions “nourrissaient le monstre”.

C’est pour comprendre cette genèse que je suis allé à la rencontre de Guillaume Chaslot. S’il est aujourd’hui Mozilla Fellow et fondateur d’Algotransparency, il était auparavant Data scientist au coeur du réacteur de Youtube : son moteur de recommandation. Il a accepté de me donner son “insider view”, ainsi que quelques conseils afin que nous ne reproduisions pas les mêmes erreurs.

Note: Vous pouvez retrouver Guillaume sur vos écrans dans le film “Derrière nos écrans de fumée” (“The Social Dilemma” en anglais) sur Netflix, et sur scène le 9 juin 2022 à La Product Conf Paris.

Pour aller plus loin, télécharge notre livre Responsables

Bonjour Guillaume, tu m’as dit avoir travaillé sur plusieurs parties du produit Youtube, entre autres Ads et le moteur de recommandation. Quels étaient les rapports que tu entretenais alors avec les Product Managers ?

Lorsque je travaillais sur la partie Ads, par exemple sur du Display management, j’étais assez proche du Product Manager.

Mais sur le moteur de recommandation, les Product Managers étaient loin de ce que je faisais, et de ce que faisaient les Data Scientists de façon générale sur l’algorithmie et l’IA. Pourtant, l’équipe était très petite !

Cette déconnexion faisait que nous avions de réelles difficultés à communiquer, à nous comprendre. Les décisions étaient prises bien plus haut que nous, sans que les Ingénieurs sachent même exactement à quel niveau. Les Product Managers n’étaient pas conscients des conséquences potentielles de leurs choix puisque les Ingénieurs qui, eux, voyaient ce qui se passaient, auraient pu prévenir des conséquences malheureuses en détectant des signaux faibles, n’étaient pas écoutés ou pas impliqués. En somme, le Produit n'était pas une construction commune.

Sur quoi se basaient les décisions des Product Managers ?

Uniquement ce qui permettait de faire avancer la North Star Metric. À l’origine, cette doctrine de la North Star Metric est née lors que Facebook a fait un talk chez Y Combinator (entreprise américaine de financement précoce de startups), montrant que toutes les décisions prises dans l’entreprise devaient concourir à une métrique unique. Chez eux, toutes les décisions devaient au final augmenter l’usage quotidien des utilisateurs, le DAU (Daily Active Usage).

Chez Youtube, ils ont été conquis par le talk sur la North Star Metric et l’ont pris au pied de la lettre, au point que ç’a influencé largement la mentalité même du Produit chez Youtube. Ils ont choisi comme “NSM” le Watch time, le temps passé par chaque utilisateur sur le produit. En résumé, toute évolution Produit devait faire, à tout prix, que l’utilisateur regarde plus de contenu, parce que ça permettait à l’algorithme de se faire précis, et aux recettes publicitaires d’augmenter.

Ils ne mesuraient donc que l’impact business via la North Star Metric ?

Oui. Tout élément qui ne favorisait pas le Watch time n’était pas même considéré. Était donc écarté tout ce qui permettait de jouer sur la confiance, c’est à dire créer une application de qualité en termes de contenu, de sécurité, etc. C’est cette confiance qui fait que tu achètes un iPhone, parce que tu fais confiance à Apple.

"Tout élément qui ne favorisait pas le Watch time n’était pas même considéré. Était donc écarté tout ce qui permettait de jouer sur la confiance"

Je n’ai pas été le seul côté Data Scientists, et tech de façon générale, à m’opposer à des évolutions, ou à pointer du doigt des défauts du produit qui étaient, à mon sens, contraires à notre promesse.

Tu aurais des exemples à partager avec nous ?

Oui. Par exemple, l’algorithme ne faisait pas ce qu’il était censé faire, c’est à dire venir piocher dans des contenus différents pour proposer de la variété. Au contraire, l’algo avait tendance à enfermer les utilisateurs et à leur proposer des vidéos de plus en plus extrêmes. Lorsque j’ai proposé des systèmes permettant de mieux vérifier la véracité des vidéos, ou de proposer de la diversité de contenu, on m'a pris pour quelqu'un qui n’avait rien compris ce qu’on faisait chez Youtube, aux OKRs etc.

Même chose sur la qualité des commentaires et des débats, qui pouvaient tourner aux discours haineux, au complotisme ou au harcèlement. Il est difficile de mesurer la qualité d’un débat, mais nous aurions pu relever des signaux faibles liés au “Likes” / “Dislikes” sur les vidéos par exemple, ou poser des questions complémentaires aux gens qui likaient ou partageaient les vidéos, comme “Recommanderiez-vous cette vidéo à votre famille ?”.

Mais pour les Product Managers et la hiérarchie, les likes et les dislikes ne constituaient que du bruit, qui ne participent pas à augmenter le Watch time. Pire, poser une question qui aurait demandé un effort cognitif à l’utilisateur et aurait potentiellement dégradé le Watch time sur le court-terme.

Même face à l’effet de chambre de résonance pour les médias toxiques, bien documenté aujourd’hui, agir ne se justifiait donc pas à leurs yeux.

Selon toi, la North Star Metric, plutôt qu’une boussole, constituait finalement davantage des oeillères ?

Oui ! Au sacrifice de la confiance. Dans ce schéma à l’extrême, les utilisateurs de Youtube n’étaient même plus le Produit, mais les vaches à traire tous les jours pour extraire de l’attention et des données.

Avec le recul, qu'aurais-tu pu faire différemment pour changer les choses, lorsque tu étais encore à l’intérieur ?

J’aurais pu présenter les choses plus clairement, particulièrement aux top managers. Par exemple, plutôt que de m’opposer et de rentrer dans le débat, j’aurais dû mieux présenter les conséquences négatives sur la confiance. Sinon, les OKRs, les incentives, reprennent le dessus.

Quel impact avaient les OKRs, justement ?

Les OKRs révélaient sûrement cette déconnexion entre le Produit et les Ingénieurs. Car les Ingénieurs voyaient la data au jour le jour et auraient pu proposer des idées de mesures complémentaires pour prévenir les impacts.

Or au final, on ne mesurait et ne priorisait que ce qui contribuait aux OKRs du manager au-dessus.

Penses-tu que les Product avaient conscience de tout cela ?

J’ai le sentiment qu’ils ne s’en rendaient pas ou plus compte… ou ils ne voulaient pas le voir J’en ai entendu qui justifiaient l’injustifiable quand il s’agissait de vidéos extrêmes. Ils arguaient que les gens ne prenaient pas le contenu au sérieux parce que ça faisait rire leur beau-frère; ou qu’ils avaient mis un lien Wikipedia en commentaires et que donc, tout allait bien.

Autrement, dit, une forme de dissonance cognitive… Et l’impact environnemental ?

Malheureusement, Youtube n’a jamais mesuré son impact environnemental. Pourtant, Youtube compte beaucoup plus de serveurs que Google. J’ai vu dernièrement que Youtube représentait 37 % du trafic mondial sur mobile, contre moins de 5% pour la recherche web, et un peu plus de 8% pour Facebook ou Snapchat (Etude Sandvine de Février 2019, représentée en infographie par Statistita NDLR). Et ceci, alors que la moitié des vidéos vues sur Youtube sont en réalité des vidéos musicales que les gens utilisent pour ne pas payer d’abonnement à des Deezer ou Spotify !

S’ils ne mesurent pas cet impact gargantuesque, c’est probablement par peur qu’une fois la mesure mise en place, ils ne puissent plus en ignorer le résultat… ou parce que, si l’information fuitait, ils n’auraient pas d’autre choix que d’agir.

Tu dirais donc que la mesure de l’impact est clé ? Et que si on mesure, on agit ?

Oui. Chez Youtube, c’était presque un sophisme : comme on ne peut pas améliorer ce qu’on ne peut pas mesurer, alors il suffit de ne pas mesurer pour qu’on n’ait pas à améliorer ! C’est sûrement pour cela que l’entreprise ne mesurait pas davantage l’impact sur les individus.

Ironiquement, des gens de Google DeepMind (qui fait partie du groupe Alphabet, NDLR) m’ont remercié dernièrement parce qu’en parlant de mon expérience et en pointant du doigt certains problèmes, cela leur a donné de la marge de manoeuvre.

"Puisque certains éléments se mesurent maintenant à l’extérieur, cela les a forcés à mesurer à l’intérieur et à agir."

Puisque certains éléments se mesurent maintenant à l’extérieur, cela les a forcés à mesurer à l’intérieur et à agir. Youtube mesure donc maintenant le taux de “harmful content” (contenus préjudiciables) dans les recommandations et a pu les baisser de 70 %. La mesure est donc clé.

Admettons que je sois Product Manager d’un Produit avec un coeur algorithmique. Quelles mesures me conseillerais-tu de mettre en place ?

Prenons quelqu’un qui travaillerait sur un produit dont on parle beaucoup aujourd’hui, que sont les voitures autonomes. Imaginons que, pour réduire l’impact environnemental et la place de l’automobile dans les villes, les gens ne soient plus propriétaires de ces voitures mais les louent uniquement quand ils en ont besoin.

Mon conseil pour le Product Manager serait de s’imaginer ce qui se passerait si cette Intelligence Artificielle faisait son travail parfaitement. Par exemple, si le business model de ces voitures était basé sur une utilisation gratuite financée par la publicité audio ou vidéo, plutôt qu’un abonnement, on pourrait fixer à l’intelligence artificielle comme but de proposer des trajets qui maximisent le ratio coût / bénéfice par voiture.

"Mon conseil pour le Product Manager serait de s’imaginer ce qui se passerait si cette Intelligence Artificielle faisait son travail parfaitement."

Alors, l’intelligence pourrait créer des bouchons pour maximiser le revenu publicitaire par utilisateur et limiter le coût énergétique et d'entretien, puisque chaque voiture ferait moins de kilomètres ! C’est ce qui arriverait si on plaçait ce ratio en North Star Metric.

Il va donc falloir que ce Product Manager place des limites qui permettent de tenir la promesse du produit, et la mission de l’entreprise : le nombre d’accidents par kilomètre parcouru, et la vitesse moyenne réelle des déplacements, par exemple.

Tu veux dire : se demander “What could go wrong ?”, pour prévenir les conséquences ?

Oui, c’est ce qu’un Product Manager responsable devrait faire, avec la vision long terme de la compagnie en ligne de mire. Malheureusement, beaucoup de gens dans la tech ont peur de se poser les questions dans ce sens. Chez Google, par exemple, ils disent qu’ils préfèrent ne pas se limiter et, si des gens se plaignent, s’il y a des abus, on corrigera a posteriori… à condition d’être sûr que ce sont des abus.

Or, si on ne mesure pas au plus tôt les signaux qui pourraient être négatifs, on se retrouve souvent à ne plus pouvoir faire marche arrière. On a créé un monstre à qui on ne peut plus faire confiance.

"Si on ne mesure pas au plus tôt les signaux qui pourraient être négatifs, on se retrouve souvent à ne plus pouvoir faire marche arrière."

Si on reprend l’exemple de Youtube qui a limité de 70% le “harmful content”, cela ne touche par définition que les utilisateurs qui n’ont jamais vu ces vidéos. C’est trop tard pour tous ceux qui en ont déjà vu, ou qui se sont abonnés à des chaînes entretenant des théories du complot comme QAnon. D’autant plus que ceux qui font tourner la boutique sont les créateurs de contenu et qu’ils ne veulent pas se les mettre à dos.

Les conséquences des mauvaises décisions auront toujours un impact. C’est une forme de dette, comme du mauvais code informatique.

Penses-tu que, si les Product prenaient davantage conscience des impacts, cela aurait des conséquences sur les décisions des entreprises ?

Si je prends l’exemple de Youtube, je pense que cela aurait un impact énorme. Aujourd’hui, la CEO, Susan Wojcicki, est une “business woman”. Elle est extraordinaire pour prioriser les décisions qui augmentent le Chiffre d’affaires, privilégier ce qui joue sur l’addiction pour ensuite monétiser avec la publicité.

Mais fondamentalement, elle ne comprend pas le produit et les utilisateurs. Au début de Youtube, il y avait beaucoup de vidéos courtes que les gens regardaient et partageaient. Lorsque le focus a été mis sur le Watch time, ce sont des vidéos plus longues qui ont été privilégiées, au détriment des petites vidéos. C’est ce qui a permis à TikTok de prendre très rapidement une part de marché phénoménale !

YouTube est le Produit de son intelligence artificielle, puisque 70% des vues proviennent des recommandations de l'IA. Au lieu d'une CEO business, il faudrait quelqu'un qui comprenne comment le produit et l'IA interagissent, une CEO orientée Produit !

Que dirais-tu à quelqu’un qui est ou voudrait travailler chez Google, Youtube, Facebook … ?

Ces entreprises ont un attrait fort et un impact non négligeable sur le CV pour le reste de sa carrière. Et il est facile, et humain, de se mentir en fermant les yeux sur ce qui ne nous arrange pas.

Quand je suis rentré chez Google, je croyais vraiment dans la culture de l’innovation, les 20 % du temps pour des side-projects. Je n’avais pas conscience du côté “obscur”, toxique du business model.

Je leur dirais qu’ils doivent être prêts à être constamment entre deux eaux et être confrontés à des problèmes éthiques, car les business models de ces entreprises sont toxiques.

"Il faudrait qu’ils arrivent à mesurer la confiance générée par le Produit chez ses utilisateurs… de la placer le plus haut possible dans leurs objectifs."

Et que s’ils voulaient redresser la barre, il faudrait qu’ils arrivent à mesurer la confiance générée par le Produit chez ses utilisateurs… de la placer le plus haut possible dans leurs objectifs. Et, pourquoi pas, de réussir à l’intégrer dans la North Star Metric de l’entreprise !

Dernière question : quelles références conseilles-tu pour ceux qui seraient intéressés par le Product Management responsable ?

Merci, Guillaume !

Pour creuser le sujet, télécharge notre livre Responsables

La newsletter qui produit son effet

cover_pm-1

La newsletter Product Management

Contenus exclusifs, actualités, humeurs, devenez incollables en Produit