Cette note de recherche fait suite à une série de vidéos publiées par Stéphane Édouard sur YouTube en octobre 2018 :

Ces vidéos proposent de courtes analyses de “sociologie quantitative” (sic) portant sur la rémunération de vidéastes sur YouTube via Tipeee, une plateforme de financement participatif (https://fr.tipeee.com/). Elles cherchent notamment à montrer que les femmes y sont mieux rémunérées que les hommes. De nombreuses approximations dans la manière de traiter les données, ainsi que des hypothèses statistiques fallacieuses, nous ont poussées à réaliser des expériences complémentaires afin de vérifier les résultats qui y étaient exposés.

Cette note est un exercice préliminaire, qui pourrait donner suite à un éventuel travail de recherche plus approfondi, mais qui vise déjà à montrer que les choses sont plus complexes que ce que prétend Stéphane Édouard dans ses vidéos. En particulier, dans son analyse, il fait l’hypothèse que les financements Tipeee de deux chaînes YouTube peuvent être comparés lorsqu’ils sont rapportés au nombre de personnes abonnées à la chaîne. L’expérience qui suit montre que cette hypothèse n’est absolument pas valide lorsque l’on regarde un jeu de données un tant soit peu conséquent.


Données

Notre corpus regroupe l’ensemble des comptes Tipeee :

Les donées ont été recueillies le 14 avril 2019. Elles regroupent les statistiques de 83 comptes Tipeee, croisées avec les statistiques fournies par le site Social Blade (https://socialblade.com/) concernant les chaînes YouTube associées. Nous les rendons disponibles ici pour celles et ceux qui souhaiteraient compléter ou poursuivre ces investigations :

https://www-complexnetworks.lip6.fr/~lamarche/html/tipeee-analysis/tipeee-statistics.csv

Listes des variables :

La variable gender a été encodée manuellement. Elle désigne le genre de la personne ayant créé la chaîne ou étant majoritairement responsable de son contenu : M pour masculin, F pour féminin, et N dans le cas où le genre n’est pas identifiable (8 cas sur 83 correspondant à des collectifs mixtes de créateurices).


Disclaimer

Cette étude s’intéresse à l’hypothèse suivante : “les vidéastes femmes sont mieux rémunérées que les vidéastes hommes sur Tipeee.”

Elle montre à ce sujet (spoiler alert) que les données recueillies invalident cette hypothèse : le genre ne permet pas d’expliquer de manière significative les variations de revenus observées.

Attention cependant :

Pour résumer, cette étude présente un résultat négatif : le genre ne permet pas d’expliquer les variations de dons mensuels observées sur Tipeee pour les 83 chaînes YouTube les mieux rémunérées.


Analyse

Nous utilisons le langage de programmation R pour l’analyse statistique, ainsi que la librairie ggplot2 pour la visualisation des résultats.

library (ggplot2)
library (ggrepel)
library (scales)
set.seed (42)

Chargement des données :

data <- read.csv ("tipeee-statistics.csv")

Une hypothèse fallacieuse : la règle de trois pour comparer les chaînes YouTube

Un premier réflexe pour comparer les revenus de deux chaînes YouTube est de rapporter ces revenus à la taille de leur audience. En effet, on ne s’attend pas à ce qu’une chaîne de 1 581 283 abonné·e·s (LinksTheSun) engendre la même quantité de dons qu’une chaîne de 9 689 abonné·e·s (Vive L’Europe !). La quantité de don moyen (par abonné·e) semble donc être un bon indicateur normalisé, permettant de comparer le revenu des chaînes étant connues la taille de leurs audiences respectives. Il s’agit de la fameuse “règle de trois” qui constitue le cœur de la démarche proposée par Stéphane Édouard dans ses vidéos (https://www.youtube.com/watch?v=j-mL6euUSA8&t=6m02s).

Nous commençons donc par visualiser l’ensemble des 83 chaînes du corpus en fonction (1) du nombre de personnes abonnées et (2) du don mensuel moyen par abonné·e. (Notez l’utilisation d’une double échelle logarithmique pour mieux distinguer la distribution des variables qui couvre une large échelle de valeurs.)

ggplot (data, aes (x = viewers, y = tips/viewers, label = youtube_channel)) +
    geom_point (aes (color = gender)) + geom_text_repel (aes (color = gender)) +
    scale_x_log10 (labels = comma) +
    scale_y_log10 (labels = dollar_format (accuracy = 0.1, scale = 100, suffix = " cent.", prefix = ""))