MOOC : le vocabulaire des données d’inscription

http://www.dreamstime.com/stock-photo-3d-small-people-complicated-question-image19385560Pendant mon travail de thèse, j’ai un peu travaillé sur ce que l’on appelle les données d’inscription, en raisonnant non pas seulement sur les logs, les traces d’activité que l’on peut obtenir en analysant les données d’un cours en particulier, mais aussi sur les comportements d’inscription à l’échelle d’une plate-forme comme FUN. Du coup je me suis créé un petit vocabulaire personnel qui peut être très utile dès lors que l’on s’intéresse de près à la question de la dynamique des inscription, vocabulaire que j’aimerais partager avec vous aujourd’hui.

Les données d’inscription représentent l’ensemble de données permettant de qualifier les inscriptions réalisées au sein d’une même plate-forme : date de l’inscription, obtention d’un certificat suite à cette inscription, discipline correspondante, etc. Je parlerai alternativement de données de certification lorsque je ferai référence uniquement aux données relatives aux inscriptions débouchant sur l’obtention du certificat. J’utilise le terme comportement d’inscription pour désigner tout comportement dont la mesure se base sur des données d’inscription : nombre et temporalité des inscriptions réalisées, etc. A ce jour, rares sont les plates-formes qui; comme Miriada X; ont publié des résultats sur des données d’inscription complète (Albo et al., 2016). Le comportement d’inscription sera considéré comme un comportement observable. Précisons maintenant quelques termes que nous utiliserons par la suite pour qualifier les inscriptions.

Je dis d’une inscription qu’elle est productive dès lors qu’elle débouche sur l’obtention d’un certificat, et d’improductive dans le cas contraire. Nous parlerons d’inscriptions multiples pour désigner les inscriptions de participants s’étant inscrit à plusieurs MOOC sur la plate-forme hébergeant le cours, et d’inscription unique si le participant ne s’est inscrit qu’à un seul cours sur la plate-forme. Je parle de certifiés pour désigner les utilisateurs obtenant au moins un certificat sur la plate-forme FUN, à quelque date que ce soit, et de non-certifiés pour désigner les autres utilisateurs ; j’utilise le terme multi-certifiés pour désigner les participants obtenant plusieurs certificats sur la plate-forme.

Précisons que dans ce contexte, un certifié peut être à l’origine de nombreuses inscriptions improductives. Si une inscription à un cours donné correspond à une première inscription sur la plate-forme, cette inscription est dite primaire. Une inscription postérieure à une inscription primaire est qualifiée de secondaire. Nous dirons d’inscriptions multiples qu’elles sont superposées s’il existe une superposition de plus d’une journée entre les MOOC correspondant à des inscriptions multiples. Des inscriptions multiples réalisées au cours de la même journée seront qualifiées d’inscriptions groupées. Enfin, nous dirons d’une inscription qu’elle est précoce si elle a lieu avant le jour du lancement de la formation. Dans le cas contraire, nous dirons de l’inscription qu’elle est tardive.

Je suis régulièrement amené à mobiliser régulièrement deux notions ad hoc : la valeur réelle d’une inscription, et la valeur potentielle d’une inscription. La valeur réelle d’une inscription représente une estimation de la probabilité qu’une inscription donnée conduise à l’obtention d’un certificat ; nous parlerons par la suite de valeur d’une inscription pour désigner la valeur réelle d’une inscription. Cette estimation peut se baser tant sur des données autodéclarées, intentions, motivation, que sur des comportements observables comme le comportement d’inscription. La valeur d’une inscription reflète tous les paramètres susceptibles d’influencer sur la persistance l’obtention finale du certificat : nature de la motivation, capacités d’auto-régulation, intérêt pour le certificat, ou toute autre composante des modèles de persistance en formation.

Néanmoins, je ne cherche pas à utiliser cette notion dans une optique prédictive, l’objet n’est pas de produire un modèle prédictif dont la fonction est de discriminer les participants selon la probabilité qu’ils obtiennent le certificat. Je ne l’utilise pas tant comme un score absolu que comme un score relatif, permettant de comparer entre eux différents types d’inscriptions relativement à leur probabilité de déboucher sur un certificat. Si les inscriptions précoces correspondent statistiquement à une proportion plus élevée d’inscriptions productives que les inscriptions tardives, nous dirons que la valeur des inscriptions précoces est supérieure à celle des inscriptions tardives. Ce raisonnement ne prend pas en compte les différents niveaux d’implication dans le cours, ignore la participation aux activités optionnelles, et se cantonne la seule question de l’obtention du certificat. Tout raisonnement sur la valeur implique donc nécessairement de se baser sur des données de certification, et de pouvoir croiser ces données avec la variable explicative d’intérêt.

Ce croisement n’est pas toujours possible pour des raisons techniques d’une part, et peut se révéler d’un intérêt limité pour certains argumentaires d’autre part, ce qui va nous amener à introduire la notion de valeur potentielle. La valeur potentielle correspond à la probabilité pour un type d’inscrit donné de se déclarer déterminé à terminer la formation pour en obtenir l’éventuel certificat. Nous nous baserons uniquement sur les intentions déclarées en début de formation. Le lien entre intention déclarée et obtention du certificat étant statistiquement significatif (Reich et al., 2014 ; Greene et al., 2015), la valeur potentielle peut servir de proxy pour la valeur d’une inscription lorsque les données de certification ne sont pas accessibles, sans pour autant constituer un pis-aller. L’intérêt de la valeur potentielle est que son estimation est moins affectée par tous les éléments susceptibles d’affecter la persistance après la déclaration d’intention que ne peut l’être la valeur réelle de l’inscription : capacités d’auto-régulation, caractéristiques du dispositif, etc. Les périmètres d’application de ces deux notions sont donc sensiblement différents.

Je m’arrête ici pour aujourd’hui sur la question des données d’inscription, avec l’espoir que la constitution d’un vocabulaire commun facilitera la réflexion sur ces sujets passionnants.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>