Pour citer cet article :
Freund Rebecca, Beauné Aurélie, Khaneboubi Mehdi et Baron Georges-Louis (2012). Analyse de données et logiciels : quelques pistes de réflexion. Adjectif.net [En ligne] http://www.adjectif.net/spip/spip.php?article172
Résumé :
Les logiciels de traitement de données sont nombreux et puissants. Désormais, toute recherche à caractère empirique y a recours. Ils permettent de repérer un ordre dans ce qui semble à l’œil nu un fatras, d’identifier des relations entre variables, des liaisons statistiques, de conduire des tests statistiques. On les utilise en particulier massivement dans le cadre d’approches qualitatives où le matériau travaillé est un texte, une transcription d’entretien par exemple. L’utilisation de ces logiciels demande une certaine compréhension du processus réalisé. Surtout, ils font uniquement partie d’une étape préalable à l’importante question de l’interprétation des résultats.
Mots clés :
International, Logiciels d’analyse, Logiciels libres
Face à la prolifération d’outils de traitement des données d’enquête ainsi qu’aux discours promotionnels, il n’est pas très facile de s’y retrouver. Voici un échantillon de références générales.
On présentera par la suite trois outils d’analyses statistiques qui n’illustrent pas nécessairement toute la variété des outils, mais qui sont puissants et utilisés par diverses communautés de chercheurs. Nous n’aborderons donc pas dans cette contribution plusieurs autres produits qui sont très utilisés dans le monde la recherche, en particulier ALCESTE [1] pour l’analyse de textes (avec sa variante libre IRAMUTEQ [2]), SPHINX [3] et NVIVO [4], très employé aux États-Unis.
Cette présentation constitue une première présentation de logiciels couramment utilisés dans les milieux universitaires. Ces trois logiciels sont disponibles pour Windows, MacOs et Linux. Il est n’est sans doute pas inutile de rappeler ici que, quel que soit le logiciel utilisé, quatre grandes étapes jalonnent le processus d’analyse de données : l’importation des données, leurs toilettages, l’analyse statistique et l’interprétation des résultats.
Un logiciel libre : R
Similaire au langage de programmation S développé dans les laboratoires Bell, R est un langage et un logiciel de traitement statistique qui fait partie des projets GNU (acronyme récursif signifiant : Gnu’s Not Unix) lancés par Richard Stallman en 1984 qui manifestait la possibilité d’échanger des programmes librement et légalement (voir la page Wikipédia dédiée). Du point de vue du traitement statistique, R permet de réaliser toutes les analyses et représentations graphiques imaginables, les fonctions statistiques sont up to date, ouvertes et soumises à un processus de validation par les pairs. Il est intéressant de signaler que les logiciels SAS, Statistica ou SPSS intègrent R dans leurs interfaces.
La prise en main de R n’est pas nécessairement évidente, mais il existe de nombreuses communautés actives permettant de parer aux difficultés rencontrées lors des premières utilisations. On citera :
On trouvera des ressources en anglais notamment sur le site d’aide Stack Overflow, sur la liste de discussion officielle R help, et/ou avec le hashtag #rstats sur twitter.
Dans sa forme minimale, le logiciel R se présente sous la forme d’une console presque nue, mais il existe différentes interfaces graphiques permettant de faciliter les premières manipulations :
Si l’apprentissage de R, proche de celui d’un langage de programmation, a tendance à effrayer les novices, R reste un des logiciels de traitement statistique les plus utilisé grâce à la variété des analyses possible et la simplicité de la manipulation des données.
Deux logiciels propriétaires très répandus
SPSS
Le logiciel SPSS est un des plus populaires pour le traitement des données. Créé en 1968, SPSS est très puissant et dispose d’un très grand nombre de fonctions statistiques. Il est disponible en plusieurs versions avec des fonctions spécialisées. Comme il est très populaire, il y a beaucoup de tutoriels disponibles, dont la plupart sont en anglais. On peut citer, parmi les tutoriels :
Modalisa
La première version de Modalisa, sortie en 1987, avait été baptisée « Sherlock » [5] : l’ambition était de constituer un outil accessible tant aux informaticiens qu’aux néophytes en matière d’informatique ou de statistiques et il a été réédité par Philippe Chappot et Jean-Luc Van Impe.
Il permet de gérer les réponses quantitatives et qualitatives des enquêtes : les données peuvent être inventoriées en fonction de trois catégories couvrant les questions fermées, les questions à choix multiples ou celles ouvertes (réponse unique, réponses multiples, texte). On peut ensuite visualiser les résultats de l’analyse au moyen de courbes et de graphiques diversifiés (histogrammes, camemberts, boîtes à moustache, etc). Le logiciel permet des tris croisés et comporte beaucoup de fonctions qui sont détaillées en ligne sur le site de Modalisa dans la rubrique Logiciel. La rubrique « ressources » de ce même site comporte plusieurs tutoriels non animés.
On mentionnera donc finalement une série de six tutoriels vidéos assez clairs et d’une durée moyenne de cinq minutes, accessibles en ligne sur YouTube, qui présentent une version un peu ancienne mais dont les bases restent assez similaires :
Modalisa présente l’originalité de mettre à disposition des utilisateurs des fonctions issues des écoles statistiques françaises comme le pourcentage d’écart maximal pour le test de khi deux de contingence, ou l’analyse factorielle des correspondances.
Comme nous l’avons déjà dit, bien d’autres systèmes existent, chacun ayant des fonctionnalités propres et des possibilités spécifiques. On citera par exemple le logiciel libre et gratuit Gretl spécialisé dans le traitement de séries chronologiques. Le plus important, sans doute, est d’utiliser un produit courant dans le laboratoire ou le milieu où on travaille, afin de pouvoir bénéficier de ressources et s’inscrire dans une communauté de pratique. Il convient d’utiliser ces logiciels avec parcimonie et à bon escient, en se concentrant sur les types de traitement que l’on maîtrise suffisamment. L’enjeu est d’être ensuite capable d’interpréter correctement les résultats obtenus.