Plusieurs tâches (3/6) Traiter des données

Le traitement de données consiste à rassembler des données sous une forme utilisable dans l'analyse. Durant cette phase, il est généralement nécessaire d'écrire rapidement des programmes spécifiques.

Chaque statisticien utilise ses propres outils (et quelques secrets...) et doit pouvoir s'adapter au contexte opérationnel. Bases de données SQL, fichiers plats "csv", XML, middleware, etc. Les opérations classiques sont des agrégations spatiales ou temporelles, des jointures selon une ou plusieurs clés, le codage ou recodage de facteurs.

Cette phase comporte souvent une partie "design" de l'architecture des données la mieux adaptée à la suite des opérations. Une mauvaise architecture compliquera ensuite énormément le travail.

Cette phase demande à la fois de bonnes connaissances informatiques, expérience, minutie et concentration. Il faut savoir identifier rapidement les bugs, les erreurs dans les données ou données manquantes, les cas particuliers non prévus, etc.