À une époque où les décisions d’affaires sont de plus en plus axées sur les données, il devient essentiel de disposer d’une ou de plusieurs sources d’information pouvant être utilisées pour mettre en œuvre des stratégies et des processus d’affaires qui maximisent la productivité et le ROI (Retour sur Investissement).
Les entrepôts de données répondent à ce besoin en fournissant une base sur laquelle il est possible de travailler plus efficacement à l’aide d’outils de Business Intelligence. Analysons donc ce type particulier de systèmes et essayons de comprendre pourquoi ils sont également avantageux lorsqu’il s’agit de gérer de grandes quantités de données.
Entrepôt de données: qu’est-ce que c’est
Dans le domaine de la gestion des données, les entrepôts de données sont des systèmes de soutien à la Business Intelligence qui permettent d’effectuer des procédures d’analyse approfondie et des processus de prise de décision sur la base des données.
Les informations qu’ils contiennent peuvent provenir de différentes sources. Ainsi, les entrepôts de données présentent souvent des données historiques, des données dérivées de l’activité de l’entreprise (ou données opérationnelles), des données provenant de sources externes, des données générées par le fonctionnement d’applications, des fichiers journaux et autres, le tout concentré dans une collection centralisée.
En tout état de cause, ces systèmes ne sont pas conçus pour le traitement, il ne faut donc pas les confondre avec les bases de données, mais pour offrir des réponses à des requêtes, ou des interrogations (query). C’est pourquoi, lorsque nous parlons d’entrepôts de données, nous faisons également référence à des bases de données accessibles en lecture seule.
Du point de vue de la composition, ils ne se présentent pas comme des structures monolithiques et comportent certains éléments nécessaires à leur fonctionnement, tels que:
- un SGBDR (Système de Gestion de Bases de Données Relationnelles) avec lequel gérer les processus du stockage et d’interrogation des données;
- des outils ELT (Extract, Load, Transform) avec lesquels on peut extraire, charger et transformer des données en vue de leur analyse;
- des outils d’Exploration de Données pour permettre et faciliter l’extraction de données;
- des applications pour l’Analyse des Données;
- des outils permettant de produire des rapports;
- des plateformes de présentation des données.
Avec l’avancée des technologies d’Intelligence Artificielle et la disponibilité croissante des Big Data, les algorithmes de formation des modèles d’Apprentissage Automatique pour l’analyse, ainsi que les outils capables de fournir différentes représentations graphiques des données générées selon différents critères d’analyse, ont également gagné en importance.
William H. Inmon, considéré comme le père de l’entrepôt de données et l’un des plus grands experts mondiaux en matière de conception d’entrepôts de données, affirme que ces systèmes doivent être en même temps:
- orientés objet, c’est-à-dire qui permettent d’analyser les données en fonction de thèmes spécifiques.
- non volatiles, c’est-à-dire capables de garantir la stabilité et la non-modifiabilité des données.
- intégrés, c’est-à-dire conçus pour générer de la cohérence malgré les différents types de données gérées et leurs multiples sources;
- variables dans le temps, ce qui permet d’identifier les mises à jour qui ont affecté les données au cours de leur historique.
On comprend donc l’utilité des entrepôts de données, tant pour le stockage que pour la valorisation des données.
Exemples d’architecture d’un entrepôt de données
Il n’existe pas d’architecture unique pour les entrepôts de données mais plusieurs variantes développées en fonction des besoins de l’entreprise ou de toute autre réalité souhaitant exploiter ces systèmes particuliers de collecte et d’analyse de données. Il est toutefois possible de décrire certaines architectures couramment utilisées:
Bac à sable
Il s’agit d’une architecture basée sur la création de zones privées qui garantissent un haut niveau de protection et de sécurité des données.
Grâce à elles, les informations stockées peuvent être explorées plus rapidement car les obligations de se conformer aux protocoles de l’entrepôt de données ou à ses règles formelles ne manquent pas.
Une architecture simple
Contrairement à ce qui se passe avec le bac à sable, elle prévoit un dépôt central unique dans lequel toutes les données, quel que soit leur type (données brutes, métadonnées, résumés, etc.) et leur source, circulent ensemble.
L’accès est également accordé à tous les utilisateurs qui, entre autres, peuvent utiliser les données pour l’exploration des données, l’analyse et la création de rapports.
Architecture simple avec une zone de gestion temporaire
Dans ce cas, les données ne sont stockées via le Data Warehouse qu’après avoir été sélectionnées, débarrassées des informations non pertinentes et prétraitées.
D’où la nécessité de définir une zone de gestion temporaire pour la préparation des données avant leur introduction dans le système, en alternative à laquelle il est encore possible de nettoyer et de traiter les informations en phase de programmation.
Moyeu et rayons
Une architecture caractérisée par la présence d’un Data Mart, c’est-à-dire une base de données structurée contenant un sous-ensemble de données concernant un certain sujet.
Généralement, un Data Mart est représenté par une section d’un Data Warehouse et est utilisé pour des besoins spécifiques, comme la nécessité de gérer les données d’un seul département de l’entreprise (marketing, ventes, administration, etc.).
Le Data Mart agit comme un niveau intermédiaire entre le référentiel et les utilisateurs, de sorte que les données n’y affluent que lorsqu’elles sont prêtes à être utilisées. Il est évident que plusieurs data marts peuvent être associés à un seul système.
Comment alimenter un entrepôt de données?
D’où proviennent les données qui sont stockées via l’entrepôt de données? En principe, il est possible de distinguer les sources utilisées entre les sources internes et externes.
Si l’on prend l’exemple de la réalité d’une entreprise structurée, les sources de données internes sont par exemple les bases de données, les CMS (Content Management System) utilisés pour la gestion du contenu, les ERP (Enterprise Resource Planning) auxquels il est fait référence pour les fonctions et les processus commerciaux, ainsi que les CRM (Customer Relationship Management) pour la gestion de la relation client.
De même, les messages électroniques et tout type de fichier produit dans le cadre des activités d’une organisation peuvent également être considérés comme des données internes.
Les sources de données externes, quant à elles, comprennent les services externalisés, tels que ceux fournis par les infrastructures de cloud computing, mais aussi les plateformes tierces telles que les réseaux sociaux et les sites web des fournisseurs.
Dans la même catégorie, il est possible d’inclure toutes les applications externes avec lesquelles l’entreprise doit interagir pour son travail, comme, par exemple, les agences de l’activité financière qui, via des services Web, connectent leurs CMR à ceux de l’établissement de crédit avec lequel elles opèrent.
Business Intelligence et entrepôts de données
Les entrepôts de données peuvent jouer un rôle important dans le soutien à la Business Intelligence car ils aident à prendre des décisions rationnelles basées sur des données. En effet, ils représentent une source d’informations historiques et opérationnelles qui, lorsqu’elles sont utilisées pour l’analyse, permettent d’identifier les tendances, d’anticiper les changements du marché et d’adapter les stratégies, les budgets et les investissements sur la base d’évaluations et de prévisions précises.
Afin d’exploiter au mieux les données mises à disposition par le Data Warehouse, il est nécessaire de développer des compétences analytiques, notamment en suivant une formation spécifique telle que le Business Data Analysis Master de Talent Garden.
Le master est spécialement conçu pour acquérir des compétences approfondies sur le fonctionnement des entreprises axées sur les données. Dédié aux Sales Managers, Marketing Managers, Product Managers et Analystes ayant au moins 3 ans d’expérience professionnelle, il est divisé en quatre week-ends de sessions d’apprentissage en ligne en direct et deux week-ends de cours en personne au Talent Garden Calabiana Campus à Milan, rendez-vous au cours desquels découvrir tous les aspects de l’utilisation des données dans la définition des stratégies d’entreprise.
Conclusions
Les entrepôts de données sont des systèmes qui permettent de répartir des données provenant de différentes sources afin de fournir des informations utiles à la prise de décision. Il existe différentes structures de Data Warehouse, il appartient donc aux professionnels du domaine de sélectionner et de gérer celles qui sont les plus adaptées à leur organisation et au support de la Business Intelligence.