Objectifs de la formation
Comprendre le métier d’architecte de données : ses liens avec le Data Office et avec l’équipe informatique, son rôle dans la mise en place d’une gouvernance, et dans le respect des conformités
Comparer les données, les traitements, les modèles et les architectures de données : de l’entrepôt de données à la modern data stack
Détailler chaque schéma d’architecture, les formes de modélisation adaptées, les outils qui le composent, et l’illustrer d’une étude de cas
Comprendre l’ensemble du cycle de vie des données, connaître et choisir les outils qui interviennent à chaque étape
Informations Pratiques
Séminaire également proposé via le catalogue Capgemini Institut
Durée : 3 jours
Formateur : Philippe Nieuwbourg
Pour en savoir plus : contactez-moi !
Programme de la formation
1ère partie : Architectures et architectes
Le métier d’architecte de données
Liste de ses tâches – Fiches de postes
Les différents « architectes » (applications, données, système, technique, informatique, d’entreprise…)
Points d’interaction avec les autres métiers du Data Office (CDO…)
De l’application à la donnée : la Data Gravity
Les livrables
2ème partie : Typologie et formats de données
Carte mentale des données d’entreprise
Matrice multidimensionnelle de classement des types de données
Structure, accessibilité (ouvertes, lisibles, chiffrées, anonymisées…), origine (données métiers, données techniques), température de stockage (froides, tièdes, chaudes), utilisation
Les métadonnées derrière chaque donnée (de structure, d’exécution)
Cycle de vie de la donnée, traitements et outils
Rôle du catalogue de données
3ème partie : Modélisation des données
Modélisation vs non-modélisation
Les formes de modélisation : Relationnelle, Graphe, Multidimensionnelle, Colonnes, Documents, Clefs-valeurs
Domain Driven Design (DDD)
4ème partie : Cas d’applications et architectures types
Pour chacun des modèles ci-dessous, détaillons schéma d’architecture, technologies utilisées, cas d’application, et avantages / inconvénients de chaque architecture.
Architecture d’un système opérationnel centralisé vs fédéralisé - le Domain Driven Design
Architecture d’un système décisionnel centralisé (autour d’un data warehouse)
Architecture d’un système de type Data Vault
Architecture d’un système décisionnel orienté métiers - le Data Mesh
Architecture d’un système Big Data autour du Data Lake
Architecture de préparation des données pour l’Intelligence Artificielle (Machine Learning et IA générative)
Identification, traitement et stockage des données d'entraînement
Architecture globale d’un plate-forme de données (Data Hub, Data Fabric…) sous plusieurs variantes
Modern Data Stack : composants et positionnement
Architecture globale d’une plateforme IoT (Internet des Objets)
5ème partie : Architectures matérielles
Les serveurs dédiés au stockage de données
Les puces GPU pour le calcul, DPU (Data Processing Unit) et IPU (Infrastructure Processing Unit), les grappes de données (clusters)
Panorama des solutions cloud de plateformes de données
Stockage et conformité : La notion de « cloud souverain »
Cloud, on-premise, hybride, ou edge
Mapper schéma d’architecture et choix d’hébergement
Température des données
Les principales technologies (mémoire, disque SSD, disque dur, Hadoop, Amazon Glacier…) et automatisation des mouvements de données en fonction de leur température
Stratégies de sauvegarde et restauration
Sécurité des données (physique et logicielle)
Sécurité des données et des transactions : Chiffrement, Authentification, Autorisations, Gestion des accès à privilèges
Gestion d’une sécurité de bout en bout
6ème partie : Architectures logicielles
Panorama des bases de données opérationnelles et décisionnelles
Bases de données graphes (Neo4j) et in-memory
Plateformes combinant plusieurs types de données (Snowflake, Databricks…)
Impact du Low-code / No-Code
Bases de données partagées – Database as a Service (DBaaS)
Virtualisation des données (Denodo, TIBCO, Informatica…)
Les architectures d’alimentation :
ETL vs ELT, ESB (Enterprise Service Bus), CDC (Change Data Capture), API (Interfaces de Programmation d’Applications)
Passer du traitement par lots aux flux de données en temps réel
Le cas des objets connectés (IoT)
Intégrité, consistance et gestion des versions
Gestion des données de référence – Master Data Management (MDM)
Sélectionner ses données de référence
Les collecter, les stocker, et les exposer
Panorama des solutions de Master Data Management
La Business Intelligence (BI)
Du reporting à la BI en libre-service
Prévenir, identifier, traiter et intégrer l’informatique fantôme (Shadow IT)
Notion de disponibilité
Répartition, affectation de quotas, priorisation de services, équilibrage automatique…
Bâtir un contrat de service (SLA) interne - Data Mesh et Data Contracts
Mise en production : du DevOps au DataGovSecOps…
7ème partie : Architectures de service
Formes d’hébergement et solutions du marché (Amazon S3, Google Cloud Platform, Microsoft Azure…)
Migrer ses données vers le cloud – solutions logicielles et matérielles (Amazon Snowball…)
Critères de choix d’un prestataire
Dans quels cas rester hébergé en interne
8ème partie : Gouvernance des données
Pas de gouvernance sans métadonnées
9ème partie : coûts et retour sur investissement (ROI)
Budgétisation et mesure des coûts d’un hébergement hybride
Le Finops, contrôleur de gestion de l’architecture de données
Impact de l’architecture sur la valorisation des données : outils de mesure
Participation au reporting CSRD (Comptabilité carbone)
10ème partie : Réglementaire, normes et conformité
Sur quelles normes s’appuyer pour construire son architecture de données
DMBOK, le travail de l’association DAMA, Cobit 2019, ISO 24143 - la norme de gouvernance en devenir, ISO 8000 - Qualité des données…
Contraintes règlementaires applicables aux architectures de données
Sécurité : prévention des pertes / vols de données
Data Act, Digital Act, Data Governance Act… réglementations européennes actuelles et futures
Focus RGPD
Place du registre des traitements dans l’architecture
Position et gestion de la base des consentements