Guide complet de l'examen PL-300 - Power BI Data Analyst
Vue d'ensemble de la certification
L'examen PL-300 évalue vos compétences en tant qu'analyste de données Power BI. Cette certification reconnaît votre capacité à concevoir et déployer des solutions d'analyse avec Power BI, incluant la préparation des données, la modélisation, la visualisation et la sécurisation des ressources.
1. Préparer les données (25-30%)
1.1 Obtenir ou se connecter aux données
Identifier et se connecter à des sources de données ou à un modèle sémantique partagé
Power BI permet de se connecter à une multitude de sources de données : fichiers Excel, bases SQL Server, services cloud, API web, etc. Un modèle sémantique partagé est un dataset publié dans le service Power BI que plusieurs rapports peuvent réutiliser.
Points clés :
Utiliser "Obtenir des données" pour accéder aux connecteurs Comprendre la différence entre connexion en direct et import Savoir naviguer dans les sources de données disponibles Changer les paramètres de source de données
Les paramètres incluent les informations d'identification (authentification), les niveaux de confidentialité qui déterminent comment Power BI peut combiner les données de sources différentes, et les chaînes de connexion.
Niveaux de confidentialité :
Public : données accessibles à tous Organisationnel : données visibles dans l'organisation Privé : données confidentielles isolées Choisir entre DirectQuery et Import
Import : les données sont stockées dans le modèle Power BI, permettant des performances rapides mais nécessitant des actualisations périodiques.
DirectQuery : les requêtes sont envoyées directement à la source en temps réel, idéal pour les données qui changent constamment ou les très grands volumes.
Cas d'usage :
Import : données historiques, petits à moyens volumes DirectQuery : données temps réel, très grands volumes, restrictions de sécurité Créer et modifier des paramètres
Les paramètres permettent de créer des connexions flexibles et réutilisables. Ils peuvent contrôler des chemins de fichiers, des filtres, ou des valeurs dans les requêtes M.
Exemple d'utilisation :
Basculer entre environnements (dev/prod) Filtrer dynamiquement les données Créer des rapports paramétrables 1.2 Profiler et nettoyer les données
Évaluer les données
L'évaluation inclut l'analyse des statistiques (min, max, moyenne, écart-type) et des propriétés des colonnes (type de données, nombre de valeurs distinctes, valeurs nulles).
Outils disponibles :
Qualité des colonnes (% de valeurs valides/erreurs/vides) Distribution des colonnes (histogramme des valeurs) Profil des colonnes (statistiques détaillées) Résoudre les incohérences et problèmes de qualité
Les problèmes courants incluent :
Valeurs null : décider de les remplacer, supprimer ou conserver Valeurs inattendues : détecter les anomalies avec les statistiques Incohérences : variations d'orthographe, formats différents Doublons : identifier et supprimer les lignes en double Techniques de nettoyage :
Corriger les types de données Normaliser le texte (majuscules/minuscules) Résoudre les erreurs d'importation
Les erreurs peuvent survenir lors de changements de schéma, problèmes de connexion, ou types de données incompatibles.
Solutions :
Vérifier les étapes appliquées dans Power Query Actualiser les métadonnées Corriger les transformations qui causent des erreurs 1.3 Transformer et charger les données
Sélectionner les types de données appropriés
Les types de données influencent la taille du modèle et les performances. Choisir le bon type évite des conversions coûteuses.
Types principaux :
Texte, Nombre entier, Nombre décimal Créer et transformer des colonnes
Power Query offre de nombreuses transformations :
Ajouter une colonne personnalisée : formules M Extraire : parties de texte (premiers caractères, derniers, plage) Fractionner : diviser une colonne par délimiteur ou position Format : majuscules, minuscules, première lettre en majuscule Dupliquer/Supprimer colonnes Grouper et agréger des lignes
L'agrégation résume les données en groupes avec des opérations comme somme, moyenne, compte, min, max.
Exemple : regrouper les ventes par client et calculer le total des achats par client.
Pivoter, dépivoter et transposer
Pivoter : transformer des lignes en colonnes Dépivoter : transformer des colonnes en lignes (normalisation) Transposer : inverser lignes et colonnes Ces opérations permettent de restructurer les données pour l'analyse.
Convertir des données semi-structurées en table
Les données JSON, XML ou imbriquées doivent être aplaties pour devenir tabulaires. Power Query peut développer les enregistrements et listes imbriqués.
Créer des tables de faits et dimensions
Table de faits : contient les mesures quantitatives (ventes, quantités) avec des clés étrangères vers les dimensions.
Table de dimension : contient les attributs descriptifs (produits, clients, dates) avec une clé primaire.
Cette structure en étoile ou flocon optimise les requêtes et l'analyse.
Requêtes de référence vs dupliquées
Référence : pointe vers une autre requête, économise de la mémoire mais dépend de la source Dupliquée : copie indépendante, utile pour créer des variantes sans affecter l'original Impact :
Référence : modifications propagées automatiquement Dupliquée : isolation complète Fusionner et ajouter des requêtes
Fusionner (Merge) : jointure entre tables (gauche, droite, complète, interne) Ajouter (Append) : empiler des tables avec la même structure Équivalent aux JOIN et UNION en SQL.
Identifier et créer des clés pour les relations
Les clés doivent être uniques dans la table de dimension. Les clés étrangères dans la table de faits référencent ces clés primaires.
Bonnes pratiques :
Clés simples (une colonne) de préférence Types de données identiques Aucune valeur null dans les clés Configurer le chargement des requêtes
Contrôler quelles requêtes sont chargées dans le modèle :
Désactiver le chargement pour les requêtes intermédiaires Activer le chargement uniquement pour les tables finales Cela réduit la taille du modèle et améliore les performances.
2. Modéliser les données (25-30%)
2.1 Concevoir et implémenter un modèle de données
Configurer les propriétés de table et colonne
Propriétés de table :
Table cachée (masquée des rapports) Propriétés de colonne :
Résumé par défaut (somme, moyenne, ne pas résumer) Catégorie de données (géographie, URL, image) Trier par une autre colonne Implémenter des dimensions de rôle actif
Une dimension de rôle actif permet d'utiliser la même table de dimension dans plusieurs rôles. Exemple : une table Date utilisée pour "Date de commande" et "Date de livraison".
Solution :
Créer plusieurs relations entre les mêmes tables Une seule relation peut être active à la fois Utiliser USERELATIONSHIP() dans DAX pour activer les relations inactives Définir la cardinalité et direction du filtre croisé
Cardinalités :
Un-à-plusieurs (1:*) : le plus courant (dimension vers fait) Plusieurs-à-un (*:1) : inverse de 1:* Un-à-un (1:1) : rare, tables directement liées Plusieurs-à-plusieurs (:) : nécessite une table de jonction