Support formation Rapports Power BI

Préparation PL-300

Guide complet de l'examen PL-300 - Power BI Data Analyst

Vue d'ensemble de la certification

L'examen PL-300 évalue vos compétences en tant qu'analyste de données Power BI. Cette certification reconnaît votre capacité à concevoir et déployer des solutions d'analyse avec Power BI, incluant la préparation des données, la modélisation, la visualisation et la sécurisation des ressources.

1. Préparer les données (25-30%)

1.1 Obtenir ou se connecter aux données

Identifier et se connecter à des sources de données ou à un modèle sémantique partagé

Power BI permet de se connecter à une multitude de sources de données : fichiers Excel, bases SQL Server, services cloud, API web, etc. Un modèle sémantique partagé est un dataset publié dans le service Power BI que plusieurs rapports peuvent réutiliser.
Points clés :
Utiliser "Obtenir des données" pour accéder aux connecteurs
Comprendre la différence entre connexion en direct et import
Savoir naviguer dans les sources de données disponibles

Changer les paramètres de source de données

Les paramètres incluent les informations d'identification (authentification), les niveaux de confidentialité qui déterminent comment Power BI peut combiner les données de sources différentes, et les chaînes de connexion.
Niveaux de confidentialité :
Public : données accessibles à tous
Organisationnel : données visibles dans l'organisation
Privé : données confidentielles isolées

Choisir entre DirectQuery et Import

Import : les données sont stockées dans le modèle Power BI, permettant des performances rapides mais nécessitant des actualisations périodiques.
DirectQuery : les requêtes sont envoyées directement à la source en temps réel, idéal pour les données qui changent constamment ou les très grands volumes.
Cas d'usage :
Import : données historiques, petits à moyens volumes
DirectQuery : données temps réel, très grands volumes, restrictions de sécurité

Créer et modifier des paramètres

Les paramètres permettent de créer des connexions flexibles et réutilisables. Ils peuvent contrôler des chemins de fichiers, des filtres, ou des valeurs dans les requêtes M.
Exemple d'utilisation :
Basculer entre environnements (dev/prod)
Filtrer dynamiquement les données
Créer des rapports paramétrables

1.2 Profiler et nettoyer les données

Évaluer les données

L'évaluation inclut l'analyse des statistiques (min, max, moyenne, écart-type) et des propriétés des colonnes (type de données, nombre de valeurs distinctes, valeurs nulles).
Outils disponibles :
Qualité des colonnes (% de valeurs valides/erreurs/vides)
Distribution des colonnes (histogramme des valeurs)
Profil des colonnes (statistiques détaillées)

Résoudre les incohérences et problèmes de qualité

Les problèmes courants incluent :
Valeurs null : décider de les remplacer, supprimer ou conserver
Valeurs inattendues : détecter les anomalies avec les statistiques
Incohérences : variations d'orthographe, formats différents
Doublons : identifier et supprimer les lignes en double
Techniques de nettoyage :
Remplacer les valeurs
Supprimer les doublons
Corriger les types de données
Normaliser le texte (majuscules/minuscules)

Résoudre les erreurs d'importation

Les erreurs peuvent survenir lors de changements de schéma, problèmes de connexion, ou types de données incompatibles.
Solutions :
Vérifier les étapes appliquées dans Power Query
Actualiser les métadonnées
Corriger les transformations qui causent des erreurs

1.3 Transformer et charger les données

Sélectionner les types de données appropriés

Les types de données influencent la taille du modèle et les performances. Choisir le bon type évite des conversions coûteuses.
Types principaux :
Texte, Nombre entier, Nombre décimal
Date, Date/Heure
Booléen (Vrai/Faux)
Binaire

Créer et transformer des colonnes

Power Query offre de nombreuses transformations :
Ajouter une colonne personnalisée : formules M
Extraire : parties de texte (premiers caractères, derniers, plage)
Fractionner : diviser une colonne par délimiteur ou position
Format : majuscules, minuscules, première lettre en majuscule
Dupliquer/Supprimer colonnes

Grouper et agréger des lignes

L'agrégation résume les données en groupes avec des opérations comme somme, moyenne, compte, min, max.
Exemple : regrouper les ventes par client et calculer le total des achats par client.

Pivoter, dépivoter et transposer

Pivoter : transformer des lignes en colonnes
Dépivoter : transformer des colonnes en lignes (normalisation)
Transposer : inverser lignes et colonnes
Ces opérations permettent de restructurer les données pour l'analyse.

Convertir des données semi-structurées en table

Les données JSON, XML ou imbriquées doivent être aplaties pour devenir tabulaires. Power Query peut développer les enregistrements et listes imbriqués.

Créer des tables de faits et dimensions

Table de faits : contient les mesures quantitatives (ventes, quantités) avec des clés étrangères vers les dimensions.
Table de dimension : contient les attributs descriptifs (produits, clients, dates) avec une clé primaire.
Cette structure en étoile ou flocon optimise les requêtes et l'analyse.

Requêtes de référence vs dupliquées

Référence : pointe vers une autre requête, économise de la mémoire mais dépend de la source
Dupliquée : copie indépendante, utile pour créer des variantes sans affecter l'original
Impact :
Référence : modifications propagées automatiquement
Dupliquée : isolation complète

Fusionner et ajouter des requêtes

Fusionner (Merge) : jointure entre tables (gauche, droite, complète, interne)
Ajouter (Append) : empiler des tables avec la même structure
Équivalent aux JOIN et UNION en SQL.

Identifier et créer des clés pour les relations

Les clés doivent être uniques dans la table de dimension. Les clés étrangères dans la table de faits référencent ces clés primaires.
Bonnes pratiques :
Clés simples (une colonne) de préférence
Types de données identiques
Aucune valeur null dans les clés

Configurer le chargement des requêtes

Contrôler quelles requêtes sont chargées dans le modèle :
Désactiver le chargement pour les requêtes intermédiaires
Activer le chargement uniquement pour les tables finales
Cela réduit la taille du modèle et améliore les performances.

2. Modéliser les données (25-30%)

2.1 Concevoir et implémenter un modèle de données

Configurer les propriétés de table et colonne

Propriétés de table :
Nom, description
Table cachée (masquée des rapports)
Dossier d'affichage
Propriétés de colonne :
Type de données, format
Résumé par défaut (somme, moyenne, ne pas résumer)
Catégorie de données (géographie, URL, image)
Colonne cachée
Trier par une autre colonne

Implémenter des dimensions de rôle actif

Une dimension de rôle actif permet d'utiliser la même table de dimension dans plusieurs rôles. Exemple : une table Date utilisée pour "Date de commande" et "Date de livraison".
Solution :
Créer plusieurs relations entre les mêmes tables
Une seule relation peut être active à la fois
Utiliser USERELATIONSHIP() dans DAX pour activer les relations inactives

Définir la cardinalité et direction du filtre croisé

Cardinalités :
Un-à-plusieurs (1:*) : le plus courant (dimension vers fait)
Plusieurs-à-un (*:1) : inverse de 1:*
Un-à-un (1:1) : rare, tables directement liées
Plusieurs-à-plusieurs (:) : nécessite une table de jonction
Want to print your doc?
This is not the way.
Try clicking the ⋯ next to your doc name or using a keyboard shortcut (
CtrlP
) instead.