Gestion flexible des sources de données dans Power BI avec MySQL

📆 Publié le 7 févr. 2025

5 min de lecture

par Macktireh

Gestion flexible des sources de données dans Power BI avec MySQL

Table des matières

Introduction
Problématiques rencontrées
- 1. Problèmes de connectivité
- 2. Performance et volume de données
Solution mise en place
Implémentation technique
Conclusion

Introduction

Dans le cadre d’un projet client sur lequel je travaille actuellement (au moment de l’écriture de cet article), nous avons été confrontés à un défi passionnant : concevoir un tableau de bord Power BI connecté à une base de données MySQL contenant des millions de lignes. Cette expérience nous a permis de développer une solution efficace pour adapter les sources de données en fonction de l’environnement de travail. Dans cet article, je vous expliquerai les étapes de mise en place de cette solution, en abordant les problématiques rencontrées et les solutions mises en place.

Problématiques rencontrées

1. Problèmes de connectivité

Après l’installation du driver MySQL pour Power Query, nous avons rencontré des difficultés de connexion liées à la configuration du pare-feu sur le poste professionnel du client. Fait intéressant, la connexion fonctionnait parfaitement depuis mon ordinateur personnel et lors de l’actualisation des rapports dans le service Power BI.

2. Performance et volume de données

La base de données contenait plusieurs millions de lignes, rendant le chargement local des données particulièrement chronophage. Cette situation nécessitait une approche alternative pour optimiser les performances en environnement de développement.

Solution mise en place

1. Architecture de la solution

Pour résoudre ces problèmes, nous avons développé une approche hybride :

En environnement local (Power BI Desktop) : utilisation de fichiers CSV stockés sur SharePoint
En production (Power BI Service) : connexion directe à la base de données MySQL

2. Préparation des données

Pour simplifier le développement en local, nous avons d’abord rédigé la requête SQL permettant d’extraire les données nécessaires. Ensuite, nous avons conçu un script Python qui se connecte à la base de données, exécute la requête, exporte les résultats au format CSV, puis nous avons déposé les fichiers sur un site SharePoint.

3. Configuration des paramètres

Nous avons mis en place cinq paramètres permettant de gérer dynamiquement les sources de données :

Paramètres Power Query pour la gestion des sources de données

ENVIRONMENT : choix entre LOCAL et PRODUCTION
URL_CSV_FILE : lien vers le fichier CSV
MySQL_HOSTNAME : nom d’hôte MySQL
MySQL_DATABASE_NAME : nom de la base de données
MySQL_QUERY : requête SQL préconstruite

Implémentation technique

1. Variable dynamique de détection d’environnement

Nous avons créé une variable dynamique booléenne IS_PRODUCTION qui simplifie la détection de l’environnement :

1
let
2
    Source = Text.Contains(Text.Upper(ENVIRONMENT), "PROD")
3
in
4
    Source

Cette variable retourne automatiquement :

True si le paramètre ENVIRONMENT contient “PROD”
False dans tous les autres cas

Cette approche nous permet d’utiliser simplement IS_PRODUCTION dans nos conditions plutôt que de réécrire la formule complète Text.Contains(Text.Upper(ENVIRONMENT), "PROD") à chaque fois.

2. Fonction GetData

Nous avons créé une fonction Power Query nommée GetData, permettant de récupérer les données depuis MySQL en production et depuis un fichier CSV en local.

1
let
2
    GetData = (NumberColumnsCSV as number, MySQLQuery as text) =>
3
        let
4
            CsvSource = Csv.Document(
5
                Web.Contents(URL_CSV_FILE),
6
                [
7
                    Delimiter = ",",
8
                    Columns = NumberColumnsCSV,
9
                    Encoding = 1252,
10
                    QuoteStyle = QuoteStyle.None
11
                ]
12
            ),
13
            CsvPromotedHeaders = Table.PromoteHeaders(CsvSource, [PromoteAllScalars = true]),
14

15
            SourceMySQL = MySQL.Database(
16
                MySQL_HOSTNAME,
17
                MySQL_DATABASE_NAME,
18
                [
19
                    ReturnSingleDatabase = true,
20
                    Query = MySQLQuery,
21
                    CreateNavigationProperties = false
22
                ]
23
            ),
24
            Result = if IS_PRODUCTION then SourceMySQL else CsvPromotedHeaders
25
        in
26
            Result
27
in
28
    GetData

Cette fonction réalise trois opérations essentielles :

Chargement des données locales :
- Récupère un fichier CSV depuis une URL
- Utilise un délimiteur de virgule
- Spécifie le nombre de colonnes
- Gère l’encodage et le style de citation
- Promeut automatiquement la première ligne comme en-têtes
Connexion à la base de données :
- Établit une connexion à MySQL en production
- Exécute une requête SQL personnalisée
- Récupère les données directement depuis la base
Sélection dynamique de la source :
- Bascule automatiquement entre CSV local et base MySQL
- Utilise la variable IS_PRODUCTION comme critère de sélection

3. Utilisation de la Fonction GetData

Pour utiliser la fonction GetData, il suffit de créer une nouvelle requête et de la renommer comme vous le souhaitez. Dans cet exemple, nous l’appelons “MyData”.

1
let
2
    Source = GetData(5, MySQL_QUERY)
3
in
4
    Source

Cette approche permet de récupérer les données en spécifiant uniquement deux arguments :

Le nombre de colonnes du fichier CSV (5 dans cet exemple)
La requête MySQL à exécuter (via le paramètre MySQL_QUERY)

c’est simple, n’est-ce pas ? 🙂

4. Optimisation des Transformations des Données

Dans certains cas, nous devons appliquer des transformations spécifiques aux données CSV. Pour cela, nous avons identifié deux approches possibles :

— Modification de la Fonction GetData

Une première approche consiste à intégrer les transformations directement dans la fonction GetData :

1
let
2
    GetData = (NumberColumnsCSV as number, MySQLQuery as text) =>
3
        let
4
            CsvSource = Csv.Document(
5
                Web.Contents(URL_CSV_FILE),
6
                [
7
                    Delimiter = ",",
8
                    Columns = NumberColumnsCSV,
9
                    Encoding = 1252,
10
                    QuoteStyle = QuoteStyle.None
11
                ]
12
            ),
13
            CsvPromotedHeaders = Table.PromoteHeaders(CsvSource, [PromoteAllScalars = true]),
14

15
            CsvReplacedValue = Table.ReplaceValue(
16
                CsvPromotedHeaders, ".", ",", Replacer.ReplaceText, {"my_column_numeric"}
17
            ),
18

19
            SourceMySQL = MySQL.Database(
20
                MySQL_HOSTNAME,
21
                MySQL_DATABASE_NAME,
22
                [
23
                    ReturnSingleDatabase = true,
24
                    Query = MySQLQuery,
25
                    CreateNavigationProperties = false
26
                ]
27
            ),
28
            Result = if IS_PRODUCTION then SourceMySQL else CsvPromotedHeaders
29
            Result = if IS_PRODUCTION then SourceMySQL else CsvReplacedValue
30
        in
31
            Result
32
in
33
    GetData

Cependant, cette approche n’est pas recommandée car elle va à l’encontre du principe de responsabilité unique : une fonction devrait idéalement n’avoir qu’une seule responsabilité.

— Transformation dans la Requête MyData

Une approche plus élégante consiste à séparer la récupération des données de leur transformation. Mettons à jour notre requête “MyData” pour appliquer les transformations spécifiques aux données CSV :

1
let
2
    Source = GetData(5, MySQL_QUERY),
3
    ReplacedValue = Table.ReplaceValue(
4
        Source, ".", ",", Replacer.ReplaceText, {"my_column_numeric"}
5
    ),
6
    ChangedType = Table.TransformColumnTypes(
7
        if IS_PRODUCTION then Source else ReplacedValue,
8
        {{"my_column_numeric", type number}}
9
    )
10
in
11
    ChangedType

Cette seconde approche offre plusieurs avantages :

Séparation claire des responsabilités
Meilleure maintenabilité du code
Plus grande flexibilité pour modifier les transformations
Possibilité d’appliquer des transformations conditionnelles selon l’environnement

Conclusion

Dans cet article, nous avons exploré une solution pour gérer efficacement les sources de données dans Power BI en mettant en place un système de basculement dynamique entre des fichiers CSV locaux et une base de données MySQL en production. L’approche que nous avons développée n’a pas seulement résolu nos défis immédiats de connectivité et de performance, mais a également fourni un cadre flexible qui peut être facilement adapté à d’autres environnements ou sources de données. Cette approche peut facilement être adaptée et étendue pour répondre à d’autres besoins par exemple ajout de nouveaux environnements (test, pré-production) ou support d’autres sources de données (PostgreSQL, Oracle, etc.). Sinon, si vous souhaitez importer et combiner plusieurs fichiers Excel/CSV de manière propre et optimisée, je vous invite à consulter mon article “Importer Plusieurs Fichiers Excel/CSV dans Power BI avec une Fonction Power Query Personnalisée” .