Cloud Computing

Tsimulus : un générateur de séries chronologiques réalistes open source

laurie — Sun, 15 Nov 2020 09:32:09 +0000

Tsimulus : un générateur de séries chronologiques réalistes open source

Tags

Cloud Computing

Gestion de données

IoT

Logiciel

Tutoriel

laurie Sun, 11/15/2020 - 10:32

Télécharger le PDF

Fiche Tsimulus

Body

Vous devez tester à grande échelle le bon comportement des outils de traitement de données, y compris dans un contexte big data ? Vous manquez de données en temps réel ?

Nous avons la solution ! Cette fiche vous présente TSimulus, l’outil qui vous permet de simuler des données, sous forme de séries temporelles, de manière très réaliste.

Après l’énonciation des différents concepts nécessaires à sa compréhension, nous vous proposons une démonstration de son utilisation en simulant des températures externes pour la ville d’Uccle. Nous y détaillons les différentes étapes qui permettent de les rendre aussi réalistes que possible.

Cette bibliothèque fait partie du projet de recherche EAM-SDI, fondé par la Région Wallonne.

Prérequis

Connaissances basiques en JSON

Savoir écrire des lignes de commandes dans un terminal

Pour quoi faire ?

Les séries chronologiques sont utilisées dans une grande variété de domaines, notamment l’industrie, l’économie, les finances, la démographie, les prévisions météorologiques et le traitement du signal. Elles répondent à de nombreux objectifs dont les principaux sont la prévision, l’estimation d’une tendance ou encore l’évaluation de l’impact d’un événement.

La bibliothèque TSimulus vous permet de simuler différents capteurs et de générer une quantité suffisante de données pour effectuer des tests par exemple. Vous spécifiez la forme d'une série chronologique (modèles généraux, cycles, importance du bruit ajouté, etc. - ces différents concepts sont décrits dans la section suivante) et TSimulus convertit cette spécification en valeurs de séries chronologiques.

Concrètement, cet outil propose :

Un moyen d'exprimer des contraintes de séries chronologiques à l'aide de documents JSON, ainsi qu'une API Scala pour exprimer programmatiquement ces contraintes.
Un moyen pratique de combiner des contraintes afin d'exprimer des contraintes de niveau supérieur.
Un moteur qui génère des valeurs de séries temporelles en fonction des contraintes décrites.
Un outil en ligne de commande qui s'appuie sur le moteur pour générer des séries chronologiques.
Un microservice sans état qui fournit des services de génération de séries chronologiques.

Quelques concepts

Une série chronologique (ou série temporelle)

Il s’agit d’une séquence de points ordonnée dans le temps, chacun d'eux étant associé au plus à une valeur.

1. Évaluation de la série

Les séries chronologiques peuvent être évaluées à tout moment. Cette évaluation est rapide, sans effet secondaire et référentiellement transparente (en particulier, l'évaluation d'une série chronologique fournit toujours la même valeur pour un horodatage donné).

De plus, la bibliothèque TSimulus prend en charge la génération de valeurs de séries chronologiques sous forme de flux numériques (potentiellement illimités).

2. Les valeurs manquantes

Une série chronologique peut ne pas avoir de valeur à fournir pour un horodatage donné. Ce cas est géré par la bibliothèque comme des valeurs «manquantes». Les valeurs manquantes peuvent être remplacées par des valeurs «par défaut» et peuvent être supprimées d'une collection de valeurs avant d'opérer une agrégation.

Les générateurs

L'objectif principal des générateurs est de décrire les contraintes qui façonnent la série temporelle générée.

Alors que les générateurs de nombres aléatoires peuvent facilement être utilisés pour produire des séquences de nombres non liés (ou, du moins, dont les relations sont difficilement prévisibles), générer des séquences de nombres qui semblent respecter certains modèles évidents est également intéressant dans de nombreuses circonstances, y compris la simulation de l'acquisition de données dans les domaines mentionnés dans la section précédente.

1. Une simulation de données réaliste

Afin de créer des séries chronologiques réalistes, un bruit convaincant doit généralement être ajouté à certains modèles spécifiés. De plus, les valeurs d'une série chronologique peuvent être liées à celles d'une autre série chronologique.

2. Les différents types de générateurs

Voici une description succincte de trois types de générateurs. Vous trouverez davantage d’informations sur ceux-ci ainsi que sur les autres types existants ici.

2.1. Les générateurs primaires

Les séries chronologiques primaires génèrent des valeurs qui n’ont de relation avec aucune autre série chronologique. Un utilisateur peut contraindre la forme générale d'une série chronologique primaire en spécifiant certains points de données (qui correspondent à des points dans les temps associés à des valeurs spécifiques) et en spécifiant que la série chronologique générée doit contenir ces points de données. Pour avoir plus d’informations sur les générateurs primaires, cliquez ici.

2.2. Les générateurs composites

Les générateurs peuvent être combinés de diverses manières afin de produire des générateurs plus complexes. De tels générateurs, appelés générateurs composites, expriment des séries chronologiques dont les valeurs sont le résultat de l'agrégation, de la comparaison, de la corrélation, etc. des valeurs générées par des séries temporelles décrites par d'autres générateurs. Vous en saurez davantage en cliquant ici.

2.3. Les générateurs binaires

Les valeurs des séries temporelles générées peuvent être numériques ou binaires. Des opérations booléennes peuvent être appliquées à des valeurs binaires, qui peuvent être utilisées pour décrire des séries chronologiques conditionnelles. Les valeurs numériques peuvent être combinées et comparées de différentes manières, afin de créer des séries chronologiques complexes en combinant des séries simples. Vous en saurez davantage sur les générateurs binaires en cliquant ici.

3. Le document de configuration

Comme expliqué précédemment, la forme des séries temporelles générées est définie à l'aide de générateurs. Votre travail, en tant qu'utilisateur de TSimulus, est donc de modifier les descriptions de ces générateurs afin d'obtenir un résultat aussi réaliste que possible. Ces générateurs peuvent être spécifiés de manière déclarative dans un document dit de configuration, qui est un document JSON respectant une structure donnée. Ce document est composé d'une section “generators”, dans laquelle les générateurs sont déclarés, d'une section “exported” contenant la liste des générateurs qui doivent être convertis en séries chronologiques, ainsi que d'une paire de dates délimitant la période pour laquelle des valeurs de séries chronologiques doivent être générées.

3.1. La section “generators”

L'utilisation de la section “generators” dans un document de configuration, bien que facultative, est fortement recommandée afin de décrire la spécification des générateurs décrivant la série temporelle à générer. La section “generators” est donc essentiellement une liste de générateurs qui pourraient être convertis en séries chronologiques.

3.2. La section “exported”

Cette section du document de configuration répertorie les générateurs qui doivent être convertis en séries chronologiques. Il s'agit essentiellement d'une liste d'objets JSON contenant les attributs suivants :

name : le nom qui doit être associé à la série chronologique.
generators : une description du générateur représentant la série temporelle à générer. Cela peut être une description en ligne.
frequency : la période, en millisecondes, à laquelle les valeurs de séries temporelles doivent être générées.

3.3. Les sections “from” et “to”

Alors que la bibliothèque entière peut générer des valeurs pour tout moment valide, et malgré le fait que les séries temporelles soient considérées en interne comme des flux de valeurs potentiellement illimités, une telle génération illimitée ne peut pas être traitée dans un temps limité. Par conséquent, deux champs supplémentaires, exprimant le début et la fin de la période pour laquelle des valeurs doivent être générées, sont nécessaires dans le document de configuration afin de pouvoir générer des séries temporelles.

Démonstration de TSimulus

Dans le cadre de cette fiche, nous vous proposons une démonstration de l’utilisation de TSimulus réalisant une simulation des températures externes pour la ville d’Uccle. Après avoir détaillé le matériel nécessaire, nous décrivons les différentes manières d’installer TSimulus et expliquons comment l’utiliser.

La démonstration à proprement parler commence lors de la troisième étape où vous pouvez créer un générateur de données et ensuite le rendre plus réaliste par le biais d’autres générateurs.

Matériel requis

Concernant le CLI, il vous faut :

une machine virtuelle Java
installer un fichier de configuration
taper la ligne de code suivante : java -jar tsimlus-cli.jar

Étape 1 - Comment utiliser la bibliothèque Tsimulus ?

Les séries chronologiques peuvent être générées selon les règles décrites dans un document de configuration. Vous pouvez envisager d'utiliser notre application CLI qui lit les documents de configuration à partir d'un fichier JSON standard.

Vous pouvez également envisager d'utiliser notre microservice qui écoute les requêtes HTTP. Dans ce cas, le document de configuration est soumis en tant que paramètre d'une requête POST.

Étape 2 - Getting started

2.1. Une première génération de données

Le moyen le plus simple de tester le projet TSimulus est de télécharger la dernière version d'un fichier Jar exécutable contenant une application basée sur la bibliothèque TSimulus. Comme décrit dans la section “Matériel requis”, vous aurez besoin d'une machine virtuelle Java installée sur votre environnement.

Pour votre première génération de séries chronologiques, nous allons spécifier un générateur qui proposera un simulateur de températures externes de base pour la ville d’Uccle, en Belgique. Selon l'Institut royal de météorologie de Belgique, les températures moyennes à cet endroit sont les suivantes :

2.1.1. Création d’un générateur qui décrit l'évolution de la température mois par mois

1. Encodez ceci dans un fichier JSON :

{

   "generators":[

   {

      "name": "monthly-basis",

      "type": "monthly",

      "points": {"january": 3.3, "february": 3.7, "march": 6.8, "april": 9.8,     

                  "may": 13.6, "june": 16.2, "july": 18.4, "august": 18,              

                  "september": 14.9, "october": 11.1, "november": 6.8, "december": 

                  3.9}

   }],

   "exported":[

      {"name": "temperature", "generator": "monthly-basis", "frequency": 3600000}

   ],

   "from": "2016-01-01 00:00:00.000",

   "to": "2017-12-31 23:59:59.999"

}

Nous rappelons que le nom et les attributs de chaque objet dans ce document JSON sont décrits dans la section précédente dédiée aux concepts (voir le paragraphe sur les générateurs).

2. Enregistrez la configuration dans un fichier texte à côté de l'application téléchargée et exécutez l'application avec le fichier fraîchement créé :

java -jar rst-gen-cli get_started_1.json

Après quelques secondes, vous obtenez une séquence de lignes, chacune d'elles étant une entrée de valeur composée d'une date, d'un nom de série et d'une valeur séparée par des points-virgules. Dans cette démonstration, le nom de la série est toujours «temperature». Si vous tracez les valeurs de série avec votre outil préféré, vous devriez obtenir quelque chose comme le graphique suivant :

2.2. Vers un modèle plus réaliste

Comme le montre l’illustration ci-dessus, la température varie en permanence, et pour le milieu de chaque mois, elle est conforme aux valeurs spécifiées dans la configuration. Cependant, vous pouvez vous sentir frustré par la régularité des valeurs obtenues : elles augmentent ou diminuent de façon monotone d'un mois à l'autre, ce qui n'est pas un comportement très réaliste. En réalité, au fil des jours, les températures sont globalement plus élevées pendant la journée et plus basses pendant la nuit.

2.2.1. Création d’un nouveau générateur qui exprime la variation de la température sur les heures d'un jour calendaire


{
   "generators": [
       {
          "name": "monthly-basis",
          "type": "monthly",
          "points": {
             "january": 3.3,
             "february": 3.7,
             "march": 6.8,
             "april": 9.8,
             "may": 13.6,
             "june": 16.2,
             "july": 18.4,
             "august": 18,
             "september": 14.9,
             "october": 11.1,
             "november": 6.8,
             "december": 3.9
          }
       },
       {
          "name": "daily-variation",
          "type": "daily",
          "points": {
             "00:00:00.000": -3,
             "02:00:00.000": -3.9,
             "04:00:00.000": -5,
             "06:00:00.000": -4.6,
             "08:00:00.000": -5.7,
             "10:00:00.000": -2.2,
             "12:00:00.000": 1,
             "14:00:00.000": 3,
             "16:00:00.000": 2.3,
             "18:00:00.000": 0.9,
             "20:00:00.000": -2.3,
             "22:00:00.000": -2.7
          }
       },
       {
          "name": "result",
          "type": "aggregate",
          "aggregator": "sum",
          "generators": [
             "monthly-basis",
             "daily-variation"
          ]
       }
    ],
    "exported": [
       {
          "name": "temperature",
          "generator": "result",
          "frequency": 600000
       }
    ],
    "from": "2016-01-01 00:00:00.000",
    "to": "2017-12-31 23:59:59.999"
 }

Veuillez noter que les valeurs de ce deuxième générateur sont relatives à une valeur arbitraire «neutre». Le tracé de ces valeurs n'est donc pas pertinent. Cependant, si nous additionnons les températures mensuelles avec les températures quotidiennes, nous obtenons un comportement plus complexe. Les séries chronologiques résultantes sont davantages réalistes et résultent en le graphe suivant :

Sur cette figure, seules les valeurs du 1er et du 2 janvier 2016 sont affichées. Un modèle de base quotidien est facilement observable, tandis que les valeurs sont assez similaires (bien que légèrement différentes) d'un jour à l'autre.

2.2.2. Création d’un nouveau générateur qui décrit une série chronologique bruitée

Un examen plus approfondi des valeurs générées révèle que la variation de température reste insatisfaisante: pendant un jour civil, les températures varient de manière irréaliste, et deux jours identiques dans des années différentes (par exemple, 2016-02-03 et 2017-02-03) ont la même séquence de valeurs. Dans la vie réelle, la température change légèrement au fil du temps en raison de modifications complexes des conditions atmosphériques.

Afin de simuler ces petits changements, nous introduisons un générateur qui décrit une série chronologique bruitée, et nous le sommons avec les générateurs définis précédemment.


{
   "generators": [
      {
         "name": "monthly-basis",
         "type": "monthly",
         "points": {
            "january": 3.3,
            "february": 3.7,
            "march": 6.8,
            "april": 9.8,
            "may": 13.6,
            "june": 16.2,
            "july": 18.4,
            "august": 18,
            "september": 14.9,
            "october": 11.1,
            "november": 6.8,
            "december": 3.9
         }
      },
      {
         "name": "daily-variation",
         "type": "daily",
         "points": {
            "00:00:00.000": -3,
            "02:00:00.000": -3.9,
            "04:00:00.000": -5,
            "06:00:00.000": -4.6,
            "08:00:00.000": -5.7,
            "10:00:00.000": -2.2,
            "12:00:00.000": 1,
            "14:00:00.000": 3,
            "16:00:00.000": 2.3,
            "18:00:00.000": 0.9,
            "20:00:00.000": -2.3,
            "22:00:00.000": -2.7
         }
      },
      {
         "name": "noise",
         "type": "arma",
         "model": {
            "std": 0.2,
            "c": 0,
            "seed": 1234
         },
         "timestep": 300000,
         "origin": "2016-01-01 00:00:00.000"
      },
      {
         "name": "result",
         "type": "aggregate",
         "aggregator": "sum",
         "generators": [
            "monthly-basis",
            "daily-variation",
            "noise"
         ]
      }
   ],
   "exported": [
      {
         "name": "temperature",
         "generator": "result",
         "frequency": 600000
      }
   ],
   "from": "2016-01-01 00:00:00.000",
   "to": "2017-12-31 23:59:59.999"
}

Le résultat final est maintenant suffisamment réaliste pour une simulation de base de la température dans le temps. En observant le tracé de ses valeurs sur l’illustration ci-dessous, on peut constater que des tendances claires et réalistes émergent, tandis qu'un bruit réaliste est également clairement présent.

Vous n’êtes toujours pas satisfait du réalisme des valeurs générées? N'hésitez pas à modifier les paramètres des générateurs décrits dans le fichier de configuration ou à en essayer d'autres (voir le point sur les générateurs dans la section “quelques concepts”).

La démonstration en vidéo

Voici le replay du webinaire organisé par le Hub-C le 24 mars 2021 afin de faire une démonstration de l'utilisation de Tsimulus presentée par Mathieu Goeminne, expert en science de données au sein du CETIC.

Besoin d’une aide supplémentaire ?

Le Hub-C dans le cadre de ses services d’accompagnement numérique organise des workshops et groupes de travail en lien avec les nouvelles technologies de prototypages. Vous souhaitez un accompagnement pour votre projet innovant ou vous souhaitez participer à un prochain workshop ? N'hésitez pas à contacter un membre du Hub!

Vous avez une question spécifique à propos d’une fiche ? Elles sont réalisées par les experts du CETIC (Centre d'Excellence en Technologies de l'Information et de la Communication), un centre de recherche appliquée en informatique situé à Charleroi. Vous trouverez toutes les coordonnées ici.

TSorage : une plateforme de gestion de données (I)IoT

laurie — Fri, 13 Nov 2020 10:19:18 +0000

TSorage : une plateforme de gestion de données (I)IoT

Tags

laurie Fri, 11/13/2020 - 11:19

Télécharger le PDF

Fiche TSorage

Body

Vous êtes une entreprise à la recherche de technologies fiables, rapides et rentables concernant le déploiement d'applications basées sur des séries chronologiques à grande échelle? TSorage est la solution idéale pour gérer vos flux IoT!

Après la description de TSorage et de ses différents atouts, nous évoquons les concepts nécessaires à la compréhension de cette plateforme et expliquons son architecture. Nous terminons en vous présentant un cas d'étude.

Prérequis

Pour la lecture de ce document,

connaissance élémentaire de l’IIoT et de ses enjeux, de Kubernetes, de Cassandra.

Pour tester TSorage,

un cluster Kubernetes doit être installé, par exemple grâce à minikube.
Maîtrise de HTTP et/ou MQTT, JSON, PromQL, Docker.

Pour quoi faire?

À l’heure actuelle, les entreprises industrielles font face à une concurrence mondiale de plus en plus agressive. L'Internet industriel des objets (IIoT) est perçu comme une opportunité clé pour renforcer la position de ces entreprises ou pour gagner en compétitivité grâce à une meilleure productivité, à l’amélioration de la qualité des produits et à un meilleur contrôle des processus (voir notre fiche sur la gestion des réseaux de capteurs).

Cependant, la gestion de la vitesse et du volume des données de séries chronologiques fournies par ces IIoT représentent un défi dans lequel la valeur des solutions traditionnelles de gestion des données pour l'industrie tend à diminuer. Le monde industriel recherche des outils et des approches capables de répondre aux nouveaux besoins relatifs à l'évolutivité, à la disponibilité, au problèmes de réutilisation, d'intégration et de tarification, entre autres.

Afin de répondre à ces besoins, nous proposons une solution innovante pour la gestion des séries chronologiques appelée TSorage.

TSorage est une plateforme évolutive et résiliente, qui permet la collecte, l’ingestion, le traitement et le stockage de séries chronologiques (ou séries temporelles) générées par l'IoT (industriel ou non) comme les détecteurs, les sondes et autres capteurs au sens large du terme.

Cette plateforme propose une collection de services intégrés pour gérer les séries temporelles, à grande échelle, de tout type, avec un horodatage avec une résolution temporelle d’une milliseconde et avec aussi peu de contraintes techniques que possible.

Une série temporelle est définie comme une collection de valeurs, triées par un horodatage associé à chaque valeur. Dans TSorage, une valeur peut représenter n’importe quel concept tant que celui-ci peut être représenté sous forme d’un objet JSON.

Les atouts de TSorage

TSorage présente les avantages suivants :

Une disponibilité et un passage à l’échelle avant tout (évolutivité)!

TSorage s'appuie sur du matériel standard et moyen de gamme (commodity hardware) pour garantir un service évolutif et résilient aux pannes. Étant nativement une solution distribuée et décentralisée, ses capacités peuvent être étendues en ajoutant simplement plus de ressources sur un cluster TSorage. Lorsqu'il est déployé sur plusieurs sites, TSorage offre des performances de lecture et d'écriture locales tout en prenant en charge de manière transparente la réplication et la synchronisation entre sites, dans le monde entier. Lorsqu'un site se remet d'un problème de connexion, il se re-synchronise automatiquement avec les autres sites du groupe.

Pas de vendor lock-in mais des technologies standardisées, ouvertes, et pérennes

La technologie évolue extrêmement rapidement, surtout le domaine (I)IoT où de nouvelles façons de gérer et d'exploiter les capteurs émergent chaque année. Afin d'atténuer le risque de faire des choix technologiques qui s'avéreraient inappropriés à l'avenir, TSorage est composé de modules indépendants et basés sur des technologies open source. Avec une telle approche, les mises à jour sont beaucoup plus faciles lorsqu’une technologie vient en remplacer une autre. Tous les services de TSorage sont disponibles via une API REST qui offre un moyen standardisé de s’abstraire des technologies sous-jacentes. Cette plateforme favorise également l'intégration avec n'importe quelle source ou consommateur de données, faisant de TSorage une plateforme de choix pour vos applications IoT.

Une flexibilité des données

La plupart des capteurs mesurent un signal continu, tel qu’une température ou une pression. Cependant, les séries chronologiques couvrent également de nombreux autres types de données, tels que les positions géographiques, les transactions commerciales et pratiquement tous les événements répétitifs. TSorage gère nativement des types de données couramment utilisés et est conçu pour être facilement étendu afin de prendre en charge vos types de données spécifiques. Si vous pouvez représenter vos mesures sous forme d'objets JSON, TSorage peut les gérer!

Une adaptation rapide et de manière prévisible

L'ajout d'une nouvelle source de données (comme un capteur) doit être aussi simple et rapide que possible afin de ne pas étouffer toute innovation. Commencez simplement à alimenter TSorage avec un nouveau flux de données et administrez-le dans un second temps, soit via une application Web dédiée, soit par programmation. Chaque valeur peut être soumise avec des propriétés arbitraires (appelées “tags” dans la terminologie TSorage, nous détaillons cela dans la section suivante) qui permettent d'interroger et de gérer plus efficacement les sources de données. En fin de compte, les utilisateurs ne font plus référence à un identifiant de source unique, mais interrogent, comparent et agrègent les sources en fonction de leurs tags.

Au fur et à mesure que vous intégrez de plus en plus de sources de données à la solution, vos besoins de traitement augmentent. TSorage s'appuie sur une architecture élastique qui exploite efficacement les ressources de votre infrastructure. Commencez avec un petit nombre de services conteneurisés et étendez-les à volonté en exécutant simplement plus de nœuds de travail.

Une adaptation à votre infrastructure, prête pour le Cloud.

Lorsque TSorage est utilisé pour gérer des données sensibles, le déploiement sur site peut être préféré à l'utilisation d'une solution d'hébergement à distance. Pour d'autres cas d'utilisation, un déploiement sur un Cloud public ou privé est une meilleure option. Dans les deux cas, TSorage est fourni avec des scripts de déploiement et de surveillance qui réduisent la charge de déploiement et de maintenance de la solution.

Quelques concepts

Voici les différentes notions nécessaires à la bonne compréhension de la plateforme TSorage :

Une métrique

Concept fondamental de TSorage, une métrique est une entité abstraite associée à des mesures classées chronologiquement. Chaque mesure est également appelée un point de données ou une observation.

Dans TSorage, tous les points de données appartenant à une métrique représentent le même phénomène physique, numérique ou logique, et ont donc typiquement le même type de données (bien que ce ne soit pas une limitation technique de la plateforme). Le type de données d'une observation détermine la manière dont TSorage la stocke et la présente, ainsi que les transformations auxquelles cette observation peut être soumise.

Les tags

Les tags sont des propriétés associées aux points de données. Leur utilité est d'aider l'utilisateur à comprendre la signification d'une observation particulière ou à interroger des points de données ayant une signification particulière. Concrètement, un tag est un texte arbitraire (la clé), associé à une valeur textuelle arbitraire (la valeur). Il y a deux types de tags :

- les tags dynamiques : ils sont directement attachés à un point de données,

- les tags statiques : ils sont attachés à une métrique et sont automatiquement hérités de tous ses points de données.

Les tagsets

L'ensemble de tags associé à un point de données est appelé tagset. Un tagset combiné à une métrique constitue une série chronologique dans TSorage.

Il existe deux manières typiques d'utiliser les tagsets :

- Une métrique identifie un capteur (au sens large du terme), tandis que les tags clarifient le statut du capteur (nom du fabricant, position géographique, etc.) ou certains des points de données générés (qualité de la donnée, état de fonctionnement, etc.).
- La métrique fait référence à une propriété d'intérêt (utilisation du processeur, par exemple), tandis que les tags font référence à l'élément à l'origine des points de données (serveur numéro 5, par exemple).

Bien que mélanger ces deux approches soit techniquement possible, nous vous recommandons de choisir l'une d'entre elles et de vous y tenir.

Nous vous conseillons d’utiliser les tagsets pour appliquer une politique de sémantique, c’est-à-dire une ontologie. Au lieu de placer des informations dans le nom de la métrique, en utilisant certaines conventions spécifiques à l’entreprise qui sont peu respectées et qui souffrent donc de nombreuses exceptions, le nom de la métrique peut être dénué de sens et la sémantique peut être explicitée à l’aide du tagset.

Organisation hiérarchique

Veuillez noter que rien ne vous empêche d'organiser les métriques de manière hiérarchique, comme c’est souvent le cas avec les réseaux de capteurs industriels, car les clés de tag peuvent être utilisées pour définir les niveaux hiérarchiques de l'organisation (Vous en découvrirez davantage via la documentation officielle ou via cet article de blog).

Les séries chronologiques sont organisées de manière hiérarchique : les points de données et les valeurs agrégées des différentes séries chronologiques ayant la même métrique peuvent être combinés afin de produire une série chronologique plus générique. Bien que les technologies impliquées dans TSorage sont assez efficaces et passent bien à l’échelle, sachez que l'extraction et la fusion de plusieurs séries chronologiques peuvent mener à une consommation importante des ressources disponibles. Par conséquent, le nombre de séries chronologiques qui doivent être fusionnées pour satisfaire une requête de données doit rester raisonnable afin de maintenir la pression sur la base de données à un niveau acceptable.

Les messages

Afin d'offrir de meilleures performances, les communications TSorage sont basées sur le concept de message. Un message est essentiellement un ensemble de points de données liés à la même série chronologique. En d'autres termes, les messages sont un moyen de soumettre plusieurs points de données à la fois, tout en ne soumettant le nom de la métrique, le tagset dynamique et le type de données qu'une fois par message.

Chaque message doit contenir les éléments suivants :

- metric : l'identifiant de la métrique pour laquelle de nouveaux points de données sont fournis.
- tagset : l’ensemble de tags dynamiques associés à tous les points de données décrits dans le message.
- type : le type de tous les points de données décrits dans le message. Bien que l'utilisation du même type pour tous les points de données relatifs à une métrique soit généralement considérée comme une bonne pratique, le type associé à une métrique (ou à une série chronologique) peut changer d'un message à un autre.
- values : une liste de points de données. Chaque point de données est constitué de deux éléments : une représentation de l'horodatage associé au point de données et la valeur du point de données.

D'un point de vue technique, un message est représenté par un objet JSON (il peut également être représenté par un message Protobuf, cliquez ici pour plus d’infos).

Le schéma JSON d’un message TSorage est le suivant :

{

  "$id": "be.cetic.tsorage.messageschema.json",

  "type": "object",

  "properties": {

    "metric": {

      "type": "string"

    },

    "tagset": {

      "type": "object",

      "additionalProperties": {

        "type": "string"

      }

    },

    "type": {

      "type": "string"

    },

    "values": {

      "type": "array",

      "items": [

        {

          "type": "array",

          "items": [

            {

              "type": "string",

         "pattern" :"^(-?(?:[1-9][0-9]*)?[0-9]{4})-(1[0-2]|0[1-9])-(3[01]|0[1-9]|[12][0-9])T(2[0-3]|[01][0-9]):([0-5][0-9]):([0-5][0-9])(\\.[0-9]+)?(\\.([0-9]){1,3})?$"

            },

            {}

          ]

        }

      ]

    }

  },

  "required": [

    "metric",

    "type",

    "values"

  ]

}

Comme illustré ci-dessus, l'attribut tagset doit être un dictionnaire de chaînes de caractères. Chaque valeur (qui représente un point de données) est un tableau contenant l'horodatage et la valeur du point de donnée, dans cet ordre. L'horodatage est représenté par une chaîne de caractères au format ISO 8601.

La valeur elle-même peut être n'importe quel objet JSON valide. Son schéma réel dépend du type de donnée spécifié. Il existe plusieurs types de données proposés d’office par TSorage, et des types de données supplémentaires arbitrairement complexes peuvent être ajoutés à volonté.

L'extrait ci-dessous est un exemple de message valide décrit à l'aide du format JSON :

{

  "metric": "my-temperature-sensor",

  "tagset": {

    "quality": "good",

    "owner": "myself"

  },

  "type": "tdouble",

  "values": [

    [ "2020-01-02T03:04:05.678", 42.1337 ],

    [ "2020-01-02T03:04:06.123", 654.72 ]

  ]

}

Architecture

Le projet TSorage est basé sur une architecture modulaire, tous les modules étant conçus pour être exécutés dans des conteneurs Docker distincts. Cela fait de TSorage une solution portable, avec des étapes de déploiement simples et standardisées. Il offre également la possibilité de placer les composants sur différentes machines physiques et virtuelles, le rendant disponible sur une large gamme de plateformes et de services.

De plus, le (re)dimensionnement d'une architecture conteneurisée est plus facile, puisqu'un composant peut être déplacé vers une plateforme offrant plus de ressources. Sous certaines conditions, les conteneurs peuvent être dupliqués afin d'augmenter les performances des modules sous-jacents.

La figure ci-dessous donne un aperçu de l'architecture TSorage.

La passerelle (Gateway) : le traitement des séries temporelles commence par la couche Gateway, qui contient des composants ad hoc pour collecter ou extraire des valeurs de séries chronologiques à partir de diverses sources de données. Cette couche prend en charge diverses technologies de communication industrielles, y compris Modbus, OPC-UA et MQTT. Les bases de données distantes peuvent également être consultées pour la collecte de données historiques. Les valeurs de séries chronologiques collectées sont standardisées et temporairement stockées dans un tampon avant d’être finalement transmises à la couche d'ingestion à l'aide des protocoles HTTP ou MQTT.

La couche d’ingestion : le système d’ingestion des données est polyvalent et se base sur des technologies standardisées (HTTP, MQTT, etc.) afin de faciliter l’intégration de TSorage dans votre système informatique! Cette couche est celle du point d'entrée des valeurs de séries chronologiques : la conformité des messages reçus est vérifiée, les messages non autorisés sont rejetés. À partir de là, les entités décrites sont considérées comme des composants internes de TSorage, ce qui signifie essentiellement qu'elles sont gérées par le cluster TSorage. La couche d’ingestion est composée de différents modules d'interface, chacun d'entre eux fournissant un moyen spécifique pour une source de données de soumettre de nouvelles valeurs de séries chronologiques. Les messages acceptés sont poussés vers un topic Apache Kafka12, qui agit comme une file d'attente de messages pour les services internes de traitement de TSorage.

La couche de traitement (processing) : à ce stade, un ensemble d’applications de traitement gère le flux de messages Kafka. C’est le langage de requêtes de séries chronologiques de Prometheus, PromQL, qui a été implémenté afin d’exploiter les données collectées. Ce langage permet de réaliser des agrégations temporelles, des combinaisons de valeurs, et de filtrer des données tout en prenant en compte la sémantique associée aux capteurs." Il permet d’effectuer des agrégations et des transformations de données en temps réel.

- Les rollups de données (data rollups) sont des agrégations des valeurs au fil du temps. De cette façon, des analyses de haut niveau couvrant de longues périodes peuvent être effectuées plus facilement. Les rollups facilitent également l’analyse de séries chronologiques, car leurs valeurs sont alignées chronologiquement.
- Les transformations de données sont les modifications des valeurs, des noms et des tags des séries chronologiques, en temps réel et selon des fonctions métier, afin d’enrichir les informations traitées.

La couche de stockage (storage) : Apache Cassandra est utilisé pour stocker des valeurs de séries chronologiques de manière permanente. Cette base de données distribuée et décentralisée offre une évolutivité linéaire, tandis que la réplication automatique des données entre différents sites permet à la solution de rester opérationnelle et de se remettre automatiquement de la défaillance d’un nœud ou même d’un data center entier. De cette façon, la pérennité, la survie et la disponibilité des données sont assurées. TSorage offre également une résilience aux pannes grâce à un mécanisme qui assure la migration automatique des différentes fonctionnalités de la solution d’un serveur défaillant vers un autre fonctionnel, garantissant ainsi une haute disponibilité des différents services.

Le modèle de données conçu respecte la nature des données manipulées et des requêtes typiques qui se rapportent à une série chronologique ainsi qu’à un intervalle de temps précis. En plus des valeurs de séries chronologiques, la base de données stocke également les métadonnées qui aident à atteindre plus efficacement les données souhaitées. Par exemple, une liste de toutes les partitions associées à une métrique particulière, et ayant un tagset particulier, est tenue à jour afin d’améliorer le temps de réponses des requêtes.

La couche Hub : il s’agit des services qui aident l’utilisateur à interagir avec les autres couches. Les services déployés dépendent des besoins de l’utilisateur mais ils incluent généralement la gestion des tags, le requêtage de données et les représentations de ces dernières sous forme de tableaux de bord. Grafana est l’outil proposé pour concevoir et déployer facilement des tableaux de bord, alimentés par les valeurs de séries temporelles ingérées, sous la forme de visualisation SCADA. La couche Hub offre une implémentation de PromQL, le langage de requête de séries chronologiques de Prometheus. Les outils d’analyse et de visualisation supportant ce langage s’intègrent donc aisément avec TSorage.

Un exemple de cas d’étude

Le CETIC a évalué TSorage dans le cadre du projet de recherche industrielle SW-ARTEMTEC. L’objectif était de fournir des outils analytiques modernes et avancés issus des technologies liées au big data et à la réalité augmentée afin d’améliorer la maintenance des sites industriels répartis géographiquement dans le monde entier.

Le partenaire du CETIC, Safran Aero Boosters (SAB), a apporté des flux données provenant de divers capteurs mesurant l’activité d’équipement de test aérospatial. Ces flux de données ont été enregistrés et traités avec TSorage afin de détecter toute anomalie. Le résultat attendu de ce projet est le développement de services innovants répondant aux attentes du marché de SAB.

Pour aller plus loin...

La plateforme TSorage a été développée par le CETIC dans le cadre de l’Industrie 4.0, avec l’ambition de développer un portefeuille d’outils de gestion de données modernes et conformes aux enjeux introduits par l’Internet Industriels des Objets.

Vous trouverez la documentation technique ici, n’hésitez pas à contacter le CETIC pour plus d'informations.

Vous pouvez également générer des séries temporelles paramétrables grâce à TSimulus pour ensuite les stocker et les visualiser grâce à TSorage.

Notez que TSorage peut aussi être déployé à l’aide de FADI, une plateforme “cloud native” dédiée au Big Data.

Introduction au Data processing

laurie — Fri, 06 Nov 2020 13:29:29 +0000

Introduction au Data processing

Tags

Cloud Computing

Gestion de données

Stockage de données

laurie Fri, 11/06/2020 - 14:29

Télécharger le PDF

Fiche introduction au Data processing.pdf

Body

Data lake, ETL, Data warehouse, Batch processing, Data engineer… tous ces termes sont pour vous du charabia ? Pas de panique ! Cette fiche vous propose de découvrir tout ce jargon qui appartient en réalité au Data processing, le processus qui traite vos données pour les transformer en information utile et en valeur ajoutée pour votre entreprise.

Découvrez également ce qu’est le Data engineering, la discipline en lien, entre autres, avec la qualité de vos données ainsi que le processus ETL, détaillé étape par étape, et ses spécificités par rapport au Big Data. Ensuite, nous examinerons les particularités de deux modes de stockage de données bien connus que sont les Data lakes et les Data warehouses.

Vous verrez qu'il n’y a pas de solution unique qui soit meilleure que les autres, cela dépend de votre entreprise et surtout de vos besoins.

Pour quoi faire ?

A l’heure actuelle, notre société est bouleversée par ce qu’on appelle la transformation numérique : les entreprises intègrent de plus en plus de technologies numériques au sein de leurs activités afin d'accroître leur productivité, leur croissance, leurs innovations,... et donc leur compétitivité.

Les entreprises ont maintenant accès à une multitude de données provenant de sources diverses et variées (vidéos, réseaux sociaux, sites consultés, formulaires complétés,...). Ces données doivent être correctement interprétées pour fournir des informations utiles à l’entreprise, c’est-à-dire des informations qui permettent d’analyser la situation passée et présente afin de prendre des décisions pertinentes concernant le futur (résoudre des problèmes, proposer de nouveaux produits,...). Un des grands défis du Big Data est donc de savoir que faire dire aux données et dans quel but ? Comment les interpréter correctement afin de les comprendre, de les analyser, de leur ajouter une valeur et les utiliser pour améliorer l’expérience utilisateur ?

Le Data Processing

Le data processing est ce qu’on appelle le traitement des données au sens large, c’est le processus qui va transformer vos données brutes en informations exploitables. Le traitement des données se compose des étapes suivantes :

1. La collecte des données
2. La préparation des données (pre-processing) : on améliore leur qualité.
3. L’importation: Les données propres sont ensuite saisies dans leur destination.
4. Le traitement des données (processing) : les données sont transformées, par exemple à l’aide d’algorithmes d'apprentissage automatique.
5. La sortie et l’interprétation : il s’agit du résultat. Les données sont converties, lisibles et exploitables car elles fournissent de l’information utile. Elles sont présentées sous forme de graphiques, images, vidéos,...
6. Le stockage : les données transformées sont stockées pour être utilisées ultérieurement.

Ces étapes forment un cycle qui va vous permettre d’extraire de la valeur de vos données.

Le Data Engineering

Bien que certains considèrent que les origines du Data Engineering (ou l’Ingénierie des données en français) remontent à 1980, voire à 1950, c’est à partir des années 2000 et l’avènement du Big Data que cette discipline devient vraiment nécessaire, et à partir de 2010 que ce terme est popularisé.

Souvent confondue avec la Science des données (Data Science en anglais), l’ingénierie des données vise à mettre en place les outils et infrastructures nécessaires et adéquats pour l’analyse, la préparation et le traitement des données volumineuses afin d’en garantir leur pertinence, leur qualité et d'éliminer celles qui sont inutiles. L’ingénieur des données (Data Engineer) fournit les données traitées et prêtes à l’usage aux Data Scientists (experts en Science des données) qui effectueront de l’analyse prédictive, du Machine Learning ou du Data Mining à partir de celle-ci.

Le data engineering répond aux 5V caractéristiques du Big data : afin d’obtenir davantage de connaissances sur ses clients, ses ventes, ses stratégies marketing, ses besoins,... et donc d’obtenir un avantage concurrentiel sur le marché (véracité et valeur), une entreprise doit ingérer énormément de données (volume) provenant de sources diverses (variété) et les traiter rapidement (vitesse).

Le processus ETL

Apparu dans les années 1970, un ETL (Extraction-Transform-Load) est le processus utilisé par les ingénieurs de données (Data Engineer) pour transformer vos multiples données brutes en informations commerciales exploitables. L’ETL facilite la migration de gros volumes de données provenant de sources multiples vers un emplacement centralisé afin d’en obtenir une vue globale et unifiée, c’est de l’intégration de données (data integration). Cela se fait en 3 phases : l’extraction, la transformation et le chargement.

Extraction (extract)

La première phase, l'extraction, est celle de la collecte de données.

Aujourd’hui, il y a une multiplication des flux de données et de leur quantité. Davantage complexes, les données proviennent de sources multiples (de votre smartphone, de votre montre connectée, des systèmes d'entreprise, des API, de n’importe quel capteur, d’outils de marketing, de bases de données de transactions, de data lake et de data warehouse,...) et peuvent donc avoir n’importe quelle structure et format. Il existe 3 types de structure de données :

1. Les données non structurées : elles ne sont absolument pas organisées et sont sous forme brute absolue. Ce sont par exemple des e-mails, des posts de réseaux sociaux, des Powerpoint, des vidéos, des images…
2. Les données semi-structurées : elles sont partiellement organisées. Elles sont plus facilement gérables que les données non structurées car elles possèdent des propriétés organisationnelles cohérentes et définies telles que des métadonnées ou des balises sémantiques. Cependant, leur structure n’est pas rigide et elles peuvent toutefois contenir des incohérences ou des variabilités.
3. Les données structurées : ce sont les données organisées dans un référentiel formaté et qui sont structurées en cellules ou en colonnes. Elles peuvent être générées par des machines mais aussi par des humains. Elles dépendent d'une base de données relationnelle ou d'un schéma et sont donc rigides.

La qualité des données importées va donc dépendre de la fiabilité des sources et de leur structure.

Les types de chargement des données

Concernant le Big data, il y a deux types de chargement des données assez répandus pour traiter rapidement les grands volumes de données. Le choix de l’un d’eux dépend de votre cas d’utilisation.

1. Le mode Batch (par lots)

Le mode de traitement des données par lots/batch est celui qui est mobilisé traditionnellement pour l’approche ETL : il s’agit de traiter un grand volume de données en une seule fois, sur une période donnée (un traitement des données à la demande). Il faut attendre la fin de la phase de collecte de données (extraction et chargement) pour débuter celle de traitement qui se fait par lots de données (la “fenêtre de batch”). Il y a donc une période de latence entre le moment où vos données apparaissent dans la couche de stockage et le moment où elles sont disponibles dans les outils d’analyse et de reporting. Vous ne devez que peu intervenir dans cette phase de traitement car les tâches s’exécutent les unes après les autres selon les priorités déterminées et sans interruption. Vous devez juste indiquer le nombre de données à atteindre (la limite) ou le moment précis où l’ETL par lots doit être exécuté (toutes les 24 heures, tous les 3 jours,...).

Le mode Batch est souvent utilisé lorsqu’il faut réaliser des calculs complexes qui prennent du temps comme des facturations, des commandes ou encore pour mettre à jour le profil utilisateur d’un site de ventes et proposer des articles personnalisés par exemple.

Illustration du mode Batch provenant de Upsolver

2. Le mode Stream

Avec le mode Stream, les données sont traitées en continu, c’est-à-dire au fur et à mesure de leur arrivée dans la couche de stockage afin de vous permettre d’accéder rapidement aux données et d’y réagir le plus vite possible une fois un événement détecté. Contrairement au mode batch, le flux est quasi en temps réel et les systèmes ne doivent pas stocker de grands volumes de données.

Le mode Stream est surtout conseillé lorsque vous devez détecter des évènements et y répondre rapidement, comme par exemple la surveillance des services, la cybersécurité, l’analyse des comportements, la détection de fraudes, la disponibilité d’un produit en stock, ...

Illustration du mode Stream provenant de Upsolver

Transformation (transform)

La seconde phase concerne le traitement apporté aux données collectées. Il se fait grâce à l’exécution d’algorithmes de machine learning et dépend des utilisations prévues des données (celles-ci doivent être déterminées à l’avance).

Le traitement vise à structurer les données, à les convertir et à les homogénéiser en modifiant leur format, en les enrichissant, en les complétant, en les nettoyant,... Car pour pouvoir croiser, comparer et analyser des données, il faut que celles-ci soient comparables ! Le traitement va donc rendre les données brutes interprétables selon les besoins (les finalités déterminées des données) et les transformer en information commerciale exploitable.

Un stockage intermédiaire et temporaire

Très souvent, les données extraites lors de la première phase sont stockées temporairement dans une zone de transit (staging area). Cette zone se trouve dans l’ETL utilisé et sert d'intermédiaire entre les sources de données et la cible des données (la destination des données). Vous pouvez y faire toutes les manipulations nécessaires à la transformation de vos données.

Les transformations des données

Pour analyser vos données, il faut d’abord les préparer, c’est-à-dire qu’il faut effectuer différentes transformations sur celles-ci en fonction de vos besoins. Plus vos sources de données sont de faible qualité, plus vous aurez des transformations et du nettoyage à effectuer pour éviter d’avoir des erreurs telles que des données manquantes, redondantes, une erreur lexicale et/ou de format,...

Voici quelques exemples de nettoyages et de transformations possibles de vos données pour que celles-ci soient cohérentes, exploitables et fiables :

- Le mappage des données : il s’agit de faire correspondre deux modèles de données, les champs des données extraites à ceux associés dans la destination.
- La vérification de la cohérence du format des données et leur conversion si nécessaire (des unités de mesure, des dates et heures,...)
- La déduplication : c’est l’identification et la suppression des enregistrements présents en plusieurs exemplaires (autrement dit les doublons).
- Le filtrage : c’est la sélection de certains enregistrements selon des règles.
- Tri des données par ordre croissant ou décroissant.
- La jointure des données : il s’agit de lier des données provenant de sources différentes.
- Le fractionnement d’une colonne unique en plusieurs colonnes.
- L’agrégation : regroupement de différentes données.
- La récapitulation : calculs pour obtenir des valeurs totales.

Chargement (load)

La phase de chargement est la phase où vos données traitées et structurées sont chargées et stockées dans la destination cible ; un système centralisé qui peut être une base de données, un fichier, un serveur mais qui est bien souvent un datawarehouse (voir section ci-dessous).

Les avantages

En résumé, un ETL vous permet d’avoir :

Une migration et une intégration automatisées et rapides de grandes quantités de données provenant de systèmes disparates.
Un référentiel de données : les données sont centralisées dans un endroit unique, ce qui vous apporte une meilleure accessibilité à celles-ci.
Les transformations complexes apportées unifient vos données (même format,...) et vous apportent une vue globale de vos ressources. De plus, ces processus de traitement sont réutilisables !
Un contrôle sur l’ensemble de vos ressources : vos données sont de meilleure qualité (les traitements les rendent fiables).
Une synchronisation de vos applications et donc une actualisation instantanée de vos données (vous pouvez y accéder en temps réel).
Vous pouvez tirer profit de vos données traitées.

Quelques outils clouds open source

Le processus ELT

Le processus d’intégration ETL est traditionnellement utilisé mais avec les nombreuses avancées technologiques, cela évolue. Il existe aussi le processus ELT (Extraction - Loading - Transform) : dans ce processus, vos données brutes sont extraites des sources de données et sont directement chargées vers votre système cible (très souvent un Data lake, voir la définition dans la section suivante), sans les transformer en fonction de vos besoins métier et sans passer par une zone de transit. Le nettoyage et les transformations des données se font donc après, dans le système/plateforme cible, quand vous devez les utiliser.

Les avantages

En résumé, un ELT vous permet d’avoir :

une extraction et un chargement plus rapides de vos données dans le système cible vu qu’il n’y a pas toute l’étape de transformation.

une plus grande flexibilité et facilité de stockage de nouvelles données non structurées notamment.
un temps de réflexion plus long concernant la détermination des données à transformer et à analyser.

Les modes de stockages et de centralisation de vos données

Il existe deux modes de stockage et de centralisation de données qui sont souvent confondus : les Data lakes et les Data warehouses. Ayant chacun des caractéristiques qui leurs sont propres, le choix d’utiliser l’un ou l’autre va surtout dépendre des besoins spécifiques de votre entreprise.

1. Les Data lakes (lacs de données)

Un Data lake est un référentiel de données qui vous permet de stocker “en vrac” vos données originales et brutes collectées, et d’y accéder rapidement avant leur traitement (la phase de transformation). Vous pouvez donc y trouver des données non structurées, semi-structurées ou structurées.

En stockant n’importe quel type de données quelles que soient leur nature et leur origine, vous pouvez découvrir de nouvelles questions/problématiques/hypothèses auxquelles vous ne pensiez pas auparavant… C’est d’ailleurs pour cela que les Data lakes sont surtout utilisés par des Data scientists et Data engineers dans le cadre de Machine learning, intelligence artificielle et modélisation prédictive.

L’ELT est la solution à privilégier si vous disposez de lacs de données car ce processus ingère des données non structurées, contrairement à l’ETL qui transforme les données brutes en données structurées.

2. Les Data warehouses (entrepôts de données)

Les Data warehouses sont des bases de données où sont stockées les vues agrégées des données ingérées. Ils ne sont pas connectés aux sources de données directement : ces dernières passent par une solution ETL (Extract, Transform and Load) qui extrait les données pertinentes de sources de données (éventuellement un data lake), les transforme et les charge dans le Data warehouse.

Les Data Warehouses sont surtout utilisés par des analystes, managers et des utilisateurs finaux pour analyser leurs données à l’aide de métriques, reportings et chiffres clés, en vue de prendre plus facilement des décisions.

Comparaison entre un Data lake et un Data warehouse

Besoin d’une aide supplémentaire ?

Vous avez une question spécifique à propos d’une fiche? Elles sont réalisées par les experts du CETIC (Centre d'Excellence en Technologies de l'Information et de la Communication), un centre de recherche appliquée en informatique situé à Charleroi. Vous trouverez toutes les coordonnées ici.

FADI, un Framework pour l'Automatisation du Déploiement et de l'orchestration d'Infrastructures conteneurisées

laurie — Thu, 05 Nov 2020 10:35:10 +0000

FADI, un Framework pour l'Automatisation du Déploiement et de l'orchestration d'Infrastructures conteneurisées

Tags

laurie Thu, 11/05/2020 - 11:35

Télécharger le PDF

Fiche FADI

Body

Vous disposez de nombreuses données (des mails, des pdfs, des communications vocales, des données provenant de vos capteurs, ...) mais ne savez pas comment les exploiter et les capitaliser ? Vous désirez faire un prototype/POC avec une brique logicielle à moindre frais ? Vous recherchez une solution technologique "neutre" car vous craignez l'enfermement propriétaire/le vendor lock-in ?

Que vous soyez une grande entreprise ou une plus petite, FADI va vous intéresser : il s’agit d’une solution peu coûteuse en termes d'infrastructure et d'achat de licences. Avec cette suite, vous pouvez en effet procéder étape par étape dans le développement et l’opération de vos prototypes et produits : les intégrer, déployer, ...

Prérequis

Avoir une connaissance des technologies liées aux conteneurs (Docker, Kubernetes).

Savoir écrire des lignes de commandes.

Disposer d’une station de travail récente ou d’un espace de test Kubernetes.

Pour quoi faire ?

Pour faire simple, FADI est un framework personnalisable selon vos besoins, qui assemble et configure les outils à votre place afin de faciliter et d’automatiser l’intégration, le déploiement et le suivi de vos applications.

À l’origine, FADI est une plateforme dédiée au Big Data qui rassemble des applications cloud native et qui se base sur des outils open source éprouvés. Cette plateforme rend le déploiement de solutions Big Data mais aussi celui des piles logicielles plus simples, portables et évolutifs sur diverses infrastructures (clouds privés et publics).

Illustration des divers composants de FADI

Quelques concepts ...

Une application “Cloud Native”

Voici une description succincte des caractéristiques d’une application “cloud native”, et donc des applications assemblées par la plateforme FADI :

Une architecture basée sur les services et les microservices.

Un microservice est une architecture pour les applications : les services y sont individuels, indépendants, et spécifiques et, une fois assemblés, constituent l’application. Chaque service peut donc être déployé, mis à jour et géré de façon parfaitement autonome.

Une communication entre les services (internes et externes) basée sur les API (Application Programming Interface, interface de programmation d’application).

Une infrastructure basée sur les conteneurs (ce qui facilite la gestion des microservices).

Un conteneur est un package logiciel léger et indépendant, une sorte d’enveloppe virtuelle ou d’environnement isolé, qui regroupe tous les éléments nécessaires au bon fonctionnement et à la distribution d’une application : le code, les fichiers de configuration, l’environnement d’exécution, les libraires et toutes les dépendances requises pour l’exécution,... L’ensemble du contenu du conteneur se trouve dans une image conteneur, c’est un fichier de code qui contient l’application/service, ses dépendances et sa configuration. Les intérêts des conteneurs sont de virtualiser les applications logicielles en utilisant le système d’exploitation de leur hôte et de pouvoir les actualiser sans réorganiser la totalité de l’application. De cette façon, les ressources sont très facilement flexibles et portables d’un système à un autre. Les conteneurs n'intègrent pas leur propre système d’exploitation, ils sont donc très légers et facilement déployables dans d’autres environnements avec peu, voire aucune modification! Vous pouvez mettre à jour un seul outil, séparément des autres; vous pouvez installer la dernière version de Grafana et garder Jupyterhub à sa première version par exemple.

Docker est la technologie de conteneurisation la plus utilisée. Elle vous permet de créer aisément vos conteneurs et vos applications basées sur ceux-ci, et est très facile à déployer. Il s’agit d’une solution open source fonctionnant sous Linux mais également Windows Server.

La méthode de développement logiciel DevOps (contraction de Développement et Opération).

Les objectifs de cette méthode sont de permettre, grâce à la communication et à la collaboration entre les développeurs et les responsables des opérations IT, la fluidification des processus, l’accélération de la résolution d'incidents ainsi que de la livraison de nouvelles fonctionnalités avec un niveau de qualité élevé.

Les pratiques DevOps lors du cycle de vie de l’application se caractérisent par une automatisation et une surveillance accrues de toutes les étapes de la création du logiciel. Cela concerne

L'intégration continue : il s’agit d'exécuter des tests automatisés afin de vérifier chaque modification du code source pour en garantir sa qualité. Les problèmes d’intégration sont facilement détectés si vous réalisez correctement la planification de votre développement, la compilation, l’intégration, les tests de votre code et la gestion de vos livrables (les artefacts prêts à être déployés).
Le déploiement continu : une fois les tests validés lors de l’intégration continue, ils peuvent être mis en production. Le déploiement continu est l’automatisation de la mise en production des applications lors de chaque modification.

Pour en savoir plus sur les applications cloud natives, cliquez ici. Quant à la méthode DevOps, vous pouvez consulter les sites suivants : Appvizer, Netapp, Padok

Un orchestrateur de conteneurs

Alors qu’utiliser un ou deux conteneurs peut être facilement gérable et contrôlable, en utiliser plus d’une dizaine peut rapidement se révéler être une tâche fastidieuse, notamment à cause des multiples dépendances et communications entre outils. Un orchestrateur de conteneurs permet de gérer ces communications en automatisant le déploiement, la gestion, la mise à l’échelle et la mise en réseau des conteneurs. L’orchestrateur ne crée pas les conteneurs (pour cela vous devez utiliser une plateforme de conteneurs comme Docker, cité ci-dessus) mais permet de les gérer.

L'orchestrateur de conteneurs le plus connu et mature actuellement est open source et développé par google, il s’agit de Kubernetes. Très utilisé dans le monde industriel, il se déploie sur toutes les architectures disponibles (dans le cloud privé, dans du bare metal, c’est-à-dire une serveur dédié physique, dans des clouds publiques,...) et peut fonctionner sur tout type d'infrastructure.

Une pile logicielle

Une pile logicielle est un groupe de logiciels fonctionnant selon un ordre spécifique et permettant le développement de sites et applications en offrant, ensemble, un service.

Les atouts de FADI

Pourquoi FADI est-elle une plateforme très intéressante ?

Parce vous pouvez développer entièrement vos prototypes et produits !

Les déploiements sont automatisés et simplifiés

Déployer chaque outil à la fois prend du temps et rend la maintenance plus compliquée ; l’automatisation des déploiements va vous simplifier la vie !

Pour plus de fiabilité, vous pouvez prévoir et programmer vos déploiements au moment désiré. Vous pouvez également les contrôler en effectuant une sorte de versionning : par exemple, vous pouvez réaliser un premier déploiement et faire un correctif pour le second, revenir au premier déploiement,... De cette façon, FADI vous assure une certaine traçabilité.

Les déploiements sont simplifiés grâce à des assemblages de services préconfigurés basés sur le logiciel Helm, appelés des Charts. Il s’agit de packages (ou templates) de ressources Kubernetes sous forme de scripts d’installation (des automatisations d’installation) : ces packages sont des sélections d’outils open source pertinents selon le cas d’utilisation/le scénario qui vous intéresse. Par exemple, si vous vous demandez comment installer Apache Nifi sur Kubernetes, vous trouverez toute la démarche ici. Vous trouverez les autres Helm Charts produites et maintenues par le CETIC dans ce dépôt GitHub (attention, ils ne concernent pas tous FADI ! ).

Sa portabilité

FADI est une solution portable, c’est-à-dire que vous pouvez la déployer un peu partout : dans un cloud privé, dans un cloud public, sur site, de manière hybride, etc. Une chose est certaine, là où vous pouvez déployer Kubernetes, vous pouvez déployer FADI.

Sa maintenabilité

FADI s'appuie sur la méthodologie DevOps : vous n’aurez pas à vous soucier de grand-chose étant donné que l’installation, l’intégration, les essais, les déploiements continus et les mises à jour de FADI sont automatisés ! La maintenance étant beaucoup plus facile, le système sera toujours à jour au niveau des dépendances.

Une solution qui vous correspond

Personnalisable de bout en bout, FADI s’adapte à vos besoins. Que cela soit le type d’infrastructure (cloud ou pas), de base de données, etc., FADI offre une sélection d’outils qui vous permet de gérer vos données... Vous pouvez également y intégrer très facilement vos propres solutions existantes ou de nouveaux services. De plus, FADI étant une solution se basant sur des technologies open source matures, vous pouvez toujours la modifier !

Ses traitements des données

FADI propose deux modes d’intégration (voir la fiche Introduction au data processing pour plus d’informations) :

Le mode batch pour le traitement d’un grand volume de données en une seule fois, sur une période donnée (traitement par lot).

Le mode stream pour le traitement des données en continu

L’avantage d’avoir ces deux modes de traitement est que FADI répond à de nombreux use-cases différents :

Le mode Batch est souvent utilisé lorsqu’il faut réaliser des facturations, commandes, rapports,...

Ses solutions de stockage de données

FADI propose deux manières de stocker et de centraliser vos données :

1) Les Data Lakes (lacs de données) qui sont le référentiel de données vous permettant de stocker “en vrac” les données brutes originales ingérées (audit, relecture, expériences, etc.). Le mode de traitement des données par lots/batch est préféré pour ce genre d’approche (traitements des données à la demande).

2) Les Data Warehouse (entrepôts de données) qui sont des bases de données où sont stockées les vues agrégées des données ingérées. Le mode de traitement des données Stream est préféré pour cette approche (traitement au moment de l’ingestion des données).

Monitoring et Data visualisation

Il est extrêmement important, à l’heure actuelle, que vous sachiez si vos infrastructures IT sont opérationnelles et sécurisées. Les outils de supervision (monitoring) sont précieux pour vos stratégies de contrôle, d’observation et de décisions.

FADI utilise des outils open-source de monitoring afin de vous permettre de suivre l’état de santé de vos systèmes, collecter vos données en temps réel et déclencher des alertes dès qu’un problème est rencontré.

L’aspect open-source de ces outils répond aux défis du DevOps : le fait de pouvoir remonter n’importe quel type de métriques provenant des applications, et même les indicateurs métiers, répond aux besoins actuels des entreprises en termes de rapidité, flexibilité et de maîtrise des coûts.

FADI vous permet donc de monitorer vos données en configurant vous-même vos systèmes d’alertes. Comme vous pouvez le constater ci-dessous, les outils proposés servent aussi à faire de la data visualisation : c’est-à-dire à représenter et à visualiser les données collectées sous forme de graphique, diagramme et/ou tableaux de bord (dashboards) afin de pouvoir prendre rapidement des décisions. Les outils proposés initialement par FADI sont :

Grafana : il s’agit d’un outil orienté data visualisation avec lequel vous pouvez réaliser des tableaux de bords et des graphiques à partir de différentes sources de données, et principalement à partir de séries temporelles.

Illustration de Grafana provenant de la présentation de FADI

Prometheus : ce logiciel est parfait pour la surveillance de vos métriques ! Il les collecte et les stocke sous forme de séquences temporelles. Bien que des représentations visuelles soient possibles, Prometheus est plutôt utilisé pour la collecte, l’analyse de données ainsi que la génération d’alertes. N’incluant pas de tableaux de bord par défaut, préférez Grafana pour la visualisation de vos données ( il prend en charge l’intégration de Prometheus). Si vous désirez plus d’informations sur Prometheus et le monitoring, nous vous conseillons ce lien.

Zabbix : cette plateforme distribuée est relativement facile d’utilisation pour les personnes ayant peu de connaissances techniques. Elle vous permet de collecter et de gérer vos données, de détecter un problème et d’envoyer des notifications selon des règles personnalisables. Vous pouvez également visualiser et analyser l’état de santé de l’infrastructure IT. Tout comme Prometheus, vous pouvez également interfacer Zabbix avec Grafana.

Illustration d’un dashboard provenant de Zabbix

Apache Superset : cet outil open source a été initialement développé par Airbnb. Il fonctionne en tant qu’application web sur les principaux navigateurs internet et permet d’explorer et visualiser vos données très intuitivement sous forme de graphiques, feuilles de calculs et tableaux de bord.

Illustration d’un dashboard provenant de Apache Superset

N’oubliez pas que vous pouvez également intégrer très facilement vos propres outils dans FADI si vous préférez.

Perspectives

Actuellement (mai 2021), le CETIC a prévu plusieurs développements à faire pour FADI ; notamment l’ajout d’un wizard pour configurer encore plus facilement FADI et travailler sur les aspects de sécurité (DevSecOps).

Exemple de cas d'étude

Le monitoring des bureaux du CETIC

L’objectif de ce cas d’utilisation était de fournir des informations (tableaux de bord et alertes) en fonction des données des capteurs placés au sein du bâtiment du CETIC (température, CO2, ...). Dans cet exemple, les mesures de température des capteurs ont été ingérées, stockées affichées dans un tableau de bord assez simple. Rendez-vous sur ce guide utilisateur FADI pour accéder au tutoriel de cet exemple, vous y apprendrez comment :

1) Installer FADI via ce lien.

2) Préparer la base de données pour stocker les mesures avec PostgreSQL (qui est à la fois entrepôt de données et base de données).

3) Ingérer les mesures des capteurs grâce à Apache Nifi, depuis la source de données (un fichier csv dans ce cas) et les stocker dans la base de données.

4) Afficher les tableaux de bord et configurer des alertes à partir des données ingérées et stockées dans l'entrepôt de données avec Grafana.

5) Explorez les données avec Superset.

6) Traiter les données en utilisant Jupyter comme interface web pour les explorer à l'aide de notebooks et Apache Spark, un framework de calcul distribué, comme moteur d’analyse pour le traitement de grands ensembles de données.

Illustration du processus de monitoring des bureaux du CETIC provenant du guide utilisateur de FADI

Autres exemples de cas d’étude

Cette liste de projets représente d’autres exemples de cas d’étude où le framework FADI a été utilisé :

Artemtec

Grinding 4.0

UserMEDIA/ CloudMedia

NewTech4Steel (European RFCS project)

Quality4.0 (European RFCS project)

BigData@MA (European, “Manunet” project)

Autosurveillance (European RFCS project)

QuadRide (Wallon CWALity project)

La démonstration en vidéo

Voici le replay du webinaire organisé par le Hub-C le 6 juillet 2021 afin de faire une démonstration de Fadi, un outil qui rend les technologies Big Data plus accessibles. La présentation est réalisée par Faiez Zalila, expert en Ingénierie logicielle basée sur les modèles et systèmes informatiques distribués au sein du CETIC.

Pour aller plus loin ...

FADI est un outil développé par le CETIC, n’hésitez donc pas à prendre contact si vous désirez des informations supplémentaires !

Voici quelques liens utiles par rapport à FADI :

Site officiel de FADI : https://FADI.cetic.be/ contenant la documentation d’installation et d’utilisation
Pour en savoir plus : https://FADI.presentations.cetic.be
Le code source : https://github.com/cetic/fadi
Le dépot Github des Helm charts pour installer FADI dans un cluster Kubernetes : https://github.com/cetic/helm-fadi
“R. Sellami, F. Zalila, A. Nuttinck, S. Dupont, J. -C. Deprez and S. Mouton, "FADI - A Deployment Framework for Big Data Management and Analytics," 2020 IEEE 29th International Conference on Enabling Technologies: Infrastructure for Collaborative Enterprises (WETICE), 2020, pp. 153-158, doi: 10.1109/WETICE49692.2020.00038.”

Besoin d’une aide supplémentaire ?

Vous avez une question spécifique à propos d’une fiche? Elles sont réalisées par les experts du CETIC (Centre d'Excellence en Technologies de l'Information et de la Communication), un centre de recherche appliquée en informatique situé à Charleroi. Vous trouverez toutes les coordonnées ici.

Cloud Computing

Tsimulus : un générateur de séries chronologiques réalistes open source

Prérequis

Pour quoi faire ?

Quelques concepts

Une série chronologique (ou série temporelle)

1. Évaluation de la série

2. Les valeurs manquantes

Les générateurs

1. Une simulation de données réaliste

2. Les différents types de générateurs

2.1. Les générateurs primaires

2.2. Les générateurs composites

2.3. Les générateurs binaires

3. Le document de configuration

3.1. La section “generators”

3.2. La section “exported”

3.3. Les sections “from” et “to”

Démonstration de TSimulus

Matériel requis

Étape 1 - Comment utiliser la bibliothèque Tsimulus ?

Étape 2 - Getting started

2.1. Une première génération de données

2.1.1. Création d’un générateur qui décrit l'évolution de la température mois par mois

2.2. Vers un modèle plus réaliste

2.2.1. Création d’un nouveau générateur qui exprime la variation de la température sur les heures d'un jour calendaire

2.2.2. Création d’un nouveau générateur qui décrit une série chronologique bruitée

La démonstration en vidéo

Besoin d’une aide supplémentaire ?

TSorage : une plateforme de gestion de données (I)IoT

Prérequis

Pour quoi faire?

Les atouts de TSorage

Une disponibilité et un passage à l’échelle avant tout (évolutivité)!

Pas de vendor lock-in mais des technologies standardisées, ouvertes, et pérennes

Une flexibilité des données

Une adaptation rapide et de manière prévisible

Une adaptation à votre infrastructure, prête pour le Cloud.

Quelques concepts

Architecture

Un exemple de cas d’étude

Pour aller plus loin...

Introduction au Data processing

Pour quoi faire ?

Le Data Processing

Le Data Engineering

Le processus ETL

Extraction (extract)

Les types de chargement des données

1. Le mode Batch (par lots)

2. Le mode Stream

Transformation (transform)

Un stockage intermédiaire et temporaire

Les transformations des données

Chargement (load)

Les avantages

Quelques outils clouds open source

Le processus ELT

Les avantages

Les modes de stockages et de centralisation de vos données

1. Les Data lakes (lacs de données)

2. Les Data warehouses (entrepôts de données)

Comparaison entre un Data lake et un Data warehouse

Besoin d’une aide supplémentaire ?

FADI, un Framework pour l'Automatisation du Déploiement et de l'orchestration d'Infrastructures conteneurisées

Prérequis

Pour quoi faire ?

Quelques concepts ...

Une application “Cloud Native”

Un orchestrateur de conteneurs

Une pile logicielle

Les atouts de FADI

Les déploiements sont automatisés et simplifiés

Sa portabilité

Sa maintenabilité

Une solution qui vous correspond

Ses traitements des données

Ses solutions de stockage de données

Monitoring et Data visualisation

Perspectives