Mysterious dark data

À l’ère de l’information, les entreprises collectent continuellement des masses de données. Mais dans la plupart des cas, les données collectées sont stockées sans être analysées. Ces données ne sont pas utilisées et sont appelées « Dark Data » (ou données sombres).

Que sont les Dark Data?

Un physicien ou un astronome sera familier avec le déséquilibre universel entre matière visible (les étoiles et les planètes que nous pouvons voir), et « matière noire ». La matière noire semble constituer la plus importante masse de l’univers, mais qui est difficile à voir ou à mesurer. Ce même principe s’applique pour les données collectées.

Le terme « Dark data » a été créé par l’entreprise Gartner pour décrire ces informations collectées et archivées, et qui ne sont pas utilisées par les entreprises qui les recueillent. Cela englobe pêle-mêle données de géolocalisation, diagnostics de l’IoT (Internet des Objets), rapports d’analyse, sondages etc…
Or, ces données constituent une partie non négligeable des systèmes de données, puisqu’elles représentent environ 80 % des informations commerciales détenues à ce jour (étude IBM) et ce taux est voué à croître continuellement ! 

Quant aux Dark Data, il s’agit de toutes les informations que les entreprises collectent dans le cadre de leurs activités habituelles, qu’elles n’utilisent pas, qu’elles ne prévoient pas d’utiliser, mais qu’elles ne jetteront jamais. Il s’agit des journaux Web, des données de suivi des visiteurs, des images de surveillance, des correspondances par email des anciens employés, et bien plus encore.

Sky Cassidy (Chroniqueur, et PDG de MountainTop Data)

Structure des données

Avant de poursuivre, il faut garder à l’esprit que les données ne sont pas synonymes d’informations.

Les données sont en fait une manifestation de l’information,  elles sont les plus petits éléments constitutifs de l’information. De la même manière que les atomes sont les plus petits éléments constitutifs de la matière, ou que les photons sont les plus petits éléments constitutifs de l’énergie.

Chaque donnée est dénuée de sens en soi. Seule l’interprétation de plusieurs données permet d’obtenir des informations exploitables. Pour comprendre cela, imaginez les données comme des lettres individuelles. Une seule lettre, par exemple la lettre « O », n’a pas de signification en soi. Ce n’est que lorsque plusieurs lettres sont combinées que l’on obtient un mot, par exemple « pomme ». De plus, l’ordre est décisif : « mepom » ne veut rien dire.

Nous utilisons ici le terme « information » comme un terme abstrait, comme la matière et l’énergie. Lorsque nous parlons d’informations au pluriel, nous parlons d’expressions concrètes.

Mystérieuses données sombres : dark data riches en information sur vos clients et « users » mais ignorées et inexploitées. Un trésor perdu.

Les données se présentent sous trois formats courants :

  • Données structurées:
    données traditionnelles stockées dans un format d’enregistrement soigné avec des types de données bien définis tels que des champs fixes numériques et des caractères alphanumériques. Les données structurées constituent la base de la plupart des bases de données existantes et sont relativement faciles à stocker et à gérer.
  • Données semi-structurées:
    chiffres ou caractères non formatés ou faiblement formatés à l’intérieur d’un champ mais avec peu ou pas de structure. Un tweet est un exemple de données semi-structurées. Les données semi-structurées sont plus complexes à stocker et à traiter que les données structurées.
  • Données non structurées:
     données qui ne sont pas basées sur du texte – des photos, des images ou des fichiers sonores. Les données non structurées sont difficiles à gérer car elles sont de grande taille, difficiles à cataloguer, à indexer, et à stocker dans des bases de données.

Pourquoi y-a t'il autant de données sombres?

L’essor des réseaux sociaux, de l’Internet des objets  et du Machine Learning a été accompagné d’une quantité impressionnante de données non structurées, impures ou sombres, qui affluent de multiples sources : des pièces jointes de mails aux fichiers journaux de serveurs, en passant par les fichiers d’enquêtes bruts, les fichiers d’appels de clients, les anciens documents des employés, les données stockées sur le cloud, les données liées aux appareils, les données financières, etc… La liste est longue.

Que faire de ces données ?

Les données sont devenues un élément vital pour l’entreprise moderne. Collecter des données est une chose, les assimiler, les comprendre et les transformer en une avancée majeure en est une autre.
Cependant, il est pratiquement impossible d’éliminer complètement les dark data. Certaines données ne seront tout simplement pas utilisables par l’entreprise, ou du moins pas dans l’immédiat.
Ces données, bien souvent non linéaires (e-mails, documents, publications sur les réseaux sociaux, images ou encore vidéos) peuvent se dissimuler facilement dans votre système et ses zones d’ombres. S’il est nécessaire que vous protégiez ces données malgré tout, il faut aussi que vous puissiez dans l’absolu les utiliser.

L’analyse de données sombres est donc une solution. Ce processus pourrait être automatisé grâce à l’utilisation de l’IA et du Machine Learning, ou un logiciel qui permet aux entreprises de mieux localiser, identifier et exploiter des données jusque-là inconnues à des fins de prise de décision commerciale stratégique. Selon le Rapport sur l’état des dark data, les participants voient l’analyse comme la solution majeure capable de relever adéquatement les défis de ces données.

Pourrait-on en tirer quelque chose ?

En exploitant les dark data, permettrait de bénéficier d’un avantage concurrentiel certain, et d’apporter de nouvelles possibilités à votre entreprise. Par exemple, les données liées à l’utilisation des réseaux pourraient être extrêmement intéressantes pour découvrir les failles de sécurité, afin d’en identifier les points faibles et d’y pallier. Ceci vous permettrait d’optimiser l’utilisation des ressources. Bien souvent, les entreprises n’utilisent pas suffisamment les données associées à leurs clients et aux échanges qu’elles ont eues avec eux car ces informations sont dispersées. Si vous parvenez à les structurer, vous pourrez mettre en place de meilleures stratégies et procédés.

Partager :

Facebook
Twitter
LinkedIn
Email
Telegram
WhatsApp

Nos services

  • Graphic Design
  • Web Design
  • Development
  • Web Security
  • Help Desk

Parutions

Catégories

Des sujets que nous voulons partager

Dernières parutions

Metaverse, réalité virtuelle

Metaverse : le web 3.0

Metaverse: le web 3.0. Bâti sur plusieurs technologies, c’est peut-être la prochaine version d’Internet. Le marketing doit s’adapter et les marques aussi

Lire la suite »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Veuillez remplir le formulaire
et nous vous contacterons au plus vite

Contactez-nous
Réponse rapide garantie

champs obligatoires*