The blog of blog of blogs

Les aventures d'un ethnologue dans le grand monde

Des données par milliards 10 octobre 2011


Avec la diffusion de l’informatique à toutes les strates du fonctionnement des sociétés contemporaines, l’élément technologique majeur s’appelle désormais la base de données. C’est le hangar, le centre de stockage, le tiroir magique. Les anglais appellent d’ailleurs cela un data warehouse : entrepôt de données.
La totalité des services à distance que nous utilisons aujourd’hui fonctionne grâce à des bases de données.

Appeler le SAMU vous fait passer par une base qui reconnaît « 15 » comme numéro à acheminer en priorité et qui oriente l’appel vers un opérateur géographiquement proche. Autre base de données.
Une troisième associe votre numéro d’appel à une adresse physique ou à une cellule du réseau GSM. Une quatrième enregistre la conversation et les actions mises en œuvre par le médecin régulateur avec (cinquième) géolocalisation de l’équipe disponible la plus proche. Une sixième copie le tout en temps réel, juste au cas où.
D’autres bases peuvent être sollicitées, comme celle des donneurs d’organes, du nombre de lits disponibles par hôpital ou du dossier médical informatisé des victimes (si, si, un jour ça existera).
Ce qui existera peut-être un jour aussi, c’est la possibilité d’adresser au SAMU un SMS ou une photo du carrefour où un cycliste vient de se faire renverser, ce qui déclenchera une comparaison avec une base du type Google Street View et reconnaissance du lieu (si, si, un jour ça aussi ça existera).
Bref… en fin de compte les données enregistrées dans ces bases sont exploitées dans d’autres bases à des fins statistiques, pour connaître par exemple les pics d’activité à l’heure près, les secteurs géographiques les plus demandeurs, la proportion d’interventions primaires réellement vitales, le type d’action de secours par type de population, le taux de survie par type d’action de secours, etc.

Plus on s’approche du centre de ces bases de données, plus les professionnels ont le cœur qui bat fort. Car installer le bidule, configurer les machins et enregistrer des trucs est finalement assez simple.
C’est ce qui se passe après qui l’est moins.

Comme on l’a déjà vu, les données sont une matière brute : comme du pétrole elles demandent à être extraites, raffinées et distribuées. Cela se fait avec des logiciels de data mining et ce sont eux qui permettent de donner du sens à l’amoncellement de 0 et de 1 qui gît dans les serveurs.
Nous parlons de volumes absolument gigantesques : c’est du lourd, c’est du big data.
La puissance technique du matériel n’est (presque) plus une limite, le critère déterminant repose désormais sur le nombre d’instructions qui peuvent être traitées simultanément. Cette unité de mesure anglophone s’appelle le FLOP… sans jeu de mot francophone. En 2012, les calculs habituels dans l’activité d’une grande multinationale touchent les 10 puissance 16 ‘opérations à virgule flottante par seconde’ (pétaFLOPS). Les 10 puissance 18 sont attendus d’ici l’année 2016.

.

Mais au-delà des spécifications techniques, par « donner du sens » je ne sous-entend pas seulement une finalité commerciale. Donner du sens signifie que l’utilisateur trouve l’information utile et pertinente de son point de vue à lui.
A l’instar du SAMU, donner du sens aux données stockées peut faire la différence entre une équipe d’urgence disponible ou pas d’équipe du tout.

De façon moins critique, si votre page Facebook indique que vous vivez à Paris 14e arrondissement, la base de données vous affichera des publicités concernant le code postal 75014 du pays appelé France, sans quoi vous afficherez celles qui concernent Irving, Texas, Etats-Unis d’Amérique.
Plus important encore du point de vue de l’entreprise Facebook, la moindre indication que vous faites apparaître sur votre profil est susceptible d’être monnayée à ceux qui ont des choses à vendre (code postal 75014 !) et tout cela repose dans des bases qui sont sollicitées en permanence. Si vous êtes un lecteur régulier de ce blog, vous savez de quoi je parle.
Et sinon, vous auriez tort de vous en priver   :)

Mais de façon très concrète, les données disponibles ne se présentent pas sous la forme de tableaux ordonnés du type 1 case = 1 information.
Les données sont en relation les unes avec les autres, ce sont des bases de données relationnelles. Elles nous arrivent sous la forme d’association de données, de graphiques, de cartes ou de liaisons par nœud exactement comme on pourrait vous faire apparaître au milieu d’un ensemble cohérent (?) composé de tous vos amis Viadeo ou Facebook.

De fait c’est la mise en relation des données qui leur donne leur valeur. Avec la théorie des graphes et l’Analyse de Réseau les chercheurs savent faire cela depuis le début du XXe siècle mais c’est l’essor des réseaux sociaux numériques qui nous a fait changer d’ordre de magnitude.
On ne parle plus de 10 ou 100 éléments immobiles qui attendent d’être analysés, mais de millions de nœuds et de dizaines de millions de relations en mouvement. Chaque jour, tous les jours.
Analyser des graphiques de cette dimension suppose des algorithmes à la fois mathématiquement solides et d’usage souple, car le graphique d’hier peut ne plus être valable demain. Le data dans le warehouse aura très certainement changé. Ce n’est pas un hasard si la National Security Agency américaine est le premier recruteur de mathématiciens au monde : ils sont employés pour concevoir, tester et fiabiliser les algorithmes qui servent à rendre intelligibles les données brutes au travers de programmes de collecte et de restitution comme Prism, rendu public en 2013.

L’intérêt pour les analyses de données a donné aux entreprises privées un temps d’avance sur la recherche universitaire, car celle-ci a mis du temps à comprendre à quel point les problèmes industriels étaient différents des modèles stables qu’ils traitaient depuis 80 ans.
Les impératifs du business ont obligé les entreprises à résoudre leurs problèmes en interne (ou presque), pour transformer des algorithmes explicatifs en algorithmes prédictifs… et à éprouver leur fiabilité. Chez Facebook, la base de données Haystack par exemple stocke vos photos. En traduction littérale, haystack signifie botte de foin… celle où vous devez retrouver l’aiguille ! La force de Haystack n’est pas tant dans les supports matériels que dans sa distribution sur le Réseau ce qui en fait une créature potentiellement indestructible et infiniment extensible. Il s’agit de payer pour de l’espace sur des serveurs physiques (loués par d’autres entreprises), après quoi l’entreprise peut y loger un morceau supplémentaire de Haystack.

Tout récemment l’entreprise IBM a mis en place un réseau spécifique pour un client qui souhaitait sous-traiter l’hébergement de sa messagerie e-mail. Un très gros client, puisque le résultat est un réseau de 120 millions de giga octets : 120Po.

1Go peut contenir (à la louche) 200 fichiers musicaux mp3, ce qui permet au système IBM d’en stocker 24 milliards… en termes de comptes rendus de réunion, ça en fait des réunions pour le client !

Blague à part, ces 120 Peta octets peuvent servir à du stockage bien entendu mais ils représentent surtout une puissance de calcul et à ce titre on peut l’utiliser comme supercalculateur météo, comme simulateur de tests nucléaires et autres opérations d’envergure majeure.
Pour le prestataire IBM qui fournit ce service à ce client, cela fait 200.000 disques durs reliés les uns aux autres, surveillés en permanence et sauvegardés.

Le client en question reste anonyme (Pentagone, NSA ?) et les disques durs en question sont hébergés dans les locaux américains de l’entreprise IBM. Une solution peu satisfaisante en termes de sécurité. Mais sans doute était-ce une exigence du client, qui préfère avoir tous ses œufs dans le même panier afin de pouvoir bien le surveiller, le panier. Une virtualisation complète comme le Haystack de Facebook était sans doute plus risquée.

De fait, IBM a donc du développer aussi une solution originale de stockage physique puisque le refroidissement des 200.000 disques se fait par circulation d’eau froide.

Pour un urbaniste, nul doute que tout cela ressemble furieusement à une centrale thermique !
Question : avez-vous déjà pensé à utiliser vos propres salles serveurs comme source de chauffage ?

.

Publicités
 

One Response to “Des données par milliards”

  1. […] Des données par milliards Avec la diffusion de l’informatique à toutes les strates du fonctionnement des sociétés contemporaines, l’élément technologique majeur s’appelle désormais la base de données. C’est le hangar, le centre de stockage, le tiroir magique. Les anglais appellent d’ailleurs cela un data warehouse : hangar de données. La totalité des services à distance que nous utilisons aujourd’hui fonctionne grâce à des bases de données. Source: yannickprimel.wordpress.com […]


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s