Ceux qui s'intéressent à YARN, le nouveau gestionnaire de ressources d'Hadoop, savent que son potentiel est énorme pour ceux qui font du BigData : spécifiez les ressources nécessaires à votre programme distribué (CPU, mémoires) et YARN se charge de trouver les nœuds de votre cluster possédant les ressources disponibles pour l’exécuter. Le tout bien entendu sur les pétaoctets hébergés par le système de fichier distribué d'Hadoop : HDFS.
Emporté par la dynamique Hadoop YARN est en train de devenir le socle de nombreux projets de traitement de gros volumes données : on retrouve le traditionnel Map/Reduce mais aussi Storm porté par Yahoo ! ou Stinger d'Hortonworks pour faire du SQL à (très) grande échelle
Cependant écrire un programme qui exploite les capacités de YARN n'est pas une sinécure, on se retrouve vite à copier / coller l'exemple du DistributedShell, à refaire les mêmes choses et à retomber dans les mêmes problématiques ... bref inutile d'être un génie pour comprendre qu'il y avait matière à factoriser.
Il y avait Kitten de chez Cloudera, voici celle de Continuuity, Weave, jusqu'ici hébergée chez Github qui vient d'être acceptée par la fondation Apache pour incubation. Au passage il change de nom et devient Twill histoire de ne pas le confondre avec Apache Wave (plateforme de travail collaborative, pas grand chose à voir avec le BigData)
L'idée derrière
Weave tente aussi de simplifier la gestion de l'application comme par exemple la gestion des logs qui est toujours délicate lorsque l'on a affaire à des applications qui s’exécutent sur plusieurs machines.
Si vous avez commencé à jouer avec YARN jetez un coup d’œil à Weave.
Les alternatives potentielles :
Kitten
Spring YARN
Comments
Post a Comment