Après 4 "release candidate" et plus d'un an de développement la
version 0.92.0 de HBase succède à la branche 0.90.x.Malgré le faible écart
entre les deux numéros de version le travail accompli pour aboutir à
cette version a été très important.
Les nouveautés majeures :
Deux types de coprocesseurs sont disponibles :
Les nouveautés majeures :
Implémentation des co-processeurs
Les coprocesseurs permettent de réaliser des traitements directement au sein des JVM des serveurs qui gèrent les données.Deux types de coprocesseurs sont disponibles :
- Les “observers” qui permettent le déclenchement d’actions sur des évènements affectant les données ou les tables. Les observers peuvent être chainés, executés par ordre de priorité et poser un veto sur une opération.
- Les “endpoints” quant à eux permettent d’étendre les services RPC par des procédures personnalisées. Livrés avec cette version on trouvera ainsi des services d'agrégation permettant, entre autres, de déterminer les valeurs minimales ou maximales des données ou encore de réaliser des opérations arithmétiques de base.
HFile V2
HFile
désigne le format des fichiers utilisé par HBase pour stocker les
données sur le système de fichier. Cette contribution est le fruit du
travail des ingénieurs de Facebook et permet d’améliorer l’utilisation
de la mémoire faite pour les écrire et y accéder. Il permet d’accélérer l’ouverture des fichiers et donc de diminuer le temps
d’indisponibilité des données qui y sont stockées lors du démarrage du
cluster ou suite à la défaillance d’un noeud. (cette optimisation sera d'autant plus notable si vous utilisez les Bloom Filters)
A noter qu'aucune migration n'est nécessaire, HBase 0.92 sait lire les fichier V1 et les convertira en V2 à la première "compaction".
Distributed log splitting
Lors d’un redémarrage du cluster ou en cas de défaillance d’un nœud la prise en charge des données en instance d’intégration est distribuée sur l’ensemble des nœuds du cluster encore disponibles, la coordination étant assurée par Zookeeper. Cette action dans les versions précédentes était principalement effectuée par un seul serveur.Intégration de la sécurité
Cette version apporte des mécanismes de sécurité basés sur ceux offert par Hadoop (authentification via Kerberos, isolation des données sur HDFS....) On trouve donc des fonctionnalités telles que :- Des appels RPC clients sécurisés
- La mise oeuvre de listes de contrôle d’accès (ACL) sur les tables et les colonnes
- Une connexion sécurisé au quorum ZooKeeper
Correctifs et optimisations diverses
Parmi
les améliorations et les nombreux correctifs on notera aussi
l’activation par défaut du mécanisme de gestion de la mémoire
MemStore-LAB, ce dernier permet de réduire la fragmentation mémoire de
la JVM et donc de diminuer le travail du garbage collector.
L’IHM permet quant à elle de visualiser en plus des informations habituelles (statistiques des noeuds, distribution des données...) les opérations en cours sur le cluster (split, compaction....)
Voir la liste des changements
L’IHM permet quant à elle de visualiser en plus des informations habituelles (statistiques des noeuds, distribution des données...) les opérations en cours sur le cluster (split, compaction....)
Voir la liste des changements
Comments
Post a Comment