Skip to main content

Sortie de HBase 0.92

Après 4 "release candidate" et plus d'un an de développement la version 0.92.0 de HBase succède à la branche 0.90.x.Malgré le faible écart entre les deux numéros de version le travail accompli pour aboutir à cette version a été très important.

Les nouveautés majeures :

Implémentation des co-processeurs

Les coprocesseurs permettent de réaliser des traitements directement au sein des JVM des serveurs qui gèrent les données.
Deux types de coprocesseurs sont disponibles :
  • Les “observers” qui permettent le déclenchement d’actions sur des évènements affectant les données ou les tables. Les observers peuvent être chainés, executés par ordre de priorité et poser un veto sur une opération.
  • Les “endpoints” quant à eux permettent d’étendre les services RPC par des procédures personnalisées. Livrés avec cette version on trouvera ainsi des services d'agrégation permettant, entre autres, de déterminer les valeurs minimales ou maximales des données ou encore de réaliser des opérations arithmétiques de base.

HFile V2

HFile désigne le format des fichiers utilisé par HBase pour stocker les données sur le système de fichier. Cette contribution est le fruit du travail des ingénieurs de Facebook et permet d’améliorer l’utilisation de la mémoire faite pour les écrire et y accéder. Il permet d’accélérer l’ouverture des fichiers et donc de diminuer le temps d’indisponibilité des données qui y sont stockées lors du démarrage du cluster ou suite à la défaillance d’un noeud. (cette optimisation sera d'autant plus notable si vous utilisez les Bloom Filters)
A noter qu'aucune migration n'est nécessaire, HBase 0.92 sait lire les fichier V1 et les convertira en V2 à la première "compaction".

Distributed log splitting

Lors d’un redémarrage du cluster ou en cas de défaillance d’un nœud la prise en charge des données en instance d’intégration est distribuée sur l’ensemble des nœuds du cluster encore disponibles, la coordination étant assurée par Zookeeper. Cette action dans les versions précédentes était principalement effectuée par un seul serveur.

Intégration de la sécurité

Cette version apporte des mécanismes de sécurité basés sur ceux offert par Hadoop (authentification via Kerberos, isolation des données sur HDFS....) On trouve donc des fonctionnalités telles que :
  • Des appels RPC clients sécurisés
  • La mise oeuvre de listes de contrôle d’accès (ACL) sur les tables et les colonnes
  • Une connexion sécurisé au quorum ZooKeeper
Correctifs et optimisations diverses

Parmi les améliorations et les nombreux correctifs on notera aussi l’activation par défaut du mécanisme de gestion de la mémoire MemStore-LAB, ce dernier permet de réduire la fragmentation mémoire de la JVM et donc de diminuer le travail du garbage collector.
L’IHM permet quant à elle de visualiser en plus des informations habituelles (statistiques des noeuds, distribution des données...) les opérations en cours sur le cluster (split, compaction....)



Voir la liste des changements

Comments

Popular posts from this blog

Row Count : HBase Aggregation example

With the coprocessors HBase 0.92 introduces a new way to process data directly on a region server. As a user this is definitively a very exciting feature : now you can easily define your own distributed data services.

This post is not intended to help you how to define them (i highly recommend you to watch this presentation if you want to do so) but to quickly presents the new aggregation service shipped with HBase 0.92 that is built upon the endpoint coprocessor framework.

1. Enable AggregationClient coprocessor

You have two choices :

You can enable aggregation coprocessor on all your tables by adding the following lines to hbase-site.xml :
<property> <name>hbase.coprocessor.user.region.classes</name> <value>org.apache.hadoop.hbase.coprocessor.AggregateImplementation</value> </property> or ...you can enable coprocessor only on a table throught the HBase shell :

1. disable the table
hbase> disable 'mytable'

2. add the coprocessor
hbase…

Analyse d'un "thread dump" d'une JVM IBM sous AIX

Dans quels cas le thread dump est utile ?
Le thread dump est un instantané de l'activité des threads de la JVM. Leur analyse est intéressante dans les cas où l'activité de la JVM ne semble pas normale :
Activité suspendue (deadlock/interblocage) ou partiellement suspendue (starvation/famine)Activité existante mais le "débit" est en deçà de ce qui est attendu (Goulot d'étranglement / Bottleneck)Activité existante mais le "débit" reste nul (Boucle infinie / Infinite Loop)Comment avoir un thread dump ?
Nous nous limitons ici à la machine virtuel IBM sous AIX. Dans ce cas là il est extrêmement simple de déclencher la création d'un thread dump : il suffit de faire un kill -3 sur le processus Java.

Un fichier dont le nom est javacore.[date].[numero_processus].[compteur].txt est produit. Sur la sortie standard du processus vous devriez voir la ligne suivante s'afficher :
JVMDUMP010I Java Dump written to .....
En général le dump est produit dans le réper…

Zookeeper, Netflix Curator and ACLs

If you have one or more Zookeeper "multi-tenant" clusters you may want to protect znodes against unwanted modifications.
Here is a very simple and short introduction to the ACL and custom authentication features.
This post is not intended to give you best practices about security and Zookeeper, the only goal is to give you a complete example of a custom authentication handler.
Complete source code with JUnit test is available here :
https://github.com/barkbay/zookeeper-acl-sample/ Use case Let say that your Zookeeper cluster is used by several users. In order to restrict user actions you have decided that each user must prefix all paths with the first letter of his name.
User foo is only allowed to create, read, delete and update znodes under the /f znode. User bar is only allowed to create, read, delete and update znodes under the /b znode.
Get client authentication data on the server side Zookeeper client authentication can be easily customized , all you have to do is to…