CDH5ベータ1のドキュメントを確認してみた

10月29日に発表された Cloudera's Distribution including Apache Hadoop (CDH5) のベータ1のドキュメントをざっと見てみたので、気になった点を挙げてみる。細かいレベルではいろいろあるけど、大きいところ&気になったところを。

あくまで、ベータ1時点での情報なので、正式リリースされる時には変更になっている可能性があります。ベータ1→ベータ2→・・・と経て、2014年3月の正式リリースを目指しているようです。

全体

  • 主なバージョンは Hadoop 2.2.0、Hive 0.11.0、Pig-0.11、ZooKeeper 3.4.5、HBase 0.95.2、Sqoop 1.4.4、Sqoop2 1.99.2、FlumeNG 1.4.0、Impala 1.2.0
  • ClouderaはYARNの利用を推奨。"now production-ready"とのこと(CDH4ではMRv1が推奨されていた)
  • MRv1も提供。ただしAPIに変更があるため、CDH4からの移行では、MRアプリケーションのリコンパイルが必要
  • Oracle JDK 1.7をサポート。1.6はサポートされない。Clouderaは1.7.0_25でテスト
  • OSは(Clouderaかテストしているのは)RHEL/CentOS 5.7/6.2/6.4、SLES 11SP1、Ubuntu 10.04/12.04、Debian Squeeze (6.0.3)。これ以降も使えるだろうと。

HDFS関連

  • RW/RO snapshots
  • NFSv3 interface
  • failover and retry in WebHdfsFileSystem for NN HA
  • HADOOP-10020: Disable symlinks temporarily. まぁ、そうだよなぁ... シンボリックリンクは今のところ信用ならない感じ
  • HDFS-4451: HDFS balancer command returns exit code 1 on success instead of 0. ちと確認が必要かな...

MapReduce 2.0 (YARN) 関連

  • ResourceManager HA
  • Monitoring and enforcing memory and CPU-based resource utilization using cgroups

Hive関連

  • LEAD/LAG/FIRST/LAST
  • DECIMAL型
  • ALTER VIEW AS SELECT
  • 移行にはmetastore schemaのアップグレードが必要。schematoolという新ツールが同梱されるので、これでアップグレードすることが推奨
  • metastoreにPostgreSQL 9.0以降を使うとデフォルト設定では起動しないらしい。standard_conforming_strings が on になったことが原因らしい。Supported Databasesは8.4らしい。

アップグレード関連

  • CDH4からアップグレードは、CDH4アンインストール → CDH5インストール。CDH4が入った状態でのアップグレードはサポートされない
  • CDH3からはCDH4を経てからアップグレードする必要がある

詳細や正確な情報はCloudera社が公開している「CDH 5 Beta 1 Documentation」から確認できます。