CDH5ベータ1のドキュメントを確認してみた
10月29日に発表された Cloudera's Distribution including Apache Hadoop (CDH5) のベータ1のドキュメントをざっと見てみたので、気になった点を挙げてみる。細かいレベルではいろいろあるけど、大きいところ&気になったところを。
あくまで、ベータ1時点での情報なので、正式リリースされる時には変更になっている可能性があります。ベータ1→ベータ2→・・・と経て、2014年3月の正式リリースを目指しているようです。
全体
- 主なバージョンは Hadoop 2.2.0、Hive 0.11.0、Pig-0.11、ZooKeeper 3.4.5、HBase 0.95.2、Sqoop 1.4.4、Sqoop2 1.99.2、FlumeNG 1.4.0、Impala 1.2.0
- ClouderaはYARNの利用を推奨。"now production-ready"とのこと(CDH4ではMRv1が推奨されていた)
- MRv1も提供。ただしAPIに変更があるため、CDH4からの移行では、MRアプリケーションのリコンパイルが必要
- Oracle JDK 1.7をサポート。1.6はサポートされない。Clouderaは1.7.0_25でテスト
- OSは(Clouderaかテストしているのは)RHEL/CentOS 5.7/6.2/6.4、SLES 11SP1、Ubuntu 10.04/12.04、Debian Squeeze (6.0.3)。これ以降も使えるだろうと。
HDFS関連
- RW/RO snapshots
- NFSv3 interface
- failover and retry in WebHdfsFileSystem for NN HA
- HADOOP-10020: Disable symlinks temporarily. まぁ、そうだよなぁ... シンボリックリンクは今のところ信用ならない感じ
- HDFS-4451: HDFS balancer command returns exit code 1 on success instead of 0. ちと確認が必要かな...
MapReduce 2.0 (YARN) 関連
- ResourceManager HA
- Monitoring and enforcing memory and CPU-based resource utilization using cgroups
Hive関連
- LEAD/LAG/FIRST/LAST
- DECIMAL型
- ALTER VIEW AS SELECT
- 移行にはmetastore schemaのアップグレードが必要。schematoolという新ツールが同梱されるので、これでアップグレードすることが推奨
- metastoreにPostgreSQL 9.0以降を使うとデフォルト設定では起動しないらしい。standard_conforming_strings が on になったことが原因らしい。Supported Databasesは8.4らしい。
アップグレード関連
- CDH4からアップグレードは、CDH4アンインストール → CDH5インストール。CDH4が入った状態でのアップグレードはサポートされない
- CDH3からはCDH4を経てからアップグレードする必要がある
詳細や正確な情報はCloudera社が公開している「CDH 5 Beta 1 Documentation」から確認できます。