我很榮幸地宣布 Spring for Apache Hadoop 專案的第二個里程碑 (1.0.0.M2) 已推出。 在這篇部落格文章中,我想快速重點介紹 M2 中的主要新功能。
HBase DAO 支援
Spring Framework 中最通用和強大的功能之一是資料存取物件 (或 DAO) 支援。 透過 Spring for Hadoop 1.0.0 M2,為 HBase 新增了相同的功能。 熱門範本和回呼模式的使用者應該會感到賓至如歸,因為此架構會處理表格查詢、資源清理和例外轉換,讓開發人員專注於真正重要的事情。 如需更多資訊,請參閱 API 和參考文件。 順便一提,我們也在發布中新增了一個新範例,
hbase-crud,以協助您立即開始。
Cascading Taps
在 M2 中,我們透過
Cascading 程式庫擴展了與
Cascading 程式庫的整合,方法是
Taps。 Spring Integration 配接器(無論是輸入還是輸出)的豐富性,例如檔案、TCP、Twitter、FTP、RSS(僅舉幾例)現在可供 Cascading(及其擴充功能,例如
Cascalog 或
Scalding)使用。 而且我們才剛剛開始 - 期待這方面有更多消息。
Hadoop 安全性
透過 M2,從 vanilla Hadoop 安裝(例如開發機器)移至完全以 Kerberos 保護的 Hadoop 叢集是透明的。 檔案系統、Map/Reduce 和 Pig 元件都具有安全性感知,會在適當的認證下執行並支援使用者模擬。 如需更多資訊,請參閱專用
章節。
增強的 vanilla Map/Reduce 支援
從一開始,Spring for Apache Hadoop 就提供了對 Map/Reduce 作業的廣泛支援 - 無論是原始或傳統的 Java Map/Reduce、
streaming 或
tooling。在 M2 中,我們新增了對 Hadoop
generic options 的
支援,全面簡化了作業配置,無論是單獨命名資源還是透過模式比對,都可以一行程式碼搞定。 此外,我們還增強了基於 jar 的作業的啟動 - 無需將類別放在 classpath 上,即可完全從 jar 中獨立載入作業。 這些類別(及其依賴項)不會
洩漏到應用程式中,從而避免了各種版本衝突和依賴項
蔓延。 工具宣告已得到改進,可以自動讀取 Jar 元資料及其
Main-Class,從而提供了一個強大且完全託管的
替代方案來替代 Hadoop shell
jar調用。
兩個新範例
最後但同樣重要的是,已將兩個新範例添加到發行版中
hbase-crud,正如我之前提到的,展示了宣告式和程式化的 HBase 支援以及
pig-scripting,演示了 JVM 和 Pig 指令碼編寫:前者在 HDFS 中進行資料準備,後者進行資料分析。 管道中還有更多範例,如果您想看到任何特定的內容,請
告訴我們。
希望您喜歡這個新的里程碑。 快去 抓取 1.0.0 M2,試用一下,讓我們知道您的想法!
其他新聞:Project Serengeti
就新版本而言,Spring for Apache Hadoop 1.0.0 M2 並不是 Hadoop 領域的唯一新聞。 今天,VMware 公開了 Serengeti 專案,用於虛擬化和高可用性 Hadoop。 請參閱 Richard McDougall 的 部落格文章,了解其背後的動機、目前狀態……