Spring for Apache Hadoop 1.0 正式發佈

工程 | Costin Leau | 2013年2月26日 | ...

我們很高興宣布 Spring for Apache Hadoop 的第一個正式發佈 (GA) 版本 (1.0) 正式推出，距離其第一個里程碑版本的發佈幾乎整整一年。在這段期間，我們採納了您的大量回饋意見來推動產品藍圖，因此感謝社群中所有提供協助的人！雖然這一年來新增了許多功能，但 Spring for Apache Hadoop 的目標仍然不變，那就是簡化基於 Hadoop 應用程式的開發。

立即下載，或在此處檢視 Maven Artifacts here。

簡化的程式設計模型與一致性

我們觀察到，使用 Hadoop 隨附的標準現成工具，您很容易最終得到結構不良的 Hadoop 應用程式，它們是由命令列工具、腳本和拼湊在一起的程式碼片段所組成的集合。Hadoop 生態系統中各個專案的不同起源，例如專注於宣告式用法的 Hive 和 Pig，或針對程式化角度的 Cascading 和 HBase，導致了不同的組態和 API 設計方法。

Spring for Apache Hadoop 在廣泛的 Hadoop 生態系統專案中提供了一致的程式設計和組態模型：框架並非規定要使用什麼，而是擁抱並增強您的技術堆疊，忠於 Spring 的核心原則。

Spring 熟悉的樣板 API 設計模式應用於 Hadoop，其結果是產生了諸如 HBaseTemplate、HiveTemplate 和 PigTemplate 等輔助類別。這帶來了熟悉的 Spring 資料存取樣板功能，例如轉換為 Spring 可移植的資料存取例外層級結構、對底層資源的執行緒安全存取，以及輕量級物件對應功能。以 Java 為中心的 API（例如 Cascading）可以自由使用，透過 Spring Framework 出色的 Java 組態，無論是否需要額外組態。

從小規模開始，並隨著需求成長

過去一年出現的另一個主題是鼓勵從小規模開始，然後發展為複雜解決方案的方法。各種 Runner 類別的引入允許執行 Hive、Pig 腳本、原始 Map/Reduce 或 Streaming jobs、Cascading flows，以及調用 pre 和 post 通用 JVM 基礎的腳本，所有這些都透過熟悉的 JDKCallable契約。您可以根據需要混合和搭配 Runner，但隨著複雜性的增加，可以輕鬆升級到 Spring Batch，以便可以以具狀態的方式協調多個步驟，並使用 REST API 進行管理。Spring Batch 用於處理大型檔案 ETL 處理的豐富功能直接轉化為 Hadoop 在 HDFS 中擷取和匯出檔案的使用案例。Spring Hadoop 與 Spring Integration 結合使用，可以對事件串流進行豐富的處理，這些事件串流可以在從 HDFS 或其他儲存裝置（例如 NOSQL 儲存裝置）讀取和寫入之前進行轉換、豐富化、篩選，而 Spring Data 為此提供了大量支援。我們透過範例應用程式（無需編譯它們，它們已經編譯完成並可供下載）涵蓋了各種情境，這些範例應用程式補充了全面的使用者文件（甚至包括關於如何開始使用 Amazon Elastic MapReduce 服務的 Spring for Apache Hadoop 的章節）。此外，作為範例的配套，可以使用最近出版的 Spring Data 書籍^[1]，以瞭解使用 Spring 技術、Hadoop 和 NOSQL 可以實現的完整功能集。

可移植性

Spring for Apache Hadoop 正在針對各種 Hadoop 1.x 發行版本（例如原始 Apache Hadoop、Cloudera CDH3 和 CDH4、Greenplum HD）進行每日測試：我們希望確保 SHDP 在您的 Hadoop 環境中都能可靠運作。我們正積極努力改善使用者體驗 - Spring for Apache Hadoop 在 Greenplum HD 發行版本中開箱即用。我們密切關注 Hadoop 2.x 的開發，並努力在不久的將來為其提供支援。

如果您正在使用 Spring for Apache Hadoop，我們很樂意聽取您的意見。請填寫我們的問卷調查並分享您的經驗。

一如既往，我們期待您的回饋！

_[1] Spring Data 書籍銷售的作者版稅捐贈給 Creative Commons 組織。

Spring 部落格

Spring for Apache Hadoop 1.0 正式發佈

簡化的程式設計模型與一致性

從小規模開始，並隨著需求成長

可移植性

取得 Spring 電子報

領先一步

取得支援

即將到來的活動