Spring for Apache Hadoop 1.0 正式發佈
我們很高興宣布 Spring for Apache Hadoop 的第一個正式發佈 (GA) 版本 (1.0) 正式推出,距離其 第一個里程碑版本的發佈幾乎整整一年。在這段期間,我們採納了您的大量回饋意見來推動產品藍圖,因此感謝社群中所有提供協助的人!雖然這一年來新增了許多功能,但 Spring for Apache Hadoop 的目標仍然不變,那就是簡化基於 Hadoop 應用程式的開發。
立即下載,或在此處檢視 Maven Artifacts here。
簡化的程式設計模型與一致性
我們觀察到,使用 Hadoop 隨附的標準現成工具,您很容易最終得到結構不良的 Hadoop 應用程式,它們是由命令列工具、腳本和拼湊在一起的程式碼片段所組成的集合。Hadoop 生態系統中各個專案的不同起源,例如專注於宣告式用法的
Hive 和
Pig,或針對程式化角度的
Cascading 和
HBase,導致了不同的組態和 API 設計方法。
Spring for Apache Hadoop 在廣泛的 Hadoop 生態系統專案中提供了一致的程式設計和組態模型:框架並非規定要使用什麼,而是擁抱並增強您的技術堆疊,忠於 Spring 的核心原則。
Spring 熟悉的樣板 API 設計模式應用於 Hadoop,其結果是產生了諸如 HBaseTemplate、HiveTemplate 和 PigTemplate 等輔助類別。這帶來了熟悉的 Spring 資料存取樣板功能,例如轉換為 Spring 可移植的資料存取例外層級結構、對底層資源的執行緒安全存取,以及輕量級物件對應功能。以 Java 為中心的 API(例如 Cascading)可以自由使用,透過 Spring Framework 出色的 Java 組態,無論是否需要額外組態。
從小規模開始,並隨著需求成長
過去一年出現的另一個主題是鼓勵從小規模開始,然後發展為複雜解決方案的方法。各種
Runner 類別的引入允許執行
Hive、
Pig 腳本、原始 Map/Reduce 或 Streaming
jobs、Cascading flows,以及調用
pre 和
post 通用 JVM 基礎的
腳本,所有這些都透過熟悉的 JDK
Callable契約。您可以根據需要混合和搭配 Runner,但隨著複雜性的增加,可以輕鬆
升級到
Spring Batch,以便可以以具狀態的方式協調多個步驟,並使用 REST API 進行管理。Spring Batch 用於處理大型檔案 ETL 處理的豐富功能直接轉化為 Hadoop 在 HDFS 中擷取和匯出檔案的使用案例。Spring Hadoop 與
Spring Integration 結合使用,可以對事件串流進行豐富的處理,這些事件串流可以在從 HDFS 或其他儲存裝置(例如 NOSQL 儲存裝置)讀取和寫入之前進行轉換、豐富化、篩選,而
Spring Data 為此提供了大量支援。我們透過
範例應用程式(無需編譯它們,它們已經編譯完成並可供下載)涵蓋了各種情境,這些範例應用程式補充了全面的使用者文件(甚至包括關於如何開始使用 Amazon Elastic MapReduce 服務的 Spring for Apache Hadoop 的
章節)。此外,作為範例的配套,可以使用最近出版的
Spring Data 書籍[1],以瞭解使用 Spring 技術、Hadoop 和 NOSQL 可以實現的完整功能集。
可移植性
Spring for Apache Hadoop 正在針對各種 Hadoop 1.x 發行版本(例如原始 Apache Hadoop、Cloudera CDH3 和 CDH4、Greenplum HD)進行
每日測試:我們希望確保 SHDP 在您的 Hadoop 環境中都能可靠運作。我們正積極努力改善使用者體驗 - Spring for Apache Hadoop 在
Greenplum HD 發行版本中開箱即用。我們密切關注 Hadoop 2.x 的開發,並努力在不久的將來為其提供支援。
如果您正在使用 Spring for Apache Hadoop,我們很樂意聽取您的意見。請填寫我們的 問卷調查 並分享您的經驗。
一如既往,我們期待您的回饋!
[1] Spring Data 書籍銷售的作者版稅捐贈給 Creative Commons 組織。