flambo。A Clojure DSL for Apache Spark。项目地址: https://gitcode.com/gh_mirrors/fl/flambo。
Flambo 是一个用于 Apache Spark 的 Clojure DSL(#xfff09领域特定语言;。允许开发人员使用 Clojure 创造和操作语言 Spark #xfff00的数据结构c;从而利用 Spark 分布式计算强大功能。Flambo 目标是提供一种更自然、更简单的写作方式 Spark 应用程序使得 Clojure 开发者可以很容易地使用它 Spark 集群计算能力。
第一个,确保你已经安装好了 Leiningen(Clojure 建筑工具)。然后,在你的。 project.clj。
文件中添加 Flambo 依赖:
[yieldbot/flambo "0.8.2"] ; 适用于 Spark 2.x。
或者。
[yieldbot/flambo "0.7.2"] ; 适用于 Spark 1.x。
接下来,创建一个 Spark 配置对象并初始化 Spark 上下文:
(ns com.fire.kingdom.flambit (:require [flambo.conf :as conf] [flambo.api :as f]))(def c (-> (conf/spark-conf) (conf/master "local") (conf/app-name "flame_princess")))(def sc (f/spark-context c))。
使用 Flambo 创建并行化 RDD 并进行操作:
(def data (f/parallelize sc [["a" 1] ["b" 2] ["c" 3] ["d" 4] ["e" 5]]))(-> data (f/map (f/fn [[k v]] [k (* v 2)])) (f/collect))。
运行 Spark 应用程序。 将你的应用程序打包成一个 uberjar,并使用。
spark-submit。
命令运行:
文本处理。
Flambo 可用于处理大规模文本数据。例如,计算文本文件中每行字符的总和:
数据清洗。
在数据清洗过程中,Flambo 可用于过滤和转换数据:
典型的生态项目。
Flambo 是基于 Apache Spark ,因此与 Spark 生态系统紧密集成。你可以利用 Spark 提供的各种功能,如 Spark SQL、Spark Streaming 等。
Flambo 充分利用了 Clojure 函数编程特性,开发者可以以更简单、更优雅的方式写作 Spark 应用程序。
Hadoop。
Flambo 可以与 Hadoop 生态系统无缝集成支持从 HDFS 阅读数据并利用 Hadoop 大规模数据处理的分布式文件系统。通过 Flambo,Clojure 开发者可以很容易地使用它 Spark 强大的功能,进行高效的数据处理和分析。flambo。