mac下安装并配置spark

"*nuix可参考"

Posted by Mzx on January 8, 2017

Spark安装指南

Spark是一种与Hadoop相似的开源集群计算框架,但是Spark比Hadoop更高效,因为Spark将结果输入到内存中,而不是Hadoop的hdfs,所以Spark在某些工作负载方面表现的更优越。接下来我们将讲解如何在mac上跑一个Spark

下载Spark

spark 使用scala,而scala是运行在JVM上的一种函数式编程语言。所以要想跑spark要确保系统里已安装Javaspark 目前有很多版本,我这里我下载的是最新版本,你也可以按照需要选择其他版本。
下载地址

配置Spark

spark压缩包解压后就可以用了!是的,你没看错,解压后就可以用了。当然为了方便还是要配置一下。主要是把它加入path。 在你的/etc/bashrc下添加如下两行:

SPARK_HOME=${your_spark_home}
PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

注:

  • 添加完成后保存,并执行 source /etc/bashrc
  • ${your_spark_home}就是你的spark文件夹的路径。我的解压后移动到/usr/local/bin下边去了。

运行Spark

在命令行输入pyspark,如果配置成功。过一会儿就会打印出Welcome to spark
spark 提供了很多不同语言的api。 有如下四种Scala, Python, R, Java官方文档里有对应这四种语言的api文档和example。在${your_spark_home}/bin文件夹里有很多文件。如spark_shell,pyspark,spark_submitspark_shellpyspark分别是scalaPython版的REPL(交互式的开发环境)。而spark_submit 则是用来提交我们要执行的spark脚本的。
${your_spark_home}/sbin 目录下边的是用来管理spark集群的。如启动master节点。可以使用命令start-master, 启动后在浏览器中输入网址localhost:8080即可查看spark的集群信息。要关闭master节点则输入stop-master命令,即可关闭。

优化Sark输出日志

spark 的日志使用的是log4j,默认输入的是INFO级别的,所以会输出很多信息。但是并不方便我们查看。所以怎么关闭呢?方法很简单。

  1. 进入到${your_spark_home}/conf/ 目录下,拷贝一份log4j.properties.template并命名为log4j.properties
  2. 打开log4j.properties, 将其中的INFO全部替换为WARN,保存。

修改后的日志输出是不是清爽了很多呢!