jdk1.8+hadoop3.2+scala2.12+spark3.1.2配置记录
记录下我在ubuntu20.04-用户hadoop环境下搭建jdk+hadoop+scala+spark环境的过程(不安装到root相关目录下)
注: 该配置实际为单机模式,若需要分布式要根据具体需要修改相关文件,不同版本的搭配请参考官方文档,本文记录的版本搭配为jdk1.8+hadoop3.2+scala2.12+spark3.1.2
我将按照JDK、Hadoop、Scala、Spark的顺序进行记录
JDK配置
官网下载jdk1.8即可,也可直接down我分享的链接
解压到相应目录
1 | mkdir ~/java |
在.bashrc中追加jdk环境变量
1 | vim ~/.bashrc |
1 | # jdk1.8 |
测试java安装完成
1 | source ~/.bashrc |
Hadoop配置
依旧是官网下载,不过这回不要登陆,直接给链接
解压到相应文件夹
1 | mkdir ~/hadoop |
然后.bashrc追加环境变量
1 | # hadoop |
做一些前置工作,什么关闭防火墙(我没有防火墙就不做演示了),按需设置主机名(ThinkStation-P330)和ip之间的映射(修改/etc/hosts,可以有效解耦hadoop配置中的IP地址,只用改这个文件不用一个个改配置),新建一个存放hadoop运行时产生的文件的文件夹
1 | mkdir ~/hadoop/hadoop-3.2.0/tmp |
接着继续配置hadoop
先定位到配置文件夹
1 | cd ~/hadoop/hadoop-3.2.0/etc/hadoop/ |
首先是hadoop-env.sh中追加JAVA_HOME信息,这里不添加java路径的话会导致启动时报错找不到JAVA_HOME
1 | export JAVA_HOME=/home/hadoop/java/jdk1.8.0_301 |
接下来就是按需修改配置了,core-site.xml
1 | <configuration> |
hdfs-site.xml
1 | <configuration> |
mapred-site.xml
1 | <configuration> |
yarn-site.xml
1 | <configuration> |
首次启动需要格式化namenode
1 | source ~/.bashrc |
如果报错命令不存在,你就该好好看看自己的.bashrc中的环境变量是不是出什么问题了
执行结果中仔细找找,在最后几行里有successfully formatted字样就说明格式化成功
配置好免密登陆ssh
1 | ssh-keygen -t rsa |
然后就可以启动hadoop(伪)集群了
1 | ./hadoop/hadoop-3.2.0/sbin/start-all.sh |
目前就可以通过浏览器进入HDFS管理界面(http://ThinkStation-P330:9870)
也可以进入RM管理界面(http://ThinkStation-P330:8088)
就此一个单机式的hadoop部署完毕
Scala配置
spark的前置配置,下载链接
与jdk一样,依旧是解压,配置.bashrc追加环境变量
1 | # scala2.12 |
Spark配置
解压,定位到配置conf文件夹
1 | cd ~/spark/spark-3.1.2-bin-hadoop3.2/conf |
编辑spark-env.sh文件,按需追加配置
1 | export JAVA_HOME=/home/hadoop/java/jdk1.8.0_301 |
按需配置workers文件,单机的我就没配置,和hosts文件里差不多,目的是让不同服务器互相知道,我这就一台机子,workers不存在的~
1 | localhost |
启动spark,先定位到spark根目录中的sbin文件夹中
1 | ~/spark/spark-3.1.2-bin-hadoop3.2/sbin/start-all.sh |
就此配置完成,关闭相关服务将命令中的“start”改成“stop”执行一次即可