YangKing

愿你出走半生,归来仍是少年

Spark大规模数据处理实战(二)

大数据平台宿主操作系统(十)

一、调用Mllib库函数 1.1、kMeans (1)、工程结构图如下所示: (2)、新建工程/file/new/project (3)、填写工程相应的名字、位置、导入相应JDK和Scala环境变量位置 (4)、导入spark的jar包 将spark解压包下lib/spark-assembly-1.6.3-hadoop2.6.0.jar导入中 (2)、在...

Spark大规模数据处理实战(一)

大数据平台宿主操作系统(九)

一、环境配置 在IntelliJ下运行scala程序需要配置hadoop、spark、scala、JDK等环境变量。 (1)解压hadoop、spark、scala 将hadoop、spark、scala解压,并将hadoop、spark、scala中的bin目录分别配置在环境变量中。 (2)、配置hadoop、spark、scala环境变量 二、Spark应用编程—wor...

Spark大规模数据处理

大数据平台宿主操作系统(八)

一、Spark原理简介 1.1、RDD介绍 RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用。 1、输入算子:将原生数据转换成...

Spark集群安装与部署

大数据平台宿主操作系统(七)

一、Spark集群安装与部署 1、用Xshell和Xftp将下载好的Scala复制到master的usr/local/目录下。 cd /usr/local #解压并文件名 tar -xvf spark-1.6.3-bin-hadoop2.6.tgz mv spark-1.6.3-bin-hadoop2.6 spark 2、配置spark-env.sh...

Hive数据仓库

大数据平台宿主操作系统(六)

一、Hive介绍 Hive 是基于 Hadoop 的一个数据仓库基础框架,提供了一系列的工具,可以用来进行数据提取、转换、加载(ETL),这是一种可以存储、查询和分析存储在hadoop的大规模数据机制。可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能。Hive 的主要功能是将类 SQL 语句转换为 MapReduce 任务运行。 Hive的表其实就是hdfs的目录,按...

HBase分布式存储系统

大数据平台宿主操作系统(五)

一、HBase Shell增删改查数据 Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用hadoop的hdfs作为文件存储系统,利用mapreduce处理hbase的海量数据,利用Zookeeper作为协调工具。其使用存储在大量的数据(TB级)。Hbase的物理模型Table在行的方向分割为多个Region,一个region由[startkey,endkey]表示,是...

Hadoop生态圈

大数据平台宿主操作系统(四)

一、通过命令和WebUI验证启动是否成功 1.1、Zookeeper的配置与验证 1、用Xshell和Xftp将下载好的zookeeper复制到master的usr/local/目录下。 2、在/etc/local目录下解压zookeeper cd /usr/local tar -xvf zookeeper-3.4.10.tar.gz mv zookeeper-3.4.10 ...

Hadoop 2.x(Hadoop Yarn)实验

大数据平台宿主操作系统(三)

一、Hadoop 2.x shell命令集群监控与管理 1.1、启动程序 1、在搭建好的hadoop平台下运行wordCount程序运行wordcount hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /test/input.txt /o...

Hadoop 2.x(Hadoop Yarn)安装部署

大数据平台宿主操作系统(二)

一、大数据HDFS平台的搭建 搭建大数据平台,我在虚拟机上设置三个节点,其中一个主节点Master-zjy,和两个分节点Slave-zjy和Slave2-zjy,其ip地址分别设置为192.168.56.100、192.168.56.101、192.168.56.102,配置完hadoop可以看到Master-zjy上的Namenode节点和Slave-zjy和Slave2-zjy上的Da...

Hadoop集群配置安装文档

大数据平台宿主操作系统(一)

一、配置大数据平台宿主操作系统 1.1、安装虚拟机 安装步骤:开始安装VirtualBox-5.1.18-114002-Win,然后一直点下一步,没有特殊要注意的地方。如下图所示。 1、打开虚拟机virtualBox点击新建,配置系统的名字、操作系统的版本及类型,进行下一步。如下图所示。 2、选择分配虚拟机大小,根据自己电脑的实际配置情况选择虚拟机内存大小的分配。因为...