柘荣资讯网

云计算大数据学习路线课程大纲资料:hive入门操作

前锋长沙2011.14.14我想分享

首先,hive产生背景

Apache Hive数据仓库软件可以使用SQL轻松读取,编写和管理分布式存储中分布的大型数据集。可以将结构投影到已存储的数据上。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。

Facebook开源,最初用于解决大规模结构化日志数据统计问题

? MapReduce编程带来的不便

HDFS上的文件缺少架构(字段名称,字段类型等)

第二,什么是Hive

在Hadoop

之上构建数据仓库

Hive定义了一种SQL查询语言:HQL(类似于SQL但不完全相同)

?通常用于离线数据处理(使用MapReduce)

底层支持各种不同的执行引擎(MapReduce上的Hive,Tez上的Hive,Spark上的Hive)

支持许多不同的压缩格式,存储格式和自定义功能(压缩:GZIP,LZO,Snappy,BZIP2 .存储:TextFile,SequenceFile,RCFile,ORC,Parquet; UDF:自定义函数)

最后,Hive是什么,让我们先来看看Hive的官方网站wiki如何介绍Hive():

Apache Hive Apache Hive?数据仓库软件为分布式存储中的大型数据集的读取,写入和管理提供了极大的便利。也可以使用SQL语法在大型数据集上查询它。

1.它是一个易于提取,转换和加载数据(ETL)的工具。可以理解为数据清理分析。它有一种机制可以在结构上施加大量格式化数据。 3.它可以分析和处理直接存储在hdfs中的数据或其他数据存储系统(如hbase)中的数据。 4.通过mapreduce完成查询的执行。 5,hive可以使用存储过程6,通过Apache YARN和Apache Slider实现亚秒查询检索。

三,安装蜂巢

1.hive独立安装(使用derby进行元数据存储)

?安装包准备

将hive安装包apache-hive-1.2.1-bin.tar.gz上传到虚拟机/bigdata/down

JDK安装包jdk-8u151-x64.gz

集群准备(linux1,linux2,linux3)

? Hive的减压装置

将上载的配置单元解压缩到虚拟机/应用程序目录

Tar -zxvf /app/apache-hive-1.2.1-bin.tar.gz -C/app

Mv /app/apache-hive-1.2.1-bin//app/hive-1.2.1

配置配置单元配置文件

查看个人资料内容

将配置文件hive-env.sh.template复制到hive-env.sh

Cp /app/hive-1.2.1/conf/hive-env.sh.template /app/hive-1.2.1/conf/hive-env.sh

Vim /app/hive-1.2.1/conf/hive-env.sh

配置配置单元环境变量

Vim/etc/profile

来源/etc/profile

哪个配置单元

?启动Hadoop集群

?启动配置单元服务

蜂房

?查看数据库

显示数据库;

?创建数据库

创建数据库myhive;

显示数据库;

?创建一个表

创建表student(id int,chinese string,math string,English string);

?加载数据和查询

将路径'/root/student.txt'中的本地数据加载到表student;

从学生中选择*;

2.hive独立安装模式(使用mysql进行元数据存储)

安装MySQL服务器和MySQL客户端并启动mysql服务。

在linux1上为Hive创建一个相应的MySQL帐户,并为其提供足够的权限

创建由'';

标识的用户'配置单元'

授予所有特权*。*通过授权选项'''''''''''''''''''''''''''''''''''''''''''

授予所有特权*。*通过授权选项将''localhost'识别为'';

刷新权限

看看它是否成功

继续在hive模式下配置hive:hive-site.xml,hive-env.sh

配置hive-env.sh

配置hive-site.xml并将/app/hive-1.2.1/conf中的hive-default.xml文件复制到hive-site.xml

Cp /app/hive-1.2.1/conf/hive-default.xml.template /app/hive-1.2.1/conf/hive-site.xml

Vim /app/hive-1.2.1/conf/hive-site.xml

将数据驱动程序jar包复制到指定目录/app/hive-1.2.1/lib/。没有驱动程序包会报告错误

使用命令行启动配置单元服务,然后查看数据库,创建数据库名称heihei,以及查看集群网页

查看集群网页,可以看到与hdfs上生成的heihei数据库对应的文件目录

?使用beeline访问配置单元

退出命令退出配置单元服务。在linux1上,修改hadoop配置文件etc/hadoop/core-site.xml,添加以下配置项,并通过httpfs接口匿名登录hdfs文件系统。然后重新启动群集。

Hadoop.proxyuser.root.hosts

*

Hadoop.proxyuser.root.groups

*

使用命令hive - service hiveserver2&在后台启动配置单元服务

Hive - 服务hiveserver2&

克隆窗口作为客户端连接并执行beeline脚本

连接到服务器,该服务器使用thrift服务作为默认连接端口号

连接JDBC: hive2: //linux1:

验证连接是否是我们刚从命令行访问的hive服务

收集报告投诉

一,蜂巢的背景

Apache Hive数据仓库软件可以使用SQL轻松读取,编写和管理分布式存储中分布的大型数据集。可以将结构投影到存储的数据上。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。

Facebook开源,最初用于解决大规模结构化日志数据统计问题

MapReduce编程带来的不便

HDFS上的文档缺少Schema(字段名称,字段类型等)

2.什么是Hive?

基于Hadoop的数据仓库

Hive定义了一种类似SQL的查询语言:HQL(类似于SQL但不完全相同)

通常用于离线数据处理(使用MapReduce)

底层支持各种不同的执行引擎(MapReduce上的Hive,Tez上的Hive,Spark上的Hive)

支持许多不同的压缩格式,存储格式和自定义功能(压缩:GZIP,LZO,Snappy,BZIP2 .存储:TextFile,SequenceFile,RCFile,ORC,Parquet; UDF:自定义函数)

最后,Hive是什么,让我们先来看看Hive的官方网站wiki如何介绍Hive():

Apache Hive Apache Hive?数据仓库软件为分布式存储中的大型数据集的读取,写入和管理提供了极大的便利。也可以使用SQL语法在大型数据集上查询它。

1.它是一个易于提取,转换和加载数据(ETL)的工具。可以理解为数据清理分析。它有一种机制可以在结构上施加大量格式化数据。 3.它可以分析和处理直接存储在hdfs中的数据或其他数据存储系统(如hbase)中的数据。 4.通过mapreduce完成查询的执行。 5,hive可以使用存储过程6,通过Apache YARN和Apache Slider实现亚秒查询检索。

三,安装蜂巢

1.hive独立安装(使用derby进行元数据存储)

?安装包准备

将hive安装包apache-hive-1.2.1-bin.tar.gz上传到虚拟机/bigdata/down

JDK安装包jdk-8u151-x64.gz

集群准备(linux1,linux2,linux3)

? Hive的减压装置

将上载的配置单元解压缩到虚拟机/应用程序目录

Tar -zxvf /app/apache-hive-1.2.1-bin.tar.gz -C/app

Mv /app/apache-hive-1.2.1-bin//app/hive-1.2.1

配置配置单元配置文件

查看个人资料内容

将配置文件hive-env.sh.template复制到hive-env.sh

Cp /app/hive-1.2.1/conf/hive-env.sh.template /app/hive-1.2.1/conf/hive-env.sh

Vim /app/hive-1.2.1/conf/hive-env.sh

配置配置单元环境变量

Vim/etc/profile

来源/etc/profile

哪个配置单元

?启动Hadoop集群

?启动配置单元服务

蜂房

?查看数据库

显示数据库;

?创建数据库

创建数据库myhive;

显示数据库;

?创建一个表

创建表student(id int,chinese string,math string,English string);

?加载数据和查询

将路径'/root/student.txt'中的本地数据加载到表student;

从学生中选择*;

2.hive独立安装模式(使用mysql进行元数据存储)

安装MySQL服务器和MySQL客户端并启动mysql服务。

在linux1上为Hive创建一个相应的MySQL帐户,并为其提供足够的权限

创建由'';

标识的用户'配置单元'

授予所有特权*。*通过授权选项'''''''''''''''''''''''''''''''''''''''''''

授予所有特权*。*通过授权选项将''localhost'识别为'';

刷新权限

看看它是否成功

继续在hive模式下配置hive:hive-site.xml,hive-env.sh

配置hive-env.sh

配置hive-site.xml并将/app/hive-1.2.1/conf中的hive-default.xml文件复制到hive-site.xml

Cp /app/hive-1.2.1/conf/hive-default.xml.template /app/hive-1.2.1/conf/hive-site.xml

Vim /app/hive-1.2.1/conf/hive-site.xml

将数据驱动程序jar包复制到指定目录/app/hive-1.2.1/lib/。没有驱动程序包会报告错误

使用命令行启动配置单元服务,然后查看数据库,创建数据库名称heihei,以及查看集群网页

查看集群网页,您可以看到对应于heihei数据库的文件目录是在hdfs上生成的

使用beeline访问配置单元

退出命令刚刚退出hive服务,修改linux1上的Hadoop配置文件etc/hadoop/core-site.xml,添加以下配置项,并通过httpfs接口匿名登录HDFS文件系统。然后重新启动群集。

Hadoop的。 PROXYUSER。根。主机

*

Hadoop.proxyuser.root.groups

*

使用命令hive - service hiveserver2&在后台启动配置单元服务

Hive - 服务hiveserver2&

克隆窗口作为客户端连接并执行beeline脚本

连接到服务器,该服务器使用thrift服务作为默认连接端口号

连接JDBC: hive2: //linux1:

验证连接是否是我们刚从命令行访问的hive服务