
Hadoop 面试题解析
Zookeeper 面试题解析
Flume 面试题解析
Kafka 面试题解析
Hive 面试题解析
HBase 面试题解析
Sqoop 面试题解析
MySQL 面试题解析
Spark 面试题解析
Elasticsearch 面试题解析
相关推荐

2021-04-13
Sqoop 面试题解析
Sqoop 参数Sqoop 导入数据到 HDFS 中的参数 123456789101112131415/opt/module/sqoop/bin/sqoop import \--connect jdbc 的 url 字符串\--username 账号\--password 密码\# HDFS 目标的目录--target-dir \# 导入的目标目录如果存在则删除那个目录--delete-target-dir \# 相当于 -m,并行导入时 MapTask 的个数--num-mappers \--fields-terminated-by \# 指定满足 sql 和条件的数据导入# --query:增加检索条件部分数据抽取# $CONDITIONS:数据分割条件的占位符--query "$2" 'and $CONDITIONS;' Sqoop 导入数据到 Hive 中的参数 123456789# 一步将表结构和数据都导入到 hive 中bin/sqoop import \--connect jdbc 的 url 字符串\--table mys...

2021-03-31
Hive 面试题解析
Hive 基础请谈一下 Hive 的特点,Hive 和 RDBMS 有什么异同?Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析,但是 Hive 不支持实时查询。 Hive 与关系型数据库的区别: 比较项 SQL HiveQL ANSI SQL 支持 不完全支持 更新 UPDATE\INSERT\DELETE INSERT OVERWRITE\INTO TABLE 事务 支持 不支持 模式 写模式 读模式 数据保存 块设备、本地文件系统 HDFS 延时 低 高 多表插入 不支持 支持 子查询 完全支持 只能用在 From 子句中 视图 Updatable Read-only 可扩展性 低 高 数据规模 小 大 ... ...... ...

2021-01-14
MySQL 优化
优化三大方向 优化 MySQL 所在服务器内核(此优化一般由运维人员完成)。 对 MySQL 配置参数进行优化(my.cnf)此优化需要进行压力测试来进行参数调整。 对 SQL 语句以及表优化。 参数优化 MySQL 默认的最大连接数为 100,可以在 mysql 命令提示窗口使用以下命令查看 1mysql> SHOW variables LIKE 'max_connections'; 查看当前访问 MySQL 的线程 1mysql> SHOW processlist; 设置最大连接数 1mysql> SET globle max_connections = 5000; 最大可设置 16384,超过没用 查看当前被使用的 connections 1mysql> SHOW GLOBAL STATUS LIKE 'max_user_connections' 性能优化 使用查询缓存优化查询 使用 EXPLAIN 关键字检测查询 只要一行数据时使用 LIMIT 1 为搜索字段建立索引 在 JOI...

2021-04-02
HBase 面试题解析
HBase 的特点是什么? 大:一个表可以有数十亿行,上百万列; 无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列; 面向列:面向列(族)的存储和权限控制,列(族)独立检索; 稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏; 数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳; 数据类型单一:HBase 中的数据都是字符串,没有类型。 HBase 和 Hive 的区别? HBase Hive 类型 列式数据库 数据仓库 内部机制 数据库引擎 MapReduce 增删改查 都支持 只支持导入和查询 Schema 只需要预先定义列族,不需要具体到列,列可以动态修改 需要预先定义表格 应用场景 实时 离线处理 特点 以 K-V 形式存储 类 SQL Hive 和 HBase 是两种基于 Hadoop 的不同技术,Hive 是一种类 SQL 的引擎,并且运行 MapReduce 任务,HBase 是一种在 Hadoo...

2021-05-07
Spark RDD 常用算子
Spark 的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark 系统。 从小方向来说,Spark 算子大致可以分为以下三类: Value 数据类型的 Transformation 算子,这种变换并不触发提交作业,针对处理的数据项是 Value 型的数据。 Key-Value 数据类型的 Transformation 算子,这种变换并不触发提交作业,针对处理的数据项是 Key-Value 型的数据对。 Action 算子,这类算子会触发 SparkContext 提交 Job 作业。 Value 数据类型的 Tr...

2021-03-27
Zookeeper 面试题解析
请简述 Zookeeper 的选举机制?假设有五台服务器组成的 Zookeeper 集群,它们的 id 从 1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么。 服务器 1 启动,此时只有它一台服务器启动了,它发出去的报没有任何响应,所以它的选举状态一直是 LOOKING 状态; 服务器 2 启动,它与最开始启动的服务器 1 进行通信,互相交换自己的选举结果,由于两者都没有历史数据,所以 id 值较大的服务器 2 胜出,但是由于没有达到超过半数以上的服务器都同意选举它(这个例子中的半数以上是 3),所以服务器 1、2 还是继续保持 LOOKING 状态; 服务器 3 启动,根据前面的理论分析,服务器 3 成为服务器 1、2、3 中的 Leader,而与上面不同的是,此时有三台服务器选举了它,所以它成为了这次选举的 Leader; 服务器 4 启动,根据前面的分析,理论上服务器 4 应该是服务器 1、2、3、4 中最大的,但是由于前面已经有半数以上的服务器选举了服务器 3,所以它成为 Follower;...
评论





