📝面试系列|大数据•Hadoop•Flume•Sqoop•Zookeeper•Kafka•Hive•HBase•MySQL•Spark

大数据面试题解析

发表于2021-03-25|更新于2021-03-25|总字数:60|阅读时长:1分钟|浏览量:|评论数:

Hadoop 面试题解析

Zookeeper 面试题解析

Flume 面试题解析

Kafka 面试题解析

Hive 面试题解析

HBase 面试题解析

Sqoop 面试题解析

MySQL 面试题解析

Spark 面试题解析

Elasticsearch 面试题解析

大数据面试题解析

https://blog.eurkon.com/post/7e24cf66.html

转载前请阅读本站版权协议，文章著作权归 Eurkon 所有，转载请注明出处。

大数据 Hadoop Flume Sqoop Zookeeper Kafka Hive HBase MySQL Spark

相关推荐

Sqoop 面试题解析

Sqoop 参数Sqoop 导入数据到 HDFS 中的参数 123456789101112131415/opt/module/sqoop/bin/sqoop import \--connect jdbc 的 url 字符串\--username 账号\--password 密码\# HDFS 目标的目录--target-dir \# 导入的目标目录如果存在则删除那个目录--delete-target-dir \# 相当于 -m，并行导入时 MapTask 的个数--num-mappers \--fields-terminated-by \# 指定满足 sql 和条件的数据导入# --query：增加检索条件部分数据抽取# $CONDITIONS：数据分割条件的占位符--query "$2" 'and $CONDITIONS;' Sqoop 导入数据到 Hive 中的参数 123456789# 一步将表结构和数据都导入到 hive 中bin/sqoop import \--connect jdbc 的 url 字符串\--table mys...

Hive 面试题解析

Hive 基础请谈一下 Hive 的特点，Hive 和 RDBMS 有什么异同？Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析，但是 Hive 不支持实时查询。 Hive 与关系型数据库的区别：比较项 SQL HiveQL ANSI SQL 支持不完全支持更新 UPDATE\INSERT\DELETE INSERT OVERWRITE\INTO TABLE 事务支持不支持模式写模式读模式数据保存块设备、本地文件系统 HDFS 延时低高多表插入不支持支持子查询完全支持只能用在 From 子句中视图 Updatable Read-only 可扩展性低高数据规模小大 ... ...... ...

优化三大方向优化 MySQL 所在服务器内核（此优化一般由运维人员完成）。对 MySQL 配置参数进行优化（my.cnf）此优化需要进行压力测试来进行参数调整。对 SQL 语句以及表优化。参数优化 MySQL 默认的最大连接数为 100，可以在 mysql 命令提示窗口使用以下命令查看 1mysql> SHOW variables LIKE 'max_connections'; 查看当前访问 MySQL 的线程 1mysql> SHOW processlist; 设置最大连接数 1mysql> SET globle max_connections = 5000; 最大可设置 16384，超过没用查看当前被使用的 connections 1mysql> SHOW GLOBAL STATUS LIKE 'max_user_connections' 性能优化使用查询缓存优化查询使用 EXPLAIN 关键字检测查询只要一行数据时使用 LIMIT 1 为搜索字段建立索引在 JOI...

HBase 面试题解析

HBase 的特点是什么？大：一个表可以有数十亿行，上百万列；无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；面向列：面向列（族）的存储和权限控制，列（族）独立检索；稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；数据类型单一：HBase 中的数据都是字符串，没有类型。 HBase 和 Hive 的区别？ HBase Hive 类型列式数据库数据仓库内部机制数据库引擎 MapReduce 增删改查都支持只支持导入和查询 Schema 只需要预先定义列族，不需要具体到列，列可以动态修改需要预先定义表格应用场景实时离线处理特点以 K-V 形式存储类 SQL Hive 和 HBase 是两种基于 Hadoop 的不同技术，Hive 是一种类 SQL 的引擎，并且运行 MapReduce 任务，HBase 是一种在 Hadoo...

Spark RDD 常用算子

Spark 的算子的分类从大方向来说，Spark 算子大致可以分为以下两类: Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。 Transformation 操作是延迟计算的，也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark 系统。从小方向来说，Spark 算子大致可以分为以下三类: Value 数据类型的 Transformation 算子，这种变换并不触发提交作业，针对处理的数据项是 Value 型的数据。 Key-Value 数据类型的 Transformation 算子，这种变换并不触发提交作业，针对处理的数据项是 Key-Value 型的数据对。 Action 算子，这类算子会触发 SparkContext 提交 Job 作业。 Value 数据类型的 Tr...

Zookeeper 面试题解析

请简述 Zookeeper 的选举机制？假设有五台服务器组成的 Zookeeper 集群，它们的 id 从 1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一样的。假设这些服务器依序启动，来看看会发生什么。服务器 1 启动，此时只有它一台服务器启动了，它发出去的报没有任何响应，所以它的选举状态一直是 LOOKING 状态；服务器 2 启动，它与最开始启动的服务器 1 进行通信，互相交换自己的选举结果，由于两者都没有历史数据，所以 id 值较大的服务器 2 胜出，但是由于没有达到超过半数以上的服务器都同意选举它(这个例子中的半数以上是 3)，所以服务器 1、2 还是继续保持 LOOKING 状态；服务器 3 启动，根据前面的理论分析，服务器 3 成为服务器 1、2、3 中的 Leader，而与上面不同的是，此时有三台服务器选举了它，所以它成为了这次选举的 Leader；服务器 4 启动，根据前面的分析，理论上服务器 4 应该是服务器 1、2、3、4 中最大的，但是由于前面已经有半数以上的服务器选举了服务器 3，所以它成为 Follower；...

评论

数据加载中