网友您好, 请在下方输入框内输入要搜索的题目:

题目内容 (请给出正确答案)

dataFrame和RDD类似,也是一个分布式数据容器


参考答案

更多 “dataFrame和RDD类似,也是一个分布式数据容器” 相关考题
考题 SparkStreming中()函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。 A.transB.reduceC.joinD.cogroup

考题 Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。() 此题为判断题(对,错)。

考题 RDD是一个可读写的数据结构。() 此题为判断题(对,错)。

考题 groupByKey算子在一个(K,V)的RDD上调用,返回一个(K,Iterator[V])的RDD

考题 DataFrame也是一个分布式数据容器

考题 mapPartitions算子类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T]=Iterator[U]

考题 dataFrame和RDD其实是一回事,没有区别

考题 spark中的rdd是一个()数据集A、弹性分布式B、弹性计算C、运送数据D、心跳

考题 interSection算子对源RDD和参数RDD求交集后返回一个新的RDD

考题 map算子返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成

考题 union算子对源RDD和参数RDD求并集后返回一个新的RDD

考题 DNS既是一个分布式数据库,也是TCP/IP协议中应用层的一种服务。

考题 与RDD类似,DataFrame也是一个分布式数据容器

考题 RDD特性包含如下哪些?()A、一组分片(Partition),即数据集的基本组成单位B、一个计算每个分区的函数C、RDD之间的依赖关系D、一个列表,存储存取每个Partition的优先位置(preferredlocation)

考题 cogroup算子在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable,Iterable))类型的RDD

考题 DataFrame不能够转换成Rdd

考题 DataFrame也支持嵌套数据类型(struct、array和map)

考题 RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合

考题 DataFrame和RDD最大的区别是什么()A、科学统计支持B、多了schemaC、存储方式不一样D、外部数据源支持

考题 SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用

考题 distinct算子对源RDD进行去重后返回一个新的RDD

考题 SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型A、DataFramesB、TableC、DataSetD、RDD

考题 多选题关于spark说法正确的是()。A调用RDD的Transformation算子可以立即发起jobBNodeManager负责整个集群的资源统一调度和分配。CYarn-client适合测试,Yarn-cluster适合生产。DDataset具有RDD和DataFrame的优点,又避免它们的缺点。

考题 判断题DNS既是一个分布式数据库,也是TCP/IP协议中应用层的一种服务。A 对B 错

考题 单选题下列有关RDD的说法中错误的是()。A RDD是一个只读的,可分区的分布式数据集。B RDD默认存储在磁盘,当磁盘不足时,溢写到内存。C RDD数据以分区的形式在集群中存储。D RDD具有血统机制,发生数据丢失时,可快速进行数据恢复。

考题 判断题Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集A 对B 错

考题 判断题RDD可以从Hadoop兼容的文件系统生成,生成之后可以通过调用RDD的算子对RDD的数据进行部分更新。A 对B 错