parquet - 标签 - 云服务器哪家好开发者社区-云服务器哪家好

云服务器哪家好

开发者社区

文档建议反馈控制台

首页TVP

#parquet

【python】pyarrow.parquet+pandas：读取及使用parquet文件

Qomolangma 2024-07-302024-07-30 12:29:23

pyarrow.parquet模块，可以读取和写入Parquet文件，以及进行一系列与Parquet格式相关的操作。例如，可以使用该模块读取Parquet文件...

32710

Parquet存储的数据模型以及文件格式

火之高兴 2024-07-252024-07-25 15:37:57

Aapche Parquet是一种能有效存储嵌套数据的列式存储格式，在Spark中应用较多。

16010

Hive中parquet压缩格式分区表的跨集群迁移记录

火之高兴 2024-07-252024-07-25 15:35:00

从华为A集群中将我们的数据迁移到华为B集群，其中数据经过华为集群管理机local跳转。

7810

Parquet与ORC:高性能列式存储 | 青训营笔记

鳄鱼儿 2024-05-212024-05-21 21:46:45

数据格式层：定义了存储层文件内部的组织格式，计算引擎通过格式层的支持来读写文件；从分层视角下的数据形态来看

41010

NOIP2022模拟赛二 By JTZ 10.18

yzxoi 2024-02-022024-02-02 20:48:58

暴力枚举左端点 i，再二分一个右端点满足 k|\gcd(i,r)，再在该区间二分满足 \gcd(i,r)==k。

18810

列式存储引擎-内核机制-Parquet格式

yzsDBA 2023-09-072023-09-07 09:29:12

Parquet继承了Protocol Buffer的数据模型。每个记录由一个或多个字段组成。每个字段可以是atomic字段或者group字段。Group字段包含...

59330

?PySpark 读写 Parquet 文件到 DataFrame

数据STUDIO 2023-09-042023-09-04 12:50:07

现在通过调用DataFrameWriter类的parquet()函数从PySpark DataFrame创建一个parquet文件。当将DataFrame写入p...

98940

Spark sql 是如何优化执行的

小石头 2022-11-102022-11-10 21:30:49

Spark SQL 端到端的完整优化流程主要包括两个阶段：Catalyst 优化器和 Tungsten。其中，Catalyst 优化器又包含逻辑优化和物理优化两...

42110

降低数据大小的四大绝招。

炼丹笔记 2022-10-272022-10-27 14:51:37

在非常多的问题中，例如商品推荐数据存储（大量的用户和商品，还有购买金额等信息），金融数据存储（大量的标的，价格等），我们不可避免的都会碰到数据过大的问题，如果对...

1.3K10

更新操作的秘密

用户2936994 2022-07-212022-07-21 13:41:50

让我选最核心的特性的话，我会选择第二个。在大数据领域，我们也是一步步进化的，从最早的数据存储采用纯文本，到后面ORC/Parquet等面向读的格式。但是他们都存...

40120

geopandas&geoplot近期重要更新

Python大数据分析 2022-04-032022-04-03 10:18:46

最近一段时间（本文写作于2020-07-10）geopandas与geoplot两个常用的GIS类Python库都进行了一系列较为重大的内容更新，新增了一些特性...

79630

Delta Lake如何自己实现更新操作加速(布隆过滤器)

用户2936994 2022-01-072022-01-07 16:28:36

Delta Lake 现阶段判定一条数据是不是已经存在是比较暴力的，直接做一次全表join（如果有分区会好点）。这样可以得到待更新记录所在的文件路径。在特定...

71830

一段有用的代码 | Flink读写parquet文件

大数据真好玩 2021-09-182021-09-18 15:09:24

Flink读parquet import org.apache.flink.core.fs.Path import org.apache.flink.forma...

2.6K20

揭秘ApacheHudi数据湖的文件管理

ApacheHudi 2021-04-132021-04-13 10:39:21

Hudi将记录写入数据 parquet文件或日志 log文件，而这些文件在内存中是如何进行管理呢？如之前的文章中提到过的 HoodieFileGroup、 Fi...

1.1K30

（数据科学学习手札89）geopandas&geoplot近期重要更新

Feffery 2020-07-142020-07-14 11:38:58

　　最近一段时间（本文写作于2020-07-10）geopandas与geoplot两个常用的GIS类Python库都进行了一系列较为重大的内容更新，新增了一些...

87420

#parquet

【python】pyarrow.parquet+pandas：读取及使用parquet文件

Parquet存储的数据模型以及文件格式

Hive中parquet压缩格式分区表的跨集群迁移记录

Parquet与ORC:高性能列式存储 | 青训营笔记

NOIP2022模拟赛二 By JTZ 10.18

列式存储引擎-内核机制-Parquet格式

?PySpark 读写 Parquet 文件到 DataFrame

Spark sql 是如何优化执行的

降低数据大小的四大绝招。

更新操作的秘密

geopandas&geoplot近期重要更新

Delta Lake如何自己实现更新操作加速(布隆过滤器)

一段有用的代码 | Flink读写parquet文件

揭秘ApacheHudi数据湖的文件管理

（数据科学学习手札89）geopandas&geoplot近期重要更新

相关产品

热门专栏

祝威廉

大数据应用技术

数据科学学习手札

暴走大数据

深度学习

社区

活动

资源

关于

云服务器哪家好开发者

热门产品

热门推荐

更多推荐