大数据量Excel抽取策略

背景

假设有几百万行的Excel数据。此时excel文件可能无法上传至有数,或者无法在有数上面分析。
在这种情景下:建议使用有数的抽取功能,将Excel数据转化为关系型数据库数据。

解决方案

首先观察excel 有几个sheet 页。Excel的每一个sheet页在有数里会映射为独立的一张表。

1.情况1:单个Excel过于巨大的时候,需要拆分为多个Excel(一般不建议单个Excel超过50m)。
如一个excel 有20个sheet 页,可以把一个excel 文件分成多个excel文件,每个文件放几个sheet 页。
(正常情况下20个表同时在一个数据模型里面建模的几率很小) 新建多个数据连接去连接这些Excel。
最后在数据模型里引用,并设置为抽取模式。

2.情况2:一个sheet页里面数据量太大。这时建议把一个sheet页分为多份Excel(保证分出来的Excel仍然拥有同样的表头)。
之后在数据模型里引用这些数据连接的表,并设置为抽取模式;
同时因为这些表都具有相同的表头,在模型层使用union的方法将数据再合并在一起。