海量数据处理之一

周凡杨

浏览: 230872 次
性别:
来自: 上海

最近访客更多访客>>

apex53

qsjiangs

yuanyuan7891

汪小洋

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java 服务

java 海量数据内存大文件

项目组里因为需要，现要开发一个数据过滤软件，针对文本文件 (txt 文件 ) ，文本文件里的数据是 11 位的手机号码，数据约有四千万行，进行数据过滤 ( 重复号码过滤，位数非 11 位的进行过滤 ) 尽量脱离数据库。而且要提速，太慢了客户不满意的。

显然在内存里过滤数据是最快的，可是显然对于 2G 内存的本来说，可分配给 JAVA HAEP 的大小是容不下这么多数据的。那怎么办呢？

索引机制：

首先的想到的是通过 Lucene 索引机制，循环判断目标文件里是否已经存在要写入的号码，若不存在，则写入文件。

思路很清晰，但效率不高，主要是索引的速度不高，三十万的数据约要十几分钟，这太慢了。四千万的数据两个小时也跑不出来。

分割文件：

4000 万的数据文件约 500M ，一个文件太大，那可以把它分割成小文件，这里我采用的是安手机号的号段进行分割，比如把以 135 开头的手机号码读入一个文件，把 136 的开头的读入另一个文件 … 这样实际情况下是行的通的，可是如果理想的情况下是不通的，因为如果文本文件里手机号码 90% 都是 135*** 那分割后的文件 135 的还是太大了，不过可以实行循环分割，把第一次分割后的文件再次分割（取四位号码分割），如果文件还大，循环分割 …

经测试：

 * 371M 的文件（3000万的数据）  过滤数据耗时: 99844毫秒
 * 520M 的文件（4200万的数据）  过滤数据耗时: 369359毫秒

6 分钟可以搞定 4000 万的数据，从这个耗时看，效率有了很大的提升。基本可以满足用户的需要了。

那是不是可以更快呢？

分割法 ( 内存机制 )

第一步 ：循环读取文件一遍，取出所有数据的前三位，即号段存入 List 中 ( 要滤重 )

第二步： 遍历 List 分别取出号段值 value ，再分别读取文件把数据是以 value 开头数据读入到 Set 中，当读文件结束时，写 Set 中的数据写入目标文件。

经测试：

* 371M 的文件（ 3000 万的数据）   过滤数据耗时 : 70672 毫秒
* 520M 的文件（ 4200 万的数据）   过滤数据耗时 : 159016 毫秒

2 多分钟可以搞定 4000 万的数据，从这个耗时看，效率有了很大的提升。已经可以满足用户的需要了。

那是不是还可以更快呢？

查看图片附件

2
顶

1
踩

分享到：

去除浏览器对表单值的记忆 | Javascript 跨域

2012-06-18 18:37
浏览 2770
评论(10)
分类:编程语言
查看更多

10 楼 frank-liu 2013-03-14

可以考虑对每个电话号码做这样的映射：文件名 = hashCode(str) % 10。这样所有重复的号码都会映射到同一个文件里。这里假设是将这个大文件划分成10个小文件。基本上每个文件足够小到可以装载到内存里利用hashMap等进行消重了。碰到文件还是够大的可以调整前面求模的数字或者再对文件按照前面的法子进行划分。

9 楼周凡杨 2012-06-26

lengyimeng 写道

博主，你的第一步是把文件的数据读一遍，然后把数据的前三位放入一个list中，然后再遍历这个list，通过这个list中的数据，即文件数据的前三位又再去读一遍文件，然后再通过set去重，为什么要读两遍数据，而且你把前三位拿出来又通过前三位去读文件拿数据是为什么呢，我记得好像String的subString方法比较耗资源，你这里拿前三位是用哪个方法。还有，最后一个疑问，为什么不直接一次性把数据读入一个linkedList中，然后再遍历一次放入set中啊？

数据量太大，一次性的把数据读入linkedList中，会内存溢出的！我第一次读取文件，取前三位，是要得到号段值。比如 135 136 是手机号码的号段。然后再读取文件就可以归类了，是根据已经得到的号段归类的，比如以135开头的数据为一类数据... 总体原理还是化大为小，实现数据过滤。

8 楼 lengyimeng 2012-06-25

7 楼周凡杨 2012-06-24

eyes_on_you 写道

能把数据传上来测试下不

数据文件很大啊，几百M ，你可以自己写个点代码生成嘛

6 楼 eyes_on_you 2012-06-22

能把数据传上来测试下不

5 楼 datawarehouse 2012-06-19

哪里下载代码啊

4 楼周凡杨 2012-06-19

datawarehouse 写道

给出方法啊啊啊

思路和过程写的还不够明显吗？源代码我这也有啊

3 楼 datawarehouse 2012-06-19

给出方法啊啊啊

2 楼周凡杨 2012-06-19

huangsky 写道

博主是在2G的内存情况下完成这4000万的去重的吗？

是啊

1 楼 huangsky 2012-06-18

博主是在2G的内存情况下完成这4000万的去重的吗？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论