`
sealbird
  • 浏览: 570594 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

索引由原先的128位的跳跃表,更改为二分法查找

阅读更多
引用
 交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。

 开心延年-alipay<myn@163.com>  10:18:56
风车车(54343885)  10:18:36
用多台内存服务器不行么


肯定可以啦  
风车车(54343885)  10:19:14
现在内存这么便宜
开心延年-alipay<myn@163.com>  10:19:21
不是啦 存储的就是ID的值   
风车车(54343885)  10:19:26
放内存,效率应该很快咯
lykke.lm(715356603)  10:19:32
你对id 进行md5?
lykke.lm(715356603)  10:19:41
然后呢 索引??
开心延年-alipay<myn@163.com>  10:19:47
很多网站ID的值存储的就是 MD5  所以尽量模拟真实情景啦 
开心延年-alipay<myn@163.com>  10:20:02
你可以存储任何值
lykke.lm(715356603)  10:20:18
很多网站的id 是url 的md5 不错大多数是 content的md5 
bruce_yang(782506462)  10:20:27
lucene
bruce_yang(782506462)  10:20:42
一亿索引才8G 多啊?
lykke.lm(715356603)  10:20:52
你这个 能开源一下么  开心
bruce_yang(782506462)  10:21:06
开心你做的搜索引擎?
bruce_yang(782506462)  10:21:21
 会员魔法表情:《无聊》播放  回复  收藏
lykke.lm(715356603)  10:21:21
我现在数据量 上亿条 但是 搜索速度很慢
开心延年-alipay<myn@163.com>  10:21:27
当然可以啦 
开心延年-alipay<myn@163.com>  10:21:30
业余爱好而已 
bruce_yang(782506462)  10:21:32
开心 说说
bruce_yang(782506462)  10:21:33
这个 
bruce_yang(782506462)  10:21:38
是啥啊
bruce_yang(782506462)  10:21:42
改写lucene的?
高调-失业中(13574798)  10:21:42
开心NC
xiaolong(312210901)  10:21:58
每条数据有多大呢?   
开心延年-alipay<myn@163.com>  10:22:14
每条数据有多大呢?      MD5 32长度
xiaolong(312210901)  10:22:57
。。。很多   
开心延年-alipay<myn@163.com>  10:23:23
呵呵  要源码的 留email
风车车(54343885)  10:23:38
everhow@163.com
kwee(836232886)  10:23:41
ikweesung@gmail.com
kwee(836232886)  10:23:48
 
风(51263)  10:23:51
squallzhong@gmail.com
lykke.lm(715356603)  10:23:56
715356603@qq.com

bruce_yang(782506462)  10:23:59
yangfuchao2010@gmail.com
bruce_yang(782506462)  10:24:02
开心 
bruce_yang(782506462)  10:24:10
感恩节 记得发源码
越测越开心(19730953)  10:24:14
panluhai@gmail.com
bruce_yang(782506462)  10:24:14
 
kwee(836232886)  10:24:16
 
越测越开心(19730953)  10:24:21
感恩 哈哈
伟大的小白(439297317)  10:24:20
什么东西 
伟大的小白(439297317)  10:24:25
那么多人留有向
kelo_北京(13581754)  10:24:30
13581754@qq.com
lykke.lm(715356603)  10:24:32
你们也不搞搜索 凑设呢们热闹呢
匿-新媒(670906880)  10:24:34
670906880@qq.com
开心延年-alipay<myn@163.com>  10:24:38
其实源码改动量很小啦 
bruce_yang(782506462)  10:24:54
先说说吧
bruce_yang(782506462)  10:24:58
你这个是啥
bruce_yang(782506462)  10:25:01
改的lucene?
bruce_yang(782506462)  10:25:04
改的哪儿

zzy - Anchora(251547518)  10:25:06
同求 251547518@qq.com
开心延年-alipay<myn@163.com>  10:25:19
索引更改点
1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)
3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)
4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处

开心延年-alipay<myn@163.com>  10:25:57
 
伟大的小白(439297317)  10:25:57
lucene?
开心延年-alipay<myn@163.com>  10:26:05
只改动了这几个类
lykke.lm(715356603)  10:26:25
发源码吧 开心
伟大的小白(439297317)  10:26:34
跳跃表的性能 > 二分法吧
kelo_北京(13581754)  10:26:41
是呀,开心
云 - 华(46249327)  10:26:50
单机 lucene能够支持十亿级别索引的查询   
lykke.lm(715356603)  10:27:05
 

我也觉得不可能 
开心延年-alipay<myn@163.com>  10:27:18
代码给你  自己测试下就知道啦 
bruce_yang(782506462)  10:27:23
改了建立索引的 java代码?
lykke.lm(715356603)  10:27:23
我现在的索引大约10个g 单机 根本不行 
伟大的小白(439297317)  10:27:34
难 追求速度 需要内存全加载
bruce_yang(782506462)  10:27:42
10G 多少条数据啊
bruce_yang(782506462)  10:27:44
lm
伟大的小白(439297317)  10:27:46
那多坑跌阿
bruce_yang(782506462)  10:27:47
luykke
lykke.lm(715356603)  10:27:55
我那个 是网页
翟光亚(304428768)  10:28:01
索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
这个会占用多大内存?
翟光亚(304428768)  10:28:09
感觉没有必要这样的
伟大的小白(439297317)  10:28:30
我一直没搞明白
伟大的小白(439297317)  10:28:41
跳跃表就是为了节约内存设计的
lykke.lm(715356603)  10:28:52
单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储 
lykke.lm(715356603)  10:28:59
用MulitSearch 
伟大的小白(439297317)  10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317)  10:29:08
ss
开心延年-alipay<myn@163.com>  10:29:09
13581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;
开心延年-alipay<myn@163.com>  10:29:14
文件二分法啊 
开心延年-alipay<myn@163.com>  10:29:18
文件是定长的 
lykke.lm(715356603)  10:29:21
715356603@qq,com
lykke.lm(715356603)  10:29:33
g给我发啊 哥们 
kwee(836232886)  10:29:52
ikweesung@gmail.com
越测越开心(19730953)  10:29:53
还有panluhai@gmail.com  支持下阿里兄弟
kelo_北京(13581754)  10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123)  10:30:20
332106123@qq.com  
bruce_yang(782506462)  10:30:46
kelo 你眼睛分布式?
在路上(386728737)  10:30:47
同求,386728737@qq.com, 
bruce_yang(782506462)  10:30:48
研究
bruce_yang(782506462)  10:30:52
单机 ?
bruce_yang(782506462)  10:30:56
还搞啥分布式
开心延年-alipay<myn@163.com>  10:31:01
我业余时间搞着玩的哈   就修改了几天
bruce_yang(782506462)  10:31:01
知道sensei没
bruce_yang(782506462)  10:31:16
正需要做搜索呢
bruce_yang(782506462)  10:31:20
你那个不是会bug吧?
开心延年-alipay<myn@163.com>  10:31:35
你测试下 
开心延年-alipay<myn@163.com>  10:31:45
验证下结果是否正确就知道了 
开心延年-alipay<myn@163.com>  10:31:56
邮件中我给出了测试代码
在路上(386728737)  10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754)  10:32:39
是呀
开心延年-alipay<myn@163.com>  10:33:11
都发给大家了 
风(51263)  10:33:50
squallzhong@gmail.com,我也要一份


 交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。

 lykke.lm(715356603)  10:28:59
用MulitSearch 
伟大的小白(439297317)  10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317)  10:29:08
ss
开心延年-alipay<myn@163.com>  10:29:09
13581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;
开心延年-alipay<myn@163.com>  10:29:14
文件二分法啊 
开心延年-alipay<myn@163.com>  10:29:18
文件是定长的 
lykke.lm(715356603)  10:29:21
715356603@qq,com
lykke.lm(715356603)  10:29:33
g给我发啊 哥们 
kwee(836232886)  10:29:52
ikweesung@gmail.com
越测越开心(19730953)  10:29:53
还有panluhai@gmail.com  支持下阿里兄弟
kelo_北京(13581754)  10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123)  10:30:20
332106123@qq.com  
bruce_yang(782506462)  10:30:46
kelo 你眼睛分布式?
在路上(386728737)  10:30:47
同求,386728737@qq.com, 
bruce_yang(782506462)  10:30:48
研究
bruce_yang(782506462)  10:30:52
单机 ?
bruce_yang(782506462)  10:30:56
还搞啥分布式
开心延年-alipay<myn@163.com>  10:31:01
我业余时间搞着玩的哈   就修改了几天
bruce_yang(782506462)  10:31:01
知道sensei没
bruce_yang(782506462)  10:31:16
正需要做搜索呢
bruce_yang(782506462)  10:31:20
你那个不是会bug吧?
开心延年-alipay<myn@163.com>  10:31:35
你测试下 
开心延年-alipay<myn@163.com>  10:31:45
验证下结果是否正确就知道了 
开心延年-alipay<myn@163.com>  10:31:56
邮件中我给出了测试代码
在路上(386728737)  10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754)  10:32:39
是呀
开心延年-alipay<myn@163.com>  10:33:11
都发给大家了 
风(51263)  10:33:50
squallzhong@gmail.com,我也要一份
广州-ZBIRD(258987928)  10:34:56
zbird.6208@gmail.com
广州-ZBIRD(258987928)  10:35:07
 
在路上(386728737)  10:35:59
开心,都改了哪些类?
开心延年-alipay<myn@163.com>  10:36:12
 
在路上(386728737)  10:36:28
能否兼容lucene3.3~3.4版本?
开心延年-alipay<myn@163.com>  10:36:40
TermInfosReader与TermInfosWriter
开心延年-alipay<myn@163.com>  10:36:46
肯定不兼容了 
开心延年-alipay<myn@163.com>  10:36:51
索引都变了 
bruce_yang(782506462)  10:36:51
找不到啊
开心延年-alipay<myn@163.com>  10:36:56
你以为我是作者啊 
bruce_yang(782506462)  10:36:57
叫啥名字
lykke.lm(715356603)  10:37:06
呵呵
开心延年-alipay<myn@163.com>  10:37:07
你邮箱多少

bruce_yang(782506462)  10:37:14
yangfuchao2010@gmail.com
bruce_yang(782506462)  10:37:28
不兼容?
bruce_yang(782506462)  10:37:41
擦
kwee(836232886)  10:37:43
ikweesung@gmail.com
开心延年-alipay<myn@163.com>  10:37:47
就三天晚上 还兼容啊 呵呵
在路上(386728737)  10:38:14
我的意思是说,代码能否工作在3.4下,索引重建
bruce_yang(782506462)  10:38:30
北京一家牛逼个欧诺公司
bruce_yang(782506462)  10:38:33
公司
bruce_yang(782506462)  10:38:36
又要不去的没
bruce_yang(782506462)  10:38:42
乐荐网络( www.joyrec.com)
开心延年-alipay<myn@163.com>  10:40:44
没测试过呀 
bruce_yang(782506462)  10:42:41
还是没收到呢
bruce_yang(782506462)  10:42:42
开心 
开心延年-alipay<myn@163.com>  10:43:33
你的邮箱不让发吧 
高调-失业中(13574798)  10:43:33
群共享源码
bruce_yang(782506462)  10:43:46
lucene2000@163.com
bruce_yang(782506462)  10:43:48
这个吧
kwee(836232886)  10:44:00
ikweesung@163.com.  
bruce_yang(782506462)  10:46:23
收到了 tks
高调-失业中(13574798)  10:46:30
13574798@qq.com
kwee(836232886)  10:46:53
谢谢 收到。
伟大的小白(439297317)  10:47:03
变那么多人研究luncene了?
开心延年-alipay<myn@163.com>  10:47:12
空间不足 无法上传 汗 
高调-失业中(13574798)  10:47:35
上传到零时空间
bruce_yang(782506462)  10:48:16
lucene4 听说改动很大
kelo_北京(13581754)  10:48:25
邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据
bruce_yang(782506462)  10:48:26
性能提升 非常大
bruce_yang(782506462)  10:48:41
kelo。北京
开心延年-alipay<myn@163.com>  10:48:43
lucene4  都出来啦 
开心延年-alipay<myn@163.com>  10:48:47
改动了啥呀 
bruce_yang(782506462)  10:48:47
你现在数据多少
bruce_yang(782506462)  10:48:57
lucene4  已经 测试了
bruce_yang(782506462)  10:48:58
开始
bruce_yang(782506462)  10:49:08
算法改动很大
伟大的小白(439297317)  10:50:30
lucene4把api接口都换了
伟大的小白(439297317)  10:50:41
实现策略也是
伟大的小白(439297317)  10:50:48
基本不能过度
kelo_北京(13581754)  10:51:16
没看到呀
kelo_北京(13581754)  10:51:25
看看svn里头的
kelo_北京(13581754)  10:51:48
呵呵,自玩的
清澈高远(305412982)  10:51:55
lucene更新很快
bruce_yang(782506462)  10:52:19
 
bruce_yang(782506462)  10:52:27
 http://paris8.org/a/bbs/viewthread.php?tid=6098
伟大的小白(439297317)  10:53:37
真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多  才多久阿
bruce_yang(782506462)  10:53:45
 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0
bruce_yang(782506462)  10:53:47
原文 
bruce_yang(782506462)  10:54:31
哪位研究过sensei
开心延年-alipay<myn@163.com>  10:55:10
不行了  得干活了 如果还有人想要源码 发邮件给myn@163.com  我定期回复  
伟大的小白(439297317)  10:55:11
上次也是 去年弄得cas 今年发现版本更新
bruce_yang(782506462)  10:55:40
搞这么大 更新太快了
bruce_yang(782506462)  10:55:52
lucene3 变化很大
bruce_yang(782506462)  10:55:59
现在4也很大
广州-ZBIRD(258987928)  10:56:17
谁转发一份给偶。呵呵。谢谢
伟大的小白(439297317)  10:56:41
lucene2 -> 3 不兼容 -> 4 不一定兼容
bruce_yang(782506462)  10:58:17
linkedin 公司的分布式搜索
bruce_yang(782506462)  10:58:23
哪位研究过
源远流长(117405390)  10:58:30
zoie? 
bruce_yang(782506462)  10:58:34
不是
bruce_yang(782506462)  10:58:38
sensei
日期:2011/11/24
开心延年-alipay<myn@163.com> 10:37:07 
你邮箱多少

bruce_yang(782506462) 10:37:14 
yangfuchao2010@gmail.com
bruce_yang(782506462) 10:37:28 
不兼容?
bruce_yang(782506462) 10:37:41 
擦
kwee(836232886) 10:37:43 
ikweesung@gmail.com
开心延年-alipay<myn@163.com> 10:37:47 
就三天晚上 还兼容啊 呵呵
在路上(386728737) 10:38:14 
我的意思是说,代码能否工作在3.4下,索引重建
bruce_yang(782506462) 10:38:30 
北京一家牛逼个欧诺公司
bruce_yang(782506462) 10:38:33 
公司
bruce_yang(782506462) 10:38:36 
又要不去的没
bruce_yang(782506462) 10:38:42 
乐荐网络(www.joyrec.com)
开心延年-alipay<myn@163.com> 10:40:44 
没测试过呀 
bruce_yang(782506462) 10:42:41 
还是没收到呢
bruce_yang(782506462) 10:42:42 
开心 
开心延年-alipay<myn@163.com> 10:43:33 
你的邮箱不让发吧 
高调-失业中(13574798) 10:43:33 
群共享源码
bruce_yang(782506462) 10:43:46 
lucene2000@163.com
bruce_yang(782506462) 10:43:48 
这个吧
kwee(836232886) 10:44:00 
ikweesung@163.com.  
bruce_yang(782506462) 10:46:23 
收到了 tks
高调-失业中(13574798) 10:46:30 
13574798@qq.com
kwee(836232886) 10:46:53 
谢谢 收到。
伟大的小白(439297317) 10:47:03 
变那么多人研究luncene了?
开心延年-alipay<myn@163.com> 10:47:12 
空间不足 无法上传 汗 
高调-失业中(13574798) 10:47:35 
上传到零时空间
bruce_yang(782506462) 10:48:16 
lucene4 听说改动很大
kelo_北京(13581754) 10:48:25 
邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据
bruce_yang(782506462) 10:48:26 
性能提升 非常大
bruce_yang(782506462) 10:48:41 
kelo。北京
开心延年-alipay<myn@163.com> 10:48:43 
lucene4  都出来啦 
开心延年-alipay<myn@163.com> 10:48:47 
改动了啥呀 
bruce_yang(782506462) 10:48:47 
你现在数据多少
bruce_yang(782506462) 10:48:57 
lucene4  已经 测试了
bruce_yang(782506462) 10:48:58 
开始
bruce_yang(782506462) 10:49:08 
算法改动很大
伟大的小白(439297317) 10:50:30 
lucene4把api接口都换了
伟大的小白(439297317) 10:50:41 
实现策略也是
伟大的小白(439297317) 10:50:48 
基本不能过度
kelo_北京(13581754) 10:51:16 
没看到呀
kelo_北京(13581754) 10:51:25 
看看svn里头的
kelo_北京(13581754) 10:51:48 
呵呵,自玩的
清澈高远(305412982) 10:51:55 
lucene更新很快
bruce_yang(782506462) 10:52:19 
 
bruce_yang(782506462) 10:52:27 
http://paris8.org/a/bbs/viewthread.php?tid=6098
伟大的小白(439297317) 10:53:37 
真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多  才多久阿
bruce_yang(782506462) 10:53:45 
http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0
bruce_yang(782506462) 10:53:47 
原文 
bruce_yang(782506462) 10:54:31 
哪位研究过sensei
开心延年-alipay<myn@163.com> 10:55:10 
不行了  得干活了 如果还有人想要源码 发邮件给myn@163.com  我定期回复  
伟大的小白(439297317) 10:55:11 
上次也是 去年弄得cas 今年发现版本更新
bruce_yang(782506462) 10:55:40 
搞这么大 更新太快了
bruce_yang(782506462) 10:55:52 
lucene3 变化很大
bruce_yang(782506462) 10:55:59 
现在4也很大
广州-ZBIRD(258987928) 10:56:17 
谁转发一份给偶。呵呵。谢谢
伟大的小白(439297317) 10:56:41 
lucene2 -> 3 不兼容 -> 4 不一定兼容
bruce_yang(782506462) 10:58:17 
linkedin 公司的分布式搜索
bruce_yang(782506462) 10:58:23 
哪位研究过
源远流长(117405390) 10:58:30 
zoie? 
bruce_yang(782506462) 10:58:34 
不是
bruce_yang(782506462) 10:58:38 
sensei
  • 大小: 11.1 KB
分享到:
评论

相关推荐

    c语言 二分法查找

    c 二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法查找二分法...

    C语言实现的二分法快速查找|二分法排序|二分法查找C#

    C语言实现的二分法快速查找|二分法排序|二分法查找C#

    java算法——二分法查找

    二分法查找 *进行二分法查找的前提是数组已有序 *查找范围的上下界

    图解数据结构二分法查找法

    二分法查找法

    二分法查找(c++版)

    给定的表中用二分法查找指定数 给定的表中用二分法查找指定数 给定的表中用二分法查找指定数

    Java程序设计基础:一维数组应用查找二分法查找).pptx

    ——二分法查找 目录 课程导入 1 清楚并牢记二分法的实现条件 2 理解二分法的实现思路 3 读懂二分法的实现代码 数组的查找——二分法查找 也称拆半查找法,是一种高效的查找方法,前提条件是数组元素必须已经按升序...

    二分法查找

    二分法查找 (源码 C Java)

    二分法查找源码

    二分法查找和顺序查找 排序后二分法

    二分法查找MATLAB程序

    使用二分法查找的MATLAB程序编写,方便刚接触MATLAB的同学分享学习。

    要求演示二分法查找过程

    题目要求演示二分法查找过程,用箭头跟踪指示出二分查找过程中的查找位置。设计思想为用两个数组实现,一个用于存数据另一个用来存箭头。只要存箭头的下标于每次查找的数的下标相等就可以实现,难点在于如何把数得...

    写出二分法查找算法函数实现。

    写出二分法查找算法函数实现。

    二分法数据查找C语言实现

    二分法数据查找C语言实现,只有10%程序员能正确实现二分查找算法--http://news.csdn.net/a/20100423/218099.html

    易语言源码有序二分法查找易语言源码.rar

    易语言源码有序二分法查找易语言源码.rar 易语言源码有序二分法查找易语言源码.rar 易语言源码有序二分法查找易语言源码.rar 易语言源码有序二分法查找易语言源码.rar 易语言源码有序二分法查找易语言源码.rar ...

    C#二分法查找连续数字

    C#二分法快速查找查找连续数字,C#二分法快速查找查找连续数字,C#二分法快速查找查找连续数字,C#二分法快速查找查找连续数字,

    Java二分法查找数组元素.zip

    二分法查找是一种常用的查找算法,也称为折半查找。它适用于有序数组中查找某个元素的位置。二分法查找的思路是将数组分成两部分,每次查找都将待查找区间缩小一半,直到找到目标元素或者待查找区间为空为止。 ...

    易语言有序二分法查找

    易语言有序二分法查找源码,有序二分法查找,算法_二分法

    二分法查找数组

    精简算法 二分法查找数组 算法精简查找效率高!

    改进的二分法查找

    利用二分法,在含有n 个元素的有序数列中查找一个元素的最大比较次数为Llogn J+I 0 在很多情况中,在查找之前有序数列分布的很多信息为已知,比如说如果知道了有序数列中每相邻两个元素之差的最大值的一个上界,就...

    一个二分法查找的图形演示程序

    一个二分法查找的图形演示程序,C++,一个二分法查找的图形演示程序,一个二分法查找的图形演示程序

Global site tag (gtag.js) - Google Analytics