转载:http://www.FullSearcher.Com/
垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差 ...
一、目的:
提高网站页面在google、百度、雅虎等搜索引擎中的搜索结果排名,提升从搜索引擎获得的流量。
二、优化工作的几个方面
2.1优化全站网页,按照底级页模板、专题模板、频道模板、首页模板顺序修改;
由频道编辑和技术工程师共同完成
2.2优化站外合作(友情)连接;
由频道编辑完成
2.3 优化和频道相关的搜索引擎热门关键词、时效性热门内容;
由频道编辑完成
2.4 将动态页面URL静态化(应用Apache的mod_rewrite模块)
由技术工程师完成
2.5 定期跟踪观察优化效果
由频道编辑完成
三、优化工作各方面工作 ...
转载
关键词:搜索引擎,复制网页,算法,信息指纹,Fingerprint,关键词
搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。
很多搜索引擎判断内容复制的方法都不太一样,主要是以下两点的不同:
1、计算信息指纹(Fingerprint)的算法;
2、判断信息指纹的相似程度的参数。
在描述具体的算法前,先说清楚两点:
1、什么是信息指纹?信息指纹就是把网页里面正文信息,提取一定的信息,可以是关键字、词、句子或者段落及其在网页里面 ...
转载
今天看Effective java中有这么一条"如果要求精确答案,请避免使用float和double".
这可真让我大吃一惊!!我很不解,而且不是很相信.于是我写了两个个程序试验了下.
1public class TestFloatDouble {
2
3 public static void main(String[] args) {
4
5 &nbs ...
这个算法简单,而且效率高,每次可以操作8个字节的数据,加密解密的KEY为16字节,即包含4个int数据的int型数组,加密轮数应为8的倍数,一般比较常用的轮数为64,32,16,推荐用64轮.
源代码如下:
/** *//**
* Tea算法
* 每次操作可以处理8个字节数据
* KEY为16字节,应为包含4个int型数的int[],一个int为4个字节
* 加密解密轮数应为8的倍数,推荐加密轮数为64轮
* */
public class Tea {
//加密
public byte[] encrypt(byte[] content, int offset, int[ ...







评论排行榜