请安装我们的客户端
更新超快的免费小说APP
添加到主屏幕
请点击,然后点击“添加到主屏幕”
虽然后世以百度、谷歌为代表的搜索引擎最终呈献给用户的,只是一个只有一个搜索条和一个搜索按钮的简单页面,但是隐藏在页面后台的却是一个由成千上万台服务器,天文数字级的海量数据,以及一个复杂的搜索引擎软件组成的庞大系统,而这个系统的核心,就是搜索引擎。
搜索引擎虽然很复杂,但是其系统总体架构却并不复杂,主要由络数据采集模块,数据分析排序模块,数据库,用户查询请求分析模块等组成,起工作流程也很简单:
络数据采集模块是一个很重要的模块,其主要功能是从络上抓取页信息发送回搜索引擎服务器,这个模块有一个很形象的名字,叫做络蜘蛛,也有人把它叫做络机器人,之所以叫络蜘蛛,是因为蜘蛛会踩着它吐的蛛丝在上漫步,而络蜘蛛虽然自己不吐丝,但是互联上的超链接却将无数的页连接成一个巨大的,络蜘蛛则会在这个上不停地到处爬行,采集页信息,之所以叫络机器人,却是因为这种爬行搜索的过程,是完全自动化进行的缘故。
络蜘蛛将搜集到的页信息,发送回搜索引擎服务器,由络数据分析模块对之进行分析,按照一定的算法,给每个页赋予一定的权重,将页进行排序。
判断一个搜索引擎的优劣,很大程度上,取决于这个排序算法,一个优秀的全文搜索引擎,能够通过优化排序,让用户第一时间得到自己想要的信息,而不用继续往下翻页,所以,这个排序算法将会是整个搜索引擎最核心的技术。
对此,肖远自然也是十分熟悉的,实际上,他并没有打算从头至尾自己独立去完成搜索引擎的开发,而是准备在玄涅组建一个开发小组,共同合作来完成整个系统的开发,但是,页信息权重分配和排序模块,作为其中最重要,最核心的部分,他却是要自己亲自开发的,而且在开发完成后,还会将之作为公司最核心的技术机密,为之申请专利,利用法律对其进行保护。
至于其他非核心的模块,即使是络蜘蛛这样的重要功能模块,在搞清楚工作原理后,开发并不困难,所以,他准备交给开发小组来做,自己就不亲自动手了。
一套完整的搜索引擎开发文档,也不是一时半会儿能够做出来的,肖远晚上只是在草稿纸上画了一些架构图和流程图,然后就上床睡觉了。
从第二天开始,肖远整整花了三天时间,才把整个系统的总体结构设计文档写了一个初稿出来,然后他去了玄涅公司,把唐新宇和顾狼召集在一起,反复对开发文档进行了探讨,修改,数易其稿,如此一来,很多天就匆匆过去了。
与此同时,唐新宇也开始着手对玄涅络科技股份有限公司进行结构调整,成立了一个络安全事业部,将以玄涅防火墙为核心的络安全产品及相关业务,全部划归到了络安全事业部。
与络安全事业部并立,唐新宇开始着手组建搜索引擎事业部,而顾狼也按照预定计划,配合唐新宇,着手组建搜索引擎开发小组。
段炎月这段时间除了继续完善玄涅开源社区建设计划书之外,也在着手组建玄涅的第三个特殊的事业部——玄涅开源事业部,之所以说这个事业部... -->>
本章未完,点击下一页继续阅读