聊一聊搜索引擎技术

0
回复
150
查看
[复制链接]

微信扫一扫 分享朋友圈

2

主题

8

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-2-10 07:23:32 | 显示全部楼层 |阅读模式
搜索引擎技术诞生于20世纪90年代。这一技术极大地拉近了互联网与普通大众的距离。人们仅用简单的关键字就可以在网上找到自己所需的信息。巨大的便利迅速激起了人们对使用互联网的需求和热情,同时也鼓励了一大批用户在互联网上传递信息、分享知识。
站在21世纪30年代回顾过去,滚滚长江东逝水,互联网的时代巨轮迎面而来的这数十年里,有多少巨头身入其中乘风破浪、或成或败。大家耳熟能详的雅虎、谷歌、百度这些巨头的发家成名之作便与我们今天要聊的这项技术有关。
大家或多或少可能都听过一个名词:”互联网爬虫“。这一词汇近年比较流行。说到智能制造,大家会想到人工智能 AI,说到AI大家可能会聊到Python,聊到Python似乎又不得不提一嘴爬虫技术。这些我在后面会跟大家一项一项地交流。
今天无数家长们早早地把孩子送进培训机构学习 Python,唯恐孩子在数字化转型的时代浪潮中掉队。但是我们需要知晓的是,搜索引擎巨头们,早在数十年前,就已经深度应用了互联网爬虫技术,并将其赋能给了他们各自旗下的搜索引擎产品。
我们回到正题。搜索引擎简单来说,就是让网络爬虫爬取无数亿的互联网页信息,添加好索引,再匹配给搜索框前敲打键盘的用户。


具体是怎么一回事呢?首先,搜索引擎本质是放有网页内容的数据库。你可以理解为有这么一张表,一列是网址,一列是网页内容,另一列是它的索引。这个索引非常重要,你可以想象成图书馆书本的书皮。这时我们有一个推荐算法,就像一个尽职尽责的图书管理员,听你说了你要找的书之后,能够挨个对着书皮找到你想要的书,把书皮按照顺序摆在你面前。当然,搜索引擎有的时候更像一个书店老板,他需要优先把赞助商的书摆在你面前,这便是搜索引擎普遍的盈利模式:收取广告费,优先推荐赞助商的书。
不同的搜索引擎都有自己的一套构建方式。我们这里举一下谷歌搜索的例子。


首先,谷歌必须要想办法获取一张网址清单。搜索引擎巨头们已经有了足够的积累。另外从公共的网址推荐站点也能获取一些。当然也有不少网址是用户主动提交给谷歌的。之后,谷歌通过爬虫工具,也就是自家的Googlebot,来获取网页内容。最后,经过一个不为外人知道的神秘算法处理,打上索引。
当用户敲上关键词之后,推荐算法就开始了它的表演。他们根据索引计算匹配结果的相关度并排序,然后呈现给用户。推荐算法其实就是一堆代数式,这套代数式里有很多计算因子,这里提一下其中非常重要的一个因子便是反向链接的数量。反向链接是指其他网站中,出现的可以导航到本站的链接。反向链接越多,则搜索排名越高。也就是说,当其他的网页博主在他们的网站中把你的网站网址放上去,你的网页搜索排名就会获得提升。除此之外,关键词相关度的权重也很高。另外还有话题热门度、新鲜度,用户的语言位置,网站服务器响应的速度等等,都会影响排序。
由此引申出一个新兴的高薪职业:SEO工程师,全称叫 Search Engine Optimization Engineer,搜索引擎优化工程师。他们利用搜索引擎的规则,对网站内外部做优化,以提升网站的自然排名。在这个信息量级迅速增加的时代,SEO技术越来越受到互联网企业主的青睐。


笔者希望通过一些文章,让大家能更好地了解智能制造。制造业对于一个经济体的重要性不言而喻。如今我们身处制造业数字化转型的时代风口上,更应勤勉习之。搜索引擎技术是过去数十年中,引领互联网技术革新的领军人物之一。笔者打算以搜索引擎技术为起点,一项一项跟大家聊聊智能制造和数字化转型相关的话题。若有纰漏之处,欢迎指正。
回复

举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表