设为首页
收藏本站
开启辅助访问
切换到窄版
快捷导航
登录
|
立即注册
门户
Portal
论坛
BBS
淘宝
腾讯
谷歌
雅虎
百度
搜狐
新浪
网易
京东
帖子
搜索
热搜:
活动
交友
discuz
本版
文章
帖子
用户
蓝色火焰
»
论坛
›
蓝色火焰
›
雅虎
›
聊一聊搜索引擎技术
返回列表
聊一聊搜索引擎技术
0
回复
150
查看
[复制链接]
微信扫一扫 分享朋友圈
璀璨鑫空
当前离线
积分
12
璀璨鑫空
2
主题
8
帖子
12
积分
新手上路
新手上路, 积分 12, 距离下一级还需 38 积分
新手上路, 积分 12, 距离下一级还需 38 积分
积分
12
发消息
发表于 2023-2-10 07:23:32
|
显示全部楼层
|
阅读模式
搜索引擎技术诞生于20世纪90年代。这一技术极大地拉近了互联网与普通大众的距离。人们仅用简单的关键字就可以在网上找到自己所需的信息。巨大的便利迅速激起了人们对使用互联网的需求和热情,同时也鼓励了一大批用户在互联网上传递信息、分享知识。
站在21世纪30年代回顾过去,滚滚长江东逝水,互联网的时代巨轮迎面而来的这数十年里,有多少巨头身入其中乘风破浪、或成或败。大家耳熟能详的雅虎、谷歌、百度这些巨头的发家成名之作便与我们今天要聊的这项技术有关。
大家或多或少可能都听过一个名词:”互联网爬虫“。这一词汇近年比较流行。说到智能制造,大家会想到人工智能 AI,说到AI大家可能会聊到Python,聊到Python似乎又不得不提一嘴爬虫技术。这些我在后面会跟大家一项一项地交流。
今天无数家长们早早地把孩子送进培训机构学习 Python,唯恐孩子在数字化转型的时代浪潮中掉队。但是我们需要知晓的是,搜索引擎巨头们,早在数十年前,就已经深度应用了互联网爬虫技术,并将其赋能给了他们各自旗下的搜索引擎产品。
我们回到正题。搜索引擎简单来说,就是让网络爬虫爬取无数亿的互联网页信息,添加好索引,再匹配给搜索框前敲打键盘的用户。
具体是怎么一回事呢?首先,搜索引擎本质是放有网页内容的数据库。你可以理解为有这么一张表,一列是网址,一列是网页内容,另一列是它的索引。这个索引非常重要,你可以想象成图书馆书本的书皮。这时我们有一个推荐算法,就像一个尽职尽责的图书管理员,听你说了你要找的书之后,能够挨个对着书皮找到你想要的书,把书皮按照顺序摆在你面前。当然,搜索引擎有的时候更像一个书店老板,他需要优先把赞助商的书摆在你面前,这便是搜索引擎普遍的盈利模式:收取广告费,优先推荐赞助商的书。
不同的搜索引擎都有自己的一套构建方式。我们这里举一下谷歌搜索的例子。
首先,谷歌必须要想办法获取一张网址清单。搜索引擎巨头们已经有了足够的积累。另外从公共的网址推荐站点也能获取一些。当然也有不少网址是用户主动提交给谷歌的。之后,谷歌通过爬虫工具,也就是自家的Googlebot,来获取网页内容。最后,经过一个不为外人知道的神秘算法处理,打上索引。
当用户敲上关键词之后,推荐算法就开始了它的表演。他们根据索引计算匹配结果的相关度并排序,然后呈现给用户。推荐算法其实就是一堆代数式,这套代数式里有很多计算因子,这里提一下其中非常重要的一个因子便是反向链接的数量。反向链接是指其他网站中,出现的可以导航到本站的链接。反向链接越多,则搜索排名越高。也就是说,当其他的网页博主在他们的网站中把你的网站网址放上去,你的网页搜索排名就会获得提升。除此之外,关键词相关度的权重也很高。另外还有话题热门度、新鲜度,用户的语言位置,网站服务器响应的速度等等,都会影响排序。
由此引申出一个新兴的高薪职业:SEO工程师,全称叫 Search Engine Optimization Engineer,搜索引擎优化工程师。他们利用搜索引擎的规则,对网站内外部做优化,以提升网站的自然排名。在这个信息量级迅速增加的时代,SEO技术越来越受到互联网企业主的青睐。
笔者希望通过一些文章,让大家能更好地了解智能制造。制造业对于一个经济体的重要性不言而喻。如今我们身处制造业数字化转型的时代风口上,更应勤勉习之。搜索引擎技术是过去数十年中,引领互联网技术革新的领军人物之一。笔者打算以搜索引擎技术为起点,一项一项跟大家聊聊智能制造和数字化转型相关的话题。若有纰漏之处,欢迎指正。
回复
举报
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速回复
返回顶部
返回列表