导航 搜索

从俄罗斯搜索引擎Yandex算法泄露总结的一些想法

2023-07-19    阅读  次

小编:杏耀-(杏耀娱乐平台注册登录下载) Yandex是俄罗斯拥有大部分市场份额的搜索引擎,也是全球第四大搜索引擎。2023 年 1 月 27 日,它遭受了可以说是现代科技公司多年来遭受的最大数

杏耀-(杏耀娱乐平台注册登录下载)Yandex是俄罗斯拥有大部分市场份额的搜索引擎,也是全球第四大搜索引擎。2023 年 1 月 27 日,它遭受了可以说是现代科技公司多年来遭受的最大数据泄露事件之一,但这也是不到十年内的第二次泄露。2015 年,Yandex 的一名前员工试图在黑市上以 3 万美元左右的价格出售 Yandex 的搜索引擎代码。

今年 1 月份的首次泄露披露了 1,922 个排名因素,其中超过 64% 被列为未使用或已弃用(已被取代且最好避免)。这次泄漏只是标记为内核的文件,但随着 SEO 社区和我深入研究,发现了更多文件,这些文件总共包含大约 17,800 个排名因素。

当谈到为 Yandex 进行 SEO实践时,我两年前写的指南在很大程度上仍然适用。Yandex 和 Google 一样,一直公开其算法更新和变化,以及近年来如何采用机器学习。

过去两三年的显着更新包括:

Vega(将索引的大小增加了一倍)。

模仿(惩罚冒充品牌的虚假网站)。

Y1 更新(引入 YATI)。

第二年更新(2022 年末)。

采用 IndexNow。

PF 过滤器的全新推出和假设更新。

就个人而言,这次数据泄露就像第二个圣诞节。自 2020 年 1 月以来,我作为业余爱好运营了一个 SEO 新闻网站,专门报道俄罗斯的 Yandex SEO 和搜索新闻,发表了 600 多篇文章,所以这可能是该业余爱好网站的巅峰事件。我还在优化会议(俄罗斯最大的 SEO 会议)上发表了两次演讲。这也是一个很好的测试,可以了解 Yandex 的公开声明与代码库秘密的匹配程度。2019 年,我与 Yandex 的公关团队合作,采访了他们搜索团队的工程师,并提出了一些来自更广泛的西方 SEO 社区的问题。

您可以在此处阅读对 Yandex 搜索团队的采访。虽然 Yandex 主要因其在俄罗斯的业务而闻名,但该搜索引擎在土耳其、哈萨克斯坦和格鲁吉亚也有业务.此次数据泄露被认为是出于政治动机,是一名流氓员工的行为,并且包含来自 Yandex 整体存储库 Arcadia 的大量代码片段。在 44GB 的泄露数据中,有与许多 Yandex 产品相关的信息,包括搜索、地图、邮件、Metrika、Disc 和云。

Yandex 不得不说的话

在我撰写这篇文章时(2023 年 1 月 31 日),Yandex 公开声明:存档的内容(泄露的代码库)对应于存储库的过时版本 - 它与我们服务使用的当前版本不同和:值得注意的是,已发布的代码片段还包含仅在 Yandex 内部使用的测试算法,用于验证服务的正确操作。因此,这个代码库中有多少被积极使用是值得怀疑的。Yandex 还透露,在调查和审计过程中,它发现了许多违反其内部原则的错误,因此泄露的部分代码(当前使用的)很可能在不久的将来发生变化。

因素分类

Yandex 将其排名因素分为三类。Yandex 的公共文档中已经对此进行了概述,但我认为值得将其包含在这里,因为它可以更好地帮助我们理解排名因素泄漏。

静态因素——与网站直接相关的因素(例如入站反向链接、入站内部链接、标题和广告比率)。

动态因素–与网站和搜索查询相关的因素(例如文本相关性、关键字包含、TF*IDF)。

用户搜索相关因素–与用户查询相关的因素(例如用户位于何处、查询语言和意图修饰符)。

文档中的排名因素被标记为匹配相应的类别,先是TG_STATIC和TG_DYNAMIC,然后是TG_QUERY_ONLY、TG_QUERY、TG_USER_SEARCH和TG_USER_SEARCH_ONLY。

迄今为止 Yandex 泄露的教训

根据迄今为止的数据,以下是我们能够做出的一些肯定和学习。这次泄露的数据非常多,我们很可能会在接下来的几周内发现新的东西并建立新的联系。

这些包括:

PageRank(一种形式)。

在某个时候,Yandex 使用了 TF*IDF。

Yandex 仍然使用元关键字,这些关键字也在其文档中突出显示。

Yandex 具有针对医疗、法律和金融主题的特定因素 ( YMYL )。

它还使用一种页面质量评分形式,但这是已知的(ICS 评分)。

来自高权威网站的链接对排名有影响。

没有什么新的迹象表明 Yandex 可以在已经公开记录的流程之外抓取 JavaScript。

服务器错误和过多的 4xx 错误可能会影响排名。

一天中的时间被视为排名因素。


下面,我扩展了一些其他的肯定和从泄露中得到的教训。在可能的情况下,我还将这些泄露的排名因素与与其相关的算法更新和公告联系起来,或者我们被告知它们具有影响力的地方。

矩阵网

MatrixNet 在一些排名因素中被提及,并于 2009 年发布,然后于 2017 年被Catboost取代,后者在 Yandex 产品领域推出。这进一步增加了直接来自 Yandex 和因子作者之一 DenPlusPlus (Den Raskovalov) 的评论的有效性,即这实际上是一个过时的代码存储库。

MatrixNet 最初是作为一种新的核心算法引入的,它考虑了数千个排名因素,并根据用户位置、实际搜索查询和感知的搜索意图分配权重。它通常被视为 Google RankBrain 的早期版本,但它们确实是两个截然不同的系统。MatrixNet 的推出早于 RankBrain 的发布六年。MatrixNet 也是在此基础上构建的,这并不奇怪,因为它已经有 14 年的历史了。

2016年,Yandex推出了Palekh算法,该算法使用深度神经网络来更好地匹配文档(网页)和查询,即使它们不包含常见关键字的正确“级别”,但满足用户意图。Palekh 能够一次处理 150 个页面,并于 2017 年进行了 Korolyov 更新,该更新考虑到了页面内容的更多深度,并且可以一次处理 200,000 个页面。

URL和页面级因素

从泄露中,我们了解到 Yandex 考虑了 URL 构造,具体来说:

URL 中存在数字。

URL 中尾部斜杠的数量(以及是否过多)。

URL 中大写字母的数量是一个因素。

Yandex 排名因素泄露作者截图,2023 年 1 月

页面的年龄(文档年龄)和最后更新日期也很重要,这是有道理的。


除了文档年龄和上次更新之外,数据中的许多因素都与新鲜度有关 - 特别是对于与新闻相关的查询。Yandex 以前使用时间戳,特别不是用于排名目的,而是“重新排序”目的,但现在被归类为未使用。已弃用的列中还包括在 URL 中使用关键字。Yandex 之前测量过,URL 中搜索查询中的三个关键字将是“最佳”结果。

内部链接和抓取深度

虽然 Google 已公开表示,就其目的而言,抓取深度并不是明确的排名因素,但 Yandex 似乎有一段活跃的代码,规定可从主页访问的 URL 具有“更高”级别的排名因素。重要性。

这与约翰·穆勒 (John Mueller) 2018 年的声明相呼应,即谷歌对从主页上发现多次点击的页面给予“更多的权重”。排名因素还强调了网站链接结构中“孤儿”网页的特定令牌权重。

点击次数和点击率

2011 年,Yandex 发布了一篇博客文章,讨论了搜索引擎如何使用点击作为其排名的一部分,并解决了 SEO 专业人士操纵排名增益指标的愿望。

泄漏中的具体点击因素如下:

URL 的点击次数相对于搜索的所有点击次数的比率。

与上述相同,但按地区细分。

用户点击 URL 进行搜索的频率如何?

操纵点击

操纵用户行为,特别是“点击劫持”,是 Yandex 中的一种已知策略。Yandex 有一个过滤器,称为 PF 过滤器,它使用脚本监控 IP 相似性,然后监控这些点击的“用户操作”,主动寻找并惩罚参与此活动的网站,其影响可能是巨大的。

下面的屏幕截图显示了因模仿用户点击而受到惩罚后对自然会话 (сессии) 的影响。

用户行为

从泄露中得到的用户行为是一些更有趣的发现。用户行为操纵是Yandex 多年来一直在打击的常见SEO 违规行为。在 2020 年优化会议上,时任 Yandex 网站管理员工具负责人 Mikhail Slevinsky 表示,该公司在检测和惩罚此类行为方面取得了良好进展。Yandex 使用与打击 CTR 操纵相同的 PF 过滤器来惩罚用户行为操纵。

停留时间

102个排名因素包含标签TG_USERFEAT_SEARCH_DWELL_TIME,并引用设备、用户持续时间和平均页面停留时间。除 39 个因素外,所有这些因素均已弃用。Bing 在 2011 年的博客中首次使用“停留时间”一词,近年来 Google 已明确表示不会使用停留时间(或类似的用户交互信号)作为排名因素。

杨梅林

YMYL(你的钱,你的生活)是 Google 内部众所周知的概念,对于 Yandex 来说并不是一个新概念。在数据泄露中,存在针对医疗、法律和金融内容的特定排名因素,但这一点在 2019 年的 Yandex 网站管理员会议上公布了Proxima 搜索质量指标时得到了显着披露。

Metrika 数据使用情况

其中六个排名因素与出于排名目的而使用 Metrika 数据有关。然而,其中之一被标记为已弃用:

来自 YandexBar (YaBar/Ябар) 的类似访客数量。

这些相同的相似访问者在 URL 上花费的平均时间。

带有 Metrika 计数器的页面的“核心受众”[已弃用]。

用户通过特定 URL 从外部(从另一个非搜索站点)访问时在主机上花费的平均时间。

从特定 URL 进行外部访问(从另一个非搜索站点)时,用户在主机上停留的平均“深度”(主机内的点击次数)。

该域是否安装了 Metrika。

在 Metrika 中,用户数据的处理方式有所不同。与 Google Analytics 不同,有许多报告侧重于用户“忠诚度”,将网站参与度指标与返回频率、访问之间的持续时间和访问来源相结合。

例如,我可以一键查看报告,以查看各个网站访问者的详细信息:

Metrika 还具有“开箱即用”的热图工具和用户会话记录功能,近年来,Metrika 团队在识别和过滤机器人流量方面取得了良好进展。对于 Google Analytics,有一种观点认为 Google 不会将 UA/GA4 数据用于排名目的,因为修改或破坏跟踪代码非常容易 - 但对于 Metrika 计数器,它们更加线性,并且很多报告的数据收集方式是不变的。

流量对排名的影响

接下来将 Metrika 数据视为排名因素;这些因素有效地证实了直接流量和付费流量(通过 Yandex Direct 购买广告)可以影响自然搜索性能:

所有传入流量中直接访问的份额。

绿色流量共享(又称直接访问)- 桌面。

绿色流量共享(又称直接访问)——移动。

搜索流量——从搜索引擎到网站的转换。

非通过链接(手动设置或从书签设置)的网站访问份额。

独立访客数量。

来自搜索引擎的流量份额。

新闻因素

有许多因素与“新闻”相关,其中两个因素直接提及 Yandex.News。Yandex.News 相当于 Google News,但于 2022 年 8 月与另一款 Yandex 产品“Zen”一起被出售给俄罗斯社交网络 VKontakte。因此,尚不清楚这些因素是否与 Yandex 不再拥有或运营的产品有关,或者与新闻网站在“常规”搜索中的排名有关。

反向链接重要性

自 2005 年 Nepot 过滤器以来,Yandex 拥有与 Google 类似的算法来打击链接操纵。通过审查反向链接排名因素和描述中的一些细节,我们可以假设为 Yandex SEO 构建链接的最佳实践是:

以更自然的频率和不同的数量建立链接。使用品牌锚文本建立链接并使用商业关键字。如果购买链接,请避免从具有混合主题的网站购买链接。以下是可被视为最佳实践肯定的链接相关因素列表:

反向链接的年龄是一个因素。

基于主题的链接相关性。

从主页构建的反向链接比内部页面具有更大的权重。

PageRank (PR) 排名前 100 的网站的链接可能会影响排名。

基于每个链接质量的链接相关性。

链接相关性,考虑每个链接的质量以及每个链接的主题。

链接相关性,考虑到每个链接的非商业性质。

带有查询词的入站链接的百分比。

链接中查询词的百分比(最多为同义词)。

这些链接包含查询的所有单词(最多同义词)。

链接中查询词数量的分散。

然而,在规划、监控和分析反向链接时,有一些与链接相关的因素需要额外考虑:

网站“好”与“坏”反向链接的比率。

网站链接的频率。

主机之间传入 SEO 垃圾链接的数量。

数据泄露还显示,链接垃圾邮件计算器考虑了大约 80 个活跃因素,其中包括许多已弃用的因素。

这就产生了一个问题:Yandex 能够识别负面 SEO 攻击的能力如何,因为它会查看好链接与坏链接的比率,以及如何确定什么是坏链接。负面SEO 攻击也可能是短时突发(高频)链接事件,其中网站将无意中获得大量质量差、非主题且可能过度优化的链接。Yandex 使用机器学习模型来识别私人博客网络 (PBN) 和付费链接,并在链接速度和获取链接的时间段之间做出相同的假设。通常,付费链接是在较长时间内生成的,而这些模式(包括链接源站点分析)正是 Minusinsk 更新 (2015) 所要解决的问题。

Yandex 处罚

有两个排名因素,名为 SpamKarma 和 Pessimization,均已弃用。悲观化是指将 PageRank 降低至零,并符合 Yandex 严厉处罚的预期。SpamKarma 还符合围绕 Yandex 惩罚主机和个人以及单个域的假设。有许多与页面上的广告相关的因素,其中一些已被弃用(如下面的屏幕截图示例)。

从描述中尚不清楚这个因素的具体思考过程是什么,但可以假设广告与可见屏幕的高比例是一个负面因素——就像谷歌如果广告混淆了页面的主要内容,或很唐突。将此与已知的 Yandex 机制联系起来,Proxima 更新还考虑了页面上有用内容和广告内容的比例。

我们可以将Yandex的经验应用到Google吗?

Yandex 和 Google 是不同的搜索引擎,存在许多差异,尽管两家公司都有数十名工程师。由于这场人才争夺战,我们可以推断,其中一些建筑大师和工程师将以类似的方式建造东西(尽管不是直接复制),并应用从他们与新雇主之前的建造迭代中学到的知识。

俄罗斯 SEO 专业人士对此次泄露有何评价

就像西方世界一样,俄罗斯的 SEO 专业人士一直在各个 Runet 论坛上就泄密事件发表自己的看法。这些论坛的反应与 SEO Twitter 和 Mastodon 不同,更多地关注 Yandex 的过滤器以及作为更广泛的 Yandex 优化活动的一部分进行优化的其他 Yandex 产品。还值得注意的是,数据中的许多结论和发现与西方 SEO 世界的发现相符。

俄语搜索论坛中的常见主题

网站管理员要求深入了解最新的过滤器,例如 Mimicry 和更新的 PF 过滤器。

由于作者姓名不再出现在 Yandex 上,以及提及了早已退役的 Yandex 产品,因此某些因素的存在时间和相关性。

主要有趣的学习内容围绕 Metrika 数据的使用以及与爬虫和索引器相关的信息。

许多因素概述了 DSSM 的使用,理论上 DSSM 已被 2016 年发布的 Palekh 所取代。这是一种利用机器学习的搜索算法,由 Yandex 于 2016 年宣布。

关于Yandex 中 ICS 评分的争论,以及 Yandex 是否可以为网站提供更多流量并通过这样做影响其自身因素。

泄露的因素,特别是有关 Yandex 如何评估网站质量的因素,也受到了密切关注。

俄罗斯 SEO 社区中长期以来存在一种观点,即 Yandex 在搜索结果中经常比其他网站更青睐自己的产品和服务,而网站管理员会提出以下问题:当它只是将其服务钉在页面顶部时,为什么要费心去解决所有这些麻烦呢?在松散翻译的文档中,这些被称为巫师或 Yandex 巫师。在 Google 中,我们将这些搜索引擎结果页面 (SERP) 功能称为 Google 酒店等。2022 年 10 月,Kassir(俄罗斯票务门户网站)因 Yandex Sorcerers 采取“歧视性条件”从私营公司夺走客户群而造成收入损失,向 Yandex 索赔 3.28 亿欧元。这是2020 年集体诉讼的背景,其中多家公司向联邦反垄断局 (FAS) 提起诉讼,指控其自身服务的反竞争促销。

你可能喜欢的: