Mahjong AI Utilities - Review your game, Play with you

Review your game / 检讨牌谱

注意

  1. 只接受四麻牌谱。
  2. 只有一般规则的牌谱才能使用,例如段位战的牌谱。
  3. 对于 Mortal 引擎,只接受半庄牌谱

高级选项

📝 Rating 是一个参考值,和所选择的“Mortal 网络”直接相关,不同“Mortal 网络”计算出的 rating 之间是没有可比性的。

有关 rating 的详细说明

Mortal v2 的 rating 比 v1 高的原因是它们的超参就不一样,本身不同超参训练出的网络的 rating 之间就不可比,可以直接理解为就是不同体系的东西,就好像不能拿雅思阅读的分和托福阅读的分去直接对比一样。v2 和 v1 不只是训练集的不同,它们的 observation embedding、网络结构、训练方式和超参都不一样。

修改 env.pts 或者 cql.min_q_weight 的值都会让 rating 产生巨大的改变,但对 AI 的表现却不会表现出那么大的影响,而且参数 env.pts 不是全程固定的,在 online training 的时候经常需要来回调整。此外 online training 的步数也会对 rating 产生很大的影响,因为 online training 的步数越多,通常网络就越会修复由 offline 阶段的 CQL loss 产生的对 OOD 动作的 Q 值惩罚,结果上说会拉高输出的 Q 值的下界,从而导致计算出的 rating 总体变高。另外 rating 也从来没有在训练时被使用过,无论是直接地(比如作为 loss)还是间接地(比如像 F1-score 一样打给人看),它既不影响也不能反映训练的效果。

这是我觉得 rating 有误导性的主要原因——因为现在的 rating 是一个很随意的设计,和 Mortal 内部的底层实现高度相关,而大多数人不熟悉背景也不了解训练是怎么进行的,解释和理解都需要成本。

另一方面,rating 也不是我做 reviewer 的初衷,更不是什么主打的功能,所以也没有在这上面花多少心思。我做 reviewer 本来的目的是想给人类玩家提供在具体何切何鸣问题上的 insights,而不是拿来看个超抽象、方差又高、又和具体网络参数相关的 rating 就完事了,这在我看来这多少有点本末倒置。

何况 rating 说到底只是做了一个 min-max scaling 然后求均值而已,没有 calibration,甚至连置信区间都没有算,再加上它又和超参直接相关,换一套参数重新训练又完全不一样了,实在是不宜作为参考。可是它就这样莫名成了个很流行的 feature 让我有些苦恼,所以先把它放在了高级选项里,因为它的确是一个高级选项,需要理解相关的背景才能用对。

脚注
1. --player-id <ID>
需要检讨的玩家的 ID,是一个 0-3 内的数字。这个数字就是天凤牌谱 URL 里 的 &tw= 后面的数字,即,东 1 局时的东家为 0,他的下家 为 1,对家为 2,上家为 3。这个选项比 URL 里的 &tw= 有 更高的优先级。
2. 模型间的对比详见Mortal vs Mortal
3. --temperature <TEMP>
只针对 Mortal 引擎。变更温度将改变最终展示的数值,但不会影响输出顺序和 rating。详见 FAQ
4. --kyokus <LIST>
需要检讨的局。如果 LIST 是空的,那么就检讨所有的局。例如: E1,E4,S3.1,意为检讨东 1 局、东 4 局和南 3 局 1 本场。

例子

Play with you / 派遣个室

你可以召唤 1~3 个 Mortal 实例到指定的天凤个室里。它们会以 NoName 的名义参战,在大厅最多只会等 5 分钟。

网络连接不是一直都稳定,有时会断线。当前 AI 还没有重连的能力,这可能造成不便。

可用数量:?

已选择数量: 1

牌谱

FAQ / 常见问题

点这里可以看有关 reviewer 本身的 FAQ。

检讨一张牌谱要多久?

对于 Mortal 引擎,一般 15 秒内。使用人数较多时可能需要若干分钟。

对于 akochan 引擎,10 到 60 分钟,取决于游戏的长度以及工作队列的大小。

检讨报告会在服务器保存多久?

超过 3 天的检讨报告会被删除,有需要的话可以自行保存网页。

About / 关于本站

Powered by

Equim-chan/mjai-reviewer Equim-chan/Mortal critter-mj/akochan

Developed and maintained by

Equim (Twitter, GitHub, 天鳳)

Frontend designed by

新篠ゆう (Twitter, YouTube)

Infrastructure sponsored by

EDWARDH (Twitter)

Fork me on GitHub