写了个游戏辅助 | EL PSY CONGROO

失业了一坤年多, 基本完全脱离行业, 天天在家刷游戏费劲, 所以打算写个做日常的游戏外挂.
游戏的看广告, 刷日常, 养鸡种树等操作, 可以覆盖游戏里每个月120的月卡, 而且节省的精力是比这些月卡还多的.
我的目标是先自己用, 自己用到卖软件中间的距离是很大的, 而且我的性格对兴趣产生的冲动远大于其他的, 好像从上学时期以来就是这样所以读不好书.

这次选择了辅助软件

由于前阵子刷抢号接口被医院封号了, 我现在认为外行还是选模拟操作比较好, 写起来又容易, 又不容易被发现. (记得好久前也是想刷 lovelive sif 体力刷接口封号了, 然而现在 sif 早已关服)
而这辅助软件只有 windows+py 这一条路, 于是我让 ai 写个辅助软件, 告诉他要写辅助软件, 让他先确定依赖并分好文件结构, 就这样第一次让 ai 写自己不会写的语言(py)的冒险历程就开始了.

目测7天可以完成

因为操作都有基础库, 目标也很简单, 分为看广告/日常购买/日常速通这些指定坐标的点击, 和比较复杂的游戏场景. 我认为前者一天, 后者4, 5天, 加起来一周的工作量.
以上是我一个月前的想法. 一开始每天只抽空干1, 2个小时, 后面连续3, 4周有大半时间会到3点多或者5点多, 做梦都在调试, 这种强度下, 才差不多可以刷比较简单的游戏关卡.

关于刷视频看到的 llm 能力

上周的最后几天, 免费额度用完了, 于是家里人手机弄了个新号, 有2天可以免排队用 GLM5.2.
很巧, 因为 GLM5.2 新出的, 刷到好多视频吹新模型, 说”一晚上做了xxx”之类的, 我正好体验了, 才知道他们都是买课的.

我是纯新手, 但大多数人还是和我差不多的, 我遇到的问题新手也会遇到, 所以就要去参加他的课程了(狗头).
我认为主要分为2个方向的问题, 一个是费用, 一个是模型能力. 说几个我这最近经历过的几个事.

费用

先说费用相关, 虽然我只用免费, 因为晚上不太排队, 所以也会把额度用完. 于是有过2次尝试:

注册送的 GLM5.2 的200万 token, 我对话一次消耗了 100万, 输入/输出/缓存我不清楚, 原价输出 100万是8块钱.
trae对话一次 GPT5.4, 消耗了0.7刀, 最小 coding plan 3刀有5刀用量, 也就是6折, 那么这次对话消耗0.42刀, 大概是3块钱.

我之前只有 github copilot 买过 plan, 价格也没法参考了, 现在看来, 即使通过不同手段, 一次对话起码是要1块钱的. 这对没有工作的我来说暂时还是不舍得.
而那些所谓 opc 视频里说的, 即使是真的, 恐怕大家听到要烧多少钱也会失去兴趣了. 工作8小时有多少次对话我是没兴趣计算了.
现在在我看来, 最省钱的方式还是把自己作为评估(eval)参与 loop 的一环. 如果让 agent 全自动 loop, 不知道要浪费多少 token.

能力

我认为 ai 的代码能力是分为三个维度: 听得懂意思, 代码结构设计能力, 代码实现能力. (这些能力是由 agent + llm 一起提供的, 当然 agent 可以增强 llm, 也可以烧光你的 token.)

首先听得懂意思, 网上很多段子就是这么来的, 在这点上, 明显大厂旗舰模型是远胜于淘汰模型的, 并且有时候还会主动提方案.(不清楚是不是 agent 做的)如果这点不合格, 会觉得和理解能力有问题的人说话, 要费力把话说得非常清楚, 像写文档.

代码结构设计能力, 我觉得起码 GLM5.2 还差得很远. 在经过了很多天的折磨后, 我现在会盯每个代码改动了, 方法的抽象和复用都不太行, 看过改动后重新提醒的次数是很多的, 这也说明 agent 自己 eval是很难的, 是要依靠 mcp 的. 这也是为什么那些吹 ai 的人做的项目都是基于 web 的. 因为读网页是可以做到的, chrome 也是有 mcp 的.

代码实现能力我认为所有模型是差不多的, 就是属于复制-粘贴的一些东西, 训练了大量代码, 如果出现标签不匹配的代码这个模型也是太落后了.

其他吐槽

最后先到2个小故事.
有一个下午排队6000个, 接小孩前看了眼1600, 接完小孩回来看电脑说异常中断, 重新发起排队8900了.
一个点击坐标有问题, 我把debug显示的坐标和期望坐标告诉 ai, 让他分析原因, 我看了2集凡人, 中间还超过一次输出上限手动点继续, 50分钟没思考完. 看完凡人我中断了 ai, 让他帮我看下代码里坐标写的是多少, 然后1分钟就改完了. 看来 prompt enginerring 还不该死.

开发里碰到的问题

最后记录下这次开发浪费了很多时间的问题, 不知道以后会不会用到

坐标系统

要开发任何一个类似的游戏物理外挂, 一定要搞清楚坐标系统, 无论是模拟点击, 勾选, 拖动, 模板匹配, 坐标系统都是必须的.

坐标系统包括参考分辨率, 窗口分辨率, 系统缩放率, 和游戏窗口缩放行为.
我玩的小程序是标题栏高度不变, resize 窗口等比例缩放的. 有一个坑是小程序的标题栏是模拟的, 通过 api 拿的 window_height 和 client_height 是一样的.
我本来让 ai 开发了个识别坐标的辅助软件, 做了很多苦力: 做日常点击的坐标, 每个游戏角色的截图, 游戏场景坐标等.
最后外挂能跑起来了, 我就把外接屏拿掉, 在电脑自己的屏幕上跑, 然后我就崩溃了. 地基没打好, 理清楚以后那些苦力都得重新做一遍.
这也是 ai 没能做到的”自动搞定”, 这个问题是人工解决的, 跟 ai 对话还只能来回拉扯.(所以我强烈质疑那些卖课仔吹 ai 的真实程度)

识别系统

在这个程序里我用了最容易的 opencv, 这个项目年纪应该比我大.
按普通的开发逻辑, 把人思考的方式描述出来让程序运行. 但 opencv 的能力和人类不同, 所以要适配 api 的逻辑.
比如他不能”认出”是哪个模板, 只能逐个模板匹配, 返回匹配度. 游戏里角色会动, 匹配还要加入一些试错机制抽象成函数.

线程管理

游戏玩法中有很多元素, 多个线程之间的优先级, 打断关系也很难处理.