ToC
前言
WebAssembly
是能够在浏览器端运行的二进制格式。本文简单讲解一下 WebAssembly
(以下简称 WASM
)的基本逆向思路和其中的一些指令。
基本的二进制如何获取我就不多说了,下面的内容从拿到 .wasm
之后开始——
从二进制到文本文件
二进制显然是看不了的,这里我们就需要用到 wasm
转 wat
的工具了。我这里使用的是 [wasm2wat](https://webassembly.github.io/wabt/doc/wasm2wat.1.html)
。以 resource_hash.wasm
为例:
输入命令:
我们就得到了逆向所需要的基本文件。
WebAssembly 文本格式
WebAssembly
执行的本质其实很简单——它就是一个标准的栈式计算机,所有的操作都在栈中进行。在此之上,它定义了许多其他的元素以供人们更好地使用。这里我们简单地介绍一下阅读下文需要了解的基本知识,如果想深入了解的话建议阅读 MDN
的这篇文章和官网的文档。
S-表达式
对于 WebAssembly
文本格式而言,最基本的就是 S-表达式了,但其实我们并不要掌握太多关于它的内容。对于阅读而言,我们只要知道最基本的层级关系、缩进和括号闭合就足够了。
这里直接用 MDN 上的例子吧:
这样的式子就是 S-表达式,而 memory
和 func
都是 module
的 childNode
。S-表达式的实质是树,感兴趣的读者可以去学学 Lisp
(
注释
WebAssembly
中行注释使用 ;;
(双分号)表示,块注释由 (;
和 ;)
包围表示。
基本类型
WebAssembly
的基本类型只有四种:i32
(32 位整形)、i64
(64 位整形)、f32
(32 位浮点数)、f64
(64 位浮点数)。我们知道,其他各种属性都可以表示成这几种(毕竟本质都是数字),因此这四种就已经足够了。
函数
函数是 WebAssembly 的核心之一。函数的声明方式很简单:
可以看到,函数有 params
、local
和 result
,param
和 local
是一起编码的,因此编号从左到右依次是 param0
、param1
、param2
、local3
。
而返回又是如何进行的呢?可以看到我们所说的“暂时忽略这个”的那一行。那一行实际是向栈内压入了 32 位整形数字 1,因此这个函数的返回值就是 1。
函数调用(绝对)
最简单的函数调用方式就是直接调用了。但是我们上面的函数并没有名称,那又该怎么调用呢?其实,它实际上是有一个固定的分配编号的,因此可以直接通过编号调用,相当于固定位置的寻址。
当然了,如果你想要给它起名也是可以的,只要在 func
和括号之间加上一个 $name
就可以了。
这种调用需要用到的指令是 call
。
函数调用(相对)
这种情况对应的就是根据栈顶的值去动态寻找需要调用的函数了。在 WebAssembly
中,出于安全的考虑,使用了 Table
来记录函数的索引。
这种调用需要用到的指令是 call_indirect
,它会从栈顶弹出一个参数作为输入,并调用其获得的函数。
更具体的还是去看 MDN 就可以了,这里我们要知道的是,当遇到这种函数调用情况时,要去查表。
基本指令
这里简单介绍一下大量用到的基本指令:
local.get
(get_local
)
从函数的参数中读取内容,示例和下一条一起(
local.set
(set_local
)
基本的用途是向本地变量中写入值,如下例:
local.tee
它同样是用来向本地变量写入值的,但它写入之后原值仍然保留在栈中,相当于省了一步 local.get
。
i32.const
这个之前也提到过了,向站内压入一个数字,对应的还有其他三种类型的 .const
,这里就不再重复了。
i32.add
等
这里的等指的是一系列算术运算,我们只是单独拿出 add
来举例。它弹出栈顶的两个元素并将其相加,最终将结果压入栈中。
i32.load
和 i32.store
顾名思义,从 Memory
中取出/向 Memory
存入数据的指令。
load
接受一个参数,就是地址;store
接收两个参数:先弹出需要存入的值,再弹出存入的地址。
这二者还经常带有特殊的属性:offset
表示 n
位的偏移,align
表示 2^n
位的偏移。
控制指令 - 分支
分支最常使用是 if
,如下例:
这里需要注意的是,if
的判断过程都是在 if
之前进行的,if
本身只能从栈中弹出一个元素,并且判断其是否为 0,非 0 则成立。
这里需要介绍的一条指令是 if_br
,它可以跳出当前的块。if_br 1
就相当于跳出当前的 if
,回到 if
开头重新判断。
还有一种判断指令:select
。select
接收三个参数:a
、b
和 condition
。在判断时,condition
位于栈顶被首先弹出,当 condition
成立时,向栈中压入 a
,否则就压入 b
。
控制指令 - 循环
循环使用的是 loop
,和 if
一样,它也并没有实际的意义,跳转需要通过 br
进行。
// 或许需要补充个例子
补充指令
extend_i32_u
又名 i32.extend_u
,作用是将无符号32位整数扩展为64位整数。
wrap_i64
又名 i32.wrap/i64
,作用是将 64 位整数包装成 32 位整数。根据观察,具体的实现应该是只留下高四位(小端表示)。
其他方法
现在还有一些其他可用的工具,但我认为都没有直接看 S-表达式清晰可靠。
binaryen
提供了 wasm2js
工具,可以将 WASM
二进制格式转换为等价的 JavaScript
格式。但输出效果……怎么说呢,一言难尽。
还有用 wasm2c
和 gcc
利用 IDA
分析的方案,不过个人认为它把简单的指令集变复杂了,所以实际也没有用过。
最后就是 JEB
了。JEB
提供了逆向 WASM
的方案,但我没有实际用过,因此这里也就不评价了。
最后
相比传统的指令集,WASM
更加简单,相比之下也更好分析。只要你能耐得住性子分析,总是能得到结果的。
这里有一些小技巧没有讲到,如果有兴趣可以参考闪耀色彩逆向的那两篇,如果你能看得到的话(笑)