WebAssembly 逆向简述

前言

WebAssembly 是能够在浏览器端运行的二进制格式。本文简单讲解一下 WebAssembly(以下简称 WASM)的基本逆向思路和其中的一些指令。

基本的二进制如何获取我就不多说了,下面的内容从拿到 .wasm 之后开始——

从二进制到文本文件

二进制显然是看不了的,这里我们就需要用到 wasmwat 的工具了。我这里使用的是 wasm2wat。以 resource_hash.wasm 为例:

输入命令:

./wasm2wat ./resource_hash.wasm > resource_hash.wat

我们就得到了逆向所需要的基本文件。

WebAssembly 文本格式

WebAssembly 执行的本质其实很简单——它就是一个标准的栈式计算机,所有的操作都在栈中进行。在此之上,它定义了许多其他的元素以供人们更好地使用。这里我们简单地介绍一下阅读下文需要了解的基本知识,如果想深入了解的话建议阅读 MDN这篇文章和官网的文档。

S-表达式

对于 WebAssembly 文本格式而言,最基本的就是 S-表达式了,但其实我们并不要掌握太多关于它的内容。对于阅读而言,我们只要知道最基本的层级关系、缩进和括号闭合就足够了。

这里直接用 MDN 上的例子吧:

(module (memory 1) (func))

这样的式子就是 S-表达式,而 memoryfunc 都是 modulechildNode。S-表达式的实质是树,感兴趣的读者可以去学学 Lisp

注释

WebAssembly 中行注释使用 ;;(双分号)表示,块注释由 (;;) 包围表示。

基本类型

WebAssembly 的基本类型只有四种:i32(32 位整形)、i64(64 位整形)、f32(32 位浮点数)、f64(64 位浮点数)。我们知道,其他各种属性都可以表示成这几种(毕竟本质都是数字),因此这四种就已经足够了。

函数

函数是 WebAssembly 的核心之一。函数的声明方式很简单:

;; func <signature> <locals> <body>
(func (param i32 i32 i32) (local i32) (result i32)
  ;; function_body
  i32.const 1 ;; 暂时忽略这个
)

可以看到,函数有 paramslocalresultparamlocal 是一起编码的,因此编号从左到右依次是 param0param1param2local3

而返回又是如何进行的呢?可以看到我们所说的“暂时忽略这个”的那一行。那一行实际是向栈内压入了 32 位整形数字 1,因此这个函数的返回值就是 1。

函数调用(绝对)

最简单的函数调用方式就是直接调用了。但是我们上面的函数并没有名称,那又该怎么调用呢?其实,它实际上是有一个固定的分配编号的,因此可以直接通过编号调用,相当于固定位置的寻址。

当然了,如果你想要给它起名也是可以的,只要在 func 和括号之间加上一个 $name 就可以了。

这种调用需要用到的指令是 call

函数调用(相对)

这种情况对应的就是根据栈顶的值去动态寻找需要调用的函数了。在 WebAssembly 中,出于安全的考虑,使用了 Table 来记录函数的索引。

这种调用需要用到的指令是 call_indirect,它会从栈顶弹出一个参数作为输入,并调用其获得的函数。

更具体的还是去看 MDN 就可以了,这里我们要知道的是,当遇到这种函数调用情况时,要去查表。

基本指令

这里简单介绍一下大量用到的基本指令:

local.getget_local

从函数的参数中读取内容,示例和下一条一起(

local.setset_local

基本的用途是向本地变量中写入值,如下例:

(func (arg i32) (local i32 i32)
  local.get 0 ;; 从 local#0 中取出数据并压入栈中
  local.set 1 ;; 从栈中弹出数据并存入 local#1 中
}

local.tee

它同样是用来向本地变量写入值的,但它写入之后原值仍然保留在栈中,相当于省了一步 local.get

i32.const

这个之前也提到过了,向站内压入一个数字,对应的还有其他三种类型的 .const,这里就不再重复了。

i32.add

这里的等指的是一系列算术运算,我们只是单独拿出 add 来举例。它弹出栈顶的两个元素并将其相加,最终将结果压入栈中。

i32.loadi32.store

顾名思义,从 Memory 中取出/向 Memory 存入数据的指令。

load 接受一个参数,就是地址;store 接收两个参数:先弹出需要存入的值,再弹出存入的地址。

这二者还经常带有特殊的属性:offset 表示 n 位的偏移,align 表示 2^n 位的偏移。

控制指令 – 分支

分支最常使用是 if,如下例:

(func (arg i32 i32) (result i32)
  local.get 0
  local.get 1
  i32.ne
  if (result i32)
    local.get 0
  else
    local.get 1
  end
)

这里需要注意的是,if 的判断过程都是在 if 之前进行的,if 本身只能从栈中弹出一个元素,并且判断其是否为 0,非 0 则成立。

这里需要介绍的一条指令是 if_br,它可以跳出当前的块。if_br 1 就相当于跳出当前的 if,回到 if 开头重新判断。

还有一种判断指令:selectselect 接收三个参数:abcondition。在判断时,condition 位于栈顶被首先弹出,当 condition 成立时,向栈中压入 a,否则就压入 b

控制指令 – 循环

循环使用的是 loop,和 if 一样,它也并没有实际的意义,跳转需要通过 br 进行。

// 或许需要补充个例子

补充指令

extend_i32_u

又名 i32.extend_u,作用是将无符号32位整数扩展为64位整数。

wrap_i64

又名 i32.wrap/i64,作用是将 64 位整数包装成 32 位整数。根据观察,具体的实现应该是只留下高四位(小端表示)。

其他方法

现在还有一些其他可用的工具,但我认为都没有直接看 S-表达式清晰可靠。

binaryen 提供了 wasm2js 工具,可以将 WASM 二进制格式转换为等价的 JavaScript 格式。但输出效果……怎么说呢,一言难尽。

还有用 wasm2cgcc 利用 IDA 分析的方案,不过个人认为它把简单的指令集变复杂了,所以实际也没有用过。

最后就是 JEB 了。JEB 提供了逆向 WASM 的方案,但我没有实际用过,因此这里也就不评价了。

最后

相比传统的指令集,WASM 更加简单,相比之下也更好分析。只要你能耐得住性子分析,总是能得到结果的。

这里有一些小技巧没有讲到,如果有兴趣可以参考闪耀色彩逆向的那两篇,如果你能看得到的话(笑)

暂无评论

发送评论 编辑评论


				
上一篇
下一篇